李佳:计算机化自适应测验中能力估计新方法论文

摘要：能力估计的极大似然估计方法(MLE)不能处理全0或全1的被试反应模式,若事先设置好能力估计的上下界,则会导致能力估计的有效范围缩小的后果;而贝叶斯估计方法需要选择先验分布,先验分布的选择必须很慎重.在原有似然函数的基础上,构建2个新的项目,提出了改进的MLE方法(NMLE).NMLE既不需要能力先验分布,也不会缩小能力估计范围,而且可以处理各种反应模式.蒙特卡洛实验结果表明新方法表现良好.

关键词：贝叶斯众数估计方法;期望后验估计方法;改进的极大似然估计方法;能力估计效率

0 引言

计算机化自适应测验(computerized adaptive testing,CAT)具有测验精度高、长度短、成本低、实时反馈考试成绩、题型灵活多样、考试时间灵活等优点,是项目反应理论(Item response theory,IRT)最成功的应用之一,被广泛应用于美国医生护士资格考试、美国研究生入学考试和中国汉语水平考试中[1].国内外学者主要研究CAT的选题策略,具有大量的研究成果,但在CAT中对能力估计方法的研究较少.而事实上,CAT自适应选题是建立在对被试能力准确估计的基础上的,这关系到测验结果的准确性、测验的安全性和测验的可信度.因此,能力估计的准确性决定了CAT的使用效果[2].

目前,国际上流行的CAT能力估计方法主要有极大似然估计法(MLE)[3]、贝叶斯众数估计法(MAP)[4]和贝叶斯期望后验估计法(EAP)[5].这些方法各有特点:MLE方法的主要缺点是参数估计中需要不断迭代估计以及无法处理被试全对或全错的反应模式,其优点是MLE估计是能力参数的充分统计量,是一种渐近无偏的能力估计方法;EAP方法不需要迭代;但是EAP和MAP等贝叶斯方法的主要缺点是需要选择能力的先验分布,且当先验分布方差比较小时,估计会收敛到先验分布期望附近,有可能会缩小能力估计的范围.

0.1 极大似然能力估计方法

在IRT中假定同一被试对各个项目的作答是相互独立的(局部独立性假设),各个被试的作答模式是相互独立的,则被试反应向量(即为被试作答反应的得分阵)为U=(uα1,uα2,…,uαm),对应的似然函数为表示被试α对项目j的反应,取值为0或1,分别表示答对或答错该项目,m为施测项目数.在IRT框架下,Pαj可以取不同的形式,表示能力为θα的被试正确作答项目j的概率,比较常见的是3参数Logistic模型(3PLM):Pαj=cj+(1-cj)/(1+exp(-Daj(θα-bj))),其中D=1.7.若猜测度cj=0,则化为双参数Logistic模型(2PLM);若cj=0且区分度aj=1则化为单参数Logistic模型(1PLM),bj表示项目j的难度.因为L(U|θα)表示得分向量U与能力θα之间的关系,所以称使|θα)成立的为θα的极大似然估计值.又因为对数似然函数和似然函数L(θα)在同一个处达到最大.求θα的极大似然估计值可令

∂lnL(θα)/∂θα=0,

(1)

因为(1)式是非线性方程,需使用牛顿-拉夫逊迭代算法对其求解,的第t+1次估计值为直到达到终止条件为止.

佛教的传播与发展不仅仅削弱了政府的经济实力，而且被认为破坏了儒家的孝悌伦理。僧人出家，佛教出世，舍生弃养，别妻绝嗣，这与注重孝道的传统儒家直接对立。在这种情况下，许多持传统儒学思想的人挺身而出，竭力反对佛教。 “在儒、释、道三教融合之前，先后遭遇了儒道排佛、拜礼与化胡之争、灭佛辱道等……儒教与佛教的关系在一定时期是一种你死我活的关系。”[7]25 这种局面导致了一个结果，在相当长的时间内，“没有佛教，儒家所担负的拯救使命就不完善——它只拯救现实而不拯救来世；引进佛教，便混淆了中国人固守的‘夷夏之分’”[7]26。怎么办呢？道教就应运而生了。

评价指标有:测验偏差测验平均绝对离差测验均方根误差能力估计效率(abilityθmin),不定长测验的测验平均长度其中N为被试总人数,θi为第i个被试的能力真值,为第i个被试的能力估计值,θmax为N个被试中能力的最大值,θmin为N个被试中能力的最小值,为N个被试中能力估计的最大值,为N个被试中能力估计的最小值,test_length(i)为被试i的测验长度.

因为模型参数的似然函数包含了观察数据值所能反应的所有信息,MLE估计是能力参数的充分统计量,具有渐近一致性和渐近正态性等优良特性[6].在理想条件CAT下,当测验较长时,MLE是一种渐近无偏的能力估计方法[7];但是MLE方法有一个明显的缺点,即当被试作答全对或者全错时似然方程会出现没有有限解的情况.为了解决这个问题,通常人为设定一个最小和最大的能力估计值对MLE估计值的界限加以约束[8],这是一种强行拉回的处理方式,会破坏MLE计算过程中的不连续性,从而缩小能力估计的有效范围.虽然如此,但因为MLE对被试能力分布不作要求,带界限的MLE方法(MLET)还是被广泛地应用于CAT实测中.

思维导图的制作软件有很多，包括Mindmanager，XMind及在线ProcessOn等。Process狭义上指的是流程，广义上则代表着过程。Process代表的内在含义就是一种手段，这种手段是一种可以把所有的文字资料集成在一张图的手段，为的是达到自己所预期的效果。On则是online的缩写，代表着这个平台是基于在线平台来完成的，可以实现即时共享、多人协作等功能，同时具有布局自由、支持跨主线链接、节点处可以是图片、可以插入自由主题等优点[4]，所以特别适合MOOC系统下基于互联网的“过程控制”的思维导图绘制。

极大程度的展现了当时城市的风貌特征，体现了劳动人民的智慧结晶。对于中华民族保持文化自信有着极大的激励作用，激发本民族的爱国情怀。

0.2 贝叶斯众数估计方法

F. Samejima认为若在测验之前知道被试总体的能力分布信息,则应充分利用这种信息,以提高测验的估计准确度.MAP方法直接将先验概率密度(一般取标准正态概率密度函数)乘以似然函数构建后验分布并求极大值,似然函数其中f(θα)是θα的先验分布，其对数似然函数令

“人体是上帝缔造的最完美的艺术品，尤其是按黄金比例分割的女人体，女性的身体不仅是生命之源，也是完美的艺术品。将美好的一面展示给众人，这是人的天性。文艺复兴时期与达芬奇、米开朗基罗齐名的拉斐尔曾画过许多裸体的圣母，人们从她们身上想到的不是性，而是圣洁。我希望大家也能从我的身体上读到圣洁。”

∂lnLMAP(θα)/∂θα=0,

(2)

求得为θα的极大似然估计值.同理方程(2)也是非线性方程,需要进行牛顿-拉夫逊迭代.

MAP会出现估计向先验均值回归的现象,即有偏估计.事实上,MAP的先验分布不一定是标准正态分布,还可以是一般正态分布、均匀分布或者是其它先验分布.

0.3 期望后验估计方法

(iii)分定长和不定长2种测验.定长测验的测验长度分别为10和40,取测验长度为10是为了考察NMLE方法是否适用于短测验和CAT测验初期的能力估计,取测验长度为40是为了考察NMLE是否和MLE一样在长测验中是一种渐近无偏的能力估计方法;不定长测验在被试累积信息量达到16时结束.

在MLE方法的基础上,设计2个有固定反应的项目来限制能力估计值.具体而言,改造MLE方法中的对数似然函数,新的似然函数为lnL*(θα)=Pαj)).

为了检验新方法的合理性和可行性,共有4种能力估计方法参与比较:(i)MLET方法,用牛顿-拉夫逊迭代方法对方程(1)求根,迭代更新30次后或者在更新值误差小于0.001时迭代结束,并且被试能力估计值限制在-3.5～3.5之间;(ii)MAP方法,设能力的先验分布为正态分布,用牛顿-拉夫逊迭代方法对方程(2)求根,迭代更新30次后或者在更新值误差小于0.001时迭代结束;(iii)EAP方法,设能力的先验分布为正态分布,从-3.5～3.5中共取35个积分点;(iv)NMLE方法,用牛顿-拉夫逊迭代方法对方程(3)求根,迭代更新30次后或者在更新值误差小于0.001时迭代结束.

新方法在任何被试反应模式下均存在估计值,可适用于各种反应模式;其先验信息仅由Pmin和Pmax给出,这仅涉及2个项目,不会影响能力估计的整个过程,所以不会缩小被试能力估计范围.和能力估计的MLE相比,NMLE仅仅增加了2个“新的”项目,所以NMLE具有MLE的基本性质.比如NMLE仍然是能力参数的充分统计量,也具有渐近一致性和渐近正态性等优良特性.当测验较长时,NMLE像MLE方法一样是一种渐近无偏的能力估计方法.

允许一部分人和一部分地区先富起来，最终实现共同富裕，是从否定平均主义和社会主义混同的错误观念入手，通过诚实劳动和合法经营先富起来，目的是为了实现共同富裕，先富帮助带动后富，不搞两极分化。先富和共富是手段和目标、途径和目的的辨证关系。

0.4 改进MLE的能力估计新方法

秦铁崖只听说上元灯节上有一虎被烧死，没有亲身经历过，哪里想到花五奇在比武期间，居然还能认出灯节谋杀案的元凶。秦铁崖轻功不及花五奇，加上猝不及防，只能眼睁睁看着乔十二郎陷于极度凶险之境地。

在题库中,记所有题目中的最大难度为bmax,最小难度为bmin,最大区分度为amax.构造2个虚拟题目,一个是具有大区分度且特别容易的题目:难度为bmin,区分度为amax,猜测度为0,在3PLM下Pmin=1/(1+exp(-Damax(θα-bmin))),并且假设被试一定能做对;另一个是大区分度且特别难的题目,难度为bmax,区分度为amax,猜测度为0,在3PLM下Pmax=1/(1+exp(-Damax(θα-bmax))),并且假设被试一定会做错.再令

∂lnL*(θα)/∂θα=0,

(3)

求得为θα的极大似然估计值.

由于该式含有积分,R. Bock等[5]使用高斯-厄尔米特积分公式给出了它的数值积分形式/),其中Xk=-3.5+7(k-1)/(q-1)为数值积分节点,k=1,2,…,q,q为等距点,方法不需要迭代.

0.5 新方法的合理性和可行性

1 模拟实验

1.1 被试及题库模拟

为了考察能力的先验分布对各种能力估计方法的影响,共设计3组被试:(i)被试组1,模拟产生1 000个被试,被试能力真值均服从均值为0、方差为1的标准正态分布;(ii)被试组2,模拟产生1 000个被试,被试能力真值均服从均值为-1、方差为1的正态分布;(iii)被试组3,模拟产生1 000个被试,被试能力真值均服从均值为1、方差为1的正态分布;后续内容中被试组a简称为组a,a=1,2,3.

本文在3PLM模型下设计题库,所有试验模拟条件同文献[9].题库结构如下:模拟生成520个项目且满足条件lna～N(0,1),b～N(0,1),c～Beta(5,17),0.2<a<2.5,-3.5<b<3.5,|a-b|<4,c<0.4.题库的项目数据见表1.

表1题库的项目数据

项目数据区分度a难度b 猜测度c平均值1.001 30-0.006 464 70.223 380标准差0.608 370.979 380 00.807 610

1.2 模拟CAT的施测过程

本文不考虑内容平衡,项目曝光控制以及机会红利对CAT的影响,简化CAT设计为:(i)取被试的能力初值为0;(ii)采用最大Fisher信息量选题策略,信息量计算公式[1]为

被试能力的EAP估计的理论依据是贝叶斯定理h(θα|U,ξ)=P(U|θα)g(θ)/(P(U)),其中设被试后验分布为g(θα),其均值可以表示为

1.3 评价指标

3PLM对数似然函数1阶和2阶偏导数为

测验偏差(Bias)表示能力估计的无偏性,测验平均绝对离差(ABS)和测验均方根误差(RMSE)表明了能力估计的准确性.Bias和ABS反映了能力估计的系统偏差,RMSE反映了能力估计值和真实值的随机误差,它们都是评价测验准确性的常用指标,它们越接近0,表示能力估计越接近无偏,即能力估计越准确.能力估计效率(AEE)是本文提出的一个新的评价指标,用来评价能力估计方法对能力估计范围的影响,AEE取值越接近1表明该能力估计方法受外界影响越小,不会缩小能力估计范围.因为不定长测验中每个被试的测量精度类似,所以早达到测验精度的被试所需测验长度更短,而晚达到测验精度的被试所需测验长度就更长,这项指标体现了测验效率[10].

1.4 实验结果及其分析

3种测验条件下的测验偏差(Bias)值见表2,当测验长度为10时,结果见表3,当测验长度为40时,结果见表4,当测验为不定长时,结果见表5.

“发现”，正是广雅站在新的历史时期，基于对历史文化的传承和对当下教育及未来发展的思考所提出的教育主张和实践探索。

能力估计的无偏性对项目反应模型的应用非常重要,若参数估计的偏差较大,则会给更深入的测评带来严重的误差[11-13],测验偏差(Bias)用于评价无偏性和偏差的方向性(正偏或负偏).在长测验中,较小的Bias值体现了MLET方法和NMLE方法一样,具有能力估计的渐近无偏性.

表23种测验条件下测验偏差(Bias)值

能力估计方法测验长度为10组1组2组3测验长度为40组1组2组3不定长测验组1组2组3MLET0.024 0.0350.0280.0020.0010.0020.0170.0140.015MAP0.0330.036-0.0280.0010.007-0.0060.0120.020-0.019EAP0.0300.032-0.0230.0000.009-0.0080.0110.019-0.017NMLE0.0220.0310.0260.0020.0010.0010.0160.0110.012

表3当测验长度为10时4种能力估计方法的表现

能力估计方法ABS组1组2组3RMSE组1组2组3AEE组1组2组3MLET0.2510.2670.2730.3110.3640.2770.9000.8820.896MAP0.2390.3060.2980.2530.3370.3080.8830.8770.884EAP0.2480.2460.2500.2920.3460.3100.8740.8850.878NMLE0.2520.2500.2620.3150.2960.2740.9910.9900.992

在短测验中,被试能力分布对MLET方法和NMLE方法没有太大影响,但在被试服从标准正态分布时正好和假设的MAP和EAP的先验分布一致,此时MAP和EAP的能力估计精度更高;NMLE方法无论是ABS还是REMS都小于MLET方法,这表明新方法参数估计的精度优于传统的MLE方法,新方法具有更小的估计误差.又因为NMLE方法可以处理各种被试反应模式,所以NMLE方法比MLET方法更适用于短测验和CAT测验初期的能力估计.因为测验太短,4种能力估计的AEE指标差别不大,NMLE方法表现稍好一点.

表4当测验长度为40时4种能力估计方法的表现

能力估计方法ABS组1组2组3RMSE组1组2组3AEE组1组2组3MLET0.1190.1140.1180.1220.1350.1370.9120.8930.897MAP0.0760.1330.1320.1310.1440.1430.7310.7650.780EAP0.0870.1230.1310.1400.1390.1360.8350.8660.868NMLE0.1050.1100.1190.1220.1360.1340.9950.9970.992

在长测验中,较小的ABS值和RMSE值体现MLET方法和NMLE方法能力估计具有良好的返真性,这表明2种方法受测试条件的影响较小.能力的先验分布对MAP方法和EAP方法的影响也逐渐体现出来,因为先验分布信息的作用,估计值会倾向于先验中心(在本文中先验分布标准正态分布的均值为0,先验中心为0),所以当能力估计值大于0时,就会被低估,当能力估计值小于0时,就会被高估,这样会缩小能力估计范围.又因为MLET方法中设定了能力估计的上界和下界,超出界限的不同被试,尽管有不同的反应模式但得到的却是相同的能力估计值,所以这也缩小了能力估计的范围;NMLE的AEE值均大于其它3种方法的AEE值,并且随着测验长度的增加,NMLE的AEE值接近1,这表明新方法不会缩小能力估计的有效范围.

表5不定长测验4种能力估计方法的表现

能力估计方法ABS组1组2组3RMSE组1组2组3AEE组1组2组3ATL组1组2组3MLET0.2160.2140.2050.2180.2430.2170.9180.9100.91533.1233.7133.25MAP0.1870.2230.2310.1970.2480.2700.7720.7380.75629.8531.1432.64EAP0.1720.2180.2340.1760.2550.2720.8590.8610.88730.7631.2033.53NMLE0.2010.2110.2040.2030.2310.2090.9930.9930.99429.3430.7030.20

从表5可以看出,当测验为不定长时,实验结果和定长测验类似,先验分布对MAP和EAP的影响依然存在.各种方法测验精度比定长测验更低一些,但测验平均长度都短于定长测验的测验长度,这也说明了不定长测验更有利于提高测验效率.NMLE方法的被试平均使用项目数少于其它3种能力估计方法,这说明NMLE方法比其它方法具有更高的测验效率.

将一定量的中间体酰胺丙基二甲基叔胺盐酸盐和适量的异丙醇加入三口烧瓶中，边搅拌边升温，分次加入一定量的氯乙酸钠缓冲溶液，回流反应，结束后即得到高纯度的芥酸酰胺丙基甜菜碱表面活性剂，以下简称FAZ。

通过这4组实验表明,新方法NMLE具有如下优点:(i)对MLE方法而言,似然函数没有太大的改动,但易于实现;(ii)不需要先验分布信息且还可以处理MLE处理不了的各种反应模式,适用于短测验和CAT能力估计初期;(iii)在长测验中和MLE方法一样都具有能力估计的无偏性;(iv)该方法迭代计算过程是连续的,不会缩小能力估计有效范围;(v)具有更小的估计误差,测验精度更高.

地铁轨道网的控制点成对布设在地铁单线隧道的两侧隧道壁上，在线路曲线段的曲线半径小于800 m时，由表2中的测站视线通视允许的最大纵向间距来布设点位，此时控制点的纵向间距在43 m以内。当曲线半径大于800 m时，控制点的纵向间距必须满足表1中测站观测视线通视允许的要求；也可以适当缩短，在线路直线段，控制点的纵向间距也不必超过60 m，与高铁CPⅢ点的纵向间距保持一致[3]。

2 讨论

能力估计的准确性影响了选题策略的自适应性,也影响了CAT测试结果.本文是在最简单的CAT模式下讨论的,仅考虑了测验精度,一般CAT还需要考虑如何提高题库利用率、降低机会红利、满足内容平衡等要求,这些都可能影响分析结果.能力估计新方法NMLE,虽然它的似然函数有所改变,但是使被试对所有反应模式都有确定的能力估计值,且不像MLET方法对能力估计是绝对的限制,NMLE方法依据题库参数,能力估计值是弹性变化的;它只要在似然函数中增加2个“新题”所以是一种相当简单的方法,而模拟实验表明它又有效.当然增加高区分度高难度的“新题”比较合理,而增加高区分度低难度的题目有一点勉强.

MAP和EAP的先验分布可以是各种可能形式,理想的先验分布是像标准正态分布那样的单峰对称钟形曲线.但是在现实中,往往是非正态或者是不知名的分布,在实测中选择先验分布是一个比较困难的问题,而NMLE中的先验信息仅来自相应的题库,不需要被试本身的先验能力分布.所以,NMLE方法在理论上是可行的,可以直接应用到多级评分模型中.当然,把NMLE方法应用于基于多维项目反应理论(multidimensional item response theory,MIRT)背景下的多维CAT(multidimensional CAT,MCAT)[14-15]中还需要进一步讨论.

3 参考文献

[1] 漆书青,戴海崎,丁树良.现代教育与心理测量学原理 [M].北京:高等教育出版社,2002.

[2] 张心,涂冬波.计算机化自适应测验中几种常用能力估计方法的特性与评价 [J].中国考试,2014(5):18-25.

[3] Lord F M,Novick M R.Statistical theories of mental test scores [M].New Jersey:Addison-Wesley,1968:392-449.

[4] Samejima F.Estimation of latent ability using a response pattern of graded scores [J].Psychometrika,1969,34(1):1-97.

[5] Bock R,Mislevy R.Adaptive EAP estimation of ability in a microcomputer environment [J].Applied Psychological Measurement,1982,6(4):431-444.

[6] Hambleton R K,Swaminathan H.Item response theory:Principles and application [M].Boston:Kluwe-Nijhoff,1985.

[7] Wang Tianyou,Walter P Vispoel.Properties of ability estimation methods in computerized adaptive testing [J].Journal of Educational Measurement,1998,35(3):109-135.

[8] Warm T A.Weighted likelihood estimation of ability in term response theory [J].Psychmetrika,1989,54(3):427-450.

[9] 李佳,丁树良.多种分层方法在CAT校准误差中的应用研究 [J]. 江西师范大学学报:自然科学版,2016,39(1):69-72.

[10] 李佳,丁树良,方剑英.基于平均数形式的选题策略比较 [J].江西师范大学学报:自然科学版,2015,39(1):69-72.

[11] 孟祥斌,陶剑,陈莎莉.四参数Logistic模型潜在特质参数的Warm加权极大似然估计 [J].心理学报,2016,48(8):1047-1056.

[12] Baker F B,Kim S H.Item response theory:parameter estimation techniques [M].New York:Marcel Dekker,2004.

[13] Magis D A.Accuracy of asymptotic standard errors of the maximum and weighted likelihood estimators of proficiency levels with short tests [J].Applied Psychology Measurement,2014,38(2):105-121.

[14] 毛秀珍,辛涛.多维计算机化自适应测验:模型、技术和方法 [J].心理科学进展,2015,23(8):907-918.

[15] 韩雨婷,涂冬波,王潇濛,等.多维计算机化自适应测验选题策略的开发及比较 [J].心理学报,2017,40(4):997-1004.

TheNewMethodofAbilityEstimationinCAT

LI Jia,DING Shuliang

(College of Computer Information Engineering Jiangxi Normal University,Nanchang Jiangxi 330022,China)

Abstract:The maximum likelihood estimation method (MLE) of the ability estimation does not work with special response patterns,such as all elements of the response patter are 0s or all 1s.If setting lower and upper bounds of ability estimation,the ability estimation scale will shorten.Bayesian-based estimation methods need a prior distribution,the choice of prior distribution must be careful.A new ability estimated method (NMLE) is introduced,adding two new items to establish a new likelihood function based on the existing item bank.New method not only need not ability prior distribution,but also does not shorten the ability estimation scale,and can deal with all kinds of response patterns.New method has better performance through the Monte Carlo simulation method on 3PLM.

Keywords:MAP;EAP;NMLE;ability estimation efficiency

中图分类号:B 841

文献标志码:A

DOI:10.16357/j.cnki.issn1000-5862.2019.02.05

文章编号：1000-5862(2019)02-0142-05

收稿日期：2018-07-19

基金项目：国家自然科学基金(31500909,31360237,31160203,30860084,11401271)和江西省教育厅科学技术(GJJ170212)资助项目.

作者简介：李佳(1979-),女,江西南昌人,讲师,主要从事计算机辅助教学和心理测量方面的研究.E-mail:1276676143@qq.com

(责任编辑:冉小晓)

标签：能力论文; 测验论文; 方法论文; 估计值论文; 定长论文; 哲学论文; 宗教论文; 心理学论文; 心理学研究方法论文; 《江西师范大学学报(自然科学版)》2019年第2期论文; 国家自然科学基金(31500909; 31360237; 31160203; 30860084; 11401271)江西省教育厅科学技术(GJJ170212)资助项目论文; 江西师范大学计算机信息工程学院论文;