毛秀珍:多维计算机化自适应测验中项目曝光控制选题策略的比较论文

摘要：在MCAT中考查四种项目选择指标在有无曝光控制条件下的选题表现。项目选择指标分别是：(1)贝叶斯的D优化方法(D-optimality)、后验期望Kullback-Leibler方法(KLP)、基于等权重复合分数的最小误差方差方法(the minimized error variance of the linear combination score with equal weight，V1)和基于最优权重复合分数的最小误差方差方法(the minimized error variance of the composite score with optimized weight，V2)。将针对认知诊断CAT项目曝光控制的的限制阈值方法(Restrictive Threshold，RT)和限制进度(Restrictive Progressive，RPG)方法、单维CAT中的最大优先指标方法(Maximum Priority Index，MPI)推广到MCAT。模拟研究表明：(1)KLP，D-优化和V1对领域分数估计准确，能力返真性比V2更好。(2)尽管V1和V2方法相比KLP和D-优化方法提高了题库利用率，但这四种选题指标都产生不均匀的项目曝光率分布。(2)三种曝光控制策略都极大地提高项目曝光均匀性，且不明显降低测量精度。(3)MPI与RPG方法在曝光控制方面表现类似，且比RT的方法表现更好。

关键词：多维项目反应理论；计算机化自适应测验；选题方法；测量精度；项目曝光率

1 引言

计算机化自适应测验(Computerized Adaptive Testing，CAT)根据被试潜在特质水平自适应地选择测验项目，打破了千人一卷的考试模式，真正实现了测验的“量体裁衣”，极大地提高了测验效率。CAT与传统纸笔测验相比，因其效率更高、测验时间更短、测验参加者更少的压力等优势使其受到广大实践者和研究者的青睐。CAT的另一个特征是可以运用各种项目反应模型开展测验。例如，单维项目反应理论模型(Unidimensional Item Response Theory，UIRT)、多维项目反应理论(multidimensional IRT，MIRT)模型、认知诊断模型以及展开模型等等。

高龄经产孕妇高危妊娠发生率增高，在很多研究中均以发现，本研究采用大数据分析的方式，再一次证实了孕妇年龄在经产孕妇中的影响。在孕产期保健中，应重视高龄经产孕妇孕期管理，为高龄孕妇提供有针对性的综合保健管理措施，可以降低孕妇各种并发症的发生率，使妊娠不良结局得到改善[14-15]。针对有生育二孩意愿的孕妇，应合理规划两孩怀孕年龄，避免为生育二孩而导致分娩年龄过高，针对年龄≥40岁孕妇更应额外重视围产保健。

MCAT兼具MIRT和CAT的优点，在实践中突显了测验的高效、快捷和诊断功能。一方面，基于不同条件的大量研究都一致表明MCAT与单维CAT相比具有更高的测验精度和测量信度，换句话说在达到相似测量精度的条件下能大大减少测验长度、缩短测验时间。例如，Segall(1996)基于军队服务职业倾向题组测验(ASVAB)数据的9个自适应模拟研究发现MCAT与单维CAT在达到相似或更高测量精度的情况下减少了约三分之一的测验项目。又如，Luecht(1996)研究表明具有内容约束的情况下，MCAT可以减少25%～40%的测验项目。再如，Wang和Chen(2004)在不同潜特质相关、潜特质数量和评分水平的情况下表明MCAT的测验效率比单维CAT更高。另外，MCAT同时估计被试在多个维度上的能力水平，提供关于领域能力和总体能力的详细诊断信息。正是因为MCAT具有高效和多维性优点，使得它比单维CAT更适用于实际测验。因此，许多MCAT研究都基于实际测验如TerraNova(Yao，2010)，美国大学入学考试(ACT)(Veldkamp & vanderLinden，2002)和ASVAB(Segall，1996；Yao，2012，2014a)等。

自Bloxom和Vale(1987)将UCAT推广到多维以来，MCAT越来越受到研究者的关注，其相关研究在最近几年取得了突破性进展。由于选题策略对测验质量和测量精度具有重要影响，从而成为当前研究热点。因此，大多数研究者关注提出新的项目选择指标以减少能力估计的误差。Yao(2014a)研究表明大部分项目选择方法总是倾向于选择特定类型的项目，导致项目曝光不均匀。她还以Kullback-Leibler指标为例，指出该方法倾向于选择所有维度具有高区分度的项目或者不同维度之间区分度相差较大的项目。又如，D-优化方法倾向于选择在某一维度具有高区分度的项目(Wang，Chang，& Boughton，2011)。目前，CAT已广泛应用于多种测验。因此，控制项目曝光率在MCAT应用中极其重要，尤其是在高风险测验中的应用。此外，在MACT中关于控制项目曝光率的研究很少。因此，本文的目的是比较MCAT中多种曝光控制方法的表现。

至今，单维CAT中的许多项目曝光控制方法已经推广到MCAT情景。例如，Finkelman，Nering和Roussos(2009)将Sympson-Hetter(S-H)(Sympson & Hetter，1985)和Stocking-Lewis(S-L)(Stocking & Lewis，1998)方法推广到MCAT。他们发现SH方法、推广的SH方法和推广的SL方法都能较好地控制最大项目曝光率，但还存在较多曝光不足的项目。另外，它们都需要较长的时间事先模拟来确定曝光率控制参数。另外，Yao(2014a)比较了S-H方法和固定曝光率程序。固定曝光率程序类似于Cheng和 Chang(2009)针对单维CAT中提出的最大优先指标方法(MPI)。她指出，S-H方法的测量精度更高，固定比率方法的题库利用率更高，项目曝光更均匀。

人文技术就是社会个体通过自身社会化以及长期社会文化浸染所形成的技术。笔者更倾向于将那些自古以来流传至今的调查技术界定在人文技术的范畴内。人文技术最为显著的特点就是技术的发源与运行都依附于调查人员本身。从宏观上说，《孙子兵法》《三十六计》展现出的谋略智慧严格意义上并不能认定为技术范畴，但却源源不断地在为调查工作提供技术源泉。调查人员通过对谋略原理的深刻理解与灵活运用，在现实中为调查打开突破口带来了更多的捷径，形成了“谋略→措施→技术→制度”的知识产生路径。

根据表1可知，杏北油田深度注水系统不同区域注水站运行负荷不同，其中，纯油区负荷率69.2%，相对适中；东、西部过渡带区域平均负荷率48.9%，尤其东部过渡带区域内2座注水站平均运行负荷率约为45.8%，负荷率偏低。为提高系统运行负荷[1]，结合杏北油田深度水注水站布局分布以及注水管网连通性，提出停运东部过渡带杏A注水站及为其供水的杏A深度污水站的思路[2]。

笔者认为站稳课堂的另一个不错的方法就是向本专业的一些权威期刊(比如《中学数学杂志》、《中学数学教学参考(中旬)》、《中国数学教育(初中版)》、《中学数学(下半月)》等)“取经”，它们刊登了最前沿的教育思想，最优秀的课例，通过阅读期刊可以实现和全国范围内的“大家”对话，实现向他们学习的夙愿.

Lee，Ip 和Fuh(2008)借鉴UCAT 中a-分层方法的思想，提出按区分度向量a=(aj1，aj2)的函数|aj1-aj2|对题库分层的项目选择方法，结果表明该方法能提高大部分曝光过低项目的使用率，显著降低卡方值。但这种方法不能保证没有过度曝光的项目。因此，Huebner，Wang，Quinlan和Seubert(2015)将按该方法与项目合格方法(van der Linden & Veldkamp，2007)结合来增强项目曝光平衡性。这种组合方法提高大部分曝光率较低的项目的使用率，同时控制最大项目曝光率，但它只适用于二维能力空间。对更高维度的情况下建构合适的项目区分度参数的函数是今后的一个重要研究问题。

众所周知，项目曝光率均匀性受到过度曝光和曝光不足项目数量的影响。在上述曝光控制方法中，S-H方法、推广的S-H方法、推广的 S-L方法、固定曝光率和项目合格性方法在控制最大项目曝光率方面表现良好；按|aj1-aj2|对题库分层的项目选择方法能有效提高曝光率较低项目的使用率。虽然Huebner等(2015)使用的组合方法在两个方面都表现良好，但它只适合于二维能力空间。

本文采用MATLAB(R2010a)为工具编写MCAT代码，进行模拟实验。

每个能力维度的平均偏差与均方差用于表示能力估计精度，它们通过下面的式子计算。

目前我国产业风险评价体系还不够全面，对产业风险评价的使用还主要集中于贷前的风险识别阶段，主要是用于对客户企业进行风险分析，而未能延伸到贷中贷后的风险管理工作当中。但在当前产业结构升级的进程加速的背景下，银行在发放贷款和贷后管理时也面临着产业风险的快速改变，因此需要针对特定产业预先制定好风险应对方案，并及时对产业风险进行跟踪和管理，把控好产业风险，尽量减少风险损失。

2 选用的多维项目反应理论模型和能力估计方法

2.1 多维两参数逻辑斯蒂克模型(Multidimensional two parameters Logistic Model，M-2PL)

MIRT模型按完成任务时某一能力维度上的不足是否可以被其它优势能力所补偿分为补偿模型和非补偿模型。Bolt 和Lall(2003)指出二者能很好拟合非补偿模型产生的数据，但是非补偿模型不能很好地拟合补偿模型产生的数据。目前，大部分研究选用补偿的二级评分模型((van der Linden，1999；Veldkamp & van der Linden，2002；Mulder & van der Linden，2010)。鉴于补偿模型的优势，M-2PL模型将用于模拟被试的作答。

M-2PL模型(McKinley & Reckase，1982)中项目j包括斜率(截距)参数bj和区分度向量aj=(aj1，aj2，…，ajD)T，其中T 表示转置，D表示测验的维度。那么，能力为θ=(θ1，θ2，…，θD)T的被试正确作答项目j 的概率可以根据(1)式计算而得。

(1)

上式中表示二维空间中的直线。它表明所有使相等的能力向量θ具有相同的正确作答概率，体现了模型的补偿特征。

2.2 最大后验能力估计方法(maximize a posterior estimation，MAP)

Yao(2014b)研究比较了MAP、期望后验估计方法(expected a posteriori，EAP)和极大似然估计方法(maximum likelihood estimation，MLE)，并指出(1)MLE方法产生更小的偏差和更大的均方误差根，然而MAP和EAP运用强先验或标准先验都得到更高精度的能力估计值；(2)MAP和EAP表现类似，但是EAP的运行时间比MAP更长。最近，Huebner等(2015)在MCAT中比较了EAP和MLE方法，并证明EAP在能力估计方面总是产生更稳定的结论和更低的均方误。基于上述研究和估计精度以及计算简便性考虑，本文采用MAP方法估计能力。

令θ的先验密度函数f(θ)服从均值为μ0、协方差矩阵Σ0的多变量正态分布。记项目j的作答反应为xj，已做答k-1个项目的反应为Xk-1。基于贝叶斯定理，有f(θ|Xk-1)∝L(Xk-1|θ)·f(θ)，L(Xk-1|θ)代表似然函数。MAP的目标就是找到后验密度函数f(θ|Xk-1)的众数。也就是说，能力估计值等价于求解

迭代方法可以用于求解这个方程组，详细方法请参见Yao(2014b)。

3 项目选择指标和曝光控制策略

下文统一用N表示被试人数，L代表测验长度，M表示题库容量。Sk-1={i1，i2，…，ik-1}表示已施测项目的集合，Rk={1，2，…，M}/Sk-1表示选择第k-1个项目之后的剩余题库。

3.1 项目选择指标

基于计算复杂性和运行时间的考虑，本文选用贝叶斯D-优化方法(Mulder & van der Linden，2009)、后验期望KullBack-Leibler信息方法(VelderKamp & van der Linden，2002)、基于等权重复合能力最小误差方差方法和基于最优权重复合能力最小误差方差方法(Yao，2012)四种项目选择指标。

3.1.1 贝叶斯D-优化方法

MIRT中项目Fisher信息量不再是一个实数，而是一个矩阵。特别地，M-2PL中的项目j的Fisher信息量为：

图1中的创业知识主要指与大学生创业有关的大学生创办企业时政府在工商、税务、贷款、扶持、场地、资金等方面的政策，各地对大学生创业都有一定的支持与优惠。自2010年起教育部发布《教育部关于大力推进高等学校创新创业教育和大学生自主创业工作的意见》后，这种优惠与扶持的力度更大了，特别是在当今国家大力畅导创新创业的导向下，国家及各级政府相继出台了支持大学生创新创业的支持政策，包括资金、场地、人才、技术等。在北京、上海、成都、青岛等全国众多城市都出台了相应大学生创业支持政策；法律知识指涉及企业创立与运作的基本法律、公司企业法律、劳动法律、税法等。

(2)

施测k-1个项目后，能力估计值构成一个椭圆(球)Vk-1。于是，为使施测第k个项目后，Vk的面积(体积)下降最快，Segall(1996)提出选择使后验测验Fisher信息矩阵行列式值最大的方法，又称为D-优化方法(Mulder & van der Linden，2009)。具体而言，该方法的选择标准可以表示为：

父亲的轮廓日益模糊、褪色，终至消失不见。旧的路面被刮掉了，重新铺上一层新的碎石和柏油。那份曾经不止一次支持我活下去的力量将永远埋藏，不为外人所知，包括父亲在内。

(3)

4.1.2 模拟被试的真实能力水平和作答反应

3.1.2 后验期望KL信息量方法(Posterior Expected KL information，KLP)

KLP方法是通过对根据能力的后验分布信息对项目KL信息进行加权而获得。也就是，第k个项目根据下式来选择

(4)

其中，

(5)

为简化计算，通常将缩小积分区间，得到(11)式。

(6)

其中4γj等于因此，KLP方法中，第k个项目选自使(10)式取最大值的项目。

综上所述，对于L5S1椎间盘突出的患者，尤其是在节段位于椎间孔或椎间孔外型突出者，在应用脊柱内镜经椎间孔入路的时候，要在术前仔细判明髂棘高度以及突出间盘所在的位置，从而决定在术中是否行椎间孔成形术以及是否需要进行更确切的“靶点穿刺”。

对V1和V2方法，则按式(9)选题：

van der Linden(1999)给出二维能力空间中计算复合能力估计方差的方法，然后提出第k个项目应选择使复合分数具有最小误差方差的项目。Yao(2012)进一步指出对D维线性复合能力而言，在施测k-1个项目后，θα的测量标准误为SEM(θα)=(V(θα))1/2=(wV(θ)wT)1/2，其中V(θ)的值通常由I(θ)-1来逼近。于是，V1方法设置所有权重w=(1/D，1/D，…，1/D)，那么第k个项目将在剩余题库中选择使SEM(θα)取值最小的项目。

3.1.4 基于最优权重复合能力最小误差方差方法(V2)

V2与V1方法不同的是，V2中θα不是领域能力相等权重的线性组合，而是基于最优权重的线性组合。根据已施测项目信息量计算使复合能力估计误差最小的权重，称为最优权重。具体而言，Yao(2012)通过数理证明了使SEM(θα)=(wV(θ)wT)1/2取最小值的权重存在，而且该权重为

ik=max {(1-erj/rmax)·[(1-k/L)uj+(C-Indexj)×βk/L]j∈Sk-1}

(7)

其中，bol表示Ik-1(θ)的第o行l列的元素。因此，V2方法在选择每个项目之前根据已施测项目计算在当前能力估计值处的Fisher信息量矩阵并计算最优权重；然后在剩余题库中选择使SEM(θα)值最小的项目。

3.2 项目曝光率控制策略

Wang等(2011)提出的限制阈值方法(RT)和限制进度指标方法(RPG)是在认知诊断CAT中表现较好的两种项目曝光控制方法，下面将它们推广到MCAT情景。

3.2.1 RT方法

该方法在每个被试参加测验之前将曝光率大于预先设定的最大值的那些项目从题库中去掉后形成一个影子题库，然后第k(k=1，2，…，L)个项目将从由剩余题库中项目选择指标值落在最大(最小)值的一个较小区间内的项目所构成候选项目集中随机选择。例如，当按D-优化方法和KLP方法选题时，候选项目集由信息量落在区间[max(Index)-δ，max(Index)]的项目构成；当按V1和V2方法选题时，则将选题指标值落在区间[min(Index)，min(Index)+δ]的项目放在一起构成候选项目集。其中δ=[max(Index)-min(Index)]*(1-k/L)β，L为测验长度。β的值越大，δ越小，测量越准确，项目曝光均匀性越差。因此，β是平衡项目曝光分布和测量精度的权重，其值可根据测验要求灵活设置，本文令β等于0.5。

3.2.2 RPG方法

MCAT中当采用D-优化指标和KLP指标选题时，RPG方法将根据式(8)选择第k题(Wang et al.，2011)：

ik=max {(1-erj/rmax)·[(1-k/L)uj+Indexj×βk/L]，j∈Sk-1}

(8)

3.1.3 基于相等权重复合能力最小误差方差方法(V1)

操作方式会直接影响变电运行的安全性和稳定性。变电设备非常复杂，工作较为烦琐，对操作人员的基本素质和专业技能具有很高的要求。但是在实际操作的过程中，部分人员为了施工简便，违章操作，强行施工，不仅阻碍设备的正常运行，而且对工作人员的人身安全产生威胁。

(9)

erj与rmax分别表示项目j的曝光率和期望项目曝光率，为了统一方向，常数C必须大于所有项目在复合能力处的估计误差，本文令C等于10000。实验发现SEM总是在前几个项目很大，但是很快就下降到1000以下。因此，最好将C的值设置为大于1000。令H*等于剩余题库中所有项目信息量的最大值，那么uj均匀取值于区间(0，H*)，β是平衡项目曝光控制和测量准确性的权重，本文取β=0.5。

3.2.3 最大优先指标方法

根据Yao(2014b)，容易得到项目j基D-优化方法和KLP方法选题时量的优先指标(Priority Index，PI)为：

(10)

nj为第j个项目被调用的次数，Indexj表示D-优化或KLP指标，MPI方法的任务就是找到使PI值最大的项目。对V1和V2方法，PI指标相应地变为：

(11)

C的含义和值与RPG方法的相同，Indexj表示V1或V2指标。

4 方法

MCAT在实践应用中，特别是应用于高风险测验时，项目曝光均匀性和测量精度是需要考虑的两个重要问题。因为二者总是相互抵消，实践者希望找到能保证测量精度且能平衡项目曝光均匀性的项目选择方法。然而，没有很好的方法能有效的平衡高维测验的项目曝光率。Wang，Chang和Huebner(2011)报告限制进度(Restrictive Progressive，RPG)方法和限制阈值(Restrictive Threshold，RT)方法在认知诊断CAT中能很好地平衡项目曝光率。另外，目前没有研究考察它们在MCAT中的表现。因此，本文的目的是考察它们在MCAT中能否控制最大项目曝光率且提高曝光不足项目的使用率，同时不显著损失测量精度，并进一步比较它们和MPI方法的表现。

4.1 模拟研究的设计方法

4.1.1 题库的模拟

尽管Stocking(1994)建议题库应包含测验长度12倍以上的项目，MCAT的大部分研究都采用了较为严格的题库。例如，van der Linden(1999)的实验中针对测验长度为50的MCAT使用包含500个项目的题库；Lee等(2008)的研究中题库包含480个项目，测验长度为30和60两种情况；在Veldkamp和van der Linden(2002)的研究中对测验长度为30的MCAT测验使用仅包含200个项目的题库。鉴于此，本文固定测验长度为30，模拟产生包含450个项目的题库。

元明时期“过”表“结束”“曾经”用例增多，特别在明代时期，“过”表“结束”或“曾经”的用法已经大量的出现在各类文献中，尤其在白话小说中使用频繁，繁盛至近代。至此动态助词“过”表示“动作的完成和结束”的“过1”或“过去曾经有过这样的事情”的“过2”产生。

为简化实验条件，大部分研究都假设测验考察2或3个维度利用M-2PL或M-3PL产生项目参数和做答反应(van der Linden，1999；Veldkamp & van der Linden，2002；Lee et al.，2008；Mulder & van der Linden，2009；Finkelman et al.，2009；Wang，Chang，& Boughton，2013；Wang & Chang，2011)。因此，不失一般性，本研究假设测验考察三个维度，利用M-2PL产生数据，并借鉴Yao和Schwarz(2006)，Wang和Chang(2011)等人的方法确定项目参数。对项目j，每个维度的区分度从对数正态分布中产生，即(aj1，aj2，aj3)j(j=1，2，…450)独立产生于logN(0，0.5)，项目难度bj(j=1，2，…450)从标准正态分布中随机产生，项目猜测参数均设置为0。

其中，表示已施测项目集在能力估计值处的测验信息量，表示候选项目在能力估计值处项目信息量。

借鉴Wang和Chang(2011)，Yao，Pommerich和Segall(2014)，Wang等(2013)研究，研究从多变量正态分布中模拟产生5000名被试。其中能力均值为 [0，0，0]，考虑三种相关水平，并假设方差协方差矩阵为：运用M2PL模型计算被试i正确作答项目j的概率Pij，并产生(0，1)区间的随机数pij。如果Pij大于pij，则被试i在项目j上的反应为1，否则为0。

4.1.3 能力估计方法

初始能力估计值从多变量标准正态分布中随机产生。假设能力先验分布为多变量标准正态分布，利用MAP方法估计能力值。

4.1.4 项目选择方法和测验终止规则

本文考查了四种项目选择指标：D-优化指标、KLP、V1和V2在与项目曝光控制方法相结合前后的选题结果。项目曝光控制方法是MPI、RT和RPG。测验长度固定为30。

4.1.5 评价指标

2018年12月13日，“第10届中国高端家电趋势发布暨红顶奖颁奖盛典”在北京举行，格兰仕在微、蒸、烤三大品类均有斩获。

第二部分将介绍采用的MIRT模型和能力估计方法，第三部分介绍项目选择指标和曝光率控制方法，接下来的三个部分分别是研究设计、结果、结论和讨论。

(12)

(13)

项目曝光率即项目的使用频率。本文选用未使用的项目个数、过度曝光的项目个数(即曝光率大于0.20的项目个数)、χ2统计量和测验重叠率评价各项目曝光率的结果。其中，表示项目观察曝光率和期望曝光率之间的差异(Chang & Ying，1999)。项目i的期望曝光率等于测验长度L除以题库容量M。χ2越小，总体上项目观察曝光率与期望曝光率之间的差异越小。测验重叠率定义为随机选择的两个被试之间期望重叠的项目个数与测验长度之比。假设有N个被试参加长度为L的测验，它可以通过公式(21)(Chen，Ankenmann，& Spray，2003)计算，

(14)

其中，表示项目曝光率的方差。测验重叠率越小，项目曝光控制越好。

5 模拟数据的结果

5.1 能力估计结果

由于每种方法在任意两个维度估计值的偏差相差极小，图1展示了三个维度的平均偏差。图2展示了各种相关水平下每个维度的MSEs。根据图1和图2很容易得知：(1)D-优化、V1方法和V2方法得到相似的估计偏差，且比KLP方法的偏差更大；(b)对每个维度的MSE，KLP方法的值最小，接下来是D-优化、V1方法和V2方法。总体上，KLP方法的测量精度明显高于其它三种方法的结果，D-优化方法次之，V2方法表现最差。

图1 各种实验条件下每种方法在三个维度的平均偏差值

项目曝光控制方法对测量精度的效应通过以下几个方面进行检测。首先，从图1可知，固定项目选择方法，当与不同曝光控制方法结合选题前、后的偏差几乎没有差异。因此，项目曝光控制方法不会显著影响测量偏差。其次，根据图2，比较各指标与曝光控制方法相结合前、后选题的测量MSE，可发现除V2方法外，所有项目曝光控制策略都增加了MSE的值。V2方法的MSE比V2-RT方法的MSE更大。从下面的结果可知V2方法本身能提高题库利用率和项目曝光均匀性，这也使其在一定程度上降低了测量精度。总体上讲，结合曝光控制策略选题总会降低测量精度。

图2 各种方法在每种实验条件下各个维度的MSE值
注：Original=没有结合项目曝光控制方法的选题指标；D=D-optimality；K=KLP；‘-1’，’-2’，and ’-3’代表第一、第二和第三维度。

第三，当曝光控制方法和D-优化方法，KLP方法或者V2方法相结合时，他们在测量精度方面具有所差异。然而，当与V1方法相结合时，所有曝光控制方法都产生类似的测量精度。除此之外，能力相关越高，同一选题指标与项目曝光控制方法结合前后在测量精度的差异越低。

最后，比较不同项目曝光控制方法的结果可知RT方法总是产生最低的MSE。因此，它比RPG和MPI方法的测量精度更高。尽管RPG和MPI方法在不同项目选择指标下表现的优劣次序有所波动，总体上二者的表现类似。RT方法和RPG方法的表现和Wang等(2011)在认知诊断测验下的检验结果一致。一般地，不同项目曝光控制方法按测量精度从高到低排序为RT、RPG和MPI方法。

5.2 项目曝光率分布结果

每种项目选择指标在与曝光控制方法结合前后的结果呈现在表1、图3和图4。

表1不同条件下各选题方法的测验重叠率和卡方值

选题方法重叠率χ2选题方法重叠率χ2D0.408/0.23/0.23152.6/75.14/75.14V10.253/0.241/0.23783.5/78.78/76.29D-RPG0.067/0.065/0.0683.78/2.53/3.97V1-RPG0.124/0.124/0.12425.90/25.95/25.83D-RT0.123/0.122/0.12325.63/24.89/24.86V1-RT0.099/0.101/0.09814.76/14.72/14.84D-MPI0.075/0.073/0.0690.97/0.974/0.96V1-MPI0.072/0.073/0.0722.52/2.59/2.55KLP0.145/0.238/0.32542.02/78.54/96.15V20.114/0.113/0.11321.37/20.83/20.81KLP-RPG0.078/0.074/0.0747.23/3.40/3.45V2-RPG0.124/0.125/0.12415.89/25.92/15.90KLP-RT0.121/0.119/0.11824.45/23.47/23.10V2-RT0.092/0.086/0.09311.64/8.61/11.88KLP-MPI0.087/0.098/0.09810.35/14.29/14.19V2-MPI0.074/0.077/0.0743.29/4.44/3.29

注：每个单元格中代表相关为0.3/0.6/0.8的结果。

首先，根据卡方值、测验重叠率、题库利用率和过度曝光项目比例很容易推知四种项目选择指标的项目曝光率分布极不均匀。其中D-优化和KLP方法的题库利用率不足50%；D-优化、KLP方法和V1方法过度曝光的项目比例达到10%及以上。尽管V2方法中从未曝光的项目比例接近0，测验重叠率和χ2值也比其它三种方法更小，它也不能得到比较满意的项目曝光率分布。图形4(a)以项目曝光率升序的方式描述了四种项目选择指标项目曝光率分布的曲线图。从图形4(a)可知四种项目选择指标的项目曝光分布都不均匀。

图3 各种实验条件下不同方法的题库利用率和过度曝光项目比例

第二，所有项目曝光控制方法都增加了题库利用率，降低了过度曝光项目的比例、测验重叠率和卡方值，从而提高了项目曝光均匀性。根据表1，尽管RPG方法与MPI方法表现类似，在大部分条件下都比其它方法表现更好。表1还可推知，相同项目曝光控制方法在与不同项目选择指标相结合的项目曝光率分布具有相似特征。因此，图4(b)以KLP选题指标为例，描绘了在能力相关为0.6的情况下，KLP与不同曝光控制方法相结合前后的曝光率分布曲线。

另外，从图4(b)可以得知不同项目曝光控制方法的项目曝光率分布具有不同特征。结合图形3，可知除了KLP-MPI方法外，其它方法的题库利用率达到100%。换句话说，所有项目曝光控制方法都显著提高了题库利用率。检查过度曝光项目的比例，RPG方法和MPI方法产生中过度曝光项目的数量在大部分条件下比RT方法的更多。一般地，RT能将项目曝光率控制在允许的最大项目曝光率之下，而RPG和MPI方法都有少量过度曝光的项目。

图4 不同方法在能力相关为0.6时的曝光率分布图
注：图a为项目选择指标没有与项目曝光控制方法结合时的图形；图b为以KLP指标为例，与各种方法结合时的项目曝光率分布图。

根据表1和图3，还发现一些特殊的情况。首先，当MPI与D-优化、 V1和V2方法结合时，项目曝光率分布比它与KLP方法相结合时的曝光率分布更均匀。其次，当RPG方法与V1或V2方法相结合时，总会有1个或2个项目施测给所有被试。检查V1-RPG和V2-RPG的内部过程，发现在选择第一或第二个项目的时候，误差方差值总是显示“NaN”。换句话讲，V1-RPG和V2-RPG方法中的过度曝光项目主要是由于项目信息矩阵非正定造成的。此外，V1-RPG和V2-RPG的测验重叠率和卡方值显然也相应地受到第一个或前两个项目的影响。

总体上讲，尽管项目曝光控制策略的项目曝光率分布特征不尽相同，它们都能极大地提高项目曝光率分布的均匀性。这个结论可以通过直接比较图4(a)和图4(b)获得。研究结果也体现了测量精度和项目曝光率分布之间在一定程度上相互抵消的情况。

青瓷逃一样走掉了，她不敢再看李光北一眼，她怕这一生都无法忘掉那张脸，她怕一生都背负着愧疚过日子，因为，从来，她都没有爱过李光北。

6 结论与讨论

许多研究已经表明CAT具有优于P&P测试和计算机测试的优点，例如它在减少测验长度，提高测量精度以及模型拟合方面表现得很好。对具有众多优势的MCAT而言，项目选择方法是MCAT成功应用于实践的关键之一(Wang & Chang，2011)。尽管已有项目选择指标能提高测量精度，但他们在处理过度曝光项目和曝光过低的项目时都显得脆弱无力。解决这个问题的有效方法是在项目选择过程中融合项目曝光控制策略。因此，本文基于模拟数据，考察了四种项目选择指标在与项目曝光控制策略结合前后的选题表现。

由近期开展的“中英交流项目”英方领队黛比·摩根女士的以下总结可以看出，上述分析确实涉及到了中国数学教学十分重要的一些特点：“英国从与上海的交流项目中学习到的有益经验，可以用‘掌握’一词来加以描绘和概括……在观察上海的数学课堂时，让我们印象特别深刻的是：似乎所有的学生对数学学习各个阶段的不同要求都有很好的掌握．没有学生被落下．这和英国的情况截然相反．”以下则是英方对于构成“‘为了掌握而教’的有效支持策略”的具体分析：“精心的教学设计、增强课程连贯性、优化教材使用、变式教学、开发‘动脑筋’（指‘拓展练习’——注）栏目、发展学生对数字事实的熟练程度等．”[10]

研究表明，V2相对于D-优化方法，KLP和V1具有更高的项目库使用率，更少的过度曝光项目和更低的测试重叠率。通常，项目选择指标在不使用项目曝光控制策略时在项目曝光统计方面不令人满意，并且按照心理测量精度的的高低可以排序为KLP，D-优化方法，V1和V2。此外，当使用项目曝光控制方法时，在所有项目选择指标的测量精度趋于降低。

在比较不同项目曝光控制方法产生的项目曝光率分布时，尽管RPG方法和MPI方法表现类似，RPG方法在大多数情况下的表现优于其他方法，RT方法表现最差。此外，每个项目曝光控制方法在不同的项目选择指标下产生相同的曝光率模式。当比较测量精度时，不同曝光控制方法可以排序为RT，RPG和MPI。Chang和Twu(1998)曾指出在许多研究中观察到测量精度和项目曝光率的均匀性之间总是相互抵消。换句话言，为保证项目曝光率达到期望值，必将在一定程度上牺牲测量精度。

在本研究和Wang等(2011)的研究一致表明，在相同的测试条件下RT方法的测量精度优于RPG方法，在项目曝光分布的均匀性方面，RT方法略差于RPG方法。总之，RT与RPG方法能平衡测量精度和项目曝光均匀性，然而MPI方法在项目曝光分布方面表现较好。但在测量精度方面表现较差。

关于MCAT的项目选择方法的几个问题值得进一步研究。首先，虽然D-优化性，V1和V2比KLP快得多，但运行时间通常会随测试维度的增加而增加。因此，耗时的缺点可能影响MCAT在处理复杂测试条件时的应用。事实上，MCAT优于单维CAT的特点主要在于能从多维度获得的详细的认知信息。因此，需要更多关于减少项目选择方法的计算时间的有效算法，在已有选题方法上进行简化，提出有效简单的选题策略。例如Wang等(2011)提出的两个简化的KL指标。其次，MCAT项目选择方法虽然可以保证每个维度的测试的测量精度，但在实际测试中遇到许多其他约束。因此，研究如何处理MCAT的非统计约束非常重要。

参考文献

Bloxom，B.M.，& Vale，C.D.(1987).Multidimensionaladaptivetesting：Aprocedureforsequentialestimationoftheposteriorcentriodanddispersionoftheta.Paper presented at the meeting of the Psychometric society，Montreal，Canada.

Bolt，D.M.，& Lall，V.F.(2003).Estimation of compensatory and noncompensatory multidimensional item response models using Markov chain Monte Carlo.AppliedPsychologicalMeasurement，27，395-414.

Chang，S.W.，& Twu，B.Y.(1998).A Comparative Study of Item Exposure Control Methods in Computerized Adaptive Testing.ACTResearchReportSeries，98-113.

Chang，H.H.，& Ying，Z.L.(1999).a-Stratified multistage computerized adaptive testing.AppliedPsychologicalMeasurement，23，211-222.

Chen，S.Y.，Ankenmann，R.D.，& Spray，J.A.(2003).The relationship between item exposure and test overlap in computerized adaptive testing.JournalofEducationalMeasurement，40，129-145.

Cheng，Y.，& Chang，H.H.(2009).The maximum priority index method for severely constrained item selection in computerized adaptive testing.BritishJournalofMathematicalandStatisticalPsychology，62，369-383.

Finkelman，M.，Nering，M.L.，& Roussos，L.A.(2009).A conditional exposure control method for multidimensional adaptive testing.JournalofEducationalMeasurement，46，84-103.

Huebner，A.R.，Wang，C.，Quinlan，K.，& Seubert，L.(2015).Item exposure control for multidimensional computer adaptive testing under maximum likelihood and expected a posterior estimation.BehaviorResearchMethods，DOI 10.3758/s13428-015-0659-z.

Lee，Y.H.，Ip，E.H.，& Fuh，C.D.(2008).A strategy for controlling item exposure in multidimensional computerized adaptive testing.EducationalandPsychologicalMeasurement，68，215-232.

Luecht，R.M.(1996).Multidimensional computerized adaptive testing in a certification or licensure context.AppliedPsychologicalMeasurement，20，389-404.

McKinley，R.L.，& Reckase，M.D.(1982).TheuseofthegeneralRaschmodelwithmultidimensionalitemresponsedata(Research Report ONR 82-1).American College Testing，Iowa City，IA.

Mulder，J.，& van der Linden，W.J.(2009).Multidimensional adaptive testing with optimal design criteria.Psychometrika，74，273-296.

Mulder，J.，& van der Linden，W.J.(2010).Multidimensional adaptive testing with Kullback-Leibler information item selection.In W.J.van der Linden & C.A.W.Glas(Eds.)，ElementsofAdaptiveTesting，StatisticsforSocialandBehaviroalSciences.Springer Science+Businesws Media.

Segall，D.O.(1996).Multidimensional adaptive testing.Psychometrika，61，331-354.

Stocking，M.L.(1994).Threepracticalissuesformodernadaptivetestingitempools(ETS Research Report No.94-5).Princeton，NJ：Educational Testing Service.

Stocking，M.L.，& Lewis，C.(1998).Controlling item exposure conditional on ability in computerized adaptive testing.JournalofEducationalandBehavioralStatistics，23，57-65.

Sympson，J.B.，& Hetter，R.D.(1985).Controlling item-exposure rates in computerized adaptive testing.InProceedingsofthe27thannualmeetingoftheMilitaryTestingAssociation(pp.973-977).San Diego，CA：Navy Personnel Research and Development Center.

van der Linden，W.J.(1999).Multidimensional adaptive testing with a minimum error-variance criterion.JournalofEducationalandBehavioralStatistics，24，398-412.

van der Linden，W.J.，& Veldkamp，B.P.(2007).Conditional item exposure control in adaptive testing using item-ineligibility probabilities.JournalofEducationalandBehavioralStatistics，32，398-418.

Veldkamp，B.P.，& van der Linden，W.J.(2002).Multidimensional adaptive testing with constraints on test content.Psychometrika，67，575-588.

Wang，C.，& Chang，H.H.(2011).Item selection in multidimensional computerized adaptive testing-gaining information from different angles.Psychometrika，76，363-384.

Wang，C.，Chang，H.H.，& Boughton，K.A.(2011).Kullback-Leibler information and its applications in multidimensional adaptive testing.Psychometrika，76，13-39.

Wang，C.，Chang，H.H.，& Boughton，K.A.(2013).Deriving stopping rules for multidimensional computerized adaptive testing.AppliedPsychologicalMeasurement，37(2)，99-122.

Wang，C.，Chang，H.H.，& Huebner，A.(2011).Restrictive stochastic item selection methods in cognitive diagnostic computerized adaptive testing.JournalofEducationalMeasurement，48，255-273.

Wang，W.C.，& Chen，P.H.(2004).Implementation and measurement efficiency of multidimensional computerized adaptive testing.AppliedPsychologicaMeasurement，28，295-316.

Yao，L.(2010).Reporting valid and reliability overall score and domain scores.JournalofEducationalMeasurement，47，339-360.

Yao，L.(2012).Multidimensional CAT item selection methods for domain scores and composite scores：Theory and applications.Psychometrika，77，495-523.

Yao，L.(2014a).Multidimensional CAT item selection methods for domain scores and composite scores with item exposure control and content constrains.JournalofEducationalMeasurement，51，18-38.

Yao，L.(2014b).Multidimensional item response theory for score reporting.In Y.Cheng & H.-H.Chang(Eds.)，Advancesinmoderninternationaltesting：Transitionfromsummativetoformativeassessment.Charlotte，NC：Information Age.

Yao，L.，Pommerich，M.，& Segall，D.O.(2014).Using Multidimensional CAT to Administer a Short，Yet Precise，Screening Test.AppliedPsychologicalMeasurement，38，614-631.

Yao，L.，& Schwarz，R.D.(2006).A multidimensional partial credit model with associated item and test statistics：An application to mixed-format tests.AppliedPsychologicalMeasurement，37，3-23.

AComparisonStudyofItemSelectionStrategieswithItemExposureControllinginMCAT

Mao Xiuzhen Wang Yating Yang Rui

(Institute of Educational Science，Sichuan Normal University，Chengdu 610066)

Abstract：Four item selection indexes with and without exposure control are evaluated and compared in multidimensional computerized adaptive testing(CAT).The four item selection indices are D-optimality，Posterior expectation Kullback-Leibler information(KLP)，the minimized error variance of the linear combination score with equal weight(V1)，and the minimized error variance of the composite score with optimized weight(V2).The maximum priority index(MPI)method for unidimensional CAT and two item exposure control methods(the restrictive threshold(RT)method and restrictive progressive(RPG)method，originally proposed for cognitive diagnostic CAT)are extended to the miltidimentional CAT.The results show that：(1)KLP，D-optimality，and V1 perform well in recovering domain scores，and all outperform V2 in psychometric precision；(2)KLP，D-optimality，V1，and V2 produce an unbalanced distribution of item exposure rates，although V1 and V2 offer improved item pool usage rates；(3)all the exposure control strategies improve the exposure uniformity greatly and with very little loss in psychometric precision；(4)RPG and MPI perform similarly in exposure control，and are both better than RT.

Keywords：multidimensional item response theory；computerized adaptive testing；item selection methods；exposure control strategy；psychometric precision

中图分类号：B841.2

文献标识码：A

文章编号：1003-5184(2019)01-0047-10

基金项目：国家自然科学基金青年项目(31400897)。

通讯作者：毛秀珍，E-mail：maomao_wanli@163.com。

标签：项目论文; 方法论文; 测验论文; 能力论文; 精度论文; 哲学论文; 宗教论文; 心理学论文; 心理学研究方法论文; 《心理学探新》2019年第1期论文; 国家自然科学基金青年项目(31400897)论文; 四川师范大学教育科学学院论文;