黎 佳
(福建师范大学闽南科技学院, 福建 泉州 362332)
随着计算机的快速发展,目前正逐渐兴起一种新型的智能测验形式:基于项目反应理论的计算机自适应测验(CAT)。在CAT中,选题策略是其核心部分,它直接影响测验的准确性、安全性以及测验信度和效度。
目前这方面的研究较多[1-3],最早提出的是最大信息量选题策略,对于中间群体的被试者来说,这类方法的精度很高,但最不稳定。因为总存在一小部分人群,他们的误差特别大。针对这个缺陷研究者们提出了一些改进方法,比如带b分块的按a分层选题策略[2,4],即在测验开始时用区分度小的项目,随后逐层增加项目的区分度,使被试者的能力估计值变化的不会太快或让预测验达到一定的信息量。这种策略是一种技巧性或经验性的方法,其缺乏强有力的理论证明。当测验变化后,必须对该方法进行相应的调试或修正,虽然这类方法有效地降低了误差发生的概率,但未能有效降低最大误差。随后,为了增加测验的稳定性,出现了贝叶斯网选题策略[1],即根据被试者的分布概率来选题。这样可提高测验的稳定性,但却出现了贝叶斯误差。这些选题策略的缺点是在每一次选题时需要对题库中每一个项目的信息量进行繁琐地计算,有的甚至不能直接求解。
针对传统选题策略的这些特点以及IRT自身的缺陷,本文提出了一种能解决这些问题的方法。首先将被试能力值离散化,接着在测验过程中预测下一步,即若选了该题,测验正确估计被试者能力的概率。且在计算被试者的估计能力时使用最大期望判准率[5]的方法,以减少计算量。
为了验证该方法的有效性,进行了2组模拟实验。一组是模拟题库测验,将该方法与最大信息量选题策略进行比较,分析二者对误差的控制;另一组是用某省试题的真实项目参数做模拟(试题参数来自该考试院公报),与传统选题策略进行比较,分析其对稳定性的影响。
最大信息量法[1-2]是计算机自适应测验中最常用的一种选题策略。它的基本思想是首先估计被试的能力初始值,然后用当前的能力估计值逐一计算题库中未使用的项目的信息量,接着再从题库中选出能够提供Fisher Information最大的项目作为下一个项目提供给被试者,最后对被试的能力值重新估计,直到完成规定的测验项目数为止。这种选题策略的目的在于提高测量的精度且实施方法比较简单,然而这种策略极易导致题库中项目曝光不均匀,降低了测验的安全性及题库的利用率。该策略是一种区分度递减的算法,增加了初始能力估计的不稳定性,如果考生一开始连续做错几道题,最终得分将偏低,反之得分会偏高。
期望判准率是指通过被试对某个项目的反应来将真实模式为A模式的被试与B模式的被试进行正确区分的概率,记作PA|B。
一般情况下,当A模式=B模式时,PA|B记为1。当A模式≠B模式且A、B模式的被试对该项目的理想反应为 1、0时,PA|B记为1-s。当A模式≠B模式且A、B模式的被试对该项目的理想反应为 0、1 时,PA|B记为1-g。当A模式≠B模式且A、B模式的被试对该项目的理想反应为 0、0(或 1、1)时,PA|B记为0.5。
当B模式不只一种且真实模式A无法预知时,假设B∈β,A∈α,集合α、β中的元素个数大于 1,则该项目的期望判准率为
Pt=EA(EBPA|B)
=∑A∈α∑B∈βft(A)ft(B)*pA|B
其中ft(B)表示该被试在已经测验了t个项目时(t=0,1,2,…),该被试为B模式的被试的条件概率。
首先将被试能力值离散化,利用高斯近似[6]选择划分点。由于能力值[-3,3]服从正态分布,选取被考虑的划分点数目为30,它们产生Xj的值域的k+1个等密度区域(Xj为连续预测值,k为被考虑的划分点数目)。
设{c1,c2,…,c30}为30个划分点的集合,选择ci:
式中:Φ-1— 标准高斯累积分布函数的逆;μL、δL—分别是与L相关的Xj的均值和标准差。
在测验过程中计算当前被试已经做了t(t=0,1,2,…)个项目时的剩余题库中每一类项目的期望判准率,使用期望判准率最大的一类项目中随机的抽取一题作为被试的下一题,根据被试对该项目的反应重新对被试进行估计,如此反复直到测验达到预定长度为止,将最终的估计结果作为该被试的最终测验结果。
在以下2组实验中,将被试能力值区间[-3,3]等分30份,使用最大期望判准率来计算每次被试者的估计能力。参数估计使用MLE极大似然估计[7],实验指标用绝对误差ds的均值ds_m,标准差ds_std,最大值ds_max来表示。
2.2.1 模拟题库
为了消除题库容量和测验长度对测验的影响,这里将题库设计的足够大和测验足够长。测验模型使用的是2PLM,记分方式:0-1,lna~N(0,1)b~N(0,1),c=0;被试theta~N(0,1) 。题库容量M=1 000,测验长度L=35 、被试人数N=1 000,实验次数30次。
实验结果见表1和表2。
表1 最大信息量选题策略测试结果
表2 新方法测试结果
两种方法的测验结果相近,但新方法误差更小。且选择最大信息量策略会存在少部分误差比较大的点。新方法的带宽比较窄,且误差最大的点分布在两头,且最大误差远远小于最大信息量选题方法。
2.2.2 用某省试题的真实项目参数做模拟
用某省试题的真实项目参数做模拟,题库容量M=27×5=135。测验长度L=27,测验模型使用2PLM+GRM混合模型,被试theta~N(0,1),被试人数N=1 000,实验次数30次。实验结果见表3和表4。显然使用新方法选题会更稳定。
表3 最大信息量选题策略测试结果
表4 新方法测试结果
在稳定性和误差最大值控制方面,本文提出的方法都较传统选题策略的性能要好,解决了传统选题策略中对被试的估计不可以直接求解的问题,明确了选题策略的方向,使选题测验结果最佳。
目前计算机化自适应测验的研究正在起步阶段,本文仅对传统选题策略的一些缺陷作了初步的研究,还有待今后更深入的研究。
[1] RobR Meijer,MichaelL Nering.Computerized Adaptive Testing:Overview and Introduction[J].Applied Psychological Measurement,1999,23(3):187-194.
[2] 林海菁.具有认知诊断功能的CAT的研究与实现[D].南昌:江西师范大学,2005.
[3] Tatsuoka K K.Computerized Cognitive Diagnostic Adaptive Testing:Effect on Remedial Instruction as Empirical Validation[J].Journal of Educational Measurement,1997,34(1):3-20.
[4] Hua-hua Chang,Zhiliang Ying.A-stratified Multistage Computerized Adaptive Testing[J].Applied Psychological Measurement,1999,23(3):211-222.
[5] 尚志勇,丁树良.认知诊断自适应测验选题策略探析[J].江西师范大学学报:自然科学版,2011(4):418-421.
[6] 西蒙.数据挖掘基础教程[M].范明,牛常勇译.北京:机械工业出版社,2009.
[7] 漆书青,戴海崎,丁树良.现代教育与心理测量学原理[M].北京:高等教育出版社,2002.