杨建原 柏桧 赵守盈
计算机自适应测验开发的程序研究
杨建原 柏桧 赵守盈
计算机自适应测验(Computerized Adaptive Testing,CAT),是基于项目反应理论(IRT)建立题库,由计算机根据被试能力自动选择试题,最终对被试能力做出估计的一种新的测验形式。CAT因人选题,项目针对性强,用较少的题目较精确地估计被试的能力。CAT虽好,但不能盲目进行。从构思到使用,一个完整的CAT一般需要经历四个阶段:CAT可行性、适用性的考察研究,建设题库,确定CAT的算法及参数,投入使用和维护。每一阶段对CAT的有效性都至关重要。
项目反应理论;计算机自适应测验;模拟
计算机自适应测验(Computerized Adaptive Testing,CAT),是基于项目反应理论(IRT)建立题库,并由计算机根据被试能力自动选择试题,最终对被试能力做出估计的一种新的测验形式[1]。计算机通过在题库中调用与被试能力匹配的项目,来不断修正对被试能力的估计,如果被试答对了当前的项目,一个更难的项目就会被调用,反之亦然。当测验达到所需标准时,计算机停止调用题目,测试停止。传统测验中,测验长度固定,但测验精确度是变化的。一般来说,传统测验的大部分项目是中等难度,因此对中等能力被试的估计误差较小。但CAT因人选题,项目针对性强,用较少的题目较精确地估计被试的能力。
CAT虽好,但不能盲目运用。一个完整的CAT从构思到使用,一般需要经历四个阶段:CAT可行性、适用性的考察研究,建设题库,确定CAT的算法及参数,投入使用和维护。每一阶段对CAT的有效性都至关重要。CAT开发过程中如果没有针对各阶段内容的充分研究,会使开发的CAT低效,甚至无效。因此了解CAT开发各阶段的内容是至关重要的。
开发CAT测验的第一个步骤就是要看有没有必要和能不能开发想要的自适应测验。
为了解决这个问题,首先必须进行模拟分析。基于IRT,通过给定的θ值和项目参数值,来模拟被试对项目正确作答的精确概率。如一个中等水平的被试B(θ=0.0),能正确作答项目A的概率是0.55。要保证这个正确作答概率,计算机会随机生成一个数字,这个数字在0~1内均匀分布。如果随机数字大于0.55,计算机模拟被试的反应是错误,如果随机数字小于或者等于0.55,计算机的模拟反应是正确。被试θ值和项目参数值可以是真实的,也可以是按要求随机生成的。模拟的执行过程和真实被试的反应过程一致,CAT选出一个符合要求的项目,然后根据θ值,在应答数据集中进行选择。这样,通过模拟我们可以在一个测验产生之前知道平均测验长度、测验精确度、题目所需要的曝光率以及题目库的大小。
模拟类型有三种:Post-hoc模拟、Hybrid模拟和Monte-carlo模拟。Post-hoc模拟是基于对真实数据的模拟,即要求计算机自适应测验项目库中的项目参数已明确,并且有真实被试对题库中所有项目的作答结果矩阵。Post-hoc模拟一般用于CAT正式实施前的最后一步,诊断项目库是否能够正常运行和怎样运行;也可用于由经典测验理论得出的项目反应数据,以考查如果将测验以CAT方式实施会使测验长度降低多少。
Mont-carlo模拟通常是没有任何可用数据的情况下分析CAT的各种特征,按需要随意改变被试能力的分布状态和项目参数的分布状态,就可以知道假定状态下不同能力的被试对不同参数项目的模拟反应;生成既定条件下完整的Monter-carlo反应矩阵后,就可通过Post-hoc模拟进行分析。
Hybrid模拟(Nydick&Weiss,2009)[2]是 对Post-hoc模拟和Mont-carlo模拟的综合,该种模拟同样是用于项目参数已经得出的项目库,但是不需要被试对题库中的所有项目的完整作答结果矩阵。Hybrid模拟,通过每个被试的项目反应结果估计其θ值,没有施测或未回答的项目不参与估计。运用得到的θ值及恰当的IRT模型,通过Monte-carlo模拟方法模拟缺失的作答结果。这样,这一完整项目作答结果矩阵便可用于Post-hoc模拟分析。
模拟结果用来评估CAT的可行性。比如,现在有四套卷子,各有100道题目,每个卷子中有20个共同的题目,用来做测验等值。即现在有一个340题的题库,模拟显示,如果要达到现在测验的精确度,要有500道题目的CAT题库,每个被试平均做55道题目。那么我们要考虑的是每个被试少做45道题节省的时间,CAT增加的安全性(每个被试所做的题目不同),能否抵消开发160个新项目、完成所需的CAT研究以及启动CAT测验的成本,也就是CAT的可行性。
经过第一步的研究,如果确定CAT开发是可行的,就开始第二步——建设题库。在这一步中,模拟也很重要。通过模拟,改变题库难度的范围、偏态、题目区分度,可以知道题库所需要的题目数、题目的参数分布、题目的内容分布以及项目曝光率。根据模拟结果制定编题计划,采用双向细目表保证项目的代表性,最后组织专家命题或者在相关资料中选题。为了保持测验的连续性和减少开发题目的数量,很多情况下要利用已有的题库去建设CAT题库——把已有的题库和新开发的题库进行连接和混合。
建设题库时要注意测验信息函数要和测验目的匹配。测验信息函数表示能力估计的精确程度。它被定义为测量误差平方[SE(θ)2]的倒数。测验信息量越高则对被试相应能力估计精确度越高。如果测验是标准参照测验,根据某个分数把被试分成及格和不及格,那么要在划界分数点处能较精确地区分被试的能力,即在划界线处需要更多的信息量,对两端被试θ值的估计精度不做要求。相反,如果测验要求对所有被试能力有精确的估计,那么题库中应该有相当数量的适合高能力、低能力被试的题目。
题库初步确定后,对项目进行预试,预试的目的是把被试的反应、被试的能力、项目的参数联系起来。预试所需要的样本量根据IRT模型而定。Baker和Kim(2004)综合前人研究成果,认为对二参数Logistic模型(2PLM)估计未知项目参数和被试能力值,至少要30个项目500个被试;而对于三参数Logistic模型(3PLM)则至少要60个项目1000被试[3]。一般来说,预试的方法有三种:(1)如果项目是全新的,计算机可以简单调用项目。(2)如果题目是新旧混合的,新项目应该植入(Seeding)到原测验中。例如还是上面的例子,160道新题目,340道旧题目。考虑到旧题目中可能有些不尽如人意,预试200道新题目。受试者已经做过了100个题的固定形式测验(fixed-form test),再做所有的200个新题目,就是原来测验长度的三倍了,这样占用受试者太多的时间。200个新项目,有四个测验,给每个被试做50个新项目是比较合理的。这50个项目可以随机选择或者用不同的方法预先定义。(3)Wainer等8位专家学者(2000)提出了在线校准的方法,在正式实施CAT时,对每个参加CAT的被试随机指派固定数量的新项目,新项目没有项目参数,得分记入成绩也不参与能力估计。每种预试方法都要保证每个题目的作答达到一定的次数[4]。
预试之后做项目参数估计。为了保证所有的项目参数有同样的标准,要对题库项目进行连接。连接的方法有很多种,它们之间主要的区别是把新项目放在一个已存在的尺度上,还是建立一个新的尺度。显然,如果题库是全新的,建立一个新的尺度比较合适,如果题库是新旧混合的,就需要把新题目参数用已有的尺度估计。校准阶段根据项目参数(难度、区分度、猜测系数等)来决定项目是不是要删除、校正、再次进行预试。对于区分度低和猜测系数大的项目一般考虑删除,如果项目难度分布和测验目的不符,要对项目加以调整。在校准阶段需要知道的另一个统计信息是模型拟合指数,根据拟合指数可以了解数据和校准所用的IRT模型是否匹配。例如,测验编制者试图用Logistic模型,则可分别用单参数、双参数、三参数模型进行检验,拟合度常用卡方检验,如果卡方检验值比较小,即P值足够大(大于0.05)则说明数据——模型拟合度比较高[5]。汉布尔顿和斯沃米纳塞(1985)认为模型拟合要看四个方面:模型单维性(多维IRT模型不考虑),等区分度检验(单参Logistic模型时),最小猜测假设检验,非速度性检验。[6]
执行一个完整的CAT需要确定五个部分。题库及项目参数、起始点、项目选择的算法、得分的算法、结束的标准。
起始点,也就是CAT开始执行时假定的被试初始能力值(θ值)。最常用的方法有:(1)假定所有被试有相同的初始θ值,一般来说会提供一个和平均分数相匹配的θ值,也就是0.0。但是给所有的被试分配相同的初始θ值会使与之对应题目的曝光率大大增加,CAT的保密性受到威胁。(2)在某个范围内,随机选择被试的初始θ值解决了上面的问题。比如初始θ值可以在-0.5到0.5之间随机选择。以上两种方法都是用在对被试一无所知的情况下,能力高和能力低的被试的测验长度一般较长。CAT的目的是使测验尽可能的适合每个被试。(3)把被试上一次的测验分数作为下一次测试的初始θ值。(4)也可以根据外部信息计算被试的能力。Castro,Suarez和Chirinos(2010)认为,外部信息可以是动机、社会经济地位[7]。(5)在某些情况下也可以让被试自己选择能力的初始值。
项目选择的算法用来决定呈现给被试的项目是什么。一般基于项目信息进行项目选择,从项目信息可以看出哪些题目更适合某个被试。比如给高能力的学生做很容易的项目是没有意义的,这些项目不能把他们的能力水平进行划分。测验目的不同相应的项目选择的算法不同。如果测验是为了得到准确的θ值,那么应该选择所有在当前能力值下能提供最大信息的项目。然而,如果测验的目的是在一个分界线上对被试进行分类,那么选择在分界能力值上能提供最大信息的项目。
在项目选择时要同时考虑到一些实际的约束问题。最主要的三类问题是项目曝光、内容平衡和项目对立。项目曝光是指题库中每个项目呈现频率。在“高风险测验”中曝光频率的控制非常重要,因为题目可能因为曝光较多而被泄露。根据测验要求,所有的题目最大曝光率可以相同,也可以不同。当单维测验中包含多项内容的时候,按需要进行项目内容平衡。比如数学测验中要求一个被试同时接受代数、几何、概率项目的测试,每个内容所占的比率可以按需要进行设定。对立项目是几个项目中包含相互提示的信息,对同一个被试,CAT只能呈现其中一个项目。
θ值估计算法用来估计被试的能力。常用的θ值估计算法有各种最大似然值估计、贝叶斯估计、加权最大似然值估计。最大似然值估计是无偏的,但是只能用在混合应答模式中(至少有一个正确和错误的回答)。
CAT终止标准有两种情况:CAT测验长度是变化的,CAT测验长度是固定的。当CAT的长度是变化的时候,有几种方法可以选择:(1)θ估计的标准误达到等于某个值的时候。(2)θ估计标准误的变化小于或等于某个值的时候。(3)θ估计值的变化小于某个值的时候。(4)θ标准误的增加大于某个值的时候。(5)最小项目信息标准,如果题库中再没有项目能提供最低限度(按需要制定)信息,测验就可以终止了。固定长度的测验可以是当被试完成固定数量题目时终止(题目的选择是自适应的),也可以是做完所有题目时终止。项目终止同样受到曝光率的约束。
当所有必需的内容参数以及算法确定后,CAT就可以投入使用了。如果已经有测试开发和交付的软件(例如,已经购买了一个系统或者有权使用一个系统),这一步就几乎没有困难。在常用的CAT施测系统中(比如Fast Test Pro,CADATS),选中相应的单选框或者复选框来选择不同的算法。
维护CAT需要另外的研究。也许最重要的是检查使用后CAT的结果是否与模拟的CAT的预期结果相匹配。例如,Post-hoc模拟预测被试平均做47道试题达到0.25的最低标准误差,使用时实际情况是否如此呢?
另一个重要的问题是维护试题库,有时称做“更新”(refreshing)。因为在大量的测试中试题可能曝光过多,曝光率过高的试题应该逐渐撤出或暂时屏蔽,同时新的试题应该逐渐添加进去,增加的项目要与题库进行连接。一般方法是向库里添加预试的试题,这些试题校准之后转移到计分题目中去。在线校准后试题可以立刻被校准并投入试题库中去。刘丽平、王文杰等人(2006)提出题库新增、删除或屏蔽都可能影响题库中参数的分布,为了参数不合理时及时调整题库的参数,可设计信息统计模块,当题目参数和知识点参数的分布不合理时,信息统计模块会给出警告信息。[8]
随着CAT的研究越来越深入,CAT开发和使用问题也日益受到关注。正确开发和使用CAT对于测验的有效性是非常重要的,本文简单探讨了CAT的开发和维护必须研究的问题,尽管比较简略,并且可能不全面,但是每个CAT开发必须注意的。
[1][5]顾海根.一种新的测验形式——计算机自适应测验[J].上海教育科研,1999(5):31-33.
[2]Nydick S,Weiss D.A hybrid simulation procedure for the develop⁃ment of CATs.In D.J.Weiss(Ed.),Proceedings of the 2009 GMAC Conference on Computerized Adaptive Testing,2009.
[3]Baker F B,Kim,S.H.Item Response Theory:Parameter estima⁃tion techniques(2nd eds.).New York,Marcel Dekker,2004.
[4]Wainer H,Dorans N J,Eignor D,Flangher R,Green B F,Mis⁃levy R.J,Steinberg L,Thissen D.Computerized adaptive testing:A Primer,(2nd ed.).Lawrence Erlbaum Associates,Publishers,2000,85-86,121-122,161-185.
[6]余嘉元.项目反应理论及其应用[M].南京:江苏教育出版社.1992(9):187-197.
[7]Castro F,Suarez,J,Chirinos,R..Competence's initial estimation in computer adaptive testing.Pap resented at the first annual con⁃ference of the International Association for Computerized Adaptive Testing.The Netherlands.2010.
[8]刘丽平,王文杰,郭世宁.计算机自适应考试(CAT)系统题库的设计与实现[J].计算机系统应用,2006(3):10-16.
A Study on the Procedure of Computerized Adaptive Testing Development
YANG Jianyuan,BAI Hui and ZHAO Shouying
Computerized Adaptive Testing(CAT)is a new method that item bank is based on response theory(IRT),computer automatically selects items according to the ability of each examinee,and ultimately estimate precise ability of each examinee.The option of CAT’s item differs from person to person with a highly targeted,which estimates the ability of examinees by fewer subjects with a good accuracy.CAT is good,but can’t blindly used.From design to publish,generally go through four stages:feasibility and applicability studies,item bank development,CAT algorithm and parameters,publish and maintenance.The effectiveness of each stage of the CAT is essential.
Item Response Theory;Computerized Adaptive Tests;Simulation
G405
A
1005-8427(2012)03-0003-5
本研究为贵州省高等学校教学质量与教学改革工程重点项目“基于PBL理论改进心理教育测量教学改革研究”(项目批准号:黔高教发[2011]28-1)、贵州师范大学精品课程“心理测量”建设项目阶段性成果。
贵州师范大学