计算机自适应测验的测试流程与测试技术

2012-12-28 05:21简小珠张敏强彭春妹

滁州职业技术学院学报 2012年1期

关键词：纸笔题库测验

简小珠,张敏强,彭春妹

（华南师范大学心理应用研究中心,广州 501631；井冈山大学教育学院,吉安 343009）

计算机自适应测验的测试流程与测试技术

简小珠,张敏强,彭春妹

（华南师范大学心理应用研究中心,广州 501631；井冈山大学教育学院,吉安 343009）

计算机自适应测验是现代教育测验的一种新形式。计算机自适应测验的指导理论和测试思想与传统纸笔测验不同，而且测试方面有诸多的优点。本文详细论述计算机自适应测验的基本测试流程，包括被试即时能力估计、选题策略、曝光率控制、测验终止标准等八个基本步骤；并进一步论述了计算机自适应测验在实测中应解决的关键技术与问题：在线参数估计、试题与测验交叠率控制、纸笔测验与计算机等值、多维评价与认知诊断等。

项目反应理论;计算机自适应测验;测试流程

一、计算机自适应测验的基本含义和发展历程

测验是教育测量评价的主要手段，随着现代测量技术的发展，计算机自适应测验（Computerized Adaptive Testing，CAT）作为一种新型的测验方式逐渐应用于教育测量与评价中。美国的许多大型入学和职业资格考试都逐渐采用计算机自适应测验的形式。这些考试包括美国大学入学考试SAT考试、TOEFL考试、GRE考试、建筑师考试、商学院研究生入学考试、护士资格考试等。国内在计算机自适应测验的研究与应用方面也有长足的进步，早在80年代后期，漆书青进行了计算机自适应测验方面的早期尝试[1]。2008年全国大学英语四六级等级考试也初步尝试了计算机自适应测验的试验。2002年台湾国民中学学生基本学力测验开始采用了计算机自适应测验方式。计算机自适应测验作为一种新型的测验方式，本文将详细而系统的介绍计算机自适应测验的基本思想、测试技术流程。

（一）计算机自适应测验的基本概念、基本思想

从50年代项目反应理论创立以来，项目反应理论（Item Response Theory，IRT）逐渐成为现代教育与心理测量研究的主流方向，其中最主要的应用就是计算机自适应测验。计算机自适应测验是一种与纸笔测验（Paper&Pencil Test，PPT）迥然不同的测验形式，在计算机辅助下以项目反应理论为测量理论基础建立题库，并根据每位考生的不同能力水平在题库中选择适合个别考生能力水平情况的试题进行测试的一种测验新方式。计算机自适应测验与传统纸笔测验相比，主要有以下不同：（1）测量理论基础不同。计算机自适应测验是以项目反应理论为基础；纸笔测验主要是以经典测量理论为基础。（2）测量技术不同。由于测量理论基础不一样，这两种类型测验的项目分析、测验编制、评分、测验等值、分数解释等测量技术方法也都不一样。（3）测验方式不同。纸笔测验只需要纸笔就可以进行，计算机自适应测验必须借助计算机的辅助才能进行，这是计算机自适应测验的一个弱点，但随着计算机（特别是笔记本计算机）的广泛普及，这一弱点将被逐渐克服。

相对于每一个考生来说，难度适中的试题才最能有效且精确地测量其能力。而通常的一份纸笔测验的试题难度，很难适合每位考生的能力水平，从而很难满足对每一个被试对象进行精确测量。在项目反应理论下，考生能力估计不受施测试题的影响，也就是说，不同的考生测试不同的试题，只要试题内容性质相同，不同能力考生的能力估计值可以被精确的估计出来，而且是可以互相比较。要能做到试题难度随考生能力不同（即根据考试个体能力水平差异）而调整，只有计算机自适应测验形式才达到此要求。计算机自适应测验最基本的测量思想：在测试过程中，考生每完成一道试题就即时估计考生能力水平，并以此来挑选与考生能力水平相适应难度的试题来测试，通过较少试题达到精确测量的目的。

（二）计算机自适应测验的优势与不足

在大型考试中实施计算机自适应测验，具有以下优点：（1）依据考生不同能力水平来挑选不同的试题，降低考生的考试挫折感；高能力考生就不必回答过多的简单考题，而水平相对较低的考生也不必回答太多难题，可以适合每位考生的作答速度，通过较少的试题就能对考生的能力水平做出有效的测度；（2）可以更精确估计每一个的考生能力或潜在特质，提高每一次测验的精度（即测验信度）；（3）可以加强测验施测的标准化过程，不必统一规定测验举行的时间，考试部门一年可以组织多次测验，考生可根据自己的情况选择其中的一次或多次测验；（4）题库的试题管理由计算机控制，测验时安排的试题因人而异，可以加强测验的安全性；（5）能即时计分和报告成绩，并能将测试结果及时反馈给考生；并能克服纸笔测验评卷时由评卷者所带来的主观评分误差。

当然计算机自适应测验也有不足：（1）要求大容量的题库，因而在计算机自适应测验的前期阶段需要大量的试题预测和校准。一旦题库建立后，可以使用试题在线测试技术对题库进行更新，从而满足题库容量的需要。（2）无法及时评估开放性的主观题，比如问答题、作文，尽管计算机可以方便有效的记录保存考生在这些试题上的作答，还需要评卷员进行网上评卷。（3）计算机自适应测验的研发较为复杂。尽管计算机自适应测验还有不足之处，但从测量的准确性、标准化，它的优势是明显的，代表了现代教育测量技术的发展方向。

（三）计算机自适应测验的发展历程简要概述

最早的自适应测验（即因材施测的测验方式）的雏形，是1908年Binet所编制的智力测验的研究，即根据儿童的年龄来安排不同测验项目。60年代末期，美国的教育测验服务中心(Educational Testing Service)的F.Lord在项目反应理论和计算机自适应测验方面从事较为系统而完整的研究[2]。Lord认为对于低能力与高能力的考生而言，固定长度的测验无法有效的满足这些考生能力估计的需求，如果被挑选用来施测的试题都能针对每位考生能力提供最大的参考信息的话，则减少施测的题数不会降低对每位考生能力的精确测量[3]。

70年代蒙特卡洛模拟方法在测量中逐渐应用于计算机自适应测验的研究中。在当时还没有实测的计算机自适应测验的情况下，模拟技术有力的推动有关计算机自适应测验在能力估计方法、选题策略、试题曝光率、测验信度、测验终止原则等方面的研究。1975年召开第一次专门探讨计算机自适应考试的大会，之后又分别于1977年和1979年在明尼苏达大学召开了两次研讨会，这几次研讨会极大地促进了计算机自适应测试技术和应用方面的研究。

1979年，最早的计算机自适应测验系统（ASVAB-CAT）启动研发，1985年该测验系统在征兵入伍测验中正式投入使用。《Computerized adaptive testing：From inquiry to operation》[4]详细的归纳了ASVAB-CAT测验系统的研发过程和基本技术，并概括和总结了1979至1997年之间计算机自适应测验方面的研究成果和基本技术。随着计算机自适应测验技术的不断的完善和成熟。20世纪90年代初至21世纪初，美国许多大型入学和职业资格考试都逐渐采用计算机自适应测验形式。1998年7月TOEFL考试、GRE考试在美国以及少数其他国家进行了机考，2001年在全世界范围内普及了机考（即 CAT）。

二、计算机自适应测验测试的基本流程

计算机自适应测验要让测验试题的难度适合每一个考生能力水平，必须需要以下两个基本条件：（1）大容量的题库。建立了一个容量较大的题库，并根据项目反应理论对每一道试题进行了参数量尺化；并配合良好的试题曝光率控制方法，保障在进行测验时的题库安全。（2）即时的能力估计方法和选题策略。考生每作答一道试题就能即时估计出考生的能力分数，并迅速根据选题策略选择最适合考生能力水平的试题来测试。计算机自适应测验测试流程是一个复杂的流程技术，包括以下八个基本流程：【测试起点】、【考生作答】、【即时能力估计】、【选题】、【终止标准】、【能力最终估计】、【分数转换与成绩报告】、【分析评价】。

图1 计算机自适应测验测试基本流程

（一）计算机自适应测验的测试起点

先考哪一道试题，是计算机自适应测验所需面临的重要问题之一。常用的起点方法有五种：(1)难度适中的试题中随机抽取一道试题；(2)从题库中完全随机抽取一道试题；(3)从考生已知的有关学业背景（包括以往的测验成绩）确定起点，然后再决定出那一道试题。(4)让考生初步作答3至5道试题，根据EAP方法或MLE方法进行能力估计，以此作为能力的起点；(5)由考生自己决定第一道试题的难度（从难、中、易三个难度水平的试题中选择一个水平来测试）。Lord（1977）研究认为只要测验的题数不少于25题[3]，以哪一道试题作为测试起点，对被试最终能力估计值的影响不大。一般来说，许多计算机自适应测验的起点方法都是选择第一种方法，而且目前许多计算机自适应测验的模拟研究和一些应用研究也都是选择第一种方法，第四种方法也应用较多。如果采用第四种方法，则需要在【测试起点】与【考生作答】之间增加三个步骤：【考生初步作答几道试题】、【能力初步估计】、【选择下一道试题】。

（二）考生作答

考生在测试过程中，计算机屏幕一次只呈现一道试题，考生必须先作答完成正在呈现的试题，然后才能进入下一道试题的测试。如果考生不知道正确答案，一般都要求考生随机选择一个选项，不允许让试题空着不作答。考生在参加计算机自适应测验之前，可以先使用计算机自适应测验练习软件进行初步考试练习和体验，熟悉计算机自适应测验的形式，了解考试要求和规则。比如美国ETS为GRE考试推出了GRE POWERPREP考试练习软件。

（三）即时能力估计

在测试过程中考生每完成一道试题的作答，就需要对被试能力作出即时能力估计，并根据即时能力估计值选择下一道试题。考生能力估计方法一般有三种：极大似然估计方法、期望能力估计方法、极大后验估计方法。因此在测试过程中，考生能力即时估计的主要方法极大似然估计方法，如果极大似然估计不能收敛，则采用能力后验期望估计的方法。

（四）测验终止标准

测验终止的标准主要有两种，固定测验长度和不固定测验长度。（1）固定测验长度：考生作答试题数量，已达到规定的上限，便中止测验；（2）不固定测验长度。不固定测验长度中，以项目最大信息量作为选题标准时，测验终止标准是测验信息总量达到指定的标准便终止测验，以贝叶斯估计法作为选题标准时，测验终止标准是估计能力之变异数小到某个预定的标准时终止施测。

此外，测验的总时间长度也需要作为计算机自适应测验终止的一个参考。为了测验的统一管理，也避免考生在考场漫无止境的思考，因此许多CAT测验都规定了测验的时间。一般来说，计算机自适测验规定的时间长度都会很充裕，让95%以上的考生都能完成作答[5]。

目前许多计算机自适应测验的终止标准，主要是采用固定测验长度（测验长度一般都在25至45题之间），并在考试说明规定了测验时间长度。CAT测验规定测验长度和测验时间，主要从社会的公平性来考虑，所有考生都完成同样的试题数量，而且是相同的时间，这样能较好的体现社会公平性。

（五）选题

在自适应测验过程中，选择最适合考生能力水平的试题是计算机自适应测验的关键。目前计算机自适应测验采用的选题策略主要有三种：（1）最大项目信息量方法，即根据考生即时能力估计值，挑选能对考生能力估计提供最大项目信息量的试题。最大项目信息量方法有不同的变式。比如a分层最大项目信息量方法、b分层最大项目信息量方法（即根据试题难度分层）、c分层最大项目信息量方法（即根据试题内容分层）等一些其他变式。（2）利用贝叶斯试题选择法，将考生能力分配看成是某种先验分布，计算考生答对或答错未用到的试题之后验变异数，再挑选能够使这种考生能力后验分布之变异数为最小的试题，以作为施测的试题。（3）挑选试题难度最接近考生现阶段能力估计的试题，答对了选择稍难一些的试题，答错了选择稍微容易一些的试题。

在选题过程，还必须考虑试题曝光率。试题曝光率是指每道试题的调用次数与已测试总人数比例，计算公式为：Pi(s)=Xi/NE，其中Pi(s)表示为第i题的曝光率水平；Xi为第i题累计调用的次数，NE为参加测验总人数。某一试题调用的次数越多，观察曝光率就越高，其被泄露的可能性就越大。曝光率控制水平，是指由测验专家根据题库调用的模拟研究结果和期望曝光率水平来确定的试题的最大曝光率水平。控制曝光率，就是要求控制试题的观察曝光率水平低于所预定的控制曝光率水平，即：Pi(s)=Xi/NE＜ri。曝光率控制的方法目前最常用是Sympson和Hetter提出的SH条件概率方法。它是一种利用条件概率对曝光率进行控制的方法，基本思想就是在项目的初步选择和最终调用之间，加设一个“过滤器”。这样就可以保证每一道的曝光率都被控制在某一预定的控制曝光率水平之下。SH条件概率方法后来又衍生了各种变式，比如SH-DP法、SH-SL法、SH-SLC法、SH-RT方法。最近也有不少研究者将SH条件概率控制方法和a分层选题策略配合使用，共同控制曝光率水平[6]。此外，最近还有些研究者进一步提出了新的曝光率控制方法，如项目合格方法、多重曝光率方法。

在考生作答完成一道试题后，先要进行能力估计，再根据考生的即时能力估计值来选择试题，并要进行试题曝光率的控制方法算法，因此在选题这一环节中，计算机要经历较为复杂的运算，需要一定时间来完成选题这一步骤；然而考试中又要求考生作答完成后，需要立即呈现给考生下一道试题。怎样来处理选题时间较长与试题需要立即呈现之间的矛盾？这可以采用预先估计考生能力，预先进行选题的方法来处理[4]：在测试进行过程中，第i题正呈现给考生作答，在考生思考和作答的过程的同时，计算机测验系统在后台就预先按考生答对、答错的两种情况，分别预先进行能力估计，得到两个能力估计值θ1，θ2（θ1对应考生答对时的能力估计值；θ2对应考生答错时的能力估计值），并预先根据这两个能力估计值作为选题出发点，从题库中根据选题策略和曝光率控制的要求分别选择一道试题T1或T2（T1对应考生答对时需要呈现一道的试题；T2对应考生答错时需要呈现一道的试题）。考生作答完第i题时，则将考生作答第题的情况，答对呈现T1，答错呈现T2。因此，CAT测试流程的详图为：

图2 计算机自适应测验测试基本流程

（六）能力最终估计

CAT测试结束时，需要对被试进行最后的能力估计。被试的最后能力估计主要使用极大似然估计方法；如果极大似然估计不能收敛则使用能力后验期望估计。如果考生在规定的时间内完成了规定题量的80%（比如测验总长度为35题，那么考生至少要完成28题）及以上的题量，则根据考生这些作答情况进行能力估计[5]。如果考生在规定时间内未完成规定题量的80%（即少于28题），在这种情况下进行超时惩罚。如果考生提前交卷而没有完成规定题量的80%，则也进行扣分后计算最终测验成绩。

（七）分数转换和呈现报告

考生作答完成规定题量，提交试卷后，计算机会在几秒之内呈现该考生试的此次考试成绩和基本分析报告。成绩分数包括该考试的考试T分数、百分等级分数、和评定等级（比如评定为不合格、合格、良好、优秀四个等级）。计算机自适应测验都不直接报告原始能力估计值，而是报告线性转换后的分数。考生最后得分都采用T分数形式来报告，一般采用 T＝500＋100×θ，那么 T 在 [200，800] 之间。GRE计算机自适应测验的分数报告一般都在200至800分之间[5]。如果考生的GRE分数在600分以上，则是属于高分。

（八）分析评价

CAT在计算机上进行测试，可以有效收集考生在测验过程中的详细作答信息，并利用这些作答信息来评鉴试题质量的好坏、是否存在功能差异、以及诊断考生作答是否存在异常、诊断知识缺陷、能力差异等等，为考生自己下一步学习提供依据。教师可以利用这些作答信息来分析考生的作答信息，诊断分析学生知识掌握情况，并据此改进教学，或进行有关的补课等教学辅导。此外，从学校层面、地区层面等教育管理部门的角度来看，通过计算机自适应测验可以较快收集到学校教学、学生学业水平质量情况，为教育部门的教育决策提供参考。在美国TOEFL、GRE的计算机自适应测验的成绩是美国许多大学接受申请入学的一个必要依据。

三、计算机自适应测验在应用中的有关测量技术

计算机自适应测验在实际应用中，还需要注意和解决以下一些测量技术和问题：比如种子试题（seed item）的在线测试与项目参数估计、测验交叠率、纸笔测验与计算机自适应测验的等值等等。

（一）种子试题的在线测试与项目参数估计

计算机自适应测验的题库最初建立时需要纸笔测验对试题进行试题参数量尺化。当题库已经建立后，在计算机自适应测验的使用过程中，可以将新的试题（seed item，种子试题）等值填充到题库中去。但新的试题参数如何进行参数估计，并与题库里的试题参数等值在同一量尺上？目前计算机自适应测验已经发展出了在计算机测验过程中，实现种子试题（seed item）的测试和试题参数量尺化的技术[7]，即在线测试技术（On-line Pretest Item-Calibration Methods）：在对考生进行正式施测的过程中，加入少量的种子试题，可以在测试的同时得到种子试题的作答反应矩阵，从而实现种子试题在线测试的参数估计。美国ETS的CAT测验中都加入了种子试题进行测试和参数估计。

（二）测验间交叠率问题

测验间交叠率是指一个CAT测验的试题同时出现在另外一个CAT测验的中，这时重复出现的试题数量除以测验长度即可得到这两个测验之间的交叠率。计算所有CAT测验之间的交叠率平均值，可以得到平均测验间交叠率。测验平均交叠率水平也反映了试题曝光的程度，测验平均交叠率越高，预示着考生之间分享试题而受益的概率越高，试题泄露的概率越大。有研究论述了试题交叠率和试题曝光率之间的关系[8]，并认为决定平均测验间交叠率的影响因素有：题库的容量、测验长度、所有项目曝光率的方差，并指出这三者之间存在函数关系。要想让平均测验间的交叠率低于10%，则要求项目曝光的误差大约为0.0014，同时题库容量的大小至少是定长测验长度的12倍，这就是计算机自适应测验中的“十二倍定律”。

（三）纸笔测验与计算机自适应测验的等值

纸笔测验作为最基本的测验形式，将一直与计算机自适应测验同时存在。两种测验分数之间如何进行比较，这就是纸笔测验与计算机自适应测验的等值问题。美国ASVAB-CAT在施测时，就对纸笔测验与计算机自适应测验等值的问题进行了探讨，并着重考虑和解决了以下几个问题[4]：一是计算机自适应测验的分数是等值到纸笔测验分数量尺上，并且合格分数线是以纸笔测验分数常模来确定计算机自适应测验的分数线。二是被选择等值测验的被试都是需要参加征兵入伍考试的考生，考试成绩决定其是否符合入伍的条件，确保考试动机与正式测验是一样的。而且所有考生都参加了纸笔测验和计算机自适应测验，一半考生先进行纸笔测验测试后再进行CAT测试，另一半考生先进行CAT测试后再进行纸笔测验测试。三是对考生群体进行分类，建立亚群体常模，比如建立黑人、妇女等群体的常模。此外，在等值计算过程中，需要对考试群体分数进行数据平滑数据处理和分数转换。纸笔测验与计算机自适应测验如果实现有效的等值需要进一步探讨，对计算机自适应测验的推广与应用具有重要意义。

[1]漆书青,戴海崎.项目反应理论及其应用研究【M】.南昌：江西高校出版社.1992,

[2]Lord, F.M., Applications of item response theory to practical testing problems. 1980, Hillsdale, NJ：Lawrence Erlbaum Associates.

[3]Lord,F.M.,Practical applications of item characteristic curve theory. Journal of Educational Measurement,1977,14：p.117-138.

[4]Sands,W.A.,Waters,B.K.&McBride,J.R.Computerized adaptive testing.From inquiry to operation. 1997,Washington(DC)：American Psychological Association.

[5]Mills,G.N.&Steffen M.,the GRE computerize adaptive test： operational issues, in Computerized Adaptive Testing：Theory And Practice.,W.J.Van Der Linden and C.A.W. Glas,Editors.2000,Kluwer Academic Publishers：DordrechBostonLondon.p.75-100.

[6]Leung,C.,Chang H.H.&Hau K.,Item Selection in Computerized Adaptive Testing： Improving the a-Stratified Design with the Sympson-Hetter Algorithm.Applied Psychological Measurement,2002、26：p.376-392.

[7]Ban, J.C., et al., A comparative study of on-line pretest item calibration-scaling methods in computerized adaptive testing. Journal of Educational Measurement,2001、38(3)：p.191-212.

[8]Chen, S., Ankenmann, R.D. &Spray, J.A. The Relationship between Item Exposure and Test Overlap in Computerized Adaptive Testing. Journal of Educational Measurement,2003.40(2)：p.129-145.

[9]Segall,D.O.,Multidimensional adaptive testing.1996.p.331-354.

[10]Leighton, J.P.& Gierl M.J.. Cognitive diagnostic assessment for education-theory and applications.2007,Cambridge：Cambridge University Press.

TP306+.2 < class="emphasis_bold">文献标识码：A

1671-5993（2012）01-0058-06

2012-02-21

“基础教育监测系统与计算机自适应测验系统”（基金项目号：9151063101000002）江西省教育科学“十二五”规划课题（项目编号：10YB254）资助。