杨正清 殷全剑 张晗 刘明志
摘 要:测试是教育评价中一种广泛使用的方法。随着计算机及互联网技术的迅速发展,计算机成为能力测验的重要工具。文章设计了一个计算机自适应测试系统(CAT),选择适合每个被试者能力水平的英语单词题目,实现用尽量少的题目较为准确地评估出用户的英语水平和词汇量。
关键词:计算机自适应测试;项目反应理论;能力估计;极大似然函数
随着科技水平的提高,信息技术与多媒体技术等被引入测试领域,测试也出现了新的实现方式,即把计算机作为实施测试评价的工具,主要有两种形式:基于计算机的测试(Computer-Based Testing ,CBT)和计算机自适应测试(Computer Adaptive Testing ,CAT)[1]。
CBT用计算机代替传统的纸笔作为测试载体,依据经典测试理论,所有被试者作答完全一致的试题,数量相同、题目相同,没有考虑不同被试者的能力差异。与CBT不同,CAT的思想是利用项目反应理论(Item Response Theory,IRT)对每个被试者选择最适合的测试项目,记录被试者在项目上的反应,达到对被试能力更加准确的估计[2]。理论分析与实践经验均表明,当选择的测试项目与被试者的能力水平最匹配时,被试者作答积极性最高,测试效果也最好[3]。
本文实现了一种基于项目反应理论自适应测试被试者的英语能力水平的方法。
1 IRT理论
项目反应理论的核心是用概率函数来描述项目作答结果如何受被试者能力水平和项目参数的影响[4],根据被试者每个项目的作答情况,经过数学计算,估计被试者的能力水平和项目的参数。如图1所示,横轴表示被试者的能力水平,纵轴表示答对概率,能力值(θ)越高,该项目作答正确的概率(p)越大。
项目通常由以下3个参数进行描述:a表示区分度,一般为0~﹢3;b表示难度参数,一般介于-3~﹢3;c表示猜测系数,其理论值范围介于0.0~1.0。根据模型中项目的参数个数,可分为单参数模型、双参数模型及三参数模型[5]。
单参数模型(1PLM):
双参数模型(2PLM):
三参数模型(3PLM):
式中,D为常数1.7;e为自然对数之底;j为被试编号;θj为第j位被试者的能力值;i为项目编号;ai,bi,ci分别表示第i题的区分度参数、难度参数、猜测系数;Pij(θj,ai,bi,ci)表示能力为θj的被试j答对第i题的概率。
本文考虑到实际用户英语能力水平以及模型复杂度,采用单参数模式。英语单词使用已有单词难度算法[6]计算并经过专业英语老师人工校验后的2 w英语单词作为词库。
2 算法分析
实施CAT有6个关键部分,依次是确定模型、建立题库、设置初始条件、能力估计方法、项目选择方法和测试终止条件[7],如图2所示。
2.1 初始条件的设置
首先,粗略估计被试者的初始能力值。m表示在该过程中测试的题目数量,x表示该过程中被试答对的题目数量,θ0为被试者的初始能力值[8]:
2.2 被试者的能力估计
准确估计被试者的能力水平是CAT顺利进行的前提,因此,采用极大似然估计法估计被试者能力值[9]。
已知某被试者在测验的m个题目上的作答得分数据是x1,x2,x3,…,xm,需要估计未知的被试者能力水平参数θ。该被试者测验得分數据是{X1=x1,X2=x2,X3=x3,…,Xm=xm}这一结果的概率为。θ的合理估计值应使得这种得分模式与其他得分模式相比发生的概率最大。将这种得分模式的概率看作θ的函数,记作L(θ):
称L(θ)为似然函数(Likelihood Function,IF)。极大似然估计就是在参数θ的所有可能取值范围内,求使得L(θ)最大的,将作为被试者能力水平参数θ的合理估计值。为了计算方便,对L(θ)取对数,可以证明函数L(u|θ)和lnL(u|θ)单调相关,两个函数在同样的位置取得最大值。被试者对项目i的反应记作ui(答对为1,答错为0)。那么对数似然函数表达式如下:
是以下微分方程的解:
该方程解析解不存在,只能用数值分析法求解。采用Newton-Raphson法[10],如图3所示,迭代得解。
2.3 测试项目的选择
信息函数是刻画测试项目对不同能力水平被试者的测试有效性的指标。测试项目的信息函数值越大,对被试者能力水平的估计越精确。对于某个测试项目的信息函数为:
其中,Pi(θ)为项目i的被试反应函数,p'i(θ)为项目反应函数对θ的一阶导函数。通过信息函数选择包含信息量最大的题目,就是最符合被试者当前能力值的题目,避免了被试者回答太简单或者太困难的题目。
2.4 终止条件的确定
在测试终止方法上,考虑到测试效果以及用户体验,结合了下列5个条件:(1)达到测试题目数量。(2)达到测试时间。(3)连续两个项目的能力估计值之差小于阈值。(4)连续答对或连续答错题数达到阈值。(5)测试的最大信息量达到阈值[11]。
3 结果分析
在一款英语在线教育产品中,使用了自适应测试作为对用户英语水平和单词量的评估。
理想情况下用户能力估计如图4所示,横轴代表做题数量,纵轴代表能力值。黑线代表用户的真实能力值(﹣1.2),在整个测试过程中是固定值。橙色的线代表用户回答的题目难度,蓝色线代表用户的能力估值。由图4可知答题过程中,题目难度在自适应调整,能力估计值也在修正,最终达到一个相对平稳并且接近真实的能力值。
某用户的实际答题记录:该用户从最简单的题目开始答题,答题过程中间能力估值有过一段震荡,随后趋于平缓,接近用户的真实能力估计,最终在20道题左右终止测试,并且得到了能力估值,如图5所示。
另一位用户的实际答题记录:该用户同样从最简单的题目开始答题,中间经历了更加剧烈的抖动,最后依然在20道题目左右趋于稳定,经过分析,出现剧烈抖动的原因是目前的模型只考虑了题目难度一个维度,而用户在答题过程中存在猜测答案的情况,也是在后续的研究工作中需要考虑的,如图6所示。
4 结语
计算机自适应测试技术已经成熟地应用于许多大型考试,如GRE,GMAT,TOFEL等。计算机自适应测试在保证准确性的前提下,可以减少测试长度、提高测试的效率,此外,还可以消除被试者作弊的可能性,所以自适应测试无疑是教育测试领域的研究热点,具有重要意义。
本研究实现了一种通过自適应测试评估用户英语词汇能力水平以及词汇量的方法。经过测试和产品用户反馈可以得到一个比较良好的评价结果,下一步将考虑使用更加复杂的多参数模型和更加快速和稳定的能力评估算法。
[参考文献]
[1]路鹏.计算机自适应测试若干关键技术研究[D].长春:东北师范大学,2012.
[2]WAINER H,MISLEVY R.Item response theory,item calibration and proficiency estimation[M].New Jersey:Lawrence Erlbaum Associates Publishers,1990.
[3]LORD F M.A broad-range tailored test of verbal ability[J].Applied Psychological Measurement,1977(1):95-100.
[4]HAMBLETON R K.Principles and selected applications of item response theory[M].New York:Educational Measurement,1989.
[5]BIRNBAUM A.Some latent trait models and their use in inferring an examinees mental ability[M].New York:Statistical Theories of Mental Test Scores Reading,1968.
[6]于建芳.大学英语六级词汇自适应测试系统的研制[D].济南:山东师范大学,2016.
[7]THISSEN D M,MISLEVY R J.Testing algorithms in H Wainer(Ed.)computerized adaptive testing:a primer[M].New Jersey:Lawrence Erlbaum Associates,2000.
[8]叶华乔.网络环境下计算机自适应考试研究[D].武汉:华中师范大学,2005.
[9]罗照盛.项目反应理论基础[M].北京:北京师范大学出版社,2012.
[10]BAKER F B.Item response theory:parameter estimation techniques[M].New York:Statistical Theories of Mental Test Scores Reading,1998.
[11]梁瑾麟.基于项目反应理论的计算机自适应测试系统研究[D].长沙:湖南大学,2010.