柴省三
摘 要:随着计算机信息技术的发展和多媒体网络教学设备的日益普及,基于项目反应理论(IRT)的计算机自适应性(CAT)语言测试由于在测验信度、测验效率和考试安全性等方面比传统的纸笔测验具有更大的优势,因此针对计算机自适应性考试的理论问题和实践问题正在成为教育考试信息化研究的热点之一。文章在对自适应性考试原理进行考察的基础上,专门就计算机自适应性语言测试,特别是对国内外计算机自适应性阅读理解考试过程中遇到的智能选题单位和方法问题进行了探讨,并对具体的解决途径进行了研究。
关键词:教育信息化;计算机自适应性考试;考试信息化;语言测试
中图分类号:GTP393文献标志码:A 文章编号:1673-8454(2014)08-0081-05
当代计算机科学的日益普及和信息技术及网络技术的高速发展,不仅对语言教学模式和语言教学手段的完善发挥了重要作用,而且还全面提升了教育信息化和考试信息化的水平。进入本世纪以后,以项目反应理论(Item Response Theory,简称IRT)为基础的计算机自适应性考试模式(Computer-Adaptive Testing,简称CAT),在国内外语言测试领域的应用已经由理论探索阶段进入了实践探索阶段。2000年,美国ETS(Educational Testing Service)即开始对计算机自适应性TOEFL考试的可行性问题进行了实验研究,并于2005年正式推出了计算机网络版的TOEFL考试(internet-Based TOEFL,简称TOEFL iBT)。与此同时,美国大学入学考试(SAT)、研究生入学资格考试(GRE)以及全美建筑师资格考试等也相继尝试将传统的纸笔测试方式向计算机自适应性测试方式过渡(Sawaki et al.,2008)。
从上个世纪末开始,国内也陆续对计算机自适应性考试进行了许多探索。漆书青、戴海崎(1986)、谷思义等(1990)分别对CAT测验的模式和在英语水平测验中的应用问题进行了初步探索;谢小庆(2008)教授对中国汉语水平考试(HSK)自适应性测试的可行性问题进行了实验,并开发出了国内第一个计算机自适应性HSK模拟考试系统;2008年,全国大学英语四、六级考试也对自适应性测验方式进行了尝试。综观上述研究成果,我们不难发现,计算机自适应性语言测试在考试个性化、测验信度和测验效率等方面确实具有纸笔考试无法比拟的优势。不过,上述研究主要是针对以分离式(discrete)、客观性多项选择题为主要测验方式所进行的探索和研究,不少研究成果对于传统的基于共同刺激材料(stimulus)的阅读理解测验项目的CAT考试却鲜有涉及。因此,本文将在对CAT测验原理和测试逻辑过程进行考察的基础上,专门就CAT在阅读理解测验中的计算机智能选题方法问题进行研究。
一、计算机自适应性考试的原理
计算机考试和计算机自适应性考试是最近几年国内外语言测试和教育测量界研究的热点问题之一,由于两种测试方式所依托的信息技术背景完全相同,而且与传统的纸笔测验方式存在显著的差异,所以两者经常被误解,因此我们有必要首先澄清两者之间的基本关系。
所谓计算机考试,顾名思义,即被试通过计算机终端完成测试的过程,也称之为基于计算机的考试(Computer-Based Testing,简称CBT)。而计算机自适应性考试的标准英文名称则是“Computer-Adaptive Testing”或“Computerized Adaptive Testing”,简称为CAT。CBT和CAT之间存在很多相同的地方,但也存在本质的区别(见图1)。
首先,CBT和CAT考试都是以计算机科学和网络技术为依托,测验的内容都是通过网络化传递和呈现,考生全部在计算机上完成测试的过程。与传统的纸笔测试相比,CBT和CAT的考试效率和评分效率更高,答题的方式更加便捷(熊春明,吴瑞,2006)。
其次,CBT和CAT也存在若干不同的地方,其中最本质的区别在于两者的测量理论基础完全不同。CBT考试的理论基础是经典测量理论(Classical Testing Theory,简称CTT),而CAT考试的理论基础则是现代项目反应理论。所以,基于计算机信息科学和网络技术,不仅可以开发和实施CBT考试,也可以实施CAT考试,甚至还可以进行CBT和CAT混合型考试模式的设计,即半适应性测验,因此,两者的差异不是体现在信息技术手段方面,而是测量理论和计算机施测时的计算模型方面。
在CBT考试中,所有的考生,无论其语言水平差异有多大,都必须在相同的时间内完成由相同题目构成的定长测验。由于考生的语言水平和测验题目的难度指标一般符合正态分布(见图2),因此,难度较低的部分题目,比如N1和N2部分的题目对于考生团体中语言水平较高的E组和F组考生而言,由于题目的难度水平已远低于其语言水平,所以考生在回答这部分题目时根本无法获得有效的分数差异(ceiling effect)。同样,对于语言水平较低的A组和B组考生而言,试卷中较难的N5和N6部分题目的难度则太难,考生在回答这部分试题时就会产生地板效应(floor effects),即考生的分数普遍较低,考生对这部分测验题目的回答几乎无法提供任何测量信息。另外,由于受CTT测量理论的严格平行测验假设的限制,在CBT考试中,考生答对任何一个题目所获得的分数都相同,即答对相同题目数量的考生被认为具有相同的语言能力。事实,考生答对题目的难度不同,其语言水平也必然存在本质的区别。
基于IRT理论的CAT考试则可以克服CBT考试上述之不足。在CAT考试中,考生的语言水平不是单纯地以定长测验的总分来表示的,因为每个测验题目的难度、区分度和猜测度不同(b,a,c参数不同),所以不同能力水平(θ)的考生答对每个测验题目的概率值也就不同,并且概率值可以用下列公式进行估计。
P(θ)=C+(1-c)
其中,Pi(θ)表示具备能力水平θ的被试在题目参数为ai、bi和ci的题目上正确回答的概率。同一个测验项目,不同能力水平的考生正确回答的概率不同,相同能力水平的考生回答ai、bi和ci参数不同的题目的概率也不相同。由于在IRT中题目的难度参数不依赖于被试样本,所以,我们就可以借助计算机系统对被试的能力和项目参数分别进行估计,同时将若干题目进行参数估计后建立题库(item bank)和进行等值处理。参数完备的测验题库是CAT考试设计的必要条件之一,因为CAT考试的主要优点就是“量体裁衣”式的考试,只有具备数量较大、参数完备的题库后才能借助计算机技术参照被试的不同水平进行随机选择题目,以保证每个考生回答的测验题目的难度与其能力水平最接近,从而不必回答那些难度水平明显高于或低于其语言水平的题目,从而既提高了测验的效率,也确保了测验题目对不同被试水平的测量可以提供最大信息函数值(item information)。
二、CAT测试的基本过程
计算机自适应性考试的实施必须满足三个基本条件:一是事先必须建立一个容量较大的题库,并对每个测验题目进行参数估计和参数量表化处理(scaling),以保证题库具备适应测量不同语言水平被试的足够题量。二是成熟的计算机技术和网络信息技术的支持。三是采用优化的计算方法和操作程序,保证考试过程中的即时能力估计和选题策略。目前,计算机科学和网络技术的发展已经足以满足CAT考试的实施条件(巫华芳,2011),因此,决定CAT考试可行性的关键因素是题库建设、题库维护和能力估计的优化算法以及选题策略。根据国内外计算机自适应性考试的研究成果,CAT语言测试的基本流程包括初测、实测和结果处理三个逻辑过程(参见图3)。
1.初测阶段(piloting)
CAT考试的精髓就是针对不同水平的考生提供不同难度的测验题目,因此初测阶段主要是对被试的语言水平进行初步的估计,以便判断考生在正式考试阶段首先作答的题目难度。在初测阶段,计算机CAT系统首先从题库中随机抽取少量(5-10个)的中等难度的题目让被试作答,同时计算机系统通过期望能力法(EAP)或最大似然估计法(MLE)对被试的水平进行在线(on-line)估计,从而判断正式考试阶段对每一个被试第一次呈现的题目难度。初测阶段的操作机制与眼科大夫根据国际标准视力表检查学生的裸眼视力时第一次选择辨别符号的方法一样。检查者首先让被试辨别几个代表中等视力的符号“E”,然后根据学生反应的正确情况再决定继续让被试辨别的视力符号的级别,这样不断循环,逐步逼近学生的真实视力水平后即可终止检查过程,从而可以在最短的时间内准确地判断被试的视力水平。
2.实测阶段(formal administration)
CAT考试的实测阶段是考试的核心阶段。根据初测阶段的结果,计算机从题库中随机选择并呈现一个与被试初测水平最匹配的题目让被试回答,回答结束后,系统马上根据回答的结果判断下一个应该呈现的题目难度,并计算测验的信息函数值是否达到了终止测验的标准。测验的信息函数值(information function)是反映测量准确性的关键指标,它是测验项目信息函数值的总和,其具体估计公式如下:
1(θ)=
其中,P1i(θ)是Pi(θ)的一阶导数,Qi(θ)=1- Pi(θ),据此,我们可以得出满足信息函数值最大化的项目与能力值之间存在如下关系:
θ=b+loge
当Ci=0时,在能力量表的bi点上,题目i提供的信息量最大,即当被试的语言能力水平与项目的难度值相当时,项目对被试的测量准确性最高。所以,在选择下一个测验题目时,如果被试答对了项目I(j),并且测验的信息函数值I(θ)还没有达到终止测验的标准,那么系统就会继续给被试随机提供一个难度更高(b值更大一点)的项目I(j+1);如果被试答错了项目I(j),系统则会为被试随机提供一个难度更低的项目I(j+1),并继续计算被试的反应结果和测验信息函数值,如此不断循环,直到满足结束标准(达到预先设置的信度要求)后,实测阶段即告结束。
3.处理结果(score transformation and report)
CAT考试的最后阶段是在测验满足终止(end-up)条件后,首先对每个考生的能力估计值进行计算,然后进行分数转换,并给每个考生报告一个便于理解的标准化测验分数(standardized score)和测量的标准误(信度值),最后宣布考试结束。
三、CAT在阅读测验中的智能选题策略问题
阅读理解能力是一个人语言水平高低的重要标志,因此,国内外几乎所有的外语测试或第二语言测试都将阅读理解能力的测量作为考试的重要组成部分,而且基本上都是采用经典的篇章阅读测验方式对被试的阅读水平进行考查,即命题者首先选择若干适当长度的阅读材料(passages),然后针对每篇阅读材料命制适当数量的多项选择题让考生回答,从而通过考生对测验题目的回答情况推断其阅读理解水平的高低。
这种经典的测量方式可以比较准确、全面地评价考生的综合阅读理解能力,具有较高的构想效度(construct validity ),因此在未来一个相当长的时间内,教育测量领域还无法找到其他替代的测量方式。不过,CAT考试中的即时能力估计和选题策略基本上都是以二分记分(dichotomous)模式的孤立测验项目为基础的,因此,在CAT测验方式中,就必然会面对这样一个特殊的困境:基于同一篇阅读材料命制的题束内测验项目之间的难度并不相同,如果仅以题目的难度参数作为标准选择题目时,不同能力水平的考生必然需要回答不同的测验项目,同时还必须让考生阅读相同的阅读材料,否则考生就无法对测验的题目做出回答。然而,考生对同一个题束内不同题目的回答,并不能完全反映考生对阅读材料的整体理解水平。另外,如果两个考生分别正确回答了一个难度指数相同、但属于不同文章的题目时,两者的阅读能力也不具有可比性。
所以,为了解决上述测量悖论,在以CAT方式对被试的阅读能力进行测量时,必须以整篇阅读材料为单位,而不是以其中的题目参数值为标准进行题目的适应性选择,否则在考试的可行性和能力的估计方面就会产生逻辑矛盾。目前,国外在实施计算机自适应性语言测试时,主要采用三种方法解决阅读测试的智能选题问题:一是计算机考试和适应性考试的混合设计方式;二是篇章难度系数控制法;三是借助题组反应理论(TRT)的固定路径法(fixed branching routine)尝试解决上述问题,不过该方法目前还不能在CAT中进行实际应用。
1.混合设计模式
在绝大多数语言测试中,为了保证测验的内容效度和避免测验方法引起的构想无关变异(construct-irrelevant variance),测验题目主要以客观性测验方式为主。所以只有在段落听力理解和阅读理解考试部分不得不采用题束方式。为了避免产生CAT考试中的上述选题陷阱,所以不少考试采用“CAT+CBT”混合设计的方式进行施测。在考试开始阶段,首先对考生进行基于CBT的阅读理解定长测验,然后再进行其他部分客观题目的CAT测试。这样,所有的考生必须阅读相同的阅读材料并回答相同的题目,计算机根据每个题目的参数,估计考生的能力和信息函数值。阅读理解测试结束后,再按照严格的CAT模式继续完成其它部分的测验。这样一方面可以充分发挥CAT的优势,同时又可以避免阅读测试中的题目选择问题。目前,“CBT+CAT”混合测量模式是国际语言测试的主流模式之一,其优点是效率高、可行性强,但缺点是两种测量模式的考试结果必须进行复杂的分数合成处理(Chalhoub-Deville,1999;Yang,2011)。
2.篇章难度系数控制模式
篇章难度系数控制模式的CAT考试理论基础源自美国对英语阅读材料的易读度(readability)研究。1948年美国哈佛大学的语言学家和心理学家G. K.Zipf在对大样本语料库(corpus)进行统计研究和变量分析的基础上,提出了书面语言表达中的最省力原则,即:任何作者在用自然语言写作时,都会潜意识地在不违反语言篇章组织原则的前提下,使用尽量简单的词汇和简单的句法表达期望表达的意思,这也是后来被称之为齐普夫定律(Zipfs law)的精髓。齐普夫定律中的词频和句子复杂度是英语阅读材料易读度研究的基础。1995年,Stenner在齐普夫定律的基础上提出了蓝思文本难度计算公式(text difficulty in Lexile),并将其用于英语阅读材料的难度估计(Rover,2001)。
Lexile difficulty=582-386*mean(ln(WF))+1768*ln(mean(SL))
该公式的基本含义是:文章的难度与文章中词频(WF)对数的平均值和平均句长(SL)(平均每个句子中的词汇数量)密切相关。词频越低、平均句长越长,文章的难度越高,即蓝思值越大,反之蓝思值越小。为了保证CAT语言测试中的阅读理解文章的选择具有理想的适应性,在建立题库时,不仅要根据IRT模型对题目的参数进行估计,而且还要对每篇文章的难度Lexile值和相应的题目参数进行计算和标注,从而在CAT考试的选题中根据考生的不同阅读水平,自动从题库中选择满足相应Lexile值的阅读材料。篇章难度系数控制模式的CAT阅读选题和测试过程包括两个阶段,分别是初测和正式施测阶段(参见图4)。
在初测阶段,CAT系统以题库中所有文章的平均难度值为基础,随机选择一篇文章对所有的考生进行施测,并根据考生对文章的整体反应情况,以测验项目为单位即时估计考生的能力值。然后根据考生能力值的不同,再分别呈现较难或较容易的整篇文章而不是单个的测验项目让考生继续阅读。
正式考试阶段,可以根据实际需要设计不同的测量阶段。在初测阶段阅读水平较低的考生将在第二阶段阅读若干篇难度较低的文章,而初测阶段阅读水平较高的考生则在第二阶段阅读若干篇难度较高的文章。在考生回答完每篇文章的所有题目后,CAT系统马上估计每个考生的测验信息函数值,如果达到终止条件,考生的阅读测试即告结束,反之,考生将继续按上述步骤进入下一个测量阶段,直到满足终止条件。在考生完成阅读测验以后,CAT系统将分别估计考生在阅读理解测验部分的能力值,为考生提供最终的测验总分和分测验考试分数。
篇章难度系数控制模式的CAT阅读理解考试,是一个在充分考虑阅读材料难度基础上的智能选题方案。这种测试方法,不是简单地以测验项目的难度值为选题策略,而是充分考虑到文章本身的难度变量对文章和题目难度的影响因素,因而从理论上讲更符合语言学的客观事实。在具体的测量实践中,我们还可以根据测量精度的要求,将题库中所有的阅读材料按照蓝思值的大小进行分层组织,从而构造出更多的智能选题路径(Fulcher,2005),使CAT阅读理解测验的适应性更强,测量的信度和效度更高。
四、结束语
计算机自适应性语言测试,可以提供个性化测量模式并确保测量具有更高的信度与效度,因而CAT考试是未来语言测试和教育测量发展的必然趋势。不过,由于分离式测验题目在考查学生的综合语言能力方面存在诸多不足,尽管采用综合性、整体性测验任务对考生语言能力进行评价的社会需求日益迫切,然而仅靠传统的CAT选题策略已经无法满足对阅读理解测验的考试要求,因而这在相当大的程度上限制了CAT考试模式的推广和普及。所以,为了充分发挥信息技术在语言测试中的作用,我们必须在对测验内容进行深入分析的基础上,采用科学的指标体系和灵活的选题方法才能满足对考生语言水平的自适应性测量。当代计算机科学和多媒体技术与项目反应理论的有机结合为CAT测量方法的实现奠定了基础,同时针对CAT考试中各种可行性问题的探索,特别是对阅读和听力测验中选题方式的探索,也对语言测试研究人员和计算机科学设计人员提出了更高的技术要求。在多级计分IRT模型和题组反应理论(TRT)在计算机自适应性考试的实践中取得实质性进展以前,阅读理解测验的智能选题策略问题仍将是计算机自适应性语言测试普及中必须面对的严峻挑战。
参考文献:
[1]谷思义,漆书青,赖民.中学英语水平计算机自适应测试系统的研制报告[J].外语电化教学,1990(3).
[2]巫华芳.计算机化自适应测验系统的设计与实现[J].科技广场,2011(1):111-113.
[3]熊春明,吴瑞.纸笔测验和计算机自适应测验的比较研究[J].计算机与现代化,2006(9):28-35.
[4]漆书青,戴海崎.项目反应理论及其应用研究[M].南昌:江西高校出版社,1992.
[5]谢小庆.网上模拟HSK考试系统和练习系统[DB/OL]. http://blog.sina.com.cn/s/blog_4cce637301008165.html.
[6]Chalhoub-Deville, M. Issues in Computer-adaptive Testing of Reading Proficiency [M].Cambridge: Cambridge University Press, 1999.
[7]Fulcher, G. Interface design in computer-based language testing[J].Language Testing,2005(4): 384-408.
[8]Rover, C. Web-based language testing Language[J].Learning & Technology,2001 (2): 84–94.
[9]Sawaki,Y.,Stricker,L.,& Oranje,A. Factor structure of the TOEFL Internet-based Test (iBT): Exploration in a field trial sample [R]. Educational Testing Service. TOEFL Research Report: 08-09. Revised November 2, 2008, from Http: //www.ets.org/Media Research/pdf/RR-08-09.pdf.
[10]Yang, M. Computer-Adaptive Testing of ESL Reading Proficiency[J].Read and Write Periodical,2011(3):10-11.
(编辑:鲁利瑞)