中国汉语水平考试(HSK)远程CAT阅读测试模式研究*

2013-11-08 03:18柴省三
中国远程教育 2013年6期
关键词:自适应性题库测验

□ 柴省三

一、引言

基于项目反应理论(Item Response Theory,IRT)的计算机自适应性语言测试在测量信度(reliability)、测量效率和考试安全性等方面比传统的纸笔测验具有更大的优势[1],因此计算机自适应性语言测试的理论和实践问题正在成为远程教育测量模式研究的热点。为了推广基于国际互联网的远程教育测量模式,为全球考生提供便捷的考试方式,美国教育测量服务中心(ETS)开发的英语作为外语的语言水平测试(TOEFL)已于2005 年正式推出了网络版测量模式——TOEFL iBT[2]。全国大学英语四、六级考试(CET)委员会也从2008年开始进行了若干次远程网络考试的实验研究,为全面实现CET 考试的远程化、网络化和自适应性考试模式奠定了基础。

中国汉语水平考试(HSK)是为测试母语非汉语者(主要是外国人和海外华侨)的汉语水平而设计的国家级标准化考试。随着全球孔子学院教学模式和汉语国际推广形势的迅猛发展,参加HSK 考试的考生人数不断增加。截止到2012 年底,HSK 已经在全球超过95 个国家设立了近400 个考点(参见表1),考生人数已累计超过200 万。HSK 具有考试规模大、考点分布广和考生来源国家较多以及考生的母语背景多元等显著特点。为了提高HSK 考试的信息化水平,给国内外考点的考生提供个性化服务模式,从2010 年起,HSK 在美国、加拿大等国以及国内的部分考点采用了纸笔测试(Paper-and-Pencil Testing,PPT)和计算机测试两种模式并行进行施测,考生可以根据自己的实际需求选择报考任意一种测量模式。每年有几万名考生在世界各地通过国际互联网和计算机终端完成了远程HSK 测试,在相当程度上提高了测量、评分和分数报告的效率,并为大规模远程自适应性测量系统的开发、推广和普及积累了丰富的研究成果和实践经验。

表1 HSK海外考点基本情况

然而,从测量的理论基础和计算机操作的逻辑过程来看,无论是基于Internet的网络版TOEFL考试还是HSK 考试都不是真正意义上的完全计算机自适应性考试[3][4]。其中,TOEFL 远程考试没有完全实现计算机自适应性考试的主要原因有两个:其一是出于题库维护成本和考试安全性的考虑;其二主要是因为部分考试内容,特别是阅读理解测试部分的考试题目,在计算机自适性选题参数和智能选题过程方面还存在诸多制约[5]。对于HSK的远程考试而言,网络版HSK仍然是以经典测量理论(CTT)为基础的纸笔测量模式的平行迁移。同样,大学英语考试(CET)尚未完全采用CAT 考试的重要原因,除了考试规模、远程技术、网速和考试安全等方面的因素之外,还因为在阅读理解测验的选题标准和参数体系方面尚存在一定的制约因素。由此可见,阅读理解测验中的智能选题方法和参数标准的确定问题,已经成为国内外大规模远程自适应性语言测试模式推广与应用中必须面对的最大挑战之一[6][7][8]。基于上述考虑,本文将首先对计算机自适应性远程语言测试原理进行简要介绍,然后参照国外最新研究成果,介绍以文本属性参数为标准代替项目属性参数作为计算机自适应性考试的操作模式,以期本研究思路对未来中国汉语水平考试(HSK)和国内其它语言测试在阅读理解测验的远程CAT系统设计和开发过程方面提供借鉴。

二、远程CAT语言测试的基本原理

远程计算机自适应性测试(Computer-Adaptive Testing,CAT)与基于计算机的考试(Computer-Based Testing,CBT)是当代计算机科学和互联网技术相结合在远程教育测量模式中的两种重要考试方式[9][10]。其中,CBT 是传统的纸笔测试方式(PPT)向网络化和远程化考试的平行迁移,其实施的远程技术要求和题目的呈现方式已经相对比较成熟,因而在提高测验效率、完善考试内容和分数处理自动化等方面均具有纸笔测试无法比拟的优势,而且其实际应用和普及范围比CAT 模式更广泛;CAT 与CBT 相比最大的优点在于:可以更充分地利用当代计算机科学和互联网技术,以项目反应理论(IRT)为基础设计自适应性考试系统(CAT System),并为全球各地的考生提供“因材施考,按需施测”的个性化测量模式,在测量的科学性、测量误差控制等方面具有独特优势,是未来远程语言测试模式发展的主流方向。

(一)CAT测试的原理

所谓远程CAT 语言测试,就是以现代教育测量理论为基础,充分利用计算机科学和互联网技术进行远程考试组织和施测的方式。CAT 考试过程中,系统可以根据考生语言水平自动从统一的题库(Item pool)中选择题目并进行个性化远程测量。尽管CAT 测量模式既可以采用非远程、单机测验形式,也可以借助互联网进行远程考试形式,但由于受题库的物理存储、安全和更新方面的限制,不可能在每次考试之前分别为每一个考生或部分考生预装相同的题库,特别是对于考试规模巨大、考点分布距离较远的全球性语言测试而言,比如汉语水平考试(HSK)、TOEFL 等,更是如此。因此,计算机自适应性考试(CAT)只有采用远程测量模式才能充分发挥其优势。远程CBT 考试与远程CAT 考试的本质区别在于:前者仍属于定长、定时测验,测试过程和测试内容不具备任何自适应性特征(adaptability),即所有考生无论其语言水平差异有多大,都必须在规定时间内完成相同的测验题目[11][12][13];而CAT考试则是一个根据考生语言水平不同可以自动进行智能化选题的考试技术,因而考生在测验中只需回答与自己语言水平相当的题目即可,一旦测验满足既定的误差控制要求,系统将自动终止对该考生的测量过程,并提供在线分数报告。远程CAT 测量系统的设计必须以远程教育信息技术和项目反应理论为先决条件(prerequisite),并以题库、考生信息管理数据库为基础,实现远程考试中心和远程考生终端的集成化管理(如图1)。与传统的纸笔测试模式相比,远程CAT 语言测试模式具有如下明显的优势:

图1 远程CAT语言测试组织示意图

1.考试安排具有高度灵活性

现代网络技术和计算机科学的发展使CAT 测量模式根据全球不同考点或不同考生的要求随时提供远程测试,而不必像传统的纸笔测验那样采用全球、全国统一的考试时间,考试安排(scheduling)更加灵活,并将考试对不同时区考生的时空限制降低到最低限度,因而考试的次数和时间安排也更符合考点和考生的实际需求。

2.测试过程更富有人性化

由于远程CAT 语言测试模式采用的是自适应性选题技术,因此系统可以根据考生的语言水平自动选择最接近考生语言能力的题目进行测量,而不必让考生回答难度水平已经明显高于或明显低于自己语言水平的题目。这样,一方面有效地缩短了考试时间,提高了考试效率;另一方面也提高了测量的准确性,考试过程更符合个性化和人性化要求。

3.测试标准化程度更高

由于远程CAT 测量模式完全由计算机系统控制,考试指令更加明确、规范和统一,考试程序完全相同,从而避免了在传统的纸笔测试中因试卷印刷、监考行为和指令发布等方面存在的无关因素对测量结果产生的干扰。

4.测验内容效度更高

在传统的纸笔测试方式中,由于受测验题目呈现方式的限制,语言测试的内容或题目经常因为脱离目标语言应用情景而导致测验任务缺乏真实性(authenticity),从而影响测验的内容效度。远程CAT语言测试方法可以充分利用多媒体技术设计更加丰富和真实的考试内容,不仅可以提高测验任务的互动程度,而且还可以提高测验的构想效度(construct validity)[14][15]。

5.分数处理效率更高

远程CAT 考试不仅可以对考生的表现情况进行在线(on-line)评分,还可以针对考生的测验表现提供丰富的评价信息,因此测量模式更符合现代语言教学和语言测试的认知诊断性(diagnostic)发展趋势。另一方面,评分过程比较客观,分数处理准确性更高,考试结束后,考生可以立即获得一个标准的分数报告(score report)。

除此之外,远程CAT 语言测试在题库的存储、维护、等值、更新、激发考生动机以及确保考试安全性等方面也具有纸笔测验不具备的诸多优点。

(二)远程CAT语言测试的题库建设

远程计算机自适应性语言测试系统的开发必须经过两个阶段:第一阶段是题库的建设,第二阶段是基于题库的远程CAT 系统设计。所谓题库就是大量测验题目的集合,而且其中的每个测验题目都必须被标注完整的参数体系(parameter system)。参数的估计是在对目标被试进行大样本实测或预测基础上获得的。如果题库中的题目没有完整的描述性参数(比如难度、区分度和猜测度)指标,那么远程CAT 测试系统的适应性逻辑过程就无法实现[16],所以,题库建设是实现CAT 测验方式的必要条件。题库的建设包括三个基本步骤(如图2):

图2 CAT测试题库建设过程

1.命题与组卷

命题不仅是纸笔测验方式的核心工作,同时也是题库建设的必要条件。题库的基本单位是试题(items),试题的质量将直接影响题库的性能。所以,命题工作必须要在专业命题人员的指导下,由专职汉语教师参照测试的目的和内容,严格按照测验细目表(specifications)的要求进行命题。在题目编写结束以后,为了在测试基础上获得测验题目的参数指标,首先要进行组卷工作(assembly)。组卷的过程应参照拟采用的CBT 测量模式或纸笔测量模式的要求编制标准的定长测验(fixed form test),以便对目标考生进行团体施测。

2.测试

在命题和组卷工作完成以后,再选择目标考生进行实测或预测,以便获得估计题目参数所需要的基本数据。实测是指以CBT 或PPT(纸笔测试)方式对考生进行正式测试的过程,考试结束后在为考生提供标准成绩报告的同时,还要根据预先选择的IRT模型继续估计题目的参数,并将符合参数指标要求的题目全部保存在题库中,以便为进一步开发CAT 考试系统提供测量基础;预测(pretest)则是为了积累题库中的题目数量或获得题目参数而对部分考生进行的一种实验性测试。题库的规模只有在不断积累纸笔测试或CBT 测试题目的基础上才能达到一定的数量要求。如果题库内测验题目的数量太少,在远程CAT测试中的题目曝光率(item exposure)就无法控制,题目指标的分布就会不均衡,因而也就无法满足大规模施测时对不同水平考生的适应性测量要求[17]。

3.参数估计与等值

题库不同于“卷库”,它不是测验题目的简单积累或追加。题库中的题目必须具备完整的描述参数,否则系统就无法针对不同语言能力的考生从题库中自动选择适应性题目。所以,在纸笔测试和CBT 测试结束以后,必须基于适当参数的IRT模型,借助计算机对每个测验题目的区分度(参数a)、难度(参数b)和猜测度(参数c)等进行参数估计和标注,以便为远程CAT 语言考试系统的实现提供智能化选题标准和进行能力估计的参数体系。在所有测验题目的参数估计结束以后,还要对题目的参数进行等值化处理(equating),以便将它们统一到同一个单位系统上,确保题目参数的稳定性、准确性和可比较性。

(三)远程CAT语言测试的制约因素

远程CAT 语言测试模式的理论基础是项目反应理论(IRT)。项目反应理论研究的主要内容就是被试在测验题目上的答对概率(反应行为)与测验题目所测的潜在能力或者说语言水平之间的函数关系(如图3),即项目特征曲线(ICC)[18][19]。

图3 项目特征曲线

项目特征曲线是以潜在特质水平(θ)为横坐标,以被试正确回答的概率值P(θ)为纵坐标,以此反应项目为基本特征的曲线。其中b是该测验项目的难度参数,并与被试的能力水平θ 定义在同一个量表上,b 值的大小与项目特征曲线(ICC)斜率最大处在能力量表(横坐标)上所对应点的θ 值相等,也就是曲线拐点所对应的能力值。项目的区分度由参数a表示,是曲线拐点处切线斜率的函数,斜率越大,曲线在b 点附近就越陡峭,项目的区分度也就越大(a值越大),反之,a 值越小。项目的猜测度反映的是考生在不具备或没有达到项目所测能力水平时随机猜测的概率值的大小,通常用参数c表示。该模型也可以用以下三参数逻辑斯蒂克模型(logistic model)进行数学描述:

由上述项目特征曲线可出看出,不同能力水平的考生在同一个测验题目上答对的概率不同,同一个考生在难度等参数不同的题目上答对的概率也不相同。因此借助上述模型和计算机技术就可以根据被试的能力水平和每个题目的具体参数从题库中智能化地选择题目。同时,系统也可以根据测验题目的属性参数和考生的表现情况估计考生的语言能力。由此保证测验题目的难度水平与考生的能力水平最匹配,不同能力水平的考生可以不必回答完全相同的测验题目,从而获得最佳测验精度和提高测验的效率[20][21]。所以,根据测验题目的属性参数选择测验题目进行个性化测试是远程CAT语言测试的关键环节。

三、实现HSK远程CAT模式的制约因素

实现远程CAT 语言测试模式的基本条件包括三个主要方面:一是计算机科学和技术;二是互联网技术;三是以IRT 为基础的题库建设和随机选题方法。进入本世纪以来,计算机科学和国际互联网技术的高速发展已经为远程CAT 测试模式的开发和普及奠定了良好的基础。而基于题库系统的参数结构和自动选题技术则是目前制约国内外包括TOEFL、CET 和HSK等远程CAT测量模式实现的重要“瓶颈”之一。

一般情况下,大规模、综合性语言测试通常都是由听力、语法、阅读和填空等若干分测验构成的集成式测验体系,测验中的很多题目都是基于共同的输入材料所编制的,而不是由完全孤立的测验项目所构成的。比如在篇章型阅读理解测验中,考生只有在对一篇阅读理解材料进行完整阅读的基础上,才能回答根据该阅读材料编制的若干多项选择题(multiplechoice items)。显然,在远程CAT 语言测试的实现过程中存在一个明显的制约因素,即考试题目的智能选题过程是以测验的项目为单位,还是以整篇阅读材料为单位。如果完全按照三参数IRT理论的逻辑斯蒂克模型来选择题目,就会发生不同测验题目的难度值可能满足对不同语言水平的考生的测量要求,但他们还必须阅读相同材料的现象。此时,考生对不同测验题目的回答情况并不能完全反映考生对同一篇阅读材料的理解水平。为了克服上述因素对远程CAT 测量模式的限制,国内外大型语言测试机构分别采用了一些相关的妥协方案。目前,TOEFL 考试采用了远程“CAT+CBT”混合的测量模式,回避了阅读理解题库参数结构和能力估计要求之间的矛盾,即对分离式客观题采用完全CAT 测量方式,而对阅读理解测验则采用“定长”和“定时”的远程CBT 测量模式。同时,ETS目前也正在进行基于文本难度参数法的多阶段适应性考试(Multistage Adaptive Test,MST)方法的对比实验[22];国内CET 考试则仍处在对远程CBT 考试和CAT 考试的实验研究和尝试阶段。中国汉语水平考试在远程CBT 考试方面已经取得了初步成功,但在未来HSK 远程CAT 测试系统的设计构想中,针对阅读理解测验的智能选题标准和题库参数结构体系的设计问题,将不可避免地成为影响测量系统设计成功与否的关键因素之一,或者说HSK 远程CAT 测试模式的实现必须首先考虑阅读理解测验中题库参数和选题的技术问题。

四、CAT阅读理解测试的实现方式

为了解决远程CAT 阅读理解测试模式中存在的上述诸多制约,国外远程教育测量领域、信息技术领域和教育测量界的不少研究人员先后进行了若干实验研究,并尝试采用包括多级项目反应模型(polytomous IRT)、题组反应理论(TRT)模型等在内的各种参数选择标准。不过,由于这些方法目前尚处在理论探索阶段,并且还存在其他许多不成熟的地方,所以上述模型并不能完全解决远程CAT 阅读理解测试的可行性问题[23]。

近年来,国外部分学者(Luecht et al,2006[24];Yang et al,2011[25])在大量蒙特卡洛(Monte Carlo method)实验研究的基础上提出了远程CAT 阅读测量模式的文本属性参数法,亦称之为文本难度参数法。文本难度参数法的应用,不仅能够充分发挥和挖掘CAT 测量模式的各种优势,克服智能选题参数的制约,还可以充分顺应计算机自适应性语言测试发展的历史趋势。文本难度参数法的实现包括题库参数的完善和测试过程的逻辑设计两个阶段。

(一)题库结构与参数体系

所谓文本难度参数法(readability parameter approach),是为了解决传统CAT 阅读理解测验题目选择过程中存在的操作矛盾,采用文本难度参数作为考生语言能力的适应性选题标准,实现对考生语言水平的远程测量。文本难度参数法,也称之为多阶段法或文本路径漫游法[26],即在CAT 测验系统的智能选题中不是以测验题目的属性参数(a、b和c)为标准,而是以整篇阅读材料的难度参数为标准进行文本的逻辑选择。系统根据对被试阅读能力的初步估计结果一旦选择一篇阅读材料,那么考生将在阅读该文章的基础上必须回答基于该文本编制的所有测验题目,无论其中的个别测验题目的难度是否完全与考生的能力水平相匹配。同时,系统在对被试的阅读能力(θ)进行估计时则仍然以测验项目的难度、区分度等项目属性参数为基础进行统计分析[27][28]。一方面可以有效地避免不同能力水平的考生虽然所回答的题目不同,但又必须阅读同一篇阅读材料的矛盾,另一方面还可以充分利用每个测验题目的参数信息对被试的阅读水平进行准确的估计,从而充分发挥和实现远程CAT考试的潜在优势。

实现文本难度参数法的前提是必须对题库的参数系统进行更新和完善,即在题库建设阶段,除了估计传统的项目参数之外,还必须借助计量语言学(computational linguistics)的方法对每篇阅读材料的难度或易读度参数(readability,用参数R 表示)进行估计,同时由命题专家对文章的题材(topic,用参数T 表示)和体裁(genre,用参数G 表示)等属性进行人工标注[29]。这样题库的参数体系除了包括一般项目特征维度以外,又额外增加了一组文章属性和难度描述参数(如图4)。其中文章属性参数包括参数R、参数T 和参数G。这三个参数主要反映的是文章本身的难度和其他属性,并且可以用做控制智能选题的逻辑路径(logical routines)。而题目属性参数则是由测量模型针对每个题目进行估计所得到的难度、区分度和猜测度等参数,这些参数描述的对象是具体的测验题目而不是整篇文章,它们主要用于对被试的综合阅读水平进行精确的估计[30][31]。

图4 CAT阅读测试题库参数系统结构

(二)远程CAT阅读测试的逻辑过程

基于文本难度参数法实现远程CAT 阅读理解测试的基本原理是:考试的自适应性智能选题的单位是以整篇阅读材料为基础,文本选择的标准是阅读材料的属性参数,其中主要是参数R。同时,为了避免同一个考生在阅读过程中重复阅读难度不同但题材和体裁相同的文章,在文章选择过程中还要参照参数T和参数G 作为文章选择的二级和三级控制变量,从而保证考生阅读的文章不仅在难度方面具有较高的适应性,而且还可以有效地平衡文章题材和体裁的呈现频率。文章选择过程完成后,考生的阅读能力值(θ)则完全是根据与文章相关的测验题目的参数进行估计(如图5)。具体的测验过程包括初测和正式测量两个核心阶段。

图5 基于文本难度参数的CAT阅读测验过程

1.初测阶段

初测阶段也称之为摸底测试阶段,主要是对所有被试的阅读水平进行一个粗略的估计,以便判断正式考试阶段应该为每个考生提供的阅读材料的难度水平。因此考生在摸底阶段的表现一般不计入考生最终的评价结果中。在初测阶段,CAT 系统将根据文本的难度参数值为所有的考生随机呈现一篇中等难度(以R 的平均值为依据)的阅读文章及其与该文章相关的j 个测验题目(S1-Sj),考生阅读完该文章和完成测验题目后,系统立即根据题库中的题目属性参数(item attribute parameters)对 被 试 的 阅 读 水 平(θ)进行估计,同时参照每个考生在初测阶段的表现水平再决定正式考试阶段将要阅读的文本难度。

2.正式测量阶段

如果考生在初测阶段的表现水平较高,那么系统将采用随机抽样或分层随机抽样的方法,从题库中选择一篇比初测阶段阅读的文章更难的阅读材料让考生阅读;反之,如果考生在初测阶段的表现水平较低,那么系统就继续选择一篇比初测阶段更简单的文章让考生阅读。只要考生完成针对当前文本材料的阅读过程并提交选择答案后,系统将对考生的阅读能力值进行即时估计,并判断测验是否满足结束的标准。如果测验的信息函数值(test information function)达到了事先设定的误差控制要求,那么测验即告结束。系统将估计考生的最终阅读能力值和信度指标,然后进行分数处理和转换,最后继续进行其他部分的测验。如果测验尚未达到结束的标准,那么系统将按照上述逻辑过程为考生提供适当难度的阅读文章和题目继续测试,如此不断循环直到考试满足结束的条件。

文本难度参数模型在远程CAT 阅读理解测验中的精髓在于:测试过程采用文本属性参数(passage attribute parameters)和题目属性参数分别满足自适应性考试的文章选择和能力估计的测量要求,可以有效避免阅读材料和测验题目之间的逻辑脱节现象。这种测验模式,不但充分发挥了阅读材料难度的语言学评价优势,避免了命题过程中引入的命题者构想无关变异(construct-irrelevant variance)因素对测验构想效度的潜在威胁[32],而且还可以借助先进的计算机科学和信息技术将现代教育测量理论的自适应性优势发挥,从而为考生提供更准确和更富有针对性、个性化的测验服务。

五、结束语

以当代信息技术和项目反应理论为基础的远程计算机自适应性(CAT)汉语水平考试(HSK)是未来发展的必然趋势,不少传统的分离式(discrete)测验题目尽管在测量效率和远程CAT 的实现方面具有一定的优势,但是现代语言测试更追求对被试语言能力的综合性评价,这种传统的测验方法已经越来越难以适应语言测试的效度要求。因此,要全面实现HSK 的远程CAT 测量模式,必须首先解决阅读理解测验等综合性测验内容的题目选择问题。本文介绍的文本难度参数法,不仅可以解决阅读材料的选择单位问题,还可以充分利用测验题目的微观信息(题目属性参数)实现对被试阅读能力的准确估计。当然,由于这种测量模式是基于英语考试的最新研究成果之一,国外针对英语阅读材料的难度参数的计算机自动估计技术已经相对比较成熟,而汉语阅读文本难度的自动估计在准确性方面尚存在一定差距,因此,为了稳妥、积极地开发、推广和普及远程自适应性汉语水平考试(HSK),我们有必要结合汉语自身的特点,首先对汉语文本难度的计算机自动估计手段进行探索,然后采用文本难度参数法,在局部实验的基础上逐步实现HSK考试的完全远程自适应性测量模式。

[1]Jamieson J.Trends in computer-based second language assessment[J].Annual Review of Applied Linguistics,2005,(25):228-242.

[2][22]Fulcher G.Practical Language Testing[M].London:Hodder Education,2010.

[3]Sawaki Y.,Stricker L.,&Oranje A.Factor structure of the TOEFL Internet-based Test(iBT):Exploration in a field trial sample[R].Educational Testing Service.TOEFL Research Report:08-09.Revised November 2,2008,from Http://www.ets.org/Media Research/pdf/RR-08-09.pdf.

[4]唐进.计算机化语言测试题库与CET4 的对比实验研究[J].外国语言文学,2011,(1):32—37.

[5]Ockey G J.Developments and Challenges in the Use of Computer-Based Testing for Assessing Second Language Ability [J].The Modern Language,2009,(93):836-847.

[6][20]Chalhoub-Deville M &Deville C.Computer adaptive testing in second language contexts [J].Annual Review of Applied linguistics,1999.(19):273-299.

[7][27][29]Chalhoub-Deville M.Issues in Computer-adaptive Testing of Reading Proficiency [M].Cambridge:Cambridge University Press,1999.

[8][18]蔡旻君,刘仁云.计算机辅助教育测量与评价[M].北京:中国水电出版社,2010.

[9]李建珍.教育传播理论在信息化自主学习中的运用[J].电化教育研究,2006,(7):30-33.

[10]Rover C.Web-based language testing [J].Language Learning &Technology,2010,5(2):84-94.

[11]Sawaki Y.Comparability of conventional and computerized tests of reading in a second language [J].Language Learning &Technology,2001,(2):38-59.

[12][26]杨建原,柏桧,赵守盈.计算机自适应性测验开发的程序研究[J].中国考试,2012,(3):3-7.

[13][19]简小珠,张敏强,彭春妹.计算机自适应性测验的测试流程与测试技术[J].教育测量与评价,2011,(12):9—14.

[14][32]Alderson J C.Assessing Reading [M].Cambridge:Cambridge University Press,2000.

[15][25][30]Yang M.Computer-Adaptive Testing of ESL Reading Proficiency[J].Read and Write Periodical,2011,(3):10-11.

[16]熊春明,吴瑞.纸笔测验和计算机自适应测验的比较研究[J].计算机与现代化,2006,(9):28-35.

[17]Douglas D &Hegelheimer V.Assessing language using computer technology[J].Annual Review of Applied Linguistics,2007,27:115-132.

[23][24][28][3]Luecht R M,Brumfield T,Breithaupt K.A testlet assembly design for adaptive multistage tests [J].Applied Measurement in Education,2006,19(3):189-202.

猜你喜欢
自适应性题库测验
“勾股定理”优题库
“轴对称”优题库
高校外籍教师自适应性调整探索——基于四川文理学院8名外教非结构式访谈的定性研究
“轴对称”优题库
《新年大测验》大揭榜
基于非线性多输入多输出近似动态规划的发动机缸平衡智能调节算法
自适应语控智能会议系统中的技术及设备解析
两个处理t测验与F测验的数学关系
水下大坝裂缝图像分割方法研究 
你知道吗?