美国中小学计算机考试与纸笔考试的可比性研究：现状与展望

2016-02-13 20:14刘香东

中国考试 2016年11期

刘香东

刘香东

本文回顾了近十年来美国中小学有关计算机考试与纸笔考试可比性的实证研究状况，阐述了计算机考试与纸笔考试可比性研究的实验设计、样本选择、年级与学科的选择，介绍了可比性研究的评价标准与工具，总结了可比性研究的阶段性成果。在此基础上，探讨了未来计算机考试与纸笔考试可比性研究的发展方向，并对国内开展相关研究提出一些建议。

计算机考试；纸笔考试；可比性研究

1 引言

电脑与互联网技术的迅速发展为计算机考试的普及提供了可能。与传统纸笔考试相比，计算机考试拥有一些突出的优势：标准化管理、内容更新方便、可使用创新试题、阅卷和报告成绩比较快捷。在从传统纸笔考试到计算机考试的转变过程中，受电脑普及率等因素的制约，有的地区和学校需要同时提供计算机考试与纸笔考试。但是，计算机考试与纸笔考试是否一致？考试成绩是否等效？这些问题均值得研究。正因为如此，教育心理测试标准（The Standards for Educational and Psycho⁃logical Testing）（1999）和国际计算机考试与网上考试标准（International Guidelines on Computer-Based and Internet-Delivered Testing）（2005）都要求对计算机考试与纸笔考试的应用与结果进行可比性研究。

在美国，计算机考试（Computer-Based Test）和纸笔考试（Paper-and-Pencil Test）的可比性研究始于20世纪70年代，但真正的发展和走向繁荣还是近十年的事。本文总结了近十年美国中小学计算机考试与纸笔考试的可比性研究的主要成果,以期为国内开展相关研究提供参考。本文主要针对计算机考试与纸笔考试的可比性研究，但对计算机自适应考试（computer adaptive test）与纸笔考试的可比性研究同样具有参考价值。

2 可比性研究的实验设计、样本选择及年级与学科选择

从实验设计来看，计算机考试与纸笔考试的可比性研究一般采用重复测试（repeated measures or within-subject design）或独立组测试（independent random groups or between-subjects design）两种实验设计方式。

重复测试设计是指对同一组学生计算机考试和纸笔考试的成绩进行比较分析。重复测试设计的好处在于采取同一组学生，两个考试成绩不受学生能力水平差异的外在影响。但是，重复测试设计需要考虑到计算机考试与纸笔考试先后顺序的影响。要平衡这种影响，一般让一半的学生先进行计算机考试，然后再进行纸笔考试，同时让另一半的学生先进行纸笔考试，然后再进行计算机考试。重复测试让同一组学生在一段时间内进行两次内容相同的考试，实施起来相对有些挑战。

考虑到重复测试操作的难度，也有研究者使用独立组测试。独立组测试设计是指随机选取两组不同的学生，让其分别参加计算机或纸笔考试，然后对两组学生的成绩进行比较分析。独立组测试设计的好处在于操作难度较小，不用考虑计算机与纸笔考试先后顺序的问题，但如果参加计算机考试与纸笔考试的两组学生的能力相差悬殊，会影响可比性研究的真实结果。Wang等人进行的K-12数学科计算机考试与纸笔考试可比性研究的元分析（meta-analysis）包含44个可比性研究，其中14个采用重复测试，其余30个采用独立组测试。采用重复测试的可比性研究中，有72%考虑了计算机与纸笔考试的先后顺序[1]。Wang等人进行的K-12阅读科可比性研究的元分析包括42个可比性研究，其中12个采用重复测试，其余30个采用独立组测试。采用重复测试的可比性研究中，有89%考虑了计算机考试与纸笔考试的先后顺序[2]。笔者进行的K-12各科计算机考试与纸笔考试可比性研究的元分析包含37个可比性研究，其中，有23个采用重复测试，其余14个采用独立组测试。需要指出的是，因为重复测试和独立组测试两种实验设计存在根本性区别，不能忽略不计，笔者收集了2007—2015年间最新发表的可比性研究，对其中的两种实验设计进行了单独的元分析。从分析结果来看，近年来采用重复测试设计的比重在上升，但采用独立组测试的设计仍占很大的比重。从研究选择的样本大小与取样方式来看，在Wang等人的44个可比性研究中，48%的样本数大于400人，32%的研究样本在200～400人之间，其余小于200人；在取样方式上，68%的研究采用随机实验（experimental/random⁃ized），其余采用非随机实验（quasi-experimental/ non-randomized）[1]。在Wang等人的42个可比性研究中，在样本大小上，52%的样本数大于400人，31%的研究在200～400人之间，其余小于200人；在取样方式上，71%的研究采用随机实验，其余采用非随机实验[2]。在笔者的37个可比性研究中，采用独立组测试的有57%的研究样本量大于400人，采用重复测试的有70%的样本量大于400人。综上所述，约50%以上的研究选择样本量大于400人，约70%的研究采用随机取样方法。

从研究针对的年级与学科上来看，在Wang等人的44个针对数学的可比性研究中，38%的样本来自高中，32%来自初中，27%来自小学[1]。在Wang等人的42个针对阅读的可比性研究中，49%的样本来自高中，18%来自初中，24%来自小学[2]。Kingston进行的K-12各科计算机考试与纸笔考试可比性研究的元分析涉及81个可比性研究。从年级来看，35%的样本来自高中，32%来自初中，25%来自小学；从学科来看，38%的样本来自数学，37%来自阅读，11%来自语言（English language arts），11%来自科学[3]。在笔者的37个可比性研究中，从年级来看，22%的样本来自高中，43%来自初中，35%来自小学；从学科来看，48%的样本来自数学，26%来自阅读，4%来自语言，22%来自科学与社会。综上所述,大约一半以上的研究选择初高中学生进行可比性研究，选择数学和阅读来进行可比性研究的也占到一半以上。针对小学生的研究较少，但近几年其比重在上升。

3 可比性研究的评价工具

从宏观的评价标准来看，Wang和Kolen提出三项评估计算机自适应考试与纸笔考试可比性的综合标准：（1）效度标准;（2）心理测量特性或信度标准；（3）统计假设或考试情景标准[8]。这三项标准同样适用于计算机考试与纸笔考试的可比性研究。Lottridge,Nicewander和Mitzel把可比性研究的效度标准解释为：计算机考试与纸笔考试在内容上要一致；两个考试应具有相同的因子结构（factor struc⁃ture），相同的测量准确性；两个考试的差异应主要来源于难度，而且难度的差异可以通过等值消除；两个考试应该有相同的预测效度系数，即两个考试与另一个外部考试的相关系数相同[5]。Wang和Shin把心理测量特性或信度标准解释为：分数分布的形状；信度系数；条件测量标准误差（conditional stan⁃dard error of measurement）[6]。Wang和Shin把统计假设或考试情景标准解释为：如果可比性研究是以项目反应理论为基础，那么项目反应理论的统计假设——单维度性（unidimensionality）和试题的独立性（local independence）需要进行检验[6]。

从具体的评估工具来看，一般的可比性研究都对计算机考试与纸笔考试的平均值、标准差、效应量（effect size）、相关系数以及分数的累计分布等进行对比分析，用t测试检验计算机考试与纸笔考试是否存在差异。最近以项目反应理论为基础的可比性研究逐渐增多，譬如对比计算机考试与纸笔考试的考试特性曲线（characteristic curves）、考试信息功能（information functions）、估计标准误差（stan⁃dard error of estimate）以及题目参数（item parame⁃ters）等等[7-10]。

从具体研究问题来看，可比性研究涵盖以下几个方面：（1）某年级某学科的计算机考试与纸笔考试是否存在差异？（2）计算机考试与纸笔考试的差异是否受性别、年级和能力水平的影响？（3）学生在计算机考试与纸笔考试的整体考试（test level）与个别题目（item level）上是否存在差异？（4）计算机考试与纸笔考试差异来源的探索性分析[11]。

综上所述，对可比性研究的评价工具很多。首先，要从宏观上了解评价的综合标准，然后再决定选择何种具体工具来解决实际问题。其次，最好由简入深。先从基本的平均值、标准差、t检验结果和相关系数开始，然后再考虑以项目反应理论为基础的一些比较工具等。最后，研究问题也最好从单学科单年级开始，如初二数学计算机考试与纸笔考试是否存在差异，然后再逐步提高到跨年级跨学科的比较，如对比初三与初二数学、语文计算机考试与纸笔考试的差异。

4 可比性研究阶段性成果

Bennett把计算机考试与纸笔考试可比性研究分为三大类：计算机考试与纸笔考试的对比；计算机考试平台的比较；计算机考试与纸笔考试阅卷的对比[12]。本文借助这一分类来梳理近年来可比性研究的阶段性成果，同时探讨计算机考试与纸笔考试存在差异的原因。

从计算机考试与纸笔考试的对比来看，Wang等人以及Kingston的三个元分析的研究表明，计算机考试与纸笔考试的成绩差异并不显著[1-3]。在对计算机考试与纸笔考试的调节变量（moderator）上，Wang等人发现在数学科目上电脑传递算法对计算机考试与纸笔考试的差异影响显著[1]。Wang等人发现在阅读科目上不同的取样方式（随机还是非随机）、样本大小、电脑熟悉程度和电脑传递算法对计算机考试与纸笔考试的差异影响显著[2]。Kingston发现不同的学科对计算机考试与纸笔考试的差异影响显著，但年级的高低对计算机考试与纸笔考试的差异影响并不显著[3]。

从计算机考试平台的对比来看，针对显示器大小、分辨率高低和页面浏览速度快慢是否对学生成绩产生影响，Bridgeman,Lennon和Jackenthal对357名高中学生进行了一项独立组测试研究。结果表明，以上三个因素在数学科目上未带来成绩上的显著差异，而在语文科目上，只有在高分辨率情境下，学生分数高四分之一个标准差[13]。此后，针对电脑熟练程度或电脑知识是否对计算机考试与纸笔考试的成绩存在显著影响，Higgins,Russell和Hoffmann对259名四年级小学生进行了一项阅读的独立组测试研究。纸笔考试结果表明，电脑熟练程度或电脑知识在阅读科目上未带来成绩上的显著差异，但使用滚动页面功能进行长篇阅读时，一些电脑不熟练的学生受到一定的影响。他们的研究表明，在计算机考试中提供加亮（highlighters）和回顾（review markers）选项有助于减少滚动页面的影响。在他们的问卷调查中，大部分学生声称他们更喜欢选择计算机考试[14]。Kingston讨论了在数学纸笔考试中，学生可以直接在试卷边缘空白处演算，然后在答题纸上写答案，而在数学的计算机考试中学生必须要在草纸上演算。计算机考试比纸笔考试多了一个使用草纸的维度，未来的考试开发者可以考虑如何减少这一影响[3]。

从计算机考试与纸笔考试阅卷的对比来看，Russell和Tao调查研究了4、8和10年级学生论文手写与打字对阅卷的影响。研究者从每个年级选择大约60篇语文手写论文，并将这些论文输入电脑，最后对比手写和打字的成绩。结果表明，手写比打字获得的分数高。研究者认为，打字得分低可能有两种原因：一是打字的文章中的错误更明显，二是评分者对打字的论文的期望值要高[15]。

从计算机考试与纸笔考试差异的原因来看，Bennett认为二者差异主要来源于三点：（1）题目呈现形式不同带来的差异，如计算机考试是一屏一题，而纸笔考试一页几题，两者对图片的展示效果也不一样；（2）题目管理方式不同会带来差异，有些试题要求监考老师读题并控制每一部分的时间，有些试题学生可以自己掌握时间；（3）学生对电脑的熟悉程度不同带来的差异[12]。Lottridge,Nicewan⁃der和Mitzel的研究表明，计算机考试与纸笔考试的差异主要是源于题目难度的差异，但这一点可以通过等值进行调节[5]。Kolen认为，计算机考试与纸笔考试的差异源于五个方面：长篇文章阅读的难易度、修改前面问题答案的难易度、考试是否有充足的时间、图片与表格是否清晰以及点击鼠标与填答题卡的差别[16]。笔者的一项研究对三个科目的题目按照只有文本、只有图片和文本与图片兼有进行分类，发现不同题目表现形式对计算机考试与纸笔考试的差异的影响不显著。笔者应用项目反应理论对题目参数进行分析后发现，题目的难度参数对计算机考试与纸笔考试的差异的影响占很大比例，这一结果与Lottridge,Nicewander和Mitzel的研究结果一致[5]。

综上所述，大部分研究表明，计算机考试与纸笔考试的成绩未发现显著差异。国内进行计算机考试与纸笔考试的可比性研究时应注意调节变量的影响，如研究结果的解释要考虑是否受到样本大小、取样方式以及学生电脑熟练程度的影响。目前，针对计算机考试平台差异、计算机考试与纸笔考试的阅卷以及计算机考试与纸笔考试差异的来源上的研究不多，国内也可以进行相关探索。

5 可比性研究的发展趋势以及对国内相关研究的探讨

Li,Yi和Harris把计算机考试与纸笔考试可比性研究分为项目反应理论下的分析（IRT analysis）、因子分析（factor analysis）、概化分析（generalizability analysis）和试题功能差异分析（differential item func⁃tioning）[10]。这四个方向也代表了计算机考试与纸笔考试可比性研究的发展趋势，每个方向都可继续分拆成若干个子课题进行研究。现有的研究多关注整体考试，未来研究也可多关注个别题目[18-19]。由于小学低年级学生对电脑掌握程度不高，对这一群体的可比性研究较少。随着学校对小学低年级学生电脑培训的增加，未来的研究也可多关注小学生。

随着电脑在学校的普及，计算机考试已成为可能。从GRE和托福改成计算机考试的情况来看，计算机考试有取代纸笔考试的趋势。计算机考试有方便管理、评分快捷以及有利于应用创新试题的优势。在美国，有的学校硬件齐备，可以满足几个班同时进行计算机考试。但是，一些乡村小学校还没有达到这样的硬件标准，只能进行纸笔考试。这种情况下，必须对计算机考试与纸笔考试的可比性进行分析。国内也会出现类似的问题，如一些学校硬件设备已经满足计算机考试，而其他一些学校还没有条件进行计算机考试，这就需要进行计算机考试与纸笔考试的可比性研究。本文所梳理的美国的相关研究在实验设计、样本大小与取样方式以及学科和年级选择等方面为国内进行可比性研究提供了借鉴，同时也在可比性研究的评价工具以及阶段性成果方面提供了参考。期望国内研究者进行相关的本土化研究，进而发表计算机考试与纸笔考试可比性研究的国际成果。

[1]WANG S,JIAO H,YOUNG M J,et al.A meta-analysis of testing mode effects in grade K-12 mathematics tests[J].Educational and Psychological Measurement,2007,67（2）:219-238.

[2]WANG S,JIAO H,YOUNG M J,et al.Comparability of Computer-Based and Paper-and-Pencil Testing in K-12 Reading Assess⁃ments A Meta-Analysis of Testing Mode Effects[J].Educational and Psychological Measurement,2008,68（1）:5-24.

[3]KINGSTON N M.Comparability of computer-and paper-adminis⁃tered multiple-choice tests for K-12 populations:A synthesis[J]. Applied Measurement in Education,2008,22（1）:22-37.

[4]WANG T,KOLEN M J.Evaluating comparability in computerized adaptive testing:Issues,criteria and an example[J].Journal of Edu⁃cational Measurement,2001,38（1）:19-49.

[5]LOTTRIDGE S M,NICEWANDER W A,MITZEL H C.A compari⁃son of paper and online tests using a within-subjects design and pro⁃ pensity score matching study[J].Multivariate behavioral research, 2011,46（3）:544-566.

[6]WANG H,SHIN C D.Comparability of computerized adaptive and paper-pencil tests[J].Test,Measurement and Research Service Bul⁃letin,2010,（13）:1-7.

[7]KIM D H,HUYNH H.Comparability of computer and paper-andpencil versions of algebra and biology assessments[J].The Journal of Technology,Learning and Assessment,2007,6（4）.

[8]KIM D H,HUYNH H.Computer-based and paper-and-pencil ad⁃ministration mode effects on a statewide end-of-course English test [J].Educational and Psychological Measurement,2008,68（4）:554-570.

[9]BENNETT R E,BRASWELL J,ORANJE A,et al.Does it matter if I take my mathematics test on computer?A second empirical study of mode effects in NAEP[J].The Journal of Technology,Learning and Assessment,2008,6（9）.

[10]LI D,YI Q,HARRIS D.Spring 2014 ACT test mode comparability study[R].Iowa City:ACT,2015.

[11]CHOI S W,TINKLER T.Evaluating comparability of paper-andpencil and computer-based assessment in a K-12 setting[C]//An⁃nual meeting of the National Council on Measurement in Educa⁃tion.New Orleans,LA,2002.

[12]BENNETT R E.Online assessment and the comparability of score meaning[C]//Annual conference of the International Association for Educational Assessment.Manchester,2003.

[13]BRIDGEMAN B,LENNON M L,JACKENTHAL A.Effects of Screen Size,Screen Resolution,and Display Rate on Computer-Based Test Performance[R].ETS Research Report Series,2001（2）:i-23.

[14]HIGGINS J,RUSSELL M,HOFFMAN T.Examining the effect of computer-based passage presentation on reading test performance [J].Journal of Technology,Learning,and Assessment,2005,3（4）.

[15]RUSSELL M,TAO W.The influence of computer-print on rater scores[J].Practical Assessment,Research and Evaluation,2004,9（1）.

[16]KOLEN M J.Threats to score comparability with applications to performance assessments and computerized adaptive tests[J].Ed⁃ucational Assessment,1999,6（2）:73-96.

[17]KENG L,MCKLARTY K L,DAVIS L L.Item-level Comparative Analysis of Online and Paper Administrations of the Texas Assess⁃ment of Knowledge and Skills[J].Applied Measurement in Educa⁃tion,2008（21）:207-226.

[18]RANDALL J,SIRECI S,Li X,et al.Evaluating the Comparability of Paper-and Computer-Based Science Tests across Sex and SES Subgroups[J].Educational Measurement:Issues and Practice,2012（31）:2-12.

Comparability Research of Computer-Based Testing and Paper-and-Pencil Testing: Present and Prospect

LIU Xiangdong

This paper reviews the empirical studies of mode comparison between computer-based and paper-andpencil testing for K-12,focusing on the experiment’s design,sample size,sampling methods and the subject and grade of current comparability studies.It also examines the criteria of mode comparison studies,the progress that has been made and the future trends.In addition,suggestions are put forward on how similar mode comparison studies can be made in China.

Computer-Based Testing;Paper-and-Pencil Testing;Comparability Study

G405

1005-8427（2016）11-0023-6

（责任编辑：陈宁）

刘香东，男，美国爱荷华大学心理测量系，在读博士（美国爱荷华州 52246）