HiE测评系统：英语在线考试的新探索

2015-09-19 14:45王德亮周莉林敦来高淼

中小学信息技术教育 2015年9期

王德亮++周莉++林敦来++高淼

【摘要】在线考试与测评是未来发展的趋势，本文主要介绍了一种英语在线考试的最新模式。该模式被命名为HiE测评系统，力图对学习者的英语综合能力提供在线测评与反馈。该系统充分利用了现代教育技术、自然语言处理技术以及人机互动技术，在最大程度上实现了自动的英语能力在线测评与反馈。试测结果显示，该系统安全可靠，具有较高的信度和效度，值得推广。

【关键词】在线测评；英语考试；HiE测评系统

【中图分类号】G434 【文献标识码】B

【论文编号】1671-7384（2015）09-0065-04

英语在线考试是指通过计算机网络系统实现试题库的建立、选题组卷、上机考试、阅卷评分的英语考试。与传统的纸笔考试相比，在线考试有着无可比拟的优越性：在线考试效率较高，只要有电脑终端，考生可以大规模参加；试题质量有保障，通过构建试题库，可以有效控制考题的信度和效度稳定在同一水平上；对于施测，在线考试可以节省大量的人力物力成本，不需要试卷印刷、运输保密等环节；阅卷效率较高，有些在线考试已经实现了自动评分，可以节约大量的评卷费用和时间。随着计算机技术、网络技术的进一步发展，在线考试是未来考试模式的发展方向，在不久的将来，一定会取代传统的纸笔测试。

到目前为止，在英语在线测试方面做得比较成功的是美国教育考试服务中心（ETS）主办的托福和GRE考试，国内还没有很成功的大规模考试系统案例。我国是英语学习大国，中国学习英语的人口数量全球最多。2013年，教育部《全国教育事业发展统计公报》的数据显示，目前中国有近3亿人的庞大英语培训消费群体，英语培训机构总数量超过5万家，市值已经超过300亿元。对于这么庞大的英语学习群体，我们有必要探索开发我们自己的英语在线测试体系。本课题组以此为研究目标，做了积极的探索，本文内容即是我们的探索成果。

英语在线考试的现状

随着计算机技术和网络科技的不断进步，英语在线测试自然而然地就被提上了日程。到现在为止，这方面的研究和探索已经取得了很多成果。综观这方面的文献和成果，我们发现存在两个问题，一方面，英语在线测试还停留在科研探索阶段，主要表现为关于系统开发的研究成果主要是计算机编程方向的硕士论文，核心刊物上发表的文献很少；另一方面，国内期刊上发表的成果显示，开发的在线评测系统大多是小规模，很多都是在自己学校和院系试用的，没有做到大面积推广，而且大多数系统只针对听力、阅读和写作的测试，口语没有被包括在其中。

究其原因，主要有以下几点。

首先，英语在线评测是一个系统工程，其中涉及方面很多，包括试题库的建设、网站架构、程序设计、市场推广等，需要多方面人力物力的投入。任何一个环节跟不上，这个事情都不会成功。比如，在线评测需要电脑终端，如果一所学校连电脑都没有，他们是无法参加这个评测的。国家已经注意到这方面的问题，并在大力推进教育信息化。《国家中长期教育改革和发展规划纲要（2010-2020年）》指出“信息技术对教育发展具有革命性影响，必须予以高度重视。把教育信息化纳入国家信息化发展整体战略，超前部署教育信息网络。到2020年，基本建成覆盖城乡各级各类学校的教育信息化体系，促进教育内容、教学手段和方法现代化。”所以，英语在线评测也应及时跟上国家发展的脉搏，在科研和实践方面做出表率。

其次，英语在线评测不能大规模使用的一个比较大的原因是没有政府管理部门的支持和协调。如果政府管理部门认识到在线评测的优势，未来取代传统的大规模考试中的纸笔测试是非常有可能的。另外，我国英语考试众多，且相互之间不认可、不抵用，导致我们不管是升学、毕业、入职、升职还是出国，都需要参加相应的英语考试，这一点一直被人所诟病。正因为此，教育部已经认识到了这个问题，并有所行动，试图解决这个矛盾。2014年10月30日，教育部组织召开了专门的会议，力图建立统一的外语能力测评体系，实现我国外语教育与测评的 “车同轨、量同衡” 。如果我们实行统一测评体系下的在线测试系统，上面的问题也能迎刃而解。

再次，中国的英语在线测评系统没有成功的原因在于缺乏先进的计算机技术，存在设计缺陷，不够人性化，不注重用户体验，导致了它的优势没有发挥出来。比如，目前报道的现行系统中都没有专门的反馈系统。参试者参加完考试之后，最多只能得到一个分数，与学习者和教师没有形成互动。另外，在线系统中客观题比较容易实现，主观题有一定难度，尤其是主观题的判分，还需要人工干预。另外，口语部分不容易施测，尤其是口试的评判也需要人工完成。

在前期调研的基础上，本课题组尝试开发了自己的系统，命名为“HiE测评系统”，力图避免以上的缺陷，即使不能完全避免，也在最大程度上进行优化。

HiE测评系统

1. 研发背景

2013年初，北京市海淀区教育科学研究所启动了一项重大语言教学类项目——“海淀英语学习社区建设” （简称“海e社区”）。本项目的目的是针对海淀区中小学英语听说互动教学及测评系统开展工具研发及实验研究，研究海淀区中小学英语听说教学的目标体系和内容体系，并基于智能语音交互技术和互联网技术的灵活性、交互性，实现英语听说的个性化和互动式教学。

北师大团队从2014年1月开始承建海e社区的测评系统，即HiE测评系统。本子项目的最终目标是研制开发一套完整的英语综合能力在线评测系统。此系统将充分利用现代教育技术、自然语言处理技术以及人机互动技术，在最大程度上实现全自动的英语能力在线测评和反馈。除了个别的口试题型（如自由问答）和作文题需要人工干预外，其他部分都可以实现自动评分。本系统可以在保证水平一致的情况下实现自动组卷，并为每一位参试者提供成绩分析和反馈报告，为参试者提供英语听、说、读、写各方面的优势和劣势分析，为其今后的学习指明努力的方向。具体项目内容包括测试框架研制、样题研制、命题人员培训、试题验收和审核、试测、评分标准的制定。

2. 系统简介

经过充分的需求调研、原型设计和研发调试，目前HiE测评系统已完成阶段性开发任务并发布上线（网址为http：//www.haielearning.com）。HiE测评系统作为海e社区中的一个重要平台，其入口直接集成在海e社区的导航栏目上。教师可通过 “测评”栏目进入测评中心，学生则可通过“测评中心”的栏目入口进入（如图1、图2）。

图1 教师端入口界面

图2 学生端入口界面

测评流程体系构架包含教师组卷和分发流程、学生上机考试流程、教师管理和阅卷流程、测评结果反馈等过程。这些流程及功能都与测评云端服务器链接，进行实时精准的数据交互，从而实现规模化、标准化、即时性的测评过程（如图3）。

图3 测评体系架构

从测评系统功能上划分，“测评中心”主要包含组卷系统、考务系统、阅卷系统和反馈系统四个子系统。其中，组卷系统包含了题库模块、组卷模块、分发模块；考务系统包含了题型模块、流控模块、收卷模块；阅卷系统包含了自动阅卷模块和人工阅卷模块；反馈系统包含了统计模块、分析模块、反馈模块和查询模块（如图4）。

图4 测评功能构架

3. 试测数据分析

2014年10月17日，项目组在北京市某中学进行了首次试测活动。

（1）参试者基本情况

选取了初中三年级的两个平行班，为了避免出现水平偏差，打乱了班级差异，全部按学号的单双号进行抽取，分成两组，单号组41人，双号组39人。为了确保两组的水平没有显著性差异，根据期中考试成绩做了一个独立样本T检验，检验结果如表1、表2所示。

从表中可以看出p=.869（>.05），表示两组学生的成绩没有显著性差异。

试测当天，两个组做了不同的试题，单号组参加在线测试（机考），双号参加纸笔考试（笔考），机考使用的是HiE-4的样题，笔考使用的是KET（剑桥英语等级考试 Key English Test）。

（2）内部效度检验

为了验证HiE试题的有效性，我们根据参加机考的学生答题和得分情况，做了试题内容一致性检验，如表3所示。

由统计数据可知，本套试题的内部一致性检验得分为α=0.736。总体说来还是比较满意的。现在看来，影响该信度指数的因素主要有两个：第一，考生样本量较小（共41人）；第二，试测当天，因网络故障，影响了一部分学生的答题，有一部分考生的听力或口语部分没有记录。即使在这样的情况下，我们试题的内部一致性系数仍然达到了0.7以上，这已经是很不错的成绩了。如果将来进一步改善机考条件，改进考试流程控制，我们确信内部效度得分还能提高。

（3）外部效度检验

首先，比较了期中考试与KET的相关性，找出既参加期中考试，又参加了KET笔试的同一组学生的数据，比较它们的相关性，结果如表4所示。

表4 KET与期中考试的相关性

KET成绩期中考试

KET成绩 Pearson 相关性

显著性（双侧）

N 1

39 .933**

.000

期中考试 Pearson 相关性

显著性（双侧）

N .933**

.000

39 1

**. 在 .01 水平（双侧）上显著相关。

从数据中可以看出，Pearson相关系数为.933，在.01的水平上显著相关。因为KET是很权威的国际考试，期中考试与其相关系数得分很高，说明这次期中考试是非常可靠的。

然后，又将既参加期中考试，又参加了机考的同一组学生的成绩做了相关检验。因为期中考试没有考口语，所以机考的成绩中也剔除了口语的得分，最后的数据分析结果如表5所示。

表5 期中考试与机考的相关性

期中考试机考（除口语）

期中考试 1

41 .647**

.000

机考

（除口语） .647**

.000

41 1

**. 在 .01 水平（双侧）上显著相关。

从表格中可以看出，相关系数为0.647，在0.01的水平上显著相关，这说明机考试题也是可靠的。

3. 优势分析

相比传统的纸笔测评，HiE测评系统具有以下明显优势。

第一，以分层评价标准体系为核心。评价体系是决定学习行为取向的规范和准则，是评判学习活动效果的客观依据，在本系统的设计中具有提纲挈领的作用。北师大团队在充分调研国际上通用的托福、雅思、SAT、剑桥英语以及《加拿大语言测试等级标准2000》《21世纪外语学习标准》《欧洲语言共同参照框架》评价系统的基础上，基于国家课标，结合区域特色，研制了“HiE”六级评价标准体系，即HiE1-HiE6。其中HiE1-HiE2相当于小学英语的入口与出口，HiE3相当于初中中期水平，HiE4相当于初中毕业水平，HiE5相当于高中中期水平，HiE6相当于高中毕业水平。该评价体系围绕综合能力的考查开展，在难度和范围上略高于国内现有同类测评，整体上和国际二语习得测评标准接近。作为一个分层综合能力评价标准体系，它不以年级段为基准，只以学生的实际综合能力为考查目标，学生可以在任意年级参与测评，测评结果代表了学生的能力等级。

第二，以多维度评价标签为手段。为了全方位考查学生的英语综合能力，以上述评价标准为基础，北师大团队对考题进行了缜密的设计。每道考题都从不同考查层面设计多维评价标签，包括知识点构成、语言技能分项、认知能力等级、难度级别、综合能力覆盖等。这些评价标签的属性结合测评结果，既能够宏观地分析学生的整体英语水平，又能够从各个维度上对学生的分项能力进行评价。所有考题都由北京市海淀区中小学英语教研员、英语学科带头人、骨干教师、一线英语教师负责完成，北师大专家负责审定工作。

第三，以网络化测评模式为载体。和传统的纸笔考试模式不同，HiE测评系统完全基于网络环境，在整体框架上包括组卷系统、考务系统、阅卷系统、反馈系统，在试题类型上覆盖听说读写各个环节，在考试过程中支持自动组卷，在阅卷过程中支持部分主观题型如口语题型和全部客观题型的自动评阅。它跨越了地理和时间的限制，使得测评的组织和管理更加便捷高效。相比传统纸笔考，它能够收集更多有价值的数据信息，从而支持后续服务的提供。

第四，以基于数据的多级反馈为目的。反馈是HiE测评系统的核心输出目标。通过评价标准体系中各项能力标签的构建和后台数据的分析挖掘，系统可以自动生成基于学生测评过程和结果的反馈信息，同时结合多次测评的过程性分析和群体性测评数据的综合结果，实现为每名学生提供个性化的测评报告，为每位老师提供针对性的教学反馈，为每所学校提供准确的质量分析，为每个区域提供详实的教学评估的多级反馈功能。

结语

HiE测评系统参照国家英语课程标准，结合当前国际英语教育评价的理论与实践，基于计算机辅助英语测试的相关研究，充分利用现代教育技术、自然语言处理技术以及人机互动技术，避免了传统纸笔测试的局限性；可以为各级教育主管部门、教学研究机构、学校、教师、家长、学生提供英语学习效果的相关信息；是当前测评领域从“对学习的评价”转向“促学评价”，乃至“以评带学”的重要实践。

参考文献

邹宏.基于WEB的英语在线考试系统的设计与实现[D].电子科技大学硕士论文. 2012.

张瑞.英语在线考试及批阅系统的设计与实现[D].重庆大学硕士论文. 2009.

周颖.自动组卷在线测试系统的设计与实现[D].电子科技大学硕士论文.2012.

周越美，孙晓龙，张韧弦.写作课程的无纸化考试研究[J]. 外语界. 2009（3）.

朱音尔，张肖莹.基于网络的大学英语机考探索与实践[J]. 外语电化教学， 2009（2）.

邱东林，季佩英，万江波，程寅.大学英语听说机考尝试[J]. 外语界. 2005（4）.

（作者单位：北京师范大学北京市海淀区教育科学研究所北京师范大学中央财经大学）