网上阅卷之理性审视

2017-01-27 06:24:25杨泽忠朱铭

中国考试 2017年8期

关键词：评卷考试误差

杨泽忠朱铭

（山东师范大学数学与统计学院，济南 250014）

网上阅卷之理性审视

杨泽忠朱铭

（山东师范大学数学与统计学院，济南 250014）

网上阅卷是20世纪末掀起的一场评卷史上的革命，迄今已在我国开展了20年。这20年随着网上阅卷在全国各地的尝试，出现了一系列的相关研究。研究不仅极大地促进了网上阅卷的广泛应用，也使得网上阅卷越来越合理和科学。本文对近10年关于网上阅卷研究进行了回顾和梳理，就其中的特点作出归纳和概括，对未来进一步研究提出展望。

网上阅卷；考试技术；评分误差；双评

1 引言

网上阅卷又称为无纸化阅卷，是20世纪90年代末在我国开始的一项以计算机网络技术、图像处理技术和数据库技术为基础的新型阅卷方式[1]。这种阅卷方式刚一出现，即受到人们的广泛关注。人们普遍认为，这种新的阅卷方式不仅可以节省以往人工阅卷的繁忙和劳累，提高阅卷效率，而且可以提高阅卷的准确性和合理性，促进阅卷的公平性，因此它代表着未来阅卷工作的方向。为了促进网上阅卷这种新方式科学有序地进行，近20年来，不仅有国家教育部专门出台的相关管理办法，而且出现了一系列的相关学术研究。这些学术研究无疑极大地促进了网上阅卷的广泛开展和深入进行，进一步提高了人们对于网上阅卷的信心和认同。为了从以往的研究中吸取经验和教训，更好地促进网上阅卷工作的开展，本文拟对近10年的相关研究进行回顾和梳理，对其中的结果和方法作出归纳和概括。

2 网上阅卷的优势

作为一种结合现代信息技术而出现的新的阅卷方式，人们普遍认为网上阅卷比传统阅卷方式有多方面的优势。赵洋和朱京江指出，网上阅卷对客观题可实现自动评分，对主观题可直接呈现在计算机屏幕上，阅卷老师只需通过键盘或鼠标就可进行阅卷评分，方便快捷。这期间由于系统调度和网络传输，从而减少了工作环节，降低了工作难度，对评卷老师工作积极性有很大的提升，可大幅提高工作效率[1-2]。

王文成、彭茂玲、吴丽芳和李建芳认为，通过双评和多评的误差控制机制，以及评卷结果一致性检验等功能，网上阅卷可更好地把握评分标准，增强评分的一致性，保证阅卷的科学准确；另外，通过自动加分、登分与统计分析等功能，网上阅卷还可以避免人工操作可能导致的粗大误差[3-6]。吴丽芳和刘超认为，计算机辅助的网上阅卷系统可以实时全程监控，及时发现问题，从而可保证评卷教师对标准掌握的准确性等，保证阅卷管理的迅捷性和灵活性[5，7]。

赵洋、朱京江和王文成认为，网上阅卷由于计算机技术的引进，通过全程监控以及自动屏蔽考生信息，即阅卷专家评阅的仅仅是随机分发的考生答题图像，根本看不到考生的纸质答卷和考生信息，评阅后又立即提交，使保密工作得到保证，增加了评阅过程的透明性，根除了人为干预考试分数的可能性，避免了违规作弊的可能，有效地维护了考试的公平、公正原则和广大考生的权益[1-3]。此外，郝敬宏认为，网上阅卷还能使比分差距拉大，有利于选拔。

赵洋认为，网上阅卷将考生答卷扫描为图像，存储于计算机的服务器中，只需要输入考生的准考证号就可以迅速得到该考生答卷的相关信息，如答题情况、阅卷专家评分情况等。另外，网上阅卷系统还可以随时查询阅卷的总体进度、每位阅卷专家的阅卷情况等，这些都促进了阅卷工作检查的便捷性，是传统阅卷方式无法达到的[1]。

周伟萍和张建良认为，网上阅卷系统的最大好处是数据的采集功能强大。网上阅卷系统不仅能够处理不同类型的考试，对学生答案进行智能识别，而且能够及时地提供考试后的数据分析，帮助教师方便地从中看到学生之间的学习差异，找出学生在学习中的薄弱环节，找准教学各个方面存在的问题和根源等，从而可有针对性地促进教师的教学和学生的学习[8-9]。

3 网上阅卷的缺陷和不足

3.1 系统组建和运行

范鹏提出，网上阅卷所采用的答题卡的印制成本有所提高；阅卷场所对终端机器的配置有一定要求；高速扫描阅读机价格较高，评卷中使用的服务器、存储、交换设备也是一笔不小的投入[10]。阮少林也提出，一些网上阅卷系统由于受投资、成本、功能及技术的限制，因此无法直接进入学校等小规模考试领域应用[11]。

阮少林提出，目前OMR系统只能对填涂区域进行识别，还无法对√、×等手写符号进行识别[11]。韩存新、蔡伟和罗理等提出，网上阅卷采用高速扫描仪将试卷电子化，存在少量漏扫现象及图像不清晰现象[12-14]。赵洋提出，高考网上阅卷存在识别技术形式单一的问题，答题纸印刷和裁切精度要求高，识别技术需要固定样式的答题纸，而且图像保存格式所占存储空间太大[1]。

蔡伟等提出，有些省市的软件设备不够稳定，造成部分重要的误差控制功能丧失，与之相匹配的一整套考务管理办法也尚未形成，而且阅卷过程中的动态统计功能也不够完善[13]。韩存新和何庆霞等提出，并发访问问题有可能造成试卷分发的“瓶颈”，有些终端空闲，而有些终端任务繁重，这样导致阅卷系统整体效率低下[12，15]。

3.2 评阅过程和结果

高丙成和贾志先等提出，阅卷员之间以及阅卷员自身存在一致性问题，即阅卷员在阅卷速度、阅卷平均分、阅卷标准差及出分率等方面均存在差异，这将导致评分员自身信度和评分员之间信度的降低[16-17]。此外，齐冬还提出，阅卷教师随机搭配中的“宽宽严严”问题仍没有有效的解决方案[18]。

高丙成等提出，由于评分标准与参考答案设置不科学所引起的误差阈值，还需要每次结合具体科目论证，缺乏统一的标准[16]。何庆霞等也提出，目前的实现机制是，通过试卷难易程度和教师评卷质量来组织有关专家事先评测，设置一个仲裁阈值，并根据这个阈值对教师所判试卷进行仲裁，但是不能够根据当时的阅卷情况做到随时调整仲裁阈值[15]。

王文成、蔡伟等提出，网上阅卷技术造成严重的“人—机对抗”（阅卷员在各项指标的控制范围内随意给分）现象。过分追求阅卷员之间评分的一致性，客观上容易导致评分背离考生的真实能力，进而产生符合评分一致性检验的“合法性”评分误差[3，13]。韩存新、邓秀恭等提出，由于工作量大，加上阅卷教师的报酬都是计件的，每位教师都在赶进度，同时又必须是有效度的评价，这样导致一些教师打分都是打保守分。这对于竞争性选拔考试非常危险[12，19]。

张建良认为，网上阅卷的最大不足是批后无痕，这就给学生及时订正和反思带来了许多不便[9]。山成虎和邓细芳也提出，网上阅卷是在扫描后的图片上判分，学生的答卷是没有判分痕迹的，最后留给学生的是冷冰冰的分数，这不利于师生情感的培养，与新课程三维目标中的“情感态度与价值观”目标是相违背的[20]。

周伟萍提出，网上阅卷只运用在大规模的考试中，教师对阅卷数据的用处只能是终结性评价，对教师的教育、教学调整不起太大的作用[8]。马世晔认为，阅卷过程中的动态统计功能还不够完善，阅卷后考试数据的充分统计利用还没有进行[21]。

韩存新、马世晔等认为，网上阅卷不利于同一考场考生作弊的查处。由于扫描上去的作文图像是随机发给各位教师，因此它不具有号码的连续性。如果前后考生抄袭雷同的话，他们的作文就会被打散[12，21]。范鹏也提出，由于分发到每个阅卷终端的作答图片只是某一题或几题，因此对于判断雷同、抄袭等异常问题，不如传统阅卷那样一目了然，缺乏直观感[10]。

3.3 对学生和教师的影响方面

山成虎和邓细芳认为，频率过高的评判性考试和网上阅卷只会让学生特别是后进生学习积极性备受打击，最后麻木不仁，放弃学习。这显然不符合新课程强调的“过程与方法”的体验式教学精神[20]。此外，周伟萍提出，网上阅卷系统提供的分析对优等生帮助不大。许多试题的典型解法就是这些优等生的答卷，可能会造成优等生的自满情绪，影响学习效果[8]。

韩存新和樊斌认为，网上阅卷虽然提高了效率，缩短了评卷时间，但评卷教师长时间地面对电脑屏幕，视力受到极大的影响[12]。赵海燕等提出，当前网上阅卷双评过程中一般采用平均法计算考生成绩，其不足在于易导致趋中效应的加剧，从而不利于高能力考生的区分[22]。何庆霞等认为，网上阅卷可能会存在不安全因素，病毒入侵和恶意攻击都是不可预料的[15]。高丙成和陈晓苏等提出，网上阅卷数据的加密传输技术和阅卷远程登录人的身份确认技术，都需要组织针对性地开发[16，23]。

4 提高网上阅卷质量的措施

4.1 严格选拔和培训阅卷人员

范鹏和马世晔认为，控制评卷误差的关键是要加强主观题网上阅卷人员的队伍建设，抓好遴选、培训、管理、评价4个环节，做好有关考务人员的培训工作，使他们尽快地熟悉有关网上阅卷的相关要求[10，21]。刘建华和马睿等也认为，扎实、有效的岗前培训是确保阅卷工作平稳顺利进行的根本保证，因此要切实做好4项培训工作：（1）上岗培训，主要包括思想政治教育、保密条例等；（2）试评培训，主要包括评分细则的讨论、制定、阅卷系统的操作、试评卷和测试卷的评阅等；（3）质量控制培训，主要包括试卷复评、抽查、退回、修改、问题卷处理等；（4）心理压力和情绪调节培训，主要包括放松训练、腹式呼吸训练等[24]。

4.2 加强对阅卷人员的管理

刘建华和马睿等在阅卷员管理方面提出可以从以下3个方面开展工作：（1）完善阅卷组织机构；（2）强化激励机制；（3）引入心理干预。这就要求相关的阅卷机构在优化进度管理和组织心理辅导的同时，合理安排工作时间[24]。陈艺也提出，通过及时发现并调整阅卷人员的工作和休息状态，可以提升阅卷过程的质量和效率，进而保证阅卷过程的公平、公正性[25]。

王文成认为，要加强阅卷员对评分标准的掌握情况，可以通过把专家组所评样卷让阅卷员进行评阅，计算每一个阅卷员与专家组的差值，判定是否在误差允许范围之内，或者计算专家组和阅卷员在样卷得分的相关系数，进而评定阅卷员和专家组在样卷评分上的一致性。此外，他还提出，对阅卷员“宽宽严严”问题的技术控制，可通过两种方法：（1）比较不同时段，本人阅卷标准差、平均分、有效度和阅卷速度；比较复评的标准差、平均分、有效度和阅卷速度，评价评卷员掌握评分标准的严宽程度，是否随意性大；（2）计算集中程度。其评价指标是每道题目上每个阅卷员给分的算术平均数。以每道题考生最终成绩的总平均数为参照点，阅卷员给分的平均数越接近考生最终成绩的总平均数，说明评分误差越小[3]。

4.3 完善网上阅卷系统的设计与管理

罗友花和刘铁明提出，网上阅卷是一项复杂的系统工程，成功实施的关键是要解决好4个方面的问题，即设置配备和网络建设、答题卡扫描和数据电子化、实时误差监控以及考务组织管理[26]。喻国军为了将客观题自动评判产生的错误降低到最少，提出在网上阅卷系统中增加客观题的查错与校正模块，作为客观题自动评卷的辅助子系统，并使用视图和存储过程将可能的问题卷提取出来，用人工的方式进行校正[27]。贾志先利用谱聚类算法，对所有评分员的评分测量对象进行聚类后，可以将评分员的评分结果进行分类，从而为分析评分员的评分质量提供了一种可行的方法和手段，同时又结合评分员的评分结果度量维度参数，可以进一步有效地检测出主观题评分中存在的一些问题[17]。

范鹏提出，要保证整个阅卷系统的正常运行，就必须根据新情况、新特点，相应改革原有的招生考试考务管理模式，从组织上、管理上确保网上阅卷系统的顺畅运行，并根据网上阅卷的特点，建立一套新的管理办法[10]。陈冠儒指出，要吸收高考网上阅卷系统和光标阅读机的优点，克服其缺点，设计开发集考务管理、试卷制作、客观题识别、主观题评阅、成绩管理为一体的网上阅卷系统[28]。

4.4 评分误差控制策略

蔡伟等提出以“评分”控制“评分”的5种网上阅卷评分误差控制方法：阅卷员之间一致性误差控制、阅卷员本人一致性误差控制、两评的误差控制、评分点之间的误差控制以及抽查和监控阅卷误差。抽查和监控阅卷误差是指指定抽查、简单随机抽查、分时段抽查、等距抽查。此外，他还提出4种网上阅卷评分误差机控系统的措施：作文试卷配发随机、阅卷终端独立、数据统计迅速准确、网络对话高效便捷[13]。高丙成等归纳出及时反馈、严格要求、做好培训、减少误差阈值等减少评分者差异的有效策略[16]。王文成也提出，主观题评分误差控制策略有：（1）加强阅卷员对评分标准掌握情况；（2）控制阅卷员的“宽宽严严”问题；（3）计算离散程度；（4）提高评分的有效度[3]。

罗友花和刘铁明指出，网上阅卷的实时误差控制机制可以从5个方面进行“把关”：（1）计算机自动对考生答题卡上的客观题部分进行OCR/OMR识别，并对此标准答案给分；（2）采用“一卷四评”模式；（3）利用计算机统计技术实时进行评卷员之间和评卷员本人的一致性误差控制，两评和评分点之间的误差控制；（4）检查组抽查监控；（5）得分异常情况的处理[26]。

4.5 提高评分的有效性

赵海燕等提出改革传统评分方式，以提高评分的有效性。在双评有效的前提下，任意值法可以更有效地控制趋中效应，取高法和取低法有利于必要时对分数波动的把控，取高法对趋中效应的控制要好于平均法，且利于高分考生的选拔[22]。

王文成则通过监测阅卷员评分来提高评分的有效性。有效度越高的阅卷员，个人尺度越接近标准尺度。阅卷员评分的有效度有以下几种情况：（1）双评差值未超出差值阈限，则两位评分员的评分都记为有效；（2）三评给出的分数和与之相近的双评中的一位阅卷员的评分，如果没有超出差值阈限，则此两位阅卷员共同决定了该试题的最终得分，该两位阅卷员的评分都记为有效；（3）如果与三评分数相差较大的另一个评卷员给出的分数，小于本题目允许的最大误差的1/2，则该评分也被记为有效[3]。

4.6 改进技术手段，增强图像识别

阮少林以数字图像处理技术为支撑的图像识别软件替代机器来完成网上阅卷过程中的自动阅卷任务，不仅可以大大降低阅卷成本，同时系统的高度灵活性可以使得这种阅卷方式深入到更细微的领域[11]。

肖立峰将图像预处理系统处理步骤设计为：灰度图像二值化、图像的偏斜纠正。该系统借鉴了很多图像处理方法的优点，使整个扫描过程清晰，易于实现[29]。罗理等采用先对图像进行粗化的方法，解决图像连续性问题；接着对图像进行细化，解决图像单像素问题[14]。肖立峰也提出以改进的变换方式来进行答卷图像的倾斜矫正，采用动态阈值三值化图像、采用邻域迭代等方式使答卷图像增强，满足了实际工作与图像处理的需要[29]。

5 对已有研究的理性审视

综上所述，可以看出，当前关于网上阅卷的研究主要集中在网络阅卷的优势、网络阅卷的不足和相应的对策3个方面。对于网上阅卷的优越性而言，前人的研究给予了充分肯定，不仅指出了网上阅卷具有迅捷性、便捷性和灵活性，也指出了网上阅卷具有比较好的公平性，从而能促进考试的进行和选拔；对于网上阅卷的不足而言，前人的研究比较广泛，不仅关注网上阅卷的成本问题、技术问题、管理问题和具体操作问题，也关注网上阅卷具体的评分问题、痕迹问题和雷同卷问题等；对于如何提高网上阅卷的质量问题，当前的研究不仅指出了应当加强阅卷人员的选拔、培训和管理等，也指出了应当进一步完善网上管理系统，加强图像识别的程度，提高阅卷的有效性等措施，这些措施无一不是合理的。

但是，从上述分析也可以看出，有些研究还不够深入，比较突出的问题有两个：一是如何利用网上阅卷的优越性，特别是其数据分析的快捷性和方便性，更加深入地分析学生在学习中的特点，尤其是其中的不足和缺陷，从而更加有效地指导日常教学。当前这个问题虽然已被一些研究者意识到和提及，但当前鲜有人从这个角度进行较为深入的探讨和研究，从而导致当前的情况基本上还是网上阅卷得到的数据和日常教学相互分离的状态。根据我们的了解，在当前已使用网上阅卷的中小学中，教师和学生比较多的是从网上阅卷中看总成绩和成绩排名，很少有人在网上阅卷之后进一步分析得到的数据，从中发现教学的问题，从而改善或完善教学。网上阅卷系统的使用每年也只有有数的几次。进一步访谈其中的原因，多数教师反映他们不知道如何操作，不知道如何利用网上阅卷得到的数据进行分析，不知道如何分析才是正确的，不知道如何分析才能得到真正有助于教学的信息。这种情况虽然一方面反映出不少教师数据分析技能的薄弱，但更多的应该是反映出当前广大研究者对网上阅卷数据与实际教学互动关系的研究缺乏深刻性和可操作性。

二是如何组织和安排才能使得网上阅卷更加合理，使得阅卷员最后给出的成绩更加准确。当前很多研究者都非常关注网上阅卷的质量，为此提出了一系列措施。但仔细看这些措施，多数是针对网上阅卷的合理性和有效性来讲的，很少直接针对最后成绩的正确性和准确性的。即使是有个别针对最后成绩准确性的措施，也多是比较模糊的和不具体的，无法使网上阅卷组织者和评阅人员实际掌握和操作。我们在中小学调查中发现，几乎每次网上阅卷之后，都有不少学生向老师报告他们的成绩与最后评阅有出入，告诉老师他们的成绩评定不准确。现在中小学老师遇到这样的情况也似乎习以为常，因此，每次网上阅卷之后，老师都会告诉学生：请仔细核对答案，如有发现成绩不准确的，可立即告知老师，以便修改。这样，网上阅卷在实际中小学教学中不仅没有节省老师们的时间，反倒又增加了一道工序。

由此，未来的研究有必要加强网上阅卷准确性的研究以及网上阅卷之后数据的分析和应用研究，只有这样，才能使得投入大量财力和物力开发和组建的网上阅卷系统具有更加实际和更大的价值。

[1]赵洋.基于Open CV的网上阅卷技术的研究[D].济南:山东大学,2009.

[2]朱京江.大数据时代下人事考试网上阅卷管理系统的创新研究[J].中国管理信息化,2015（18）:171-172.

[3]王文成.“人机对抗”视域下主观题评分误差控制策略研究[J].中国考试,2013（9）:11-19.

[4]彭茂玲,黄爱明,余光琳.网上阅卷环境中基于Agent H-IS的可信交互模型研究[J].计算机光盘软件与应用,2012（16）:74,82.

[5]吴丽芳.论河北省高考英语网上阅卷的优势[J].教育实践与研究（中学版）,2005（11）:20-21.

[6]李建芳.网上评阅高考作文之优劣[J].湖南教育,2005（19）:25-26.

[7]刘超.网上阅卷中的协同工作及其安全机制的研究[D].武汉:华中科技大学,2004.

[8]周伟萍.APMS网上阅卷系统对数学教学效果影响的实证研究[D].武汉:湖北师范大学,2015.

[9]张建良.利用网上阅卷信息激励和改进教与学[J].中国数学教育,2014（1-2）:11-14.

[10]范鹏.网上阅卷的利弊分析及思考[J].中国轻工教育,2009（2）:17-18.

[11]阮少林.网上阅卷中信息提取与识别技术研究[D].成都:电子科技大学,2010.

[12]韩存新,樊斌.高考英语作文与网上阅卷[J].太原城市职业技术学院学报,2007（1）:110-111.

[13]蔡伟,娄庆华.高考作文网上阅卷评分误差控制研究[J].湖北招生考试,2008（12）:20-24.

[14]罗理,王锋.网上阅卷系统中八字码识别方法的研究与实现[J].计算机与数字工程,2007（12）.

[15]何庆霞,褚庆军.基于工作流管理的高考网上阅卷系统实现的研究[J].中国考试,2005（4）:33-36.

[16]高丙成,秦旭芳.成人高考网上阅卷的评分者差异研究[J].乌鲁木齐职业大学学报,2007（4）:96-99.

[17]贾志先.基于谱聚类的网上阅卷质量控制研究[J].智能计算机与应用,2014（5）:76-79.

[18]齐冬.网上阅卷“试”出问题一大堆[N].济南日报，2005-01-09（10）.

[19]邓秀恭.谈网上阅卷对英语试卷书面表达分析的反拨作用[J].考试周刊,2016（39）:3.

[20]山成虎,邓细芳.网上阅卷在高中教学运用中的实践与思考[J].软件导刊（教育技术）,2015（11）:85-86.

[21]马世晔.考试网上阅卷研究报告[J].湖北招生考试,2004（4）:41-44.

[22]赵海燕,陈志国.网上阅卷双评过程可行计分方法探究[J].考试研究,2011（2）:54-61.

[23]陈晓苏,章丽玲,吴永英.JAAS在网上阅卷系统中的应用研究[J].计算机系统应用,2006（5）:43-45.

[24]刘建华,马睿,郜国民,刘华民.主观题网上阅卷员队伍建设与误差控制研究[J].中国考试,2012（9）:32-39.

[25]陈艺.基于高效关联规则挖掘算法的智能评卷模型研究[J].赤峰学院学报（自然科学版）,2014（12）:50-52.

[26]罗友花,刘铁明.网上阅卷研究述评[J].中国考试,2009（11）:34-37.

[27]喻国军.基于网上阅卷系统的形式化描述及数字图像处理技术研究与实现[D].贵阳:贵州师范大学,2009.

[28]陈冠儒.论网上阅卷系统在现代化教育上的应用[J].科技资讯,2009（25）:168-170.

[29]肖立峰.基于机器视觉的分布式网上阅卷系统[D].合肥:合肥工业大学,2009.

Rational Review of Scoring Online

YANG Zezhong，ZHU Ming
（The College of Mathematics and Statistics,Shandong Normal University,Jinan 250014,China）

Scoring online is a revolution in the history of scoring in the last century and has been carried out in China for twenty years.With the attempts of scoring online in our country，there has been a series of related research in the past two decades.These studies not only greatly promoted the extensive use of scoring online，but also made it more reasonable and scientific.Referring to the scoring online，this paper reviews and combs the researches in the past ten years，and summarizes the characteristics of it.Besides，prospects are given in the future research.

Scoring Online;Examination Technology;Scoring Errors;Double Scoring

G405

1005-8427（2017）08-0050-6

10.19360/j.cnki.11-3303/g4.2017.08.009

杨泽忠（1968—），男，山东师范大学数学与统计学院，教授；

朱铭（1996—），女，山东师范大学数学与统计学院，在读硕士。

（责任编辑：周黎明）