人工智能网上评卷技术的应用探索

2021-01-13 07:28:30符耀章刘明岩江光贤
考试研究 2021年1期
关键词:评卷人机填空题

符耀章 刘明岩 马 彪 江光贤

考试是一定组织中的主体根据目的的需要,选择运用有关资源, 对客体某方面或诸方面的素质水平进行测试、 甄别或评价的一种社会活动[1]。评分是考试的基本功能。 长期以来,人工批阅是纸笔考试的主要评分方式,随着科技发展,评分方式也在变化。

1981 年,中国内地第一次组织托福考试,第一次使用机读答题卡答题;1985 年,首台光标阅读器(OMR)使用,实现了客观题自动化评卷,也标志着中国正式走进评卷技术1.0 时代。 客观题自动化评卷大大减少了人工工作量,但主观题评卷依然依赖人工批阅,评卷效率低、劳动强度大、工作周期长,需要人工进行试卷分发搬运、翻阅、登分、核分、合分等诸多工作, 极易发生差错, 影响评卷的准确和公正。 1999年,广西高考作为试验点,利用专用扫描设备和评卷软件,实现了非客观题的计算机辅助评卷。 至此,中国考试评卷技术进入2.0 时代,即网上评卷。

网上评卷技术经过十几年的发展, 在各类大规模考试中得到普及,积累了丰富的电子化评卷经验,但同时也带来了新的问题, 如教师高强度长时间面对电脑评卷,易产生视觉、精神疲劳;虽然有完整的评卷过程监督和结果监控, 但仍有个别评卷教师因个体背景、 学识水平等因素与评分标准产生较大差异,影响评分结果。 随着现代信息技术的发展应用,通过引入人工智能技术来解决现有评卷难点已成为研究的热点。

2016 年《国务院关于深化考试招生制度改革的实施意见》中,针对考试招生工作,明确指出“改进评分方式,加强评卷管理,完善成绩报告”[2]。同年8 月,江苏省教育考试院与科大讯飞达成合作, 在历史考试数据中进行智能评卷效果验证实验, 正式开启江苏省人工智能评卷技术应用于考试的探索之路。

一、智能评卷技术结合传统网上评卷模式设计

人工智能概念诞生于1956 年,在半个多世纪的发展历程中,受到智能算法、计算速度、存储水平等多方面因素的影响,该技术的应用发展经历了多次高潮和低谷。 2006 年以来,以深度学习为代表的机器学习算法在机器视觉和语音识别等领域取得了极大的成功,识别准确性大幅提升,人工智能再次受到学术界和产业界的广泛关注。 云计算、大数据等技术在提升运算速度、降低计算成本的同时,也为人工智能发展提供了丰富的数据资源,协助训练出更加智能化的算法模型。 人工智能的发展模式也从过去追求“用计算机模拟人工智能”, 逐步转向机器与人结合而成的增强型混合智能系统,用机器、人、网络结合成新的群智系统,以及用机器、人、网络和物结合成的更加复杂的智能系统[3]。基于此背景,本研究重点探索在考试评卷业务场景下人机结合的应用模式和效果。

图1 考试评卷技术发展趋势

研究覆盖多考试类型、多科目题型、不同数据量级, 也设计了一些计算机智能评卷技术在填空、作文、简答等题型上的人机结合应用模式,在实验中进行验证。

1. 英语、 数学填空题型应用智能评卷进行评分一致性质检

技术原理: 基于卷积神经网络模型的填空题识别和批改方法,主要分为图片预处理、图片特征提取、文本编码、注意力模型处理等步骤,如图2所示。

图2 基于卷积神经网络模型的填空题识别批改方法

(1)图片预处理:考虑到每一小空的填写内容比较简单,又由于卷积神经网络(Convolutional Neural Networks,CNN)[4]的输入必须是大小统一的图片,所以原图输入到模型之前需要将图片进行规整。

(2)图片提取特征:使用VGG16 对每一个小填空区域进行特征提取。 为了和后续文本编码结合使用,在CNN 编码之后又设计经过单层感知机将特征向量转换成和文本编码相同维数的特征W。

(3) 文本编码: 在文本编码阶段, 使用VGG+BiLSTM 对文本内容进行编码。 首先,在编码之前需要将答案文本压缩成ONE-HOT 向量 (独热向量),然后经过MAXPOOLING 得到特征向量, 最终通过双向LSTM 得到1024 维特征向量,这即为上阶段所述文本编码维数。

(4)注意力模型处理:考虑到一张填空区域只有一部分内容是需要注意的, 全幅图的ATTENTION 位置信息可能会给预测带来负面影响, 为了更准确地匹配图片中文本和答案中的文本信息,使用两次ATTENTION 叠加的效果,最终将两个特征结合的新特征作为后续的输入,并经过SOFTMAX 进行分类。

应用流程:当前在各类考试评卷中,填空题型人工评卷主要采用人工双评模式, 双评评分不一致的数据再交由第三位专家进行判定, 由于客观题答案明确、内容较短,此种方式已能够达到很高的准确率。 但实验结果表明,由于存在考生书写不规范、落笔较轻导致扫描图像字迹颜色浅等问题,仍会造成评卷员无法判断的个别案例, 而在计算机智能识别中可以很准确地识别出此类问题。 因此在填空题型的原有流程上增加智能评卷结果的一致性对比,不一致数据提交人工再确认,将进一步保证评卷准确性。

图3 增加填空题型智能质检的应用流程

2. 语文、 英语作文题型应用相似卷检测辅助评分合适性质检

技术原理:相似卷检测主要依赖两项关键技术,即图文转写和相似文本检测。在纸笔考试中,使用电子设备将考生纸质答卷扫描为图像后, 通过图像版面分析和识别算法,对试卷图像上的字符进行提取,并识别成电子文本是整个智能评卷技术关键之一。图像版本分析理解主要是进行图像文档的文字区域定位,包含对手写体文字字符的定位、手写体文字与印刷体文字的区分、手写体文字区域的行切分、检测涂抹块、检测插入等情况分析处理。随着深度学习的不断发展, 以端到端的方式处理并准确理解文档版面分析的方案也逐步成熟, 本文涉及的图文转写技术处理流程如图4 所示。

图4 文档图像版面理解分析的处理流程方法

在版本理解分析基础上使用目前业内最先进的深度学习网络, 包括卷积神经网络和循环迭代神经网络 (Recurrent Neural Networks,RNN)[5]等多个模型,实现了智能化的自动图文转写。

相似文本检测主要依赖于文本相似算法, 答题图像经过识别转写技术处理成标准文本, 通过分词技术进行分词,再使用N-GRAM[6]词袋模型并建立正反向倒排表, 采用余弦相似度、SIMHASH 等多种方式进行相似度计算, 最终通过综合指标确定相似资源。 在应用方面,通过提取当次所有样本数据、试题和已有的海量资源库,建立模型,通过文本相似算法进行匹配计算, 最终输出与目标文本高相似的篇章结果,并可同时输出相似的文本标记。

应用流程:相似检测技术在文科类的大篇章文本答题场景下, 人工难以在海量数据中准确了解每一份作答是否有抄袭、宿构等行为,利用计算机快速运算的特性,将疑似数据筛选出来,再提交给人工确认,是一种非常有效的辅助人工评卷的手段,主要流程如图5 所示。

图5 相似卷检测辅助评分合适性质检应用流程

3. 语文、英语作文题型进行大分差评分质检

技术原理: 智能评测技术主要依赖图文转写结果,再通过专家定标评分、模型训练和多维度计算机智能评分等环节,最终输出机评结果。

专家定标评分: 在完成所有机器转写后的试卷样本上进行文本聚类分析,从所有待评数据样本中,考虑考生地域覆盖、能力水平覆盖等情况,选出最具有代表性的样本组成定标数据集合, 提供给专家评卷教师进行定标评分, 通过学习专家教师在这些定标试卷上的评分结果, 机器逐步形成与专家教师定标标准相一致的评分标准, 也就是通过专家教师的定标结果来充分理解和掌握评分标准。

图6 文本聚类筛选进行人工专家定标打分的示意图

模型训练: 在此基础上生成此次考试试题的机器评分模型, 便可以使用该评分模型进行所有试卷的机器智能评分。 在没有额外组织专家教师定标评分的基础上, 也可以使用现场评分作为标准参考分进行定标来指导机器转化学习评分标准, 但其准确度会与专家定标存在一些差距, 可能会带来后续机器评分效果的波动。

多维度计算机智能评分: 计算机在多个维度上建立起对待评分数据样本的完整数据模型, 每一个维度上都有相应的评分,以数值表示,每一个维度上都对应相应的权重, 以体现这些维度对于评分的有用程度(作用越大权重越大,反之亦然),从而建立起科学的回归模型,通过机器学习算法进行智能评分。以作文评分为例, 多维度计算机智能评分是将每篇文本使用WORD2VEC[7]的方法序列化处理后,提取字迹工整程度、 词汇丰富度、 句子通顺性等文本特征, 与词向量矩阵组成表征作文客观情况的特征矩阵。具体来说,将这个数学表示矩阵通过多层的深度循环神经网络RNN 的迭代后,将LSTM[8]单元层的输出拼接为当前文章的特征向量作为回归特征, 即完成了文章的深度网络内容特征提取, 并以专家评分作为目标即可进行岭回归(ridge regression)[9]等统计分析,以获得每一维度特征对应的权重,即考试的回归评分模型[10]。

应用流程如图7 所示。在高利害性考试中,可将智能评分结果作为一评参考分, 与人工评卷最终结果进行分差计算, 并通过与人工多评匹配的差值控制方法,筛选出一批人机评分结果差异较大的作答,组织专家组再次复核。经过实验,在复核后的有效数据中, 发现了因人工两评同时评分不合理或仲裁时取用了不合理一方的结果的情况, 及时更正了人工阅卷缺失,提升了评卷质量。

图7 智能评分辅助人工评卷大分差质检应用流程

二、智能评卷技术结合传统网评实验验证

本研究实验评价指标主要包含:

①相关度。相关度是评分是否可信的重要指标,又叫相关系数,可以反映两种数据质检的一致程度,取值范围是-1~1, 分值越高表明两组评分一致性越高,1 表示两个评分完全一致。

②一致率。 计算机评分和人工评分质检分差在一定范围内视为评分一致(按照作文评卷的惯例,取满分的20%作为分差的阈值, 如英语作文满分25分,因此分差<5 分时视为评分一致),在双评评卷中不一致的作文须第三人复评,以保证评分的准确性。一致率的比例也可以反映出将来实施人机双评后的复评率的高低。 实验分别如下:

1. 2016 年6 月第一次实验:离线验证,初探机评效果

基于历史考试评卷数据进行离线方式验证,从全集数据样本中随机定量语文及英语学科作文题型样本数据,进行手写识别、机器学习和智能评测等步骤完成智能评分, 并将评分结果与人工评分结果进行效果比对。 通过本次实验首次验证了手写识别正确率、智能评分效果达到可用水平,以及可通过计算机进行相似卷检测。

2. 2016 年11 月第二次实验:人机同步,验证实战效果

选择一次正式考试评卷,过程中同步进行人机同时评分,且机器学习样本来自于现场人评结果,计算机快速完成评卷,计算机智能评卷在此类考试语文作文题型中的相关度为0.93,一致率达到92.82%,体现了很好的评分效果,与人工评卷保持较高的一致性。

3. 2017 年7 月第三次实验:同步应用,探索应用模式

第三次实验的主要目标是探索计算机智能评卷与人工评卷的业务流程融合, 以达成有效的工作模式, 并在考试评卷中发挥实际的效用。 选取语文作文、英语作文全量样本进行计算机智能评卷,机器学习样本采用人工评卷现场结果。该实验结果表明,人工评卷和智能评卷可以并行, 再通过有机结合实现辅助评卷质检。

4. 2017 年11 月第四次实验:拓展题型,验证填空题效果

在英语填空题型上也做了测试验证, 最终结果表明: ①人工双评之间会因为各类因素产生一定程度的差异; ②人机评分之间的一致性达到人工双评间的水平。 英语填空题型答案相对固定、可枚举,对于该类题型可以尝试用智能评分作为一评辅助人工评卷或作为一评分进行人工评分检查。

5. 2017 年11 月第五次实验:丰富考试类型,验证不同考试下的效果

第五次实验选择另外一种考试, 分别完成了语文作文、英语作文和政治简答题型的智能评卷。实验证明,在语文作文、英语作文实验效果上,与具体考试类型无关,不同考试的机评效果稳定,同时验证了在政治简答题型上也可以进行智能评卷, 且效果水平与人工评卷相当。

通过这五次实验验证, 计算机智能评分效果在语文作文(相关度0.92、一致率90.7%)、英语作文(相关度0.85、 一致率97.5%)、 英语填空 (相关度0.99、一致率99.8%)等题型中,均表现良好,与现场人工评分保持较高的一致性。 计算机智能检测方法能够在大量的答卷数据中辨别考生答题与题面、与其他考生的高相似内容, 从而助力人工评卷时的准确判定。此外,通过这五次实验,还对人机同步、离线的配合模式,定标样本的现场人评、从人评结果中抽取等方式做了验证,均达到较好的效果。

三、在大规模考试评卷中应用实践

通过设计多次实验,已在不同考试类型、不同科目题型、 不同的应用模式上进行了充分的验证和应用模式的探索, 在实验效果和工作方式都已完成较多积累的情况下, 决定在一次大规模考试评卷中正式进行应用的实践。

1. 应用模式

本次智能评分质检应用工作与网评同步实施,高效完成了考生答案的图像转写和智能评分, 主要的应用模式如下:

(1)在语文作文、英语作文题型中计算机对考生答案进行手写识别并进行目标文本精准相似检测,应用相似结果辅助人工评分质检;

(2)在语文作文、英语作文题型中计算机对考生答案进行手写识别和智能评分, 结果作为对比参考分辅助人工评分质检;

(3)在英语填空、数学填空题型中通过计算机对考生答案进行手写识别、统计和判分,结果作为对比参考分辅助人工评分质检。

2. 系统架构

本次应用实践基于智能评卷质检系统, 其架构基于局域网环境应用设计,采用B/S 结构,通过浏览器可直接操作, 后端机器运算采用分布式的运算框架,支持通过扩充服务器来提升运算能力。主要设计原则包括:

(1)安全,基于封闭式环境独立运行的设计,可独立部署于物理隔离的局域网环境中, 通过中间介质进行数据交换,确保数据和信息的安全。

(2)稳定,应用与运算分离,即使应用服务宕机也不会影响运算;分布式运算使各运算节点独立,可单节点降级;MYSQL、MONOGODB、REDIS 多类型数据库使数据分而治之,互不影响。

(3)可扩展,智能评卷主要依赖于机器运算,分布式运算框架支持增加/减少运算节点。

(4)易使用,系统功能采用WEB 技术开发,通过浏览器便可操作所有功能。

图8 智能评卷系统的网络架构

本次实施除了应用系统架构保障一定的安全隔离以外,主要采取的安全措施还包括:

(1)签订保密协议,正式实施前参加工作的人员均签订《保密协议》;

(2)数据加密控制,采取数据权限最小化原则,过程数据均采用保密号,确保考生关键信息安全;

(3)系统环境隔离,智能评卷系统独立部署,网评数据通过中介存储受控交换,确保访问安全。

3. 实施流程

应用实施流程主要分为预处理、定标训练、智能评分等阶段。预处理阶段主要完成数据的对接,以及图文转写和异常作答标识等内容; 定标训练阶段是基于列表通过机器自动筛选代表性样本, 将这些样本作为机器学习对象进行模型训练; 智能评分阶段是计算机对全集数据进行特征提取和基于训练模型的回归评分。

表1 大规模考试智能评卷应用实施流程

4. 数据结论

(1)语文作文、英语作文的相似卷质检

表2 为2018 年相似卷质检结果。对待测文章与题干、 范文库进行对比, 语文作文共发现相似数据255 份,其中与题干高相似149 份,与范文库高相似106 份;英语作文共发现相似数据438 份,其中与题干高相似438 份,与范文库高相似0 份。

表2 2018 年语文、英语作文题相似质检情况统计

表3 为2019 年相似卷质检结果。 对待测文章与题干、 范文库进行对比, 语文作文共发现相似数据391 份,其中与题干高相似140 份,与范文库高相似251 份;英语作文共发现相似数据1357 份,其中与题干高相似1354 份,与范文库高相似3 份。

表3 2019 年语文、英语作文题相似质检情况统计

表4 为2020 年相似卷质检结果。 对待测文章与题干、范文库进行对比,语文作文共发现相似数据160 份,其中与题干高相似100 份,与范文库高相似60 份;英语作文共发现相似数据416 份,其中与题干高相似416 份,与范文库高相似0 份。

表4 2020 年语文、英语作文题相似质检情况统计

(2)英语填空、数学填空的一致性质检

如表5,2018 年填空题质检方面,共计完成英语填空2866910 份、 数学填空4005694 份样本数据的人机对比质检, 经人工筛选后提交英语填空3194份、数学填空104 份样本由专家组复核,其中,英语填空重评了2594 份,数学填空重评了83 份。

表5 2018 年英语、数学填空的人机对比辅助质检效果

英语填空题型通过计算机智能评分后,以人工评分为参考,在全量数据集上去除机器拒识部分,仅对比机器有效评分部分,机评准确率达到了98.43%;数学填空题型在全量数据集上去除机器拒识部分,仅对比机器有效评分部分,机评准确率达到了99.52%。

如表6,2019 年填空题质检方面,共计完成英语填空2723829 份、 数学填空3834910 份样本数据的人机对比质检。 经人工筛选后提交英语填空5898份、数学填空585 份样本由专家组复核;其中,英语填空重评了3311 份,数学填空重评了445 份。

图9 2018 年英语填空题按小题人机一致率

图10 2018 年数学填空题按小题人机一致率

表6 2019 年英语、数学填空的人机对比辅助质检效果

英语填空题型通过计算机智能评分后, 以人工评分为参考,在全量数据集上去除机器拒识部分,仅对比机器有效评分部分, 机评准确率达到了99.71%;数学填空题型在全量数据集上去除机器拒识部分,仅对比机器有效评分部分,机评准确率达到了99.78%。

如表7,2020 年填空题质检方面,共计完成英语填空2895210 份、 数学填空4182752 份样本数据的人机对比质检。 经人工筛选后提交英语填空3194份、数学填空2065 份样本由专家组复核;其中,英语填空重评了2693 份,数学填空重评了1570 份。

表7 2020 年英语、数学填空的人机对比辅助质检效果

英语填空题型通过计算机智能评分后, 以人工评分为参考,在全量数据集上去除机器拒识部分,仅对比机器有效评分部分, 机评准确率达到了99.82%;数学填空题型在全量数据集上去除机器拒识部分,仅对比机器有效评分部分, 机评准确率达到了99.75%。

图11 2019 年英语填空题按小题人机一致率[12]

图12 2019 年数学填空题按小题人机一致率[13]

图13 2020 年英语填空题按小题人机一致率

(3)语文作文、英语作文的大分差质检

如表8,从相关度和一致率指标上看2018 年大分差质检结果,智能评分总体水平达到人工水平,在人机不一致部分有一定的质检效果, 但还需要持续改进研究以获得更好效果。

如表9,2019 年进行了英语作文的人机对比大分差仲裁,按照超过两倍阈值(>8 分,总分25 分)共计发出221 人份数据,有46 份样本重新给分,可见,引入机评起到了较好的质检作用, 智能评分效果也较好。本次语文作文根据人机评分分差超过17 分的交由专家复核,共下发65 份复核,重新给分2 份。从相关度和一致率指标上看, 智能评分总体水平达到人工水平,在人机不一致部分有一定的质检效果,但还需要持续改进研究以获得更好效果。

表9 2019 年语文、英语作文题智能评分质检情况统计

表10 2019 年语文、英语作文题智能评分效果分析

如表11,2020 年进行了英语作文的人机对比大分差仲裁,按照超过两倍阈值(>8 分,总分25分) 共计发出96 人份数据, 有31 份样本重新给分,可见,引入机评起到了较好的质检作用,智能评分效果也较好。 本次语文作文根据人机评分分差超过17 分的交由专家复核, 共下发306 份复核,重新给分1 份。 从相关度和一致率指标上看,智能评分总体水平达到人工水平, 在人机不一致部分有一定的质检效果, 但还需要持续改进研究以获得更好效果。

通过对比2018、2019、 2020 三年相关度和一致率数据发现,2019 年在数据指标上略低于2018 年和2020 年,进一步分析发现与题目的开放程度和难易程度相关。

表9 2020 年语文、英语作文题智能评分质检情况统计

表10 2020 年语文、英语作文题智能评分效果分析

(4)总结

本次应用共涉及语文作文、 英语作文、 英语填空、数学填空等众多题型;应用方式是人机数据规范对接、同步并行实施。 通过表中数据可以看出,各题型的人机评分相关度均达到0.8 以上, 且大多比人工双评相关度略高;一致率方面,英语填空、数学填空题型上的人机一致率达到98%以上, 英语作文题型上的人机评分一致率略高于人工双评一致率;在语文作文、英语作文题型上,还可以通过计算机智能文本检测进行相似作答检测。 以上这些评分及质检数据应用于评卷过程的质检,均达到了较好效果。

四、智能评卷技术在网评中应用展望

1. 研究总结

历时五年的实验验证及应用实践表明, 应用智能评卷技术辅助人工评卷及质检是非常有效的,主要体现在以下几个方面:

(1)针对英语填空题、数学填空题等答案可穷举的题型,一般人工专家评分是进行答案核对给分,即使人工多评情况下, 也客观存在一些由于书写不规范、文字颜色太淡等造成评卷教师无法判断的情况。通过填空题的智能识别、匹配等算法技术,可以利用计算机的快速运算能力输出评判结果, 该结果可作为一评去配合人评, 提高效率的同时进一步提高了评卷质量。

(2)针对英语作文题、语文作文题等答题内容篇幅较长的文科类题型,可以通过智能识别转写技术,将考生答题图像转写成文本, 文本识别率达95%以上,再通过分词、建模,利用相似算法进行文本匹配,最终输出与试卷试题内容、与范文库、考生间高相似的答题结果。通过该结果辅助人工专家评卷参考,可以提升评判准确度。

(3)针对英语作文题、语文作文题、历史简答题等文科类主观题型, 可以通过智能评测技术对全量数据样本进行数学建模,对专家评分进行深度学习,并基于多维度智能评分手段进行全量样本的评分。该计算机评分与专家评分在相关度、 一致率等指标上与人工双评相当, 可以增加一评做质检校验或进行一评的替代以提升效率。

图13 计算机智能评卷辅助平台结构

2. 应用展望

智能评卷技术应用于考试网评中需要持续的研究,需要在不同的考试中继续探索,需要不断扩展到新的题型,需要不断发现和验证新的应用结合方式,针对下一步研究探索提议和展望如下:

(1)深入研究疑似抄袭卷质检和填空题尤其是补充答案的质检,提前与学科组充分沟通,拓展智能评分辅助质检功能和模式。 评卷前需要根据试题实际情况补充修订标准答案, 若在评卷前借助计算机快速运算能力, 通过智能识别技术将全集样本进行识别转写,并且通过文本聚类方法进行答案归类排名,然后通过专家筛选的方案进行过滤, 可以大大提升增补参考答案的效率, 避免在评卷过程中发现新的解法再修订标准答案。

(2)研发“智能评卷辅助质检平台”,打通扫描网评和智能评卷系统业务流, 评卷过程中直接使用“质检功能”。 将智能评卷系统和扫描评卷系统的业务流程贯通,通过增加统一的数据管理中心来汇总管理所有系统的数据, 做到各系统间数据的实时交互。增加辅助质检平台,将人机对比、质检复核等操作在质检平台中完成, 通过操作质检平台下发质检复核,并在人工评卷系统中实时获取,提升评卷效率。

图14 计算机智能评卷在考试评卷中应用流程

(3)逐步实现英语填空、数学填空、语文作文、英语作文、政治简答、历史简答等题型中应用智能评分作为一评,相似卷检测辅助人工评卷质检,通过应用实践不断提升智能评卷水平, 同时也促进人机结合应用模式的研究和拓展。

猜你喜欢
评卷人机填空题
人机“翻译员”
填空题
北京高考语文卷已现满分作文
从内到外,看懂无人机
南都周刊(2021年3期)2021-04-22 16:43:49
2019年对口升学考试网上评卷考生答题注意事项
“画海”评卷
教育(2016年49期)2017-03-20 02:23:28
大规模考试网上评卷中趋中评分的成因探析
“人机大战”人类智慧遭遇强敌
海外星云(2016年7期)2016-12-01 04:17:50
“功”练习
未来深空探测中的人机联合探测
太空探索(2016年5期)2016-07-12 15:17:58