汪张龙
(广东讯飞启明科技发展有限公司,广州 510530)
1956年的达特茅斯会议(Dartmouth Confer⁃ence)被公认为是人工智能的起源。在这个会议上,麦肯锡、明斯基、香农等科学家共同提出了人工智能的概念:“我们将试图找出一种方法,能让机器使用语言形成抽象概念和观念、帮助人类解决不同种类的问题,并且能够自我改进。现阶段人工智能研究的目标是,试图让机器作出能被人类称为‘智能’的行为。”[1]
人工智能自1956年被正式提出到2016年,经历了三次发展浪潮。第一次发展高潮在1970年。自达特茅斯会议后,人们陆续发明了第一款的感知神经网络软件和聊天软件,证明了数学定理,那个时候大家都惊呼“人工智能来了,再过十年机器要超越人类了”。70年代后期,人们发现过去的理论和模型,只能解决一些非常简单的问题,人工智能很快进入了第一次冬天。随着1982年霍普菲尔德网络和反向传播算法[2]的提出,使得大规模神经网络的训练成为可能,人们再次看到了神经网络人工智能的希望,人工智能进入第二次高潮。不过,由于神经网络本身算法的局限性,同时也受到当时整个运算能力的限制,到了90年代后期,人们发现离真正实用还很遥远,人工智能进入了第二个冬天。随着2006年Hinton提出的深度学习技术和图形处理单元运算能力的进步,深度学习在图像、语音识别以及其他领域内取得的成功令人鼓舞[3]。加上大数据、云计算和移动互联网源源不断地把各种训练数据收到后台,以深度学习为基础的人工智能开始进入了第三次浪潮。伴随AlphaGo和李世石的围棋对决,人工智能引起了社会各界的高度关注,可以说2016年成为全世界以及中国人工智能的历史元年。
深度学习在计算机视觉领域最具影响力的突破发生在2012年,Hinton的研究小组采用卷积神经网络(Convolutional Neural Network,CNN)的深度学习模型赢得了ImageNet图像Top5分类的比赛,错误率仅为15%,比第二名的26%低10%以上。随后,以卷积神经网络为代表的各种深度学习算法被广泛应用于传统的图像识别中,并不断刷新纪录。到2014年,ImageNet图像Top5分类的识别错误率已经降低到6.73%,2015年更是下降到3.57%。在计算机视觉领域另一个重要的挑战人脸识别中,深度学习算法可以达到99.47%的识别率,非深度学习算法的最高识别率是96.33%[4]。
在语音领域,深度学习同样大放异彩。2011年微软研究院率先使用深度学习将SwitchBoard语音识别评测数据集上的错误率从27.4%降到18.5%,相对改善幅度达30%以上。2017年3月,该纪录被IBM再次刷新,识别错误率已降到5.5%,达到堪比人类的准确度[5]。得益于识别错误率的大幅降低,语音识别已达到实用水平,各种形式的应用产品如雨后春笋般爆发出来,如以科大讯飞公司为代表的移动端语音输入法、车载语音交互系统、智能音箱等。在语音合成领域,深度学习也取得了重大突破,DeepMind公司提出了基于复杂的深度神经网络的通用语音合成框架,合成语音的自然度大大超过传统的参数合成和拼接合成框架。在语音评测领域,深度学习大大提升了声学模型评价发音正确与否的能力,使得中英文字词、句子和篇章层面的发音评测效果大大提升[6]。语音评测技术的发展,推动了智能语音技术在语言评测与学习的应用,如普通话水平测试机器自动评分、英语口语考试自动评分使得口语考试能够大规模地得以实施。
人工智能的另一个重大领域——自然语言处理,深度学习也是崭露头角,在语言模型、序列标注、语义理解、机器翻译等方向都有重大突破,取得优于传统算法的效果。特别是机器翻译方向,深度学习带来的效果提升甚至已超过过去十几年的总和。国内科研机构和科技公司紧跟国际主流的机器翻译技术,寻求突破。2014年,科大讯飞公司首次参加国际口语机器翻译评测比赛(International Workshop on Spoken Language Translation),在中译英和英译中均以显著优势获得第一,打破了中英口语翻译领域由欧洲机构长期垄断第一的局面,体现了我国机器翻译技术在国际上的领先水平。
人工智能技术的快速发展对考试测评也产生巨大影响,命题、考试实施、评卷等都将发生巨大变化。传统的考试评卷完全是通过人工进行,费时费力,效率低。目前即使是使用了网上评卷扫描系统,主观题评分依然需要人工,书面笔试之外的口语考试更是无法大规模开展。人工智能技术完全可以解决上述需求,通过人工智能技术学习专家评分,计算机可以完成纸笔作答主观题智能评分,并且具有较高的评分准确度和稳定性。目前在国内,人工智能技术应用于大规模考试已有成功案例,如科大讯飞公司开发的智能评分系统已应用于广东高考英语听说考试、江苏中考英语听力口语考试等。可以预见,人工智能技术将给考试行业带来革命性变化。本文从考试命题、英语听说考试、纸笔考试评卷和标准化考场建设4个方面阐述人工智能技术的应用。
《国务院关于深化考试招生制度改革的实施意见》中明确提出要“加强题库建设”,“完善高中学业水平考试”,其中要求“创造条件为有需要的学生提供同一科目参加两次考试的机会”。这就给教育考试机构提出了更高的要求。根据问题导向的思路,“同一科目一年两考”最突出的问题是解决两次考试的试卷难度等值问题,为确保考试成绩公平、可信,对命题提出更高要求。
题库作为命题的辅助工具,它不仅仅需要具有试题管理和组卷的功能,更重要的是收集测试数据,并对这些数据进行统计与分析,从中发现试题编制中的问题、教学过程中的问题以及学生学习过程中的问题。题库的建设不仅会带来命题模式和工作方式的变化,而且将进一步推动教育考试的标准化,有利于推进考生能力评价模式的改革,推进教育考试的改革。因此,从长期发展的角度看,题库建设有助于促进现行学业水平考试命题理论和技术的提高[7]。
题库建设涉及一系列关键问题,这些问题包括:作为题库基本单元的题目的命制、筛选、分类及管理;由题目组成试卷的流程、实施、评分及评价;题库系统的设计与开发、硬件与软件的特征及管理;题库使用和维护的原则等[8]。随着人工智能技术的发展,人工智能技术在试题难度预测和等值处理方面可以发挥重要作用。
难度预测的技术路线主要有两个分支:人工特征工程方案和深度学习方案。人工特征方案主要是通过人工设定难度相关特征的计算规则,机器依据规则从试题中抽取这些特征,直接对难度进行回归,预测试题的难度系数;深度学习方案则不需要人工设定特征提取规则,而是通过深层的神经网络自动地从试题中抽取与难度系数相关的特征,并进行难度预测。两种方案各有利弊,深度学习方案需要大量的考试数据,当数据量比较小的时候,人工特征方案得到的性能比深度学习方案要略微好点,而深度学习方案的性能随着数据量的上升可以有稳步且显著的提升,并且显著地超越人工特征方案。下面主要介绍深度学习方案的技术路线。
从2014年开始,深度学习在诸多领域异军突起的重要原因不仅仅是有深层的神经网络,有更加强大的模型表达能力,更为关键的一个因素是深度学习的循环神经网络的注意力模型机制算法。深度学习中的注意力模型机制算法赋予了神经网络一个非常强大的能力,即神经网络能够在每个决策阶段,对所有的输入信息,能够自洽地选取对此时决策有用的信息,忽略对此刻决策无关的信息,这样的能力非常类似于人类在听说读写过程中集中注意力的能力。在使用神经网络进行难度预测时,非常需要神经网络在预测每道题的难度时,能够准确地在整篇文章中找到与该题相关的内容,这样的功能恰好能够使用注意力机制来完成,但是要让神经网络准确地将注意力机制学习好,不仅仅需要非常多的数据,还需要设计精密巧妙的网络结构[9]。
以英语试题为例,基于深度学习方案实现英语难度预测方法的主要思想为:通过深层的神经网络提取出被预测文章的深层次语义特征表示;使用神经网络提取该篇文章问题的语义特征表示;使用特殊的网络注意力模型确定问题在文章深层语义特征表示中对应答案的信息;使用神经网络抽象出该提问的多个选项答案的语义特征表示,并设计神经网络度量多个选项答案与语义特征之间的距离关系,从而判断该题目的难度系数。实际研究表明,人工专家间对试题难度预测的相关系数约为0.4~0.5,采用计算机辅助难度预测后,人工专家间对试题难度预测的相关系数可以达到0.7~0.8,未来随着数据量的增加,效果还会有进一步的提升。
听说考试是外语教学中必不可少的一种考试形式。传统的英语听说考试采用的是人工面对面测试或计算机录音、人工评分的方式,这种测试方式组织难度大、实施成本高且测试结果容易受到评卷人的主观性影响,不利于大规模开展。
听说智能考试则是在计算机教室中,采用人机对话、智能评分方式进行的一种新型考试。听说智能考试系统能够将考前、考中和考后各项工作纳入其中,大大降低人工工作量,降低人力成本,提升评分的准确性和一致性,是考试组织方式的一次重大革新。听说智能考试系统如图1所示。
听说智能考试系统的核心是人工智能技术。考场内使用的考试子系统和考后使用的智能评分子系统,人工智能技术在这两个子系统中均发挥了重要作用。
图1 听说智能考试系统
考试子系统的主要目标是,确保在复杂多变的考场环境中,采集到清晰完整的考生答题录音,并能够应对停电、死机、噪声过大等各类突发情况。因此,在系统设计上不仅要充分考虑各种异常情况的出现,满足考试的正常开展,更重要的是应用智能音质检测技术,在考试过程中对考生的语音数据进行实时监测,确保监考机收回的语音数据物理参数(如音量、信噪比等)符合要求。如果一旦检测到考生的语音数据不完整或者音质很差,系统应实时预警,由监考老师进行处理,必要时可安排在下一批次重考,避免在评分阶段才发现数据不可用。
智能评分子系统的目标是实现计算机对朗读题、问答题、话题表述题等非完全开放性题目进行自动化评分,其中最核心的是智能口语评测技术。智能口语评测技术首先从考生语音数据中提取到反映口语发音的标准程度、语速、正确性、语气语调等各方面表现的物理特征;其次,分析实际环境下的噪声对各个物理特征的影响,通过累积分布函数匹配(Cumulative Distribution Function Matching)等规整化处理[10],建立从带噪语音物理特征到干净语音物理特征之间的映射,实现噪声干扰在打分特征层面的补偿,最终使评分系统具备较好的抗噪性能;最后,通过收集大量的语音数据,由人工专家对数据进行细致的标注,用标注结果训练计算机系统,建立物理特征与人工专家评测及检错结果间的高精度映射模型,最终实现计算机自动评分。
目前,计算机智能口语评测技术已在国内多项大规模考试中进行了应用。如广东省高考英语听说考试从2013年开始采用科大讯飞公司的智能口语评分技术,年测试考生约70万人,计算机系统在两天内完成所有考生的评分,同时组织少量人工专家对计算机评分结果进行复审,保证了评分结果的客观公正,大幅度降低了考试的组织难度,提高了效率。此外,计算机智能口语评测技术在江苏、浙江、重庆、山东、辽宁等地的中考英语听说考试中也得到了应用。
智能口语评测技术不仅能应用于大规模正式考试,在学校内部的模拟考试、日常教学中也发挥着积极作用。应用于日常教学,计算机系统不仅能实现自动化评测,减轻教师负担,而且可以为每一个学生提供详细的诊断分析报告,指出学生当前的主要问题,并自动生成有针对性的学习资源。在学习的过程中,计算机系统可以实时对学生的发音情况进行评测,陪伴学生的整个学习过程,提高学习兴趣和效率。
另外,最近几年随着微电子技术的发展,考试专用耳麦已经摆脱原先简单的耳机加麦克风的结构,朝着专业化、智能化方向快速发展。一些新型号的考试专用耳麦,采用微电子机械系统(Micro Electromechanical System,MEMS)麦克风阵列,辅以先进的降噪算法,可以在嘈杂的听说考试考场中采集到更加纯净的录音。还有一些智能化的耳机,内置有微处理器和存储芯片,可以将考生的语音数据直接存储在耳机中。有关智能耳机的发展此处不再展开,不过可以确定的是,创新硬件的应用会为听说智能考试的组织带来极大的便利。
20世纪80年代之前,国内所有考试评卷工作均由人工批改。随着考生数量的增加,人工评卷所耗费的时间、精力大大增加,评卷结束后的统分工作也变得极其困难。1991年,国内开始自主研究光标阅读器(简称“OMR技术”),利用扫描仪将考生答题卡扫描成图像,并在扫描过程中对客观题自动判分。1999年,利用OMR技术的计算机网上评卷在广西的高考中首次得到应用。相对于传统的手工评卷,这种方式具备多评机制、答卷留存、过程监控等诸多优势,科学化程度显著提高,对考试评卷工作起到重要保障作用。
随着高精准度的手写文字识别、自然语言理解、智能评测等科技的发展,计算机评阅主观题已经成为可能。自20世纪60年代以来,国外就已经有许多专家和学者致力于人工智能技术在主观题评卷领域的应用研究,出现了各种不同的自动评卷系统,比如美国的管理类研究生考试(GMAT)、托福考试分别在2000年和2010年就应用了E-rater系统,国内的英语教学研究机构也专门进行了语言能力等级量表的相关研究[11]。国内也有个别技术公司,从20世纪90年代末开始就进行口语智能评卷技术的研究,并逐渐拓展到主观题智能评卷,形成了相对成熟的针对中英文主观题智能评卷的人工智能技术成果。语音识别、手写文字识别、自然语言理解等人工智能相关技术应用于考试评卷环节,具有技术应用的前瞻性,并具有重大的突破意义。
主观题智能评卷技术通过对不同考试、不同试题专家评分标准的学习、调整和程序化设计,使得评分标准可以在更大范围内被“具备专家评分水平”的计算机标准化地执行和实施。一方面,具备专家评价水平的智能评分系统可以被设置为类专家评分标准来使用,在全局上作为一评参考分,充分有效地保证人工评分的质量;另一方面,在验证有效的前提和标准下,可作为某些考试或某些分数段的一评分,逐步替代多评情况下的人工一评分甚至最终分,以节省人力,缓解评卷员短时间高强度的工作压力。类似这样人机结合的智能评卷方式能够有效优化配置人力投入成本,保证评分效果进一步提升。主观题智能评卷的流程如图2所示。
图2 主观题计算机智能评卷流程图
智能评卷技术通过精准的图文识别以及文本检索技术,能够准确地从海量考生样本中,筛选出与目标文本相似的作答片段,以有效提升对考生作答规范性检测的准确度。对于特殊作答、疑似套作、疑似雷同等样本能够快速提取并标注,这有利于辅助提升人工评卷评分的准确性和公平性。智能评卷技术对空白答卷、异常答卷的检出,提供了一种新的质检校验评分合理性的评价手段。
2016年3月,教育部考试中心和科大讯飞公司成立联合实验室,共同开展智能评卷的相关技术研究,并已取得阶段性进展。在大学英语四六级、高考、中考等不同考试的数据上进行试验,结果表明,计算机在中文以及英文考试主观题(包括作文)评分上已达到现场评卷教师的水平,可以满足大规模考试的实际需要。
此外,计算机系统不仅能够进行智能评分,还能够从语法、用词、内容表达等不同维度给出诊断分析报告,实现自动化作文批改,满足学生日常学习和提高的需要。
2011年,教育部启动标准化考点建设,以全面提升国家教育考试管理水平和服务质量。标准化考点建设主要包括建设并完善考务指挥视频会议系统、网络巡查系统、考生身份验证系统、作弊防控系统和考务综合业务系统。随着人工智能技术的发展,教育考试部门已经充分认识到人工智能技术应用于标准化考场建设的重要性。
首先,传统的网络电子巡查系统是通过每个考点安装高清摄像头,通过网络传输到考点及上级考试管理部门,系统建成后,考试管理部门在办公室通过网络就能实时了解各个考点的实际情况。随着图像识别技术的不断成熟,在此基础上研究分析,未来能够对各个考场的动态视频数据进行跟踪,并利用云技术,在海量的视频监控图像中实时侦测并智能识别,自动发现考场异常行为,让考试管理部门从以往的麻木看视频到有针对性的分析视频。
其次,考生身份验证系统通过人体生物特征判别考生身份,目前普遍采用的是指纹、人脸、声纹等识别技术。需要说明的是,任何单一识别技术都无法做到100%的准确,因此在实际应用时通常采用组合的方式进行验证,比如指纹+人脸、指纹+声纹的方式。为满足未来考试多元化的需要,越来越多的考试机构开始重视考生生物特征库的建设。考生生物特征库建成以后,一个考生只需要一次采集,即可满足未来参加多次考试的身份验证需要。除了身份验证以外,考生生物特征库还可以被广泛应用于未来的新生入学、就业等。
最后,人工智能技术应用于考务综合业务系统建设,可以让考务系统由原来的功能单一、人工决策变得更加智能。例如考试管理部门通过考务管理平台能够实时了解各考点的真实情况,还能实时了解考点周边情况、天气变化、交通、突发事件预警等,并对考试过程中的事物进行智能决策。
目前,人工智能技术已在考试命题、英语听说考试、纸笔考试评卷和标准化考场建设等方面得到成功应用。人工智能技术起到了良好的辅助人工、提高效率、提升准确度的作用,实践证明智能化信息建设已经为学生、教师提供了高水平的服务并产生了积极的效果。
未来,随着教育和考试改革的不断深入推进,其他越来越多的综合素质类考试也将逐步开展,基于人工智能技术的机器智能评测技术将极大地辅助人工完成高水平的评卷评分工作,使得综合素质类考试大规模实施也成为可能。
我们相信,随着智能信息化建设的不断提升,科学理论、技术的不断进步与发展,再结合大数据用户的反馈支撑,人工智能技术在教育考试中必将发挥更大作用。
[1]Artificial Intelligence Defined As A New Research Discipline:This Week In Tech History[EB/OL].[2017-08-18].https://www.forbes.com/sites/gilpress/2016/08/28/artificial-intelligence-defined-as-anew- research- discipline- this- week- in- tech- history/#b80aa8a6dd15.
[2]RUMELHART D E,HINTON G E,WILLIAMS R J.Learning repre⁃sentations by back-propagating errors[J].Nature,1986,323(6088):533-536.
[3]HINTON G E,SALAKHUTDINOV R R.Reducing the dimensionali⁃ty of data with neural networks[J].Science,2006,313(5786):504-507.
[4]RUSSAKOVSKY O,DENG J,SU H,et al.ImageNet Large Scale Vi⁃sual Recognition Challenge[J].International Journal of Computer Vi⁃sion,2015,115(3):211-252.
[5]WaveNet:A Generative Model for Raw Audio[EB/OL].[2017-08-18].https://www.ibm.com/blogs/watson/2017/03/reaching-new-re⁃cords-in-speech-recognition/.
[6]Reaching new records in speech recognition[EB/OL].[2017-08-18].https://deepmind.com/blog/wavenet-generative-model-raw-audio/.
[7]姜钢.建立多样化考试评价体系 推动高考综合改革[J].中国高教研究,2009(3).
[8]李光明,关丹丹.关于题库建设的若干问题的思考[J].中国考试,2014(9).
[9]LECUN Y,BENGIO Y,HINTON G.Deep Learning[J].Nature,2015,521(7553):436-444.
[10]WEI S,WANG H K,LIU Q S.WANG R H.CDF-Matching for Au⁃tomatic Tone Error Detection in Mandarin Call System[C].IEEE In⁃ternational Conference on Acoustics,2007.
[11]杨惠中,朱正才,方绪军.全国语言能力等级共同量表研究:理论、方法与实验研究[M].上海:上海外语教育出版社,2012.
Application of Artificial Intelligence Technology in Examinations