孙利君
教育数字化转型的进程加快、社会认知的趋同和智能技术的发展,都为英语听说考试的智能评分提供了土壤和助力,新的考试题型、新的机考平台、新的考场环境、新的评卷方式也逐渐被社会和考生所认可。随着智能评卷技术的突破,考生答题音频的检测质量、评卷效率和评分准确性等均获得显著提升,让考生和家长不必为新的考试方式和评卷方式是否公平、是否影响成绩而担心。
以高考英语为例,北京市从2021年开始在原有听力理解的基础上,加入对口语能力的考查,一并通过计算机辅助测试的方式组织机考,合计分值50分,一年两考,取两次考试最高成绩计入高考英语总分,首次考试满分则不再参加第二次考试。试题依据《北京市深化考试招生制度改革的实施方案》和《英语课标》命制,并依据机考的组考特点,科学设计题型结构和测试任务,口语与听力融合考查。考虑到目前考生的规模性以及机考考查形式的局限性,命题在口语任务的交互性能力考查方面还较弱,在开放性题型的设计和使用方面还有局限。在英语听说考试试题命制前,为了解考生的整体语言能力水平,分三轮试测为命题规划与设计提供参考,确保考试公平。试测的前两轮依据平时成绩分层抽样,抽样率25%左右,最后一轮为全体考生的试测,同时加入以往真题作为“锚题”用以检验参评考生的实际能力。经过命题组、学科专家以及测评专家的综合研判,确定实际高考英语机考的题型结构和分值比例,包括:听后回答(21分)、听后记录(6分)、听后转述(9分)、短文朗读(8分)和读后回答(6分)。这些题型既考查考生听的能力、说的水平,更强调英语的实际场景应用,不仅要求考生听懂、看懂,更要求其准确地在社交环境中熟练交流。这些题型能有效避免以往英语“轻视听说、重视读写”的考法,使得英语考试摆脱“无法张嘴”的尴尬,让交互式对话考核成为现实,真正体现语言考试的本质,使语言回归到“交流工具”的功能。
数字化赋能听说考试的核心要素包含两个方面。第一方面是人的认知,听说考试实现机考数字化转型的社会环境,是机考改革得以实现的基础性保障,关键在于人的思想观念和整体的认知水平;第二方面是流程的优化,它是确保考试公正公平的机制保障和具体着力点,关键在于组考的方式和评卷的流程。坚持稳中求进的工作基调重构业务流程,既考虑社会舆论与考生承受力,也兼顾教育教学的衔接与良性导向。通过重构和优化组考的每个环节,强化流程科学设计,精心组织培训,确保考生以及考务组织管理人员对于新考试方式的适应。另外,强化各个环节现场保障、系统维护和应急保障支持,同步研发中、高考英语听说考试在线体验系统,可供考生随时体验,使考生考前熟悉机考考试形式和流程,最大限度地服务考生,确保公平。
相较于传统纸笔考试,英语听说机考对于考试环境、组考实施流程以及评卷流程有不同的要求。为保障考试公正公平,确保考试安全,必须精心设计机考考务组考流程,不断破解成本、规模和质量三者之间的矛盾,利用数字技术的优势和智能算法的效能,提升大规模高利害性考试的组考效率和评分质量。按照传统的考试阶段三段式划分,机考整体工作流程及工作内容依然包括考前、考中和考后三个阶段。和纸质试卷组考不同,机考组考的考前阶段在试卷制作、培训内容和考生现场培训等环节有所调整,而且增加平台部署与测试、机房环境检查和光盘介质下发等环节;考试期间,考生入场核验增加人脸识别和系统验证环节,用计算机(含键盘、鼠标和耳麦)替代纸笔答题,还增加考场环境检查、试题导入、数据备份、考场数据汇总校验等环节;考试结束后,原有的纸质答题试卷上交、密封等环节被考生考试数据汇总、数据校验、答卷包回传等环节所替代。另外,后期的评卷环节,在原有网评的基础上增加全新的智能评卷流程,包括专家定标、模型训练、智能评分、异常复审、人机数据比对等环节。
机考平台及其相关软硬件配套设备是英语听说机考得以实施的保障。为给考生提供一个公平安全的考试环境,无论是新技术的引进,还是平台的设计,要统筹考虑全局,既保证考试的安全性,也兼顾考生的适应性;既考虑管理流程的便捷,也兼顾技术实施的可行。平台的框架设计、研发、试用和上线均经过严格的小规模、等规模的功能性、安全性和易用性测试。只有技术过硬、平台设计合理,安全隐患才会减少,才能让广大考生放心使用。通过多年迭代,不断细化需求,针对问题逐步优化,夯实平台软硬件基础环境,强化安全评估等多项措施,管理与技术并重,确保考生身份安全、考试数据安全和考试过程安全。
一是采用贯穿考试全过程的防作弊技术确保考生身份安全,利用多种生物特征识别技术支持考生在网上报名、考点报到、考试入场以及考试过程的生物特征采集和对比验证,采用加密狗加密、登录密钥和授权码等技术手段保障登录平台安全。二是利用高强度、高可靠性加密、代码混淆等手段保证考试数据安全,并采用一卷一密、一人一密、专用压缩算法以及数据库加密机制,确保考试各环节试题、考生和答题信息等安全存储和传输,做到数据不泄露、不被篡改。三是结合人工智能技术和软件处理机制保证考试过程安全,通过自动检测技术实时发现并处理可能出现的软硬件异常,包括耳机接触不良、网络中断、系统功能异常、考生周边噪音及人为干扰等情况。
智能评卷流程设计直接影响考生评分成绩,对考试公平至关重要。智能评卷质量取决于两个因素,一是考试题型,二是评卷方式。考试题型是评卷的基础,决定评卷的标准,同时影响评卷方式的选择。首先,设计适宜高考英语听说机考的智能评卷流程,包括计算机预评卷、人工定标评卷、计算机智能评卷和人机协作评卷四个环节。其次,根据考试题型选择相宜的评分方式。评分方式的选择直接决定智能评卷流程的设计。聚焦北京高考英语听说机考听后回答、听后记录、转述、朗读和读后回答五类题型,根据题型各自特点选择适宜的评分方式。再次,基于智能评分算法的准确性提升,鉴于目前基于无文本语音评测技术的智能评分系统评分的优异表现,在目前“人工评分+智能评分+人工仲裁”即“一人加一机”的智能协助评卷方式上更进一步,探索“双智能评分+人工仲裁”的双机评评卷模式。最后,利用仲裁机制强化质检抽查力度,保证智能评分的准确性,达到既大幅提升评分效率,又降低人工评卷成本,还能有效保证机考评分的科学性、专业性和客观性。
智能评分的质量依赖于语音识别的精准度和智能评分的准确率。通过音质检测、自动语音识别和自然语言语义表征等多项核心技术突破,助力智能评分提质增效。其中,音质检测技术用于考中、考后的考生答题录音音质检测环节,检出由于录音音质问题导致的人工不可评分和机器不可评分数据,便于及时采取措施降低考试风险。自动语音识别和自然语言语义表征两项技术是智能评分的核心,前者用于识别考生作答内容,后者用于语义分析,提取考生答题特征信息。
首先,改进音质检测算法有效提升异常音频检出效率。通过收集并分析拒评数据特点,采用端到端信噪比估计方案直接评估音频质量,归纳出录音音质异常、发音不清晰和特殊作答三类音频异常,改进音质检测算法后,各类异常数据检出率达95%以上。其次,采用端到端语音识别技术提升语音识别准确率。利用基于注意力机制的编解码网络端到端语音识别技术,并采用半监督自适应技术适配当次考试环境和考生答题内容,可大幅提升考生音频的语音识别准确率,降低关键词识别误触发的概率。最后,采用语义表征技术提升听后回答评分准确率。针对听后回答题型易出现语法、时态错误以及语义错误作答数据评分偏高的问题,考虑到其作答录音时间短、对错回答易于混淆的特点,依托海量规模数据预训练语言模型Bert构建端到端评分模型,显著提升听后回答题型的评分准确率,特别是错误回答数据的评分准确率。
总之,英语听说机考的持续实施,组考与评卷流程逐步优化,最大限度地保障了考试公平,以考促教、以考促学的效果逐渐呈现,考试指挥棒的正面导向作用得以有效发挥。无论是中学课程安排、教师教学方式、学生学习侧重都在发生改变,英语考核方式的改变直接影响到育人方式的转变和育人质量的提升。