智能口语双机评测模式在外语听说机考评卷中的可行性研究

2023-12-12 06:43沈晨罗双虎

考试研究 2023年3期

关键词：中考

沈晨罗双虎

[摘要]基于现有英语听说考试人机互评的评卷模式，探索双机评测模式可行性，使用上海市初中外语听说测试全真模拟数据试验，对比3种独立计算机智能评分算法的效果。结果显示，机评分与报道分一致性达到96%以上，具备良好的效果，但存在1659份样本双机评后仍误判的效果风险，综合考虑双机评测模式的评卷组织、机评评价机制仍不完备，暂不具备可行性，需要进一步的算法提升和应用方法研究；算力改变对比验证结果表明，评分准确性几乎不下降的情况下，采用GPU算力结构的评分算法的运算速度相当于CPU算力结构的6倍，这可以使得评分时间和硬件投入大幅度减少。

[关键词]中考；外语听说测试；计算机智能评分

[中图分类号]G424.74[文献标识码]A

[文章编号]1673—1654（2023）03—075—016

一、研究背景

习近平总书记在2018年底的中央经济工作会议上首次明确提出“加快5G商用步伐、加强人工智能、工业互联网、物联网等新型基础设施建设”[1]。2019年2月，中共中央、国务院印发《中国教育现代化2035》，明确提出“大力推进教育理念、体系、制度、内容、方法、治理现代化，着力提高教育质量，促进教育公平，优化教育结构”[2]。在教育考试领域，现代化人工智能技术已在普通中高考、大学英语四六级等高利害考试评卷方面形成规模化、标准化应用，一方面，通过“人机双评”模式有效降低教师评卷工作量，保障评卷公平；另一方面，通过“智能评分质检”对教师评卷进行校准和质检检测，保障评卷质量。

随着人工智能技术的发展[3]，计算机智能评分技术（以下简称机器评分）日趋成熟[4]。上海市教育考试院从2017年新高考改革第一年开始，在高考外语听说测试中采用机器评分技术，使用“人一评、机一评”的人机双评模式进行，避免了大规模抽调教师评分带来的一系列复杂的调度事宜，节省了大量人力，同时也避免了多人评卷带来的标准难以统一等问题。

目前机器评分在上海高考外语听说测试评卷中已经稳定应用了10次，在历次效果验证集上，机器评分效果已达到或超过人工评卷水平。基于高考外语听说测试机器评分的经验，在2021年上海新中考改革第一年首次开考的初中外语听说测试中也使用了同样的技术。实行计算机考试，使用人机双评模式保障评卷质量。目前此项考试不包含听力，既有的听说部分，总分值为10分，由四个题块构成，分别为朗读、交际应答、复述、表达。从2015年以来上海市小学入学人口统计来看，预计2029年参加中考人数近19万，相较2018年的约10万增长90%，考生语音的人工评卷组织成本仍然较高。因此，本研究尝试探索双机评模式替代人机互评模式的可行性。

二、智能测评技术在语音评卷中的应用

（一）口语智能评测基本原理及方法

口语智能评测是指使用计算机对口语能力进行自动评分。依据对口语能力维度的划分，口语智能评测包括发音评分和自然口语评分两类评分任务，前者以限定文本的词、句、篇朗读为测试任务，后者以非限定文本的情景应答、口头复述、看图说话、观点陈述等为测试任务。

口语智能评测从20世纪90年代开始得到广泛研究，发展迅速。目前，主流的口语智能评测方法分为两种：基于人工特征的评分方法[5]和基于深度学习的端到端评分方法[6]。基于人工特征的评分方法利用语音和语言处理浅层分析的结果构建特征（如音素发音错误率、语速、停顿频率、词汇多样性等），将评分任务作为回归任务，从而对口语作答进行评分。该方法应用广泛，具备高度的可解释性，但由于人工特征与人工评分考察的维度和深度相距较远，如难以抽取内容语义特征，并不能完全适用于对评分准确性有高要求的大规模口语考试评测。近年来，基于深度学习的端到端评分方法开始应用于口语智能评测。该方法首先通过神经网络将口语作答的语音和文本形式的识别结果抽象地表示为分布式向量，然后再学习分布式向量与分数之间的关系。近来一些研究成果显示此类方法可以取得优于基于人工特征评分方法的效果，但存在可解释性较差、对标注数据依赖性强的问题。

1.算法选取

为论证双机评模式的可行性，本文采用当前已大规模应用的三套独立的口语智能评测算法，在相同的有专家评分的定标集上进行定标学习，并经过验证集的核验后对相同的全集数据进行评分。评分结束后，将机器评分与报道分进行对比分析。最终通过分析实验数据，探究多机器评分并行代替人工双评的可行性。

（1）算法I基本原理（如图1）：算法I分为朗读类题型评测和表达类题型评测，采用非端到端方案和端到端方案相融合的方法，最大程度上利用两者的优势，保障评分准确性。在非端到端方案中，对于词组和句子朗读题型，基于语音识别结果，对考生朗读进行漏读、增读、重复、不当停顿检测，获得完成度、流畅度维度的评分特征；通过发音检错技术，对考生朗读内容进行音素级发音准确度评分特征提取。对于交际问答、复述和表达题型，基于语音识别结果，通过语义匹配技术计算与参考答案的相似度，以获得信息完整度和正确度相关评分特征；通过语法检错技术提取词汇及语法正确度评分特征；发音和流畅度则采用与朗读题型一样的评分特征。在端到端方案中，对于词组和句子朗读题型，端到端模型接受朗读语音和朗读文本作为输入，直接预测专家分。对于交际问答、复述和表达题型，端到端模型接受考生语音和识别结果，直接预测专家分。在非端到端方案中，语音识别、发音检错、内容及语义表征是核心。为提升最终的评分效果，算法I采用基于注意力机制的端到端语音识别系统，识别性能显著超过传统的混合识别系统，极大地提升了评分准确率，特别是交际问答这类短语音题型。为提升发音分析的准确度和区分性，算法I开发了基于端到端框架的音素发音检错模型，检错效果显著优于传统的基于GOP（Goodness of Pronunciation，计算机实现英语发音评价的一种算法）[7]的检错模型。在内容和语义表示方面，除了计算学生回答与参考答案词级的浅层相似度之外，算法I还融合了基于LSTM（Long Short Term Memory Network，长短期记忆人工神经网络）[8]、BERT（Bidirectional Encoder Representations from Transformer，来自变換器的双向编码器表征量）[9]等预训练语言模型的句子和段落级的矢量化方法，获得了更好的稳定性和准确性。

（2）算法II与算法III基本原理（如图2）：首先将原始语音信号输入到模型中，对原始信号按照10ms的窗口进行采样，在加快速度的同时，减少了信息的损失。将采样后的信号输入到卷积神经网络[10]，用卷积神经网络进一步提取语音的局部不变性特征。经过卷积神经网络得到的特征序列经过线性变换层，特征序列得到进一步映射。经过映射后的特征序列，被输入到多层循环迭代神经网络，提取完整的音频上下文信息。同时，该特征序列输入到多层卷积网络，进一步捕获局部不变形特征。将全局上下文信息与局部上下文信息进行拼接，得到最终的特征向量。该特征向量经过深度神经网络，进行高维空间映射到一维。将一维分数经过sigmoid激活函数进行分数非线性变换，获得最终的评分。

算法II与算法III的不同之处在于，两类算法在语音识别准确性和内容特征矢量化方面均有所区别。在语音识别方面，以LSTM神经网络为声学模型，识别率已经达到90%以上，分别经过改写和参数调整后，两者差别不大。在内容矢量表示方面，基于 Word2vec[11]、LSTM、CNN（ConvolutionalNeural Network，卷积神经网络）、Decoder-Encoder（解码器和编码器）[12]、RNN（Recurrent Neural Network，循环神经网络）的内容表示分别部分融合使用，呈现出不同的结果，以进行研究和分析。

2.实验流程规划

如表1所示，整体实验流程规划确定了9个工作步骤，前7个工作步骤让机器能真正学会理解评判的方法。

（二）设计思路

1.训练评分方案

机器评分根据每个题型的特点选择合适的特征，参考定标集人工评分的标准进行学习，然后用各个题型学习到的评分标准对全集数据进行评分。这样就可以得到每个考生的小题机器分，然后按照各题的教师评卷规整方式（即教师评阅各题的最小颗粒度）进行规整，得到最终各个题型的机器分（见表2）。

2.对比分析方案

本次实验对比，基于上海市2021年度首次开考的初中外语听说测试的全真模拟全部数据进行对比分析，以当次考试发布的报道分作为标准，三套算法基于同样的定标集专家评分进行训练出分，即算法 I、算法II、算法III的机评分，通过对比算法I、算法II、算法III与报道分的一致性，在确保机评分效果达到评卷要求的前提下，挑选最优效果算法作为机评主评，第二优效果算法作为机评副评，以报道分作为标准，探索双机评模式的可行性，并同步验证基于CPU（计算机中央处理器）运算的机评方案升级到基于GPU（高性能计算、深度学习训练和推理的计算机处理器）运算的机评方案，所带来的评分效果影响及效率提升情况。

实验对比过程中涉及多个概念：报道分、机评分、专家仲裁等：

（1）报道分：外语听说测试经过双评+仲裁模式后，形成的对外发布的最终报道分，计算方式是：双评分在分差阈值范围内的采信双评均分，超过分差阈值的交由专家仲裁，采信仲裁分。

（2）专家仲裁：經过双评后，双评分差超过分差阈值，由评卷组提交评卷专家进行人工仲裁。

（3）算法I：算法I的机评分。

（4）算法II：算法II的机评分。

（5）算法III：算法III的机评分。

3.评价指标定义

本次实验中所需用到的评价指标定义如下：

（1）得分率

得分率为考生成绩的平均分与满分的比值换算成的百分数。它反映试题的难易程度，得分率越高说明题目越简单，反之则越难。

（2）标准差

标准差是方差的算术平方根。标准差能反映一个数据集的离散程度。平均数相同的两组数据，标准差未必相同。

（3）相关度

相关度的取值范围介于-1～1之间，越接近1表示两组评分的排序关系越接近。

（4）一致率

假设评分设定的仲裁阈值是m分，将一组评分与报道分之间误差绝对值小于等于m分的数据占总评分数量的比例称为一致率。一致率反映了在允许误差范围内评分的准确性，取值范围介于0～1之间，越接近1越好。

（三）实验结果分析

1.实验数据集说明

本实验中的数据为初中外语听说测试全真模拟数据，所用的数据集包含定标集与验证集，定标集是机器用于学习评分标准的数据集合，验证集是用于检验机器评分性能的数据集合，机评全集是计算机能够正常评卷的数据集合。由于本实验已有全集报道分，故使用机评全集数据进行比对分析。表3列出了本次验证各题的定标集和验证集数量、全集数量、满分以及仲裁阈值。仲裁阈值是根据专家组给定的双评大分差上限，超过阈值则表示两个评分之间误差过大，两评均不可信，会交由仲裁专家进行仲裁。

2.算法I、II、III与报道分的效果对比分析

在机评全集的88322份样本上，以报道分为标准，分别对算法I、算法II、算法III的机器评分效果进行对比分析。T1【朗读】、T2【交际应答】、T3【复述】、T4【表达】4类题型依据相关度、一致率指标对机器评分效果进行对比分析的结果如表4～8所示。

分析表4～8可以发现：

（1）从相关度、完全一致率、≤0.25分一致率和≤0.5分（满分2.5分）一致率上看，T1【朗读】、T2【交际问答】、T3【复述】、T4【表达】4类题型机器评分效果最优的均是算法I，T1【朗读】、T2【交际应答】、T3【复述】题型效果排第二的是算法II，T4【表达】是算法III。

（2）从≤0.25分一致率指标来看，在T1【朗读】题型，效果最优与第二的一致率差异为2.45%，且一致率均超过95%，效果较好；在T2【交际应答】、T3【复述】、T4【表达】题型，效果最优与第二差异为4.81%～ 10%不等，算法II、算法III在这些题型仍需持续优化效果。

3.双机评可行性分析

依据算法I、算法II、算法III与报道分对比分析结果，拟采用效果最优的算法I作为机评主评（以下简称评1）、效果相对较优的算法II作为机评副评（以下简称评2），探索双机评模式的可行性；双机评模式下，评1与评2的分数在分差阈值范围内，采信机器评分，取评1和评2的均分作为最终分；分数在分差阈值以外的，由评卷组安排专家仲裁，仲裁分作为最终分。

对T1【朗读】、T2【交际应答】、T3【复述】、T4【表达】4类题型，评1和评2的分数进行对比如表9、表10所示，共计仅有2758份样本需专家仲裁，教师评卷工作量显著降低。

针对需专家仲裁样本集，即评1与评2不一致（分差>0.5分），评卷组需按照专家进行仲裁评分，仲裁分作为最终分进行发布，该数据集上不存在效果风险。

在采信机器评分样本集上，即评1与评2一致（分差≤0.5分）的样本集上，取评1和评2的平均分（以下简称“均分”）与报道分进行对比分析，如表11、表12所示。从4个题型均分与报道分分差分布指标来看，存在1659份样本均分与报道分相差超过0.5分，会造成评分偏误；针对上述大分差样本进行深度分析，对集合上报道分的评分分布进行统计如表13所示，无有效途径对效果风险进行检出。另外，从≤0.25分一致率指标来看，T3【复述】、T4【表达】题型上报道分与均分一致率较低。

综上所述，针对英语听说测试场景的双机评方案，从评卷组织上能够极大地降低教师评卷工作量；但从评卷质量保障上，存在1659份样本双机评后与报道分产生大分差的效果风险，暂不具备可行性，仍需智能评分技术的持续进步以及评卷组织流程上针对性的完善，才能更好地推进方案执行落地。

4. GPU方案验证分析

本次实验，针对算法I，同步对机评全集数据进行CPU方案和GPU方案的对比分析论证。保证在相同的数据基礎上进行CPU与GPU不同版本的评分，针对这两种评分方式的结果从时间效率、评分效果上进行了对比分析，其结果如下：

（1）时间效率对比：GPU评分效率远远优于CPU评分效率，一台双GPU显卡服务器的运行效率相对于一台CPU服务器的效率提升6倍。

本次考试参与口语评分的人数约8.8万，在中考评测过程中使用了11台CPU服务器，同步使用2台GPU服务器进行验证。为了直观地呈现CPU服务器与GPU服务器在口语评分中的时间性能差异，对本次评分中涉及的主要时间进行了统计，如表14所示。

考虑到后期上海中考人数可能增加的情况，对服务器数量使用进行了估算。根据本次口语评分时间效率的统计，若保证目前的评分周期不变，对10万名考生进行评分，所需要的CPU与GPU服务器配置和数量如表15、表16所示。

（2）评分效果对比：基于得分率、标准差、相关度、一致率等指标对两次评分进行对比，证实GPU评分效果略低于CPU的评分效果。

表17分别基于得分率、标准差等指标对各题型得分与总分进行对比。可以看出：GPU分与报道分之间的得分率最大差异为0.03、标准差最大差异为0.06，效果基本相当；GPU分与CPU分得分率最大差异是0.01、标准差最大差异为0.05，基本一致。

基于相关度、一致率（阈值范围内）指标对验证集上每个题型得分与总分进行对比，结果如表18所示：总分上，GPU分与报道分的相关度、一致率高于人一评和人二评之间的统计结果，而与CPU分和报道分的统计结果基本相当；复述题、表达题上，GPU分与报道分的相关度、一致率明显高于人一评和人二评之间的统计结果，略低于CPU分和报道分；朗读、交际应答上，GPU分与报道分的一致率略低于人一评和人二评，CPU分与报道分的相关度、一致率与人一评和人二评相当。

综上，基于本次实验结果分析，可以得出结论：

第一，GPU在评分效率上有明显优势，基于目前提供的评分设备，1台搭载NVIDIA T4双GPU卡服务器的性能相当于6台搭载Intel Xeon 20核40线程CPU服务器。

第二，GPU评分效果在复述、表达题上与CPU评分效果相当，在朗读、交际问答题上还有差距，有待进一步改进。

三、实验总结及展望

人工智能是引领未来的新兴战略性技术，是驱动新一轮科技革命和产业变革的重要力量。习近平总书记多次作出重要指示，强调“要深入把握新一代人工智能发展的特点，加强人工智能和产业发展融合，为高质量发展提供新动能”。

此次针对上海市2021年度首次开考的初中外语听说测试的全真模拟数据进行的计算机智能评分，是一次突破性的创新和实验，更是一次智能阅卷替代人工阅卷的有益尝试。其在评分过程中呈现的智能程度、算法的先进性、结果的准确性和极高的效率等，都代表着未来专业化考试机构人工智能的应用方向，也为今后计算机智能评卷从后台走向前台，由离线方式变为实时、动态应用方式奠定了良好的基础。

（一）智能测评技术应用评分准确性

计算机智能评分已经形成了一套完善的“端到端”的识别处理方案。在语音识别方面，深度卷积神经网络与隐马尔科夫模型结合的（CNN-HMM）模型，构建一个状态网络并从中寻找与声音最匹配的路径，能够准确进行语音识别。在英文识别方面，主要采用深度递归网络识别算法（RNN），该算法已经成熟并广泛应用于拉丁语系文字的识别中，且已被证明具有良好的识别效果。本次计算机智能评分中，对语音的识别率均已经达到了97%以上，能够满足自动评卷的要求。从最终人机对比结果可以看出，计算机智能评分与报道分的一致率达到了97%。另外，由于评卷教师在长时间、高强度的评分过程中，极易身心疲惫，一定程度上会影响评卷教师对评分尺度的把握和评分一致性的把控，甚至出现打保险分的现象，而计算机智能评分不会受到情绪、身心状态、个人喜好等主观因素的影响，能够始终采用统一的标准进行评测，从而很大程度上保证了评分的客观公正性。

1.算力效果提升评分效率

随着上海初中考生人数的增加，在评分周期不变情况下如何减少智能评卷对硬件的要求显得十分重要，使用GPU机评方案提升机评效率势在必行。

从本次GPU机评验证的结果看，在得分率、标准差、评分分布等基础指标上，GPU机评分已经接近或达到人工评分水平，但整体效果略低于CPU评分，需要后期进一步的优化改进。可能的原因在于：第一次对于新考试的新题型进行机评，还需不断地训练，在避免过度拟合的情况下进行迭代。后期计划对GPU评分策略做进一步改进，需经过多轮验证，确保GPU评分达到与CPU一致的水平，才能最终使用GPU评分取代CPU评分。

2.三类独立算法的改进方向

智能测评技术在语音评卷中还需不断改进和优化，本文三类独立算法在内容维度的评分特征均无法自主直接提取，目前业内其他各类智能测评的应用中，对于语音也无法全覆盖地进行答案枚举。存在的问题就是没有标准答案，答案不可穷举，机器不知道什么样的作答是高分、中分和低分。虽然有人工定标训练，靠人工提取定标得分特征，通过选取的包含高、中、低水平的数据，进行人工打分，机器依据人工打分学习高低分的回答模式三种途径，但由于训练集和验证集均是机器选取的，选取的合理性、科学性、代表性还有待进一步研究。可见，智能测评技术通用性的研究还需持续进行，本次实验中使用的算法还需不断迭代，在防止过度拟合的前提下保证机器评阅得更加精准，但从实际使用的角度也只能保证机器在某一项考试或者某一种类别（即语音且是英语的作答）中进行评判，真正的广泛性还需商榷。

（二）对未来考试评卷智能化应用的展望

近年来计算机智能评卷技术在大规模纸笔考试和计算机考试中的应用，已经验证了智能评测技术的实用性和可靠性。当前针对外语听说测试场景，使用人机互评+专家仲裁的评卷模式，已经能够高效率、高质量地保障评卷工作；但是，使用双机评模式，经过本轮实验验证，当前仍存在评卷质量风险；另外，以采信机器评分为主的双机评模式，仍需要解决社会认可度、可解释性、多套算法如何同步进行技术升级、评卷组织过程如何监控质量等具体问题。

在后续的研究中，需从三个方面持续推进评卷智能化进程。第一，智能评卷技术的持续优化迭代：历年听說外语测试积累的庞大数据集，以及语音识别、自然语义理解、多维度智能评测等技术上的持续进步，是智能评卷技术效果稳定的保障。第二，评卷组织流程上，需要针对双机评模式设计完备的效果保障机制、运营监控机制以及应急预案：具体来说，仍需建立一套以人工评卷校验为核心的效果保障机制，防范双机评出现系统性评分偏误，由此产生的人工评卷工作量及保障机制也需深入研究；仍需具备随时切换人机互评的应急预案，保障机评出现系统性评分偏误后评卷的正常开展；需要建立自动化、可视化的运营监管机制，保障机评效率及稳定性。第三，以采信机器评分为主（仅少量人工校验）的双机评模式需要完备的可解释性，需要建立并完善对智能评分结果的评价机制。

总之，要充分抓住目前人工智能高速发展的大好机遇，加强每次大规模验证和应用之后的数据分析工作，逐步建立一套完整的、科学的对评分结果的评价机制，全力推进人工智能向应用成果的转换。

参考文献：

[1]国家发改委，科技部，工信部，等.“互联网+”人工智能三年行动实施方案[EB/OL]. [2023-01-11]. http：//www.gov.cn/xinwen/2016-05/23/content_5075944.htm.

[2]中共中央，國务院.中国教育现代化2035[EB/OL].[2023-01-11].http：//www.gov.cn/xinwen/2019-02/23/content_5367987.htm.

[3]中国信息通信研究院.人工智能白皮书（2022年）[C].2022.

[4]何屹松，徐飞，刘惠，等.新一代智能网上评卷系统的技术实现及在高考网评中的应用实例分析[J].中国考试，2019，（1）：57-65.

[5] Mao S，Wu Z，Jiang J，et al. NN-based Ordinal Regression for Assessing Fluency of ESL Speech [C] // ICASSP 2019 - 2019 IEEE International Conference on Acoustics，Speech and Signal Processing（ICASSP）. IEEE，2019.

[6] B. Lin，L. Wang，X. Feng，and J. Zhang，Automatic Scoring at Multi-granularity for l2 Pronunciation [C] // Interspeech，2020.

[7] Witt S M，F S J Y. Phone-level Pronunciation Scoring and AssessmentforInteractiveLanguageLearning[J].Speech Communication，2000，30（2/3）：95-108.

[8] Sundermeyer M，Schlüter R，Ney H. LSTM Neural Networks for Language Modeling [C] // Thirteenth Annual Conference of the International Speech Communication Association，2012.

[9] Devlin J，Chang M W，Lee K，et al. Bert：Pre-training of Deep Bidirectional Transformers for Language Understanding [J]. arXiv preprint arXiv：1810.04805，2018.

[10] Hori T，Watanabe S，Zhang Y，et al. Advances in Joint CTCattention Based End-to -end Speech Recognition with a Deep CNN Encoder and RNN-LM [J]. arXiv preprint arXiv：1706.02737，2017.

[11] Mikolov T，Chen K，Corrado G，et al. Efficient Estimation of Word Representations in Vector Space [J]. arXiv preprint arXiv：1301.3781，2013.

[12] Bahdanau D，Cho K，Bengio Y. Neural Machine Translation by Jointly Learning to Align and Translate [J]. arXiv preprint arXiv：1409.0473，2014.

Feasibility Study of Intelligent Dual-machine Speaking Assessment Mode in Computer-based Foreign Language Listening and Speaking Test

Shen Chen Luo Shuanghu

Shanghai Municipal Educational Examinations Authority，Shanghai，200433

Abstract：Based on the existing evaluation mode of human-computer mutual assessment of English listening and speaking test，the feasibility of dual-computer evaluation mode was tentatively explored，and three independent computer intelligent scoring algorithms were compared by using the full-real simulation data test of Shanghai junior high school foreign language listening and speaking test. The results show that the consistency between the machine score and the report score reaches more than 96%，which has good results，but there is a risk that the effect of 1659 samples is still misjudged after the dual-machine evaluation，and the evaluation organization and evaluation mechanism of the dual-machine evaluation mode are still incomplete，and the dual-machine evaluation mode is not feasible for the time being，and further algorithm improvement and application method research are needed. The comparative verification results show that the scoring speed of the scoring algorithm using the GPU computing power structure is equivalent to 6 times that of the CPU computing power structure without the decrease in scoring accuracy，which can greatly reduce the time and hardware spent on scoring.

Key Words：Junior Entrance Examination，Foreign Language Listening and Speaking Test，Computer Intelligence Scoring

附件：

初中外语听说样卷

I. Read aloud朗读（5小题，共2.5分）

Section 1：

Directions：Read the following phrases. You will have 10 seconds to prepare and 15 seconds to read.

朗读词组。准备时间为10秒，朗读时间为15秒。（3小题，共1.5分）

1. national flag

2. look after the children

3. surprised at the news

Section 2：

Directions：Read the following sentences. You will have 10 seconds to prepare and 20 seconds to read.

朗读句子。准备时间为10秒，朗读时间为20秒。（2小题，共1分）

1. Would you come to my birthday party？

2. John is talking about the TV programme with his friends.

II. Quick response交际应答（5小题，共2.5分）

Directions：You will hear five sentences. Make quick responses to the sentences you have heard. For each sentence，you will have 5 seconds to prepare and 10 seconds to answer.

根据你听到的句子作出应答，每个句子准备时间为5秒，答题时间为10秒。

III. Retell复述（1小题，共2.5分）

Directions：Retell what you hear with the given points. You will hear the recording twice. You will have 60 seconds to prepare and 60 seconds to retell.

你將听到一段音频，请根据所给要点进行复述。录音播放两遍。准备时间为60秒，答题时间为60秒。

你的复述可以这样开始：Henry keeps pets at home...

IV. Free talk表达（1小题，共2.5分）

Directions：Say at least five sentences according to the following information. You will have 60 seconds to prepare and 60 seconds to talk.

根据以下提示进行表达，至少讲5句话。准备时间为60秒，答题时间为60秒。

你的表达必须包含以下要点：

1. What are the people in the picture doing？

2. What can you learn from the boy？

初中外语听说样卷参考答案及评分标准

I.朗读

Section 1：

1. national flag辨音

清晰、正确朗读2个单词得0.5分

清晰、正确朗读1个单词得0.25分

清晰、正确朗读0个单词得0分

2. look after the children连读

清晰、正确朗读look after，the children 2个词块得0.5分

清晰、正确朗读1个词块得0.25分

清晰、正确朗读0个词块得0分

3. surprised at the news失爆

清晰、正确朗读surprised，at the news 2个词块得0.5分

清晰、正确朗读1个词块得0.25分

清晰、正确朗读0个词块得0分

Section 2：

1. Would you come to my birthday party？（语调）

清晰、正确体现升调得0.25

清晰、正确朗读句子得0.25，读错1个单词不扣分（读错≥2个单词扣0.25分）

2. John is talking about the TV programme with his friends.（意群和停顿）

意群和停顿不影响理解得0.25

清晰、正确朗读句子得0.25，读错1个单词不扣分（读错≥2个单词扣0.25分）

II.交际应答

0.5分能对所给的句子进行恰当应答

0.25分能应答，但应答不完全符合英语表达习惯

0分不能应答或应答不符合英语表达习惯

1. Thanks. / Thank you./ ...

2. Once a week. / Twice a month. / Every day. / Never.

3. Its worth watching. / This is the most exciting film that Ive ever seen. / Boring. / Interesting. / Fantastic...

4. Of course/ Certainly./ No problem. / Sorry，Im using it myself. / Sorry，Ive just lent it to Alice. /Sure.

5. Congratulations！ / Good for you！ / Great！ / Good job！ / Im glad to hear that. / You must have put a lot of effort into it. / You must have worked hard for it. / How nice！ / How marvelous！

III.復述

Key points：

1. Henry has two pet cats.（0.5）

2. One is a black cat named Tommy.（0.5）

3. The other is a white cat called Kitty.（0.5）

4. Cats can take care of themselves（but dogs need people to walk them every day）.（0.5）

5. Cats are quiet（but dogs usually make a lot of noises）.（0.5）

IV.表达

Key points：

1. What

do housework；wipe the window；clean the floor；stand on a chair to clean the upper part of the window…

2. Opinion

learn to keep ones home clean and tidy；learn to share housework；show love for；form the habit of…

参考答案：

The people in the picture are doing housework. The boy is wiping the window while his mother is cleaning the floor. The boy is not tall enough，so he is standing on a chair to clean the upper part of the window. We can learn from the boy that we should share housework with our parents. And we should form the habit of doing housework.

2.5分内容完整充实，表达流畅连贯，语言结构和用词基本正确。

2分内容完整、较充实，表达较流畅连贯，语言结构和用词基本正确。

1.5分内容较完整充实，表达基本流畅连贯，语言结构和用词存在较多错误，但不影响理解。

1分内容不完整，表达欠流畅连贯，语言结构和用词存在较多错误，但不影响理解。

0.5分仅能说出个别单词。

0分无法表达或表达内容与所给提示完全不符。

只能讲述4句，得分不高于2分

只能讲述3句，得分不高于1.5分

只能讲述2句，得分不高于1分

只能讲述1句，得分不高于0.5分

（责任编辑：吴茳）