【摘要】计算机辅助测评英语语音能力是目前英语教学及考核所探讨的一个热点,它能进行既定标准语和目标语的语音质量对比,并提供相当客观的数据分析结果,但其能否替代人工测试达到合理测试语音质量的效果,还有很大的研究空间。所以,本课题以高职院校英语专业学生为研究对象,采用人工与计算机辅助两种不同测试方式及手段,对英语专业学生进行语音能力测试;并依据英语语音测试与评估的三维度(精准度、可理解度和外国口音)评估标准,对比两种测评模式的异同;然后在对所得数据分析的基础上,探讨两种测试模式的信度与效度。旨在建立一个公正、客观、准确的评价机制,用以评价高职英语专业学生的英语语音能力。
【关键词】高职;英语语音;测评;计算机辅助
【作者简介】张莉(1982.04-),女,四川南充人,南充职业技术学院外语系,毕业于乐山师范学院,大学本科,讲师,研究方向:英语教学。
【基金项目】该论文属于课题《高职英语教育专业学生英语语音能力测评研究》成果之一。
一、引言
语言是人们进行沟通的重要方式,掌握一门语言的第一步,就是从该语言的发声入手,因此,英语语音的教学作为英语教学的第一步,非母语英语学习者的四项基本技能听、说、读、写与社交能力的发展都是以英语语音为前提。英语语音水平的高低对英语专业学生就更显重要。因此,如何评判学生的英语语音水平,包括评判方式,评判依据,评判有效性等因素就成了必需。目前对英语专业学生的英语语音能力的考核绝大多数仍采用人工测评,对于计算机辅助系统应用于英语专业学生的英语语音能力测评实践的研究尚少有涉及。而对于职业定向明确的高职院校英语专业学生,英语语音能力普遍不高,这将影响其职场的能力发展与交流。因而,寻找更准确、客观、完善的语音能力测评模式将有助于教师制定不同的教学策略,提高英语专业学生的语音能力,从而提高语音教学的效果。
英语语言测试与评估主要从精准度、可理解度和外国口音三个方面进行综合考虑。而无论人工测试还是计算机辅助测试,测试内容的选取和对每项内容的具体评判标准的量化都是影响测评结果的关键因素。对于相同测评内容进行不同方式进行测评时,其测评结果的稳定性能否体现考核语音质量特点,也应该纳入测评可信度高低的分析范畴。
二、人工测评和计算机辅助测评现状
1.人工测评现状。目前,专门开展英语语音课程的高职院校不多,且多把重心放在英语综合应用能力上, 因此在英语口语课程,各级别演讲比赛活动中,评判标准也大多倾向被测试者选题热度,词汇丰富程度,句法结构复杂程度,话题是否紧扣命题要求等因素,极大程度削弱了对重音,连读、节奏,语调等的语音特征的评定。即使评分中对语音细则有说明,也是诸如是否“语音准确,语调自然”之类的粗略描述。在这种模糊概念中进行的整体性评价跟测试人员的个人研究领域或评分经验等有较大关系,因此掺杂个人主观偏见较多,对不同教育程度的学生所进行的评定会显得粗略或不客观。
在有开展了语音课程的院校,对语音课程效果进行考核或评判学生口语能力的时候,测试人员也倾向于采用“整体印象评分”这种更简单的操作方式,甚至会因为测试人员的个别偏好对某个语音现象严重扣分或重复扣分。这对精准考核学生语音能力都是不够严谨的,也是不公平的,不利于真正评判受试者的语音水平。
2.计算机辅助测评现状。计算机辅助测评的原理为,将获取的被测试者的发音进行特征值提取,然后在参考模型中(很多采用HMM模式)进行匹配、对齐和评分,也就是解码过程。我院目前采用的数字化语言实验室是“蓝鸽口语教学”系统,在采集被测试者发音的过程中出现了无法采集声音或声音采集不完整的现象,而在弥补这种缺陷时进行反复采集声音的过程也无疑会影响被测试者的发音状态,同时也会增加声音采集工作量。在匹配、對齐和评分环节,明显出现超长语句匹配不适应情况,即不能有效匹配超长语句。系统对超长语句不能识别,或者在进行数据分析时只能按照声音的语段特征提取信息,而且识别标准具有唯一性。而其他测评平台中,如目前正在推广使用的MET全民英语APP,其在长句分析的精准度和语调的测评方面,也存在一定不稳定因素,比如对意群的划分不明显,只认定一种语调,偶尔会出现两次测评误差超过10分的情况等。
3.测评方式及测评结果。在测评实验中,我们将单词朗读,对话角色扮演,篇章朗读三部分作为声音采集内容,选取我院17级英语专业学生中作为测试对象,从每个班级随意选取10份声音,共60份,作为测评内容,将声音交由3名不同测试人员和蓝鸽口语教学系统测试分别测评。要求对单词朗读,对话角色扮演,篇章朗读三个部分分别打分,了解同一声音采样中不同内容对于不同测试人员和计算机辅助测试之间存在的测评差异。统计数据时按整体统计和分项统计分别进行:
将每一份采样声音作为一个整体,进行整体统计。先根据蓝鸽口语教学系统测评结果,按照分数高低划分为优、中、差三个等级,再根据3名测试员测评的结果取平均分数后按照分数高低划分为优、中、差三个等级,进行比较发现:20份优等级机器测评结果中有15份被人工测评为优等级,20份中等级机器测评结果中有14份被人工测评为中等级,20份差等级机器测评结果中有10份被人工测评为差等级。
B.将采样声音按各部分(单词朗读,对话角色扮演,篇章朗读)分别统计。先根据蓝鸽口语教学系统测评结果,将三部分内容分别按照分数高低划分为优、中、差三个等级,再根据3名测试员测评的结果将三部分内容分别取平均分数后按照分数高低划分为优、中、差三个等级,进行比较发现:单词朗读部分,20份优等级机器测评结果中有19份被人工测评为优等级,20份中等级机器测评结果中有19份被人工测评为中等级,20份差等级机器测评结果中有20份被人工测评为差等级;对话部分,20份优等级机器测评结果中有17份被人工测评为优等级,20份中等级机器测评结果中有15份被人工测评为中等级,20份差等级机器测评结果中有15份被人工测评为差等级;篇章朗读部分,20份优等级机器测评结果中有13份被人工测评为优等级,20份中等级机器测评结果中有12份被人工测评为中等级,20份差等级机器测评结果中有14份被人工测评为差等级。
统计数据进行分析结果显示,从单词朗读,对话角色扮演,篇章朗读三方面 进行整体测评,人工测评和计算机辅助测评的结果契合度为75%。但仅仅从单词朗读方面的测试分数显示,人工测评和计算机辅助测评的结果契合度为96.7%;从对话角色扮演方面的测试分数显示,人工测评和计算机辅助测评的结果契合度为78.3%;而从篇章朗读方面的测试分数显示,人工测评和计算机辅助测评的结果契合度为66.7%。结果显示,计算机辅助测评在单词中音素、音节、词重音、辅音连缀方面的测评在精准度和稳定性上非常高,有较高可信度,较人工测试的客观性也更强,但在处理对话和篇章朗读时,对超音段因素如词间连读,失去爆破,语句重音,意群、语调的判断就不能合理有效的判别了,尤其是对20词以上的长句,表现特别明显。
三、高职英语语音测评的建议
1.人机共测,彰显客观公平。介于英语语音人工测评和计算机辅助测评对独立单詞中音素、音节、词重音、辅音连缀方面测评较为准确,客观,但在处理对话和篇章朗读时,对长句中如词间连读,失去爆破,语句重音,意群、语调、语流、可理解度等因素的判断不能做到合理有效,因此可以将测评内容按不同任务分类,分不同方式进行测评。将单词、短语、短句等音段类考察内容交由计算机辅助测评,充分发挥计算机客观、精准的优势;将篇章等有长句的超音段内容交由人工测评,尽量避免计算机对不容易进行量化的语调、语流、可理解度等主观因素造成的处理不适宜,也可以对该部分内容采取人机共测的方式,以达到最大化客观准确判断被测试者的英语语音水平的效果。
2.计算机辅助测评对语音教学具有反拨作用。在语音学习过程中,大多数老师和学生都会在不同程度上遇到不断重复的枯燥,也会有对某一音进行纠音却屡不见效果的苦闷。针对计算机辅助测评功能在单词和音素上的优势,可以利用计算机辅助语音训练达到高效提高语音水平的目的,从而改进传统语音音素训练和教学口授耳听的单一模式,以及课后训练缺乏及时反馈指导的弊端。通过将学生利用计算机辅助语音训练的结果进行分析筛选,总结归纳出某一班级或某一地域群体存在的发音问题共性,以此作为教学和纠音的重点,这将极大提高学生语音学习效率。
训练方式多样化也将在一定程度上提高学习效率。充分利用计算机测评结果即刻呈现的分数,激发学习者不断挑战更高分数的兴趣,让学习者在大量的刺激练习环境中将语音得到有效巩固,使教学和学习同步轻松。
四、结语
计算机辅助用语音测评对提高测评效率,扩大测评受众面有非常积极的意义,这对提高英语语音教学质量也具有重大意义。但由于不同测试平台采用的语音识别技术、技术参数设置等的差异,必将导致测评效果会有差异,况且同一平台在同一被测评者稳定发挥时的测评结果也会存在差异,加上测试卷的制定是否能全面客观体现出被测试者的英语语音水平,口音是否作为评判的重要内容等问题没能到有效决,我们将在这些方面继续深入研究。
参考文献:
[1]张娟.语音识别系统的简述[J].科技资讯,2006:38.
[2]陈桦.英语语音评测的现状与思考——一项对标准化口试评分员的调查[J].外语与外语教学,2017 (5) :81-87.
[3]滕海坤.基于语音识别技术的英语发音评测系统研究英[J].盐城工学院学报:自然科学版,2016(1):17-22.
[4]梁迎丽.基于语音测评的英语口语智能导师系统研究[J].现代教育技术,2012(11):82-85.
[5]周必水.语言理解在计算机辅助测评中的应用[J].杭州电子工业学院院报,2003(2):28-32.