摘要:作者利用自主研发的英语语音计算机测试系统先后对200名英语专业在校生的英语语音进行计算机测试,并将其成绩与传统语音测试成绩作对比分析,给出误差修正公式及降低误差的方法。
关键词:英语语音;测试;误差;分析
中图分类号:TP311 文献标识码:A
文章编号:1009-3044(2023)13-0113-03
开放科学(资源服务)标识码(OSID) :
0 引言
随着语音合成、输出和语音识别技术的出现,使英语语音计算机测试成为可能,现阶段笔者已经研发了一套英语语音计算机测试系统软件[1],它能利用计算机对学生的英语语音判断识别并给出相应的成绩,与此同时还进行同步录音,以便考试结束后教师检查修正学生的英语语音成绩。
英语语音计算机测试是一个新的领域,它需要计算机代替人脑去判断测试者的语音并给出相应的分值,因而其测试结果的准确度将成为该技术能否被广泛应用的关键。此前,笔者已经开发了一套英语语音计算机测试系统,并组织绍兴文理学院外国语学院英语专业学生进行测试,但是发现测试的成绩与传统教师评分的成绩存在一定的误差。分析原因可能与学生机器操作的熟练程度以及机器评分的成绩计算公式有关,为了让计算机测试结果更加准确,为此,笔者通过两组实验对比分析,再结合费希纳对数定律的公式对计算机测试成绩进行优化,并跟传统的教师评分进行优良率分析比对,初步找出控制误差的方法。
1 理论依据
1.1 心理量概念
心理量指人在受到外界刺激而引起的自身知觉的大小,触觉心理量是指由外部接触刺激引起的知觉经验[2]。
1.2 物理量概念
物理量是指能准确表示物体状态以及物理变化的程度。如长宽高、运行速度、温度、做功、电阻以及电流等。
1.3 差别感受性和差别感觉阈限
差别感受性是指人刚能觉察出两个同类刺激物之间最小差异的能力,而这两个同类刺激物之间的最小差异量称为差别感觉阈限。差别感受性和差别感觉阈限在数值上是成反比关系的。
德国生理学家韦伯发现,差别感觉阈限并不是固定的值,而是随着原刺激量的增加而增加,但它们的比值却是一个常数,这就是韦伯定律:
[K=ΔI/I] (1)
式中:[I]表示原刺激量;[ΔI]表示刺激增减量;[K]代表常数。
1.4 費希纳对数定律
1860年,德国心理学家费希纳在研究人们对心理刺激量的变化时提出了心理量的概念。指出韦伯定律中的最小的可觉差(Just-Noticeable Difference,JND) [3]是对刺激量的一个最小变化的觉察量,并将其作为测量心理量变化的单位。当刺激量增大时,产生的[ΔJND]的变化量就会增大,根据韦伯定律在心理量增大的情况下,如要感知到同样的[ΔJND]差异,就需要更大的刺激变化。而心理量跟刺激变化的关系为:
[K=S/lnR] (2)
式中:[S]是心理量;[R]是刺激量;[K]是常数;其中[R]与[S]之间是一种对数关系。这一规律称为费希纳定律。
准确地讲,费希纳定律指出了:由刺激引起心理量[S]变化值与刺激强度[F]的变化值成对数之积。如图1,[AB]之间的差异在刺激差异量上与[BC]之间不等,但引起的心理量相等,都是2个最小可察觉差异。从数学角度看当心理量以算术级数(1-2-3) 增长时,刺激能量以几何级数(1-4-9) 增长,心理量与刺激强度之间在数量上是一种对数关系[2]。
由图1关系费希纳推出S与F之间的关系为:
[S =m+nln(F+d)] (3)
式中:[m]、[n]以及[d]为常数。
2 软件应用
笔者利用自己开发的英语语音测试系统软件对绍兴文理学院外语专业2个年段的学生(总共200人)的英语语音进行了计算机测试和传统人工测试,并将两者的成绩结果进行了比较分析。其中第一组人员经过反复练习熟悉计算机语音考试的要领后进行机考测试,第二组人员则直接进行计算机语音考试。
语音识别的具体过程就是根据模式匹配原理和一些相似性度量规则,在参考模式数据库中对未知模式与参考模型进行匹配[4]。软件通过波形训练和语音测试模块来不断改进学生的语音训练,界面如图2所示。
波形训练模块可以使学习者矫正发音方式,再通过语音测试模块分别从单词、单句以及段落综合评分,最终测算出学习者最终得分。
3 利用费希纳对数定律对实验数据进行误差矫正
为防止出现以偏概全的现象,笔者在20级和21级英语专业新生中各抽取100人进行测试。
3.1 实验一组
测试对象:2020级英语专业新生100人,且经过反复训练后再进行计算机语音测试。
测试内容:2个段落、7个单句、6个单词
实验步骤:学生在测试电脑语音时,系统进行同步录音,测试结束后,由教师分别对录音文件进行线上评分得到教师评测成绩和电脑评测成绩如图3。
从图3可以看出:教师的评分区间控制在60~80之间且比较稳定,而计算机测评成绩起落较大,且通过与教师评分成绩的平均绝对误差计算达到17.2。
3.2 实验二组
测试对象:选取了2021级英语专业新生100人,没有经过训练直接进行语音测试。
测试内容:2个段落、4个单句、10个单词。
实验步骤:学生在测试电脑语音时,系统进行同步录音,测试结束后,由教师分别对录音文件进行线上评分得到教师评测成绩和电脑评测成绩如图4。
从图4可以看出:教师的评分区间控制在60~80之间且比较稳定,计算机测评成绩起落仍较大,且通过与教师评分成绩的平均绝对误差计算达到14.9。
从以上两组实验得出,计算机进行语音测评的分数和教师进行传统语音测评的分数,它们的绝对误差都在10分以上,且这两个平均绝对误差值相差不大,这说明计算机评分虽然分值起落比较大但是和教师评分的绝对误差值是相对稳定的,两者之间存在某种系统误差,需要通过某种公式进行优化计算机测评成绩。
3.3 误差分析处理
传统测试教师判断学生的语音成绩是从心理量角度来评分。传统测试评分是指教师在受到学生语音刺激后根据引起的自身知觉的大小给出评分,所以传统测试的成绩是以心理量的方式显示的。计算机测试是机器根据语音识别引擎来判断学生语音的成绩是从物理量角度来评分。计算机测试评分是计算机对所接收到的语音信号的一种刺激强度的变化量来给出评分,所以计算机测试的成绩是以刺激强度的方式显示的。
根据费希纳对数定律,传统测试成绩和计算机测试成绩应该满足心理量[S]和刺激强度[F]的关系,即它们之间满足的式(3) 的关系。经过笔者多次测试比较(具体过程略),最终将计算机测试的成绩通过以下公式换算成心理量表示:
[S=LN(F)*17.4] (4)
式中:[S]为新计算机测试成绩(以心理量为评分标准);[F]为原计算机测试成绩(以刺激强度为评分标准)。
经过式(4) 处理后得到新计算机测试成绩,再将新计算机测试成绩与原来的教师测评成绩对比,得到图5、图6。
从图5、图6中可以看出,教师测评成绩和电脑测评成绩两者的评分曲线基本上吻合,平均绝对误差分别为4.86和6.25,较未使用费希纳对数定律之前的电脑测试成绩有较大的准确率提升,说明按照费希纳对数定律进行误差矫正能够将计算机的测试成绩跟人工测试成绩基本符合。
4 对纠正后的数据进行统计分析
从图5、图6中可以看出,教师的测评成绩和计算机测评成绩基本吻合,平均绝对误差都在10以内,通过数据分析统计得到两者的成绩绝对误差在10分以内的均占比达到97%。效度计算公式为:
r2=SV2/SX2 (5)
其中r为效度系数,SV2为电脑测评方差,SX2为教师测评方差。第一组效度为0.79,第二组效度为0.70,可见两组的成绩对比都能达到SPSS效度最优区间0.5~0.8之间。
4.1 优良及格率分析
英语语音评分本身就是主观性比较强的一种评分方式,因此对于分数上存在一定的差异性应该被允许的,一般设定绝对误差在5分以内的属于正常误差范围。设定大于80以上为优秀,70至80之间为中等,60至70之间为及格,60以下为不及格。进行优良率分析如圖7,从中看到第一组的教师测评优良率分布和机器测评的优良率分布基本一致;其中机器测评出现的不及格率7%,经过统计分析,其中与教师测评分差5分以内的占不及格人数的71%即5人,如果对这5人进行一定的加权使其及格,那么第一组机器测评及格率将从48%达到53%,不及格率将变成2%,属于正常的误差范围。
第二组的机器测评和教师测评在优秀率和中等率上的百分比差别超过10个百分点,经过统计分析,教师测评为优秀的人员,在机器测评中都被列为中等,且两者的分差超过5分,从第二组的优良率看,机器评分大部分集中在中等,优秀率不高。
4.2 原因分析
1) 对于语音机考的熟练程度。第二组学生由于初次进行计算机语音测试,对计算机语音测试的方法还不习惯,还没能掌握好测试的技巧。段落测试和单词单句测试的计算机评判方法不同,因而朗读的方法也要求不同,一般来说段落应该朗读得慢而清晰,单词单句应该朗读得快而流畅。语音好的学生习惯连读,但对于段落识别来说连读反而拉低了成绩。
2) 英音和美音的区别。传统测试中英语语音成绩好的学生往往喜欢美式发音,而本次机考的语音识别标准音是以英式发音为主。因此发美音的学生在计算机测试中成绩就偏差。
3) 软件在处理识别的语音时也存在一定的误差。
5 措施
5.1 提高技能、细化考题
平时组织学生经常性训练英语语音,熟悉机考的发音技巧,确保在机考测试中能尽量避免因不熟练而引起的失分;通过对整个试卷考题类型分类、细化 ,并且根据教学内容进行权重设定使评分依据明朗化[5]。
5.2 多种模型、提升信度
计算机进行语音测试时,可以提供发音选项,即确保发美音的学生用美音的标准音进行测试,发英音的学生用英音标准进行测试,从而提高分数的可信度。
5.3 同步录音、方便核查
学生在语音机考时进行同步录音,这样以便发现判分严重失误时可以及时人工介入,确保分数准确性。
6 结束语
基于费希纳对数定律的计算机英语语音评分测试误差分析,使得语音识别架构下英语口语考试辅助评分系统避免了教师评分中的缺陷[6],通过计算机测试成绩和教师测评成绩的对比分析和误差调整,使得计算机英语语音测试系统更加具有人性化,也为计算机英语语言测试这一新领域开辟道路。
参考文献:
[1] 罗军平.利用语音识别引擎实现电脑英语语音测试的探索[J].中国教育技术装备,2005(1):19-20.
[2] 沈春山,聂余满,葛运建.机器人传感器触觉心理量检测的研究[J].传感器技术,2005(4):11-12,15.
[3] B.H.坎特威茨.实验心理学:掌握心理学的研究[M].郭秀艳,译.上海:华东师范大学出版社,2001:208-209.
[4] 曹课兴.基于模糊理论的大学英语语音测试系统研究[J].电脑知识与技术,2019,15(9):197-198.
[5] 陈香美,岳峰.量化理论在提高英语语音测试评分反馈效度的研究[J].福建商业高等专科学校学报,2012(4):11-15.
[6] 田伟伟.语音识别架构下英语口语考试辅助评分系统[J].自动化技术与应用,2022,41(5):168-170,179.
【通联编辑:谢媛媛】