曹课兴
摘要:本文在模糊理论的支持下,利用语音识别技术,设计开发了一个大学生英语语音测试系统。该系统实现了对事先准备好的示范语音的导入和播放,并进行声学特征提取,建立模板库;随后,学生对相同内容的示范英语文本进行朗读并录音,最后,系统对学生的录音进行声学特征提取,和模板库进行相似度比较。应用结果表明,该方案可有效地算得出学生此次朗读语音的综合得分,系统实施之后,学生口语练习积极性和口语水平得到了明显的提高。
关键词:语音识别;模糊理论;特征提取
中图分类号:TP311 文献标识码:A
文章编号:1009-3044(2019)09-0197-02
Abstract: This paper designs and develops an English speech test system for college students with the support of fuzzy theory and speech recognition technology. The system implements the introduction and playback of the pre-prepared demonstrative voice, extracts the acoustic features, and establishes the template library. Then, students read and record the same content of the demonstrative English text. Finally, the system extracts the acoustic features of the students'recordings, and compares the similarity with the template library. The application results show that the program can effectively calculate the comprehensive scores of students'reading pronunciation. After the implementation of the system, students' enthusiasm for oral practice and oral proficiency have been significantly improved.
Key words: speech recognition; fuzzy theory; feature extraction
语言是一种交流工具,在英语教学中,学生英语口语水平的提高逐渐受到重视。培养听和说的能力是学生英语素养的主要目标之一,在英语语音教学中,传统的课堂教学中,老师可以指出并纠正学生发音方面存在的语音语调方面的问题。但在有限且固定的教学时间内、而且是大班教学的现实条件,让教师纠正每个学生的发音显得很不现实。为了让学生及时掌握自我发音情况,客观地评价语音的准确性已十分必要,为适应大学英语语音教学的需要,本文结合模糊理论和语音识别技术,设计了一个英语口语测试系统。通过计算机智能地去判断学生自身发音和标准发音之间的差别,通过本系统的最终综合打分,学生可以感受到自己发音的优点和不足,通过反复的训练和模仿来达到了提高英语发音的目的。
1 系统框架
本文设计的基于模糊理论的大学英语语音测试系统具有播放语音、录音、系统评分等功能。学生在测试前须导入标准示范音,建立模板库;随后,学生对示范英音的文本进行朗读并录音,系统对学生的录音进行声学特征提取,和模板库进行相似度比较,通过计算得出学生此次朗读的综合得分。
无论是示范语音还是学生自己的录音,都需对语音进行预处理(前端处理)和语音特征提取的过程。预处理(前端处理)主要是对模拟语音以一定的采样周期进行采样,对采样后的语音信号进行量化,对高频部分进行加重处理,语音信号的分帧和加窗等前期处理工作。随后对经过预处理(前端处理)后的每一幀语音信号进行特征信息提取,提取出来能够反映语音信号特征的重要特征参数。在对事先准备好的示范语音的导入时,先对导入语音经预处理(前端处理)和特征信息提取后,得到一组最优语音特征序列,通过反复训练,形成某种有效的训练算法,建立起一组模板库。在学生录音完成后,学生录音也需经相同的预处理(前端处理)和语音特征提取的过程,要与前期建立好的模板库,用一种有效的算法进行模糊匹配和相似度比较,再建立合适的数学模型算出朗读语音综合分数。
2 预处理
要想将语音信号进行相似度比对,都需对语音进行预处理(前端处理)和语音特征提取的过程。对模拟语音以一定的采样周期进行采样,对采样后的语音信号进行量化,对高频部分进行预加重处理,语音信号的分帧和加窗等前期处理。
2.1声音信号数字化
因为声音信号是在一定范围内为连续的模拟信号,但计算机处理和存储的是二进制形式的数字信号,为此,声音信号必须经过模拟转数字信号,变为二进制数才能存储到内存中进行下一步的编辑工作。在模拟转数字信号过程中应用PCM脉冲编码调制是最常用的基本方法,主要工作包括信号采样、量化和编码。
2.2语音信号的预加重处理
语音信号的预加重处理的目的是为了消除口唇辐射的影响,用来增加语音的高频分辨率。预加重一般传递函数为H(z)=1-az-1。所以我们可以使用一阶FIR高通滤波器实现预加重,其中a为预加重系数,通常可以取0.9 < a < 1.0,设n时刻的语音采样值为x(n),经过预加重处理后的结果为y(n)=x(n)-ax(n-1)。
2.3语音信号的分帧和加窗
语音信号在宏观上是不平稳的,但是在局部上可以看作是平稳的,具有短时平稳性,实验表明,一段语音在10—30ms内可以认为语音信号是稳定的,在后期的语音处理中需要输入的是平稳信号,我们就可以把语音信号分为许多语音小段来进行处理,每一个小段称为一帧。帧与帧之间的偏移通常取帧长的1/2或1/3。
按上述方法對信号分帧以后,分好的每一帧开始段和结束段会有不再连续,产生了与原始信号的出现误差的现象。为了解决这一误差现象,让语言信号连续起来,需对分帧后的信号进行加窗处理操作,加窗以后,语音信号呈现出有规律的周期函数特征。
3 语音特征参数的提取
语音特征参数的提取目的是对语音信号进行分析处理,加窗以后把每帧信号再经过傅立叶变换,得到各帧信号频谱上的能量分布序列,进行能量分析,去掉与语音识别不相关的噪音信息,判断出语音的起始点,获取语音识别的重要特征信息,在处理的过程中要用到梅尔倒谱系数,其是在频率域提取出来的倒谱参数,用来描述了人耳频率的非线性特性,其与频率的关系可近似表示如下,其中f代表频率,单位为Hz。
[MELf=2595*lg (1+f/700)]
4模糊匹配与相似度比较
4.1模型建立
隐马尔可夫模型(HMM)是当前应用比较普遍的声学统计模型,其经常用于描述含有隐含未知参数的马尔可夫过程。其难点是从可观察的参数中确定该过程的隐含参数。然后利用这些参数来做进一步的分析。英语的语音的建模通常以音素为基本元素,因为有些连读音素对其后音素发音的影响是类似的,因此可以通过聚类进行模型参数的共享。
4.2相似度比较
上述模型是由示范音经过训练算法进行多次训练后产生。在相似度比对时将学生测试音的语音特征和模型中的矢量语音特征进行匹配和比较,得到最佳的识别结果,计算出语音的特征矢量序列和每个发音模板之间的距离。
语音分析系统在本质上讲就是人工智能领域的模式识别系统。语音识别的具体过程就是根据是根据模式匹配原理和一些相似性度量规则,在参考模式数据库中对未知模式与参考模型进行匹配。目前,语音识别中常用的动态时间规整方法是一种测量两个向量序列之间相似度的方法。它主要用于语音识别领域,识别两个语音片段是否代表同一个单词。在时间序列中,需要比较相似的两个时间序列的长度可能不相等,在语音识别领域,不同人群的语音速度是不同的。同一单词中不同音素的发音速度也不同。在时间序列中,需要比较相似性的两段时间序列的长度可能并不相等,在语音识别领域表现为不同人的语速不同。而且同一个单词内的不同音素的发音速度也不同。动态时间规整DTW是一个典型的优化问题,利用时间函数w(n)描述了输入模板与参考模板之间满足一定条件的时间对应关系,求解两个模板匹配时,通过扩展和缩短时间序列,计算出两个时间序列之间的相似性,并找到最短的距离。可以识别出相似的声音。
4.3模糊评价
利用上一步动态时间规整法求解出两模板匹配时求出的最短距离,找出最短距离d和分数f(0到100之间)之间的关系,建立模型,实现将距离转换成综合分数,综合分数的取值范围在0到100之间。
4.4系统实现
本文使用了VB6.0实现了大学英语语音测试系统,实现了英语朗读准确度测试的基本功能,达到了预期目标,具体界面如图2所示。在示范音模块,学生可导入示范音文件(WAV文件),并完成语音预处理、特征提取等步骤,建立模板库。在测试音模块,学生可通过话筒进行录音,录音完成后,随时进行语音处理,特征提取等;综合得分功能是将示范音和测试音进行相似度比较,利用模糊评价模型,计算出最后得分。
5 结语
目前该系统只完成了单机单个试题的测试工作,在实际运行中取得了一定的使用效果,利用计算机实现了英语口语语音的自动评分功能,提高了英语学习者的学习兴趣,有效解决了英语语音自我纠正的问题,保障英语口语教学质量的基础性工作,对英语口语学习人员的口语改进和提高有着促进的意义。
参考文献:
[1] 胡广书.现代信号处理教程[M].北京:清华大学出版社,2004: 3-33,239-320
[2] 伍维平. 基于模糊理论的大学英语跟读测试智能评价系统研究[J]. 外语电化教学, 2012(4):33-38.
[3] 王文姝. 基于模糊理论的关键词识别算法研究[D]. 哈尔滨工程大学, 2010.
[4] 徐毅. 基于模糊理论的语音关键词识别[D]. 上海师范大学,2012.
[5] 伍维平. 大学英语跟读测试系统的研究与设计[J]. 外语电化教学, 2011(2):51-55.
[6] 何佩蓉, 彭铁光. 大学英语口语测试评价体系构建探索[J]. 当代教育实践与教学研究:电子版, 2016(8X):25-26.
[7] 苏力, 李阳, 庞宇辰. 基于Labview软件的MFCC特征参数提取程序设计[J]. 科学技术创新, 2018(5).