【摘要】深度学习的语音识别技术具备学习、联想、对比、推理和概括的能力,并且能够逼近任意的非线性函数、并行化处理信息、容错能力强等优点。基于深度学习的小学生英语口语能力评价系统理论研究,将深度学习的基本原理与语音信号处理基础理论的研究结合起来,为评测中小学生英语语音发音提供了新的理论依据。
【关键词】深度学习;英语口语;理论研究
1.研究背景
2016年5月12日,北京教育委员会、中国青少年研究会共同下发了《中国少年儿童英语学习状况调查白皮书》(下称《白皮书》)。白皮书公布的一项调查显示,在随机抽取的11775名少年中,有59.4%在小学阶段就开始接受英语教育;32.8%的未在小学阶段学习英语。从《白皮书》的数据我们可以看到儿童英语学习在我国有着低龄化、普遍化和社会化的趋势。在这种趋势中,怎样去规范少年儿童,尤其是中小学生的英语语音发音方式,提高他们的英语语音发音质量,实现我国《义务教育英语课程标准(2017年版)》在中小学阶段英语标准的要求,为之后有效的口语交际打下夯实的基础,将是中小学阶段英语学习中一个不可或缺的重要环节。但是由于英语和中文发音特点的差异性、师资的良莠不齐、国内英语学习环境的缺乏以及传统课堂受时间和地点的制约等种种因素都造成了英语教学和学习的一大堆难题。
随着社会信息化不断发展以及计算机技术的普及,越来越多的国内外学者开始进行基于语音识别技术(Automatic Speech Recognition,ASR)的计算机辅助语言学习的研究。利用计算机软件和硬件开展英语教学,可以有效提高学生的学习效率,帮助学生掌握正确的发音技巧和方法,给学习者营造一个相对专业而轻松的语言学习环境。语音识别技术经历了动态时间规整算法(Dynammic Time Warping,DTW)到隐马尔科夫模型(Hidden Markov Model,HMM),再到传统的人工神经网络(Artificial Neural Networks,ANN或NN)[1],技术在不断取得新的发展与进步但同时也进入到了一个瓶颈期。这种瓶颈期的出现,一方面是由于技术的原因,另一方面则是英语语言发音特点和以及语音、语言能力评价指标的设定原因。英语发音通常使用“后部发声方法”,这与中文惯用的“前部发声方法”有所不同,需要后部口腔发力,但是这个部位空间相对狭小,舌根运动幅度受到较大限制,这使得英语发音不清晰,不同音之间区别不大。此外,英语发音中还有连读、弱读、失去爆破、语调语境等语音现象的存在。我们会发现,由于技术、评判参数与语言特点的不完全融合,有些英语口语水平高的学习者在语音识别系统中的得分不高反低。因此,无论是在技术方面还是在对参数的设定上面,语音识别技术都还有进一步完善的空间。
近年来,随着大数据、云计算技术的发展,语音识别技术进入了一个新的识别技术领域---深度学习(Deep Learning)。较传统的语音识别技术,深度学习的语音识别技术具备学习、联想、对比、推理和概括的能力,并且能够逼近任意的非线性函数、并行化处理信息、容错能力强等优点。
2.国内外研究现状及发展动态分析
2.1国外研究现状
上世纪五十年代,AT&T贝尔实验室研发出了一套语音识别系统,到了九十年代之后又产生了SPHINX系统。一直以来,国外都在摸索语音识别技术和口语自动化评估技术。L.Neumeyer (1996)开发了一套语音交互式语言学习系统VILTS,根据SRI语音识别系统Decipher(tm)生成的语音内容来评估用户发音准确性。[2]系统一共包含四个评估维度:HMM相似性、发音准确性、语音片循环和语速。之后,再根据评估结果对比来给出一个评测分数。H.Franco(1997)重新改进了上述系统,他使用基于HMM的后验概率提高了系统评测客观性和正确率。到新世纪之后,随着信息技术不断进步,语音识别技术也有很大的改进,NVIDIA公司研发了一套新型计算机处理器,该处理器采用了并行计算结构,大大减少了深度神经网络语音工作量,利用巨量语音数据库提升了识别准确性,极大的推动了语音识别技术的發展。比较有代表性的是美国学者Li Deng(2012)等将多条件随机场应用到了语音识别系统当中;利用深度神经网络技术改进了马尔科夫模型运行概率,在此基础上建模形成了DHH=HMM系统。同传统GMM-HMM相比效果更显著,这也是当前语言识别技术发展的最新成果。[3]
在评估方面。从整句提升到了音素层面。SM.Witt(2000)从因素层面开展学习效果评估,这样做的好处就是能够及时发现学习者的错误发音,对学习者的发音与标准发音差异进行评估,找出其中存在的根本性差异。采用基于相似性的GOP(Goodness of Pronunciation)方法,根据事前设置的平均目标值来统计各个因素参数,并设置阈值进行认定。
总之,国外对于语音和口语评估的研究已经相当深入,除了上述提到的外,还涉及到重音检测、语音错误检测、韵律等方面。
2.2国内研究现状
国内的研究虽然起步较晚,但是近几年来发展很快,研究水平也取得了很大的进步。苏鹏飞(2006)提出了“英语口语评估算法研究”[4],该研究采用SPHINX-4自动语音识别系统,对英语口语连读部分和易混淆音部分进行评估算法,直接把英语口语的评估深入到具体语法领域。陈一宁(2009)对英语口语学习中的语音识别技术进行了改良与发展,采用HMM技术建立语音识别模型,生成语音Viterbi解码,利用后验概率识别发音效果,最后对照专家数据库纠正发音错误,并建立了融整合解码、评分与纠错于一体的语音评价系统。这种技术已在上海交大与SHARP株式会社共同推进的“世博英语口语学习”项目中普及。
2013年,百度成立了深度学习研究院,这极大的拓展了深度学习研发领域。2014年底,百度首席技术官吴恩达发布了新技术深度语音识别(Deep Speech),之后语音助手也面世。百度宣布DNN(Deep Neurual Network)将会在百度语音助手中应用,这就是深度学习在语音服务上的实践,他们采用基于DNN的模型代替原有的基于高斯混合(Gaussian Mixture Models,GMM)的模型对共有语音与服务后台进行升级,升级后将识别范围允许的次错率降低了10%,优于谷歌Speech AP、Wit.AI、微软Bing Speech[5]。除此之外,深度语音识别开始也逐渐运用在英语学习和教学中。张爽等在原有的单因子和三银子模型上添加韵律因素,构建了韵律模型方法,从而改进发音质量评价性能;苏鹏飞通过对连读和易混淆音两个英语口语重要特征构建评价模型来研究英语口语中的评估算法;李靖等(2008)在语音发音模型中引入了高斯混合模型和全局背景模型(UBM)算法,建立了一套全新的英语发音评价程序。实践表明,在采集到的语音数据库当中,这种算法相似性达到0.7,大大高于其他评分程序[6]。
总之,随着科技公司纷纷开展相关研究,以及技术不断进步,深度学习与语音识别捆绑日益紧密,这也是未来社会发展趋势和方向,具有广阔的应用前景。
3.已有现状评述
首先,目前我国人工智能技术正在飞速发展,语音识别也将会走向更广阔的应用空间。深度学习作为一种现代智能技术,为语音识别提供了高准确度、高速度的计算模式和方法,为智能语音交互创造了新的机遇。
其次,国内外有关深度学习技术在英语音识别技术上的研究还处于起步和不断完善的阶段,主要体现在:对英语语种特点的把控度不高,这就造成了在进行语音识别研究时,对英语语音单个因素识别技术的研究多,而忽略了英语口语能力的评测并非是单个发音因素的整合体;对评价参数精准度的分析不透,现有的研究参数相对单一,不够合理;研究对象的笼统化忽略了群体之间由于生理和心理特征造成的发音差异。
因此,基于深度學习的中小学生英语语音与口语能力评价系统研究是针对中小学生采取深度学习神经网络技术建立语音识别模型,采用以语块为最小的英语口语评价单位,对他们的英语语音发音质量进行监控与评价从而提高英语语音、口语教学效率的研究。它可以大大提高语言信息处理能力,提升用户获取信息的效率,让学习者有更好的用户体验。
4.研究意义
4.1理论意义
第一,本研究将会在参考大量文献资料的基础上,通过对中小学生英语语音和口语现状进行调查,发现问题,分析问题,提出以语块为最小评价单位的多参量英语语音评价体系,一定程度上揭示了中小学生英语语音发音的特殊性和规律性,丰富了英语语音教学理论。
第二,本研究将会基于深度学习的视角对语音识别做出更为细化的研究,将深度学习的基本原理与语音信号处理基础理论的研究结合起来,为评测中小学生英语语音发音提供了新的方法。
4.2实践意义
第一,本研究将会帮助中小学生注意英语口语表达过程中出现的英语语音现象,例如连读、失去爆破等,并及时更正英语语音发音错误,避免错误经多次重复而成为习惯,为学生提供更高效、更有趣的语言学习环境,从而极大提高了中小学生英语学习效率,充分调动起学生学习英语的积极性,将获得很大社会效益和市场价值。
第二,本研究将会帮助英语教育者甚至家长提供一个简便、高效的英语语音发音质量和英语口语能力的测评平台,让中小学英语教师和家长对学生的英语语音学习和口语能力的提高有一个科学、全面的认识,促进学生在中小学阶段的英语学习。研究结果还可以运用在中小学生语音、口语能力测试中。
参考文献:
[1]张瑞.英语语音合理性优化识别建模仿真研究[J].计算机仿真,2017,34(2):289-292.
[2]梁颖红,曹军.文本语块识别典型方法的比较与分析[J].计算机技术与发展,2008,18(11):76-79.
[3]赵丹,钟楠.在线连续交互式英语语音智能识别系统设计[J].现代电子技术,2017,40(15):137-140.
[4]肖红英.大学生预制语块识别能力与阅读理解水平的关联性研究[D].赣南师范学院,2011.
[5]戴礼荣,张仕良,黄智颖.基于深度学习的语音识别技术现状与展望[J].数据采集与处理,2017,32(2):221-231.
[6]单敏.深度学习视阈下的英语发音质量和语音识别探微[J].湖北函授大学学报,2017,30(20):174-175.
基金项目:文章系2019年湖南省自然科学基金青年基金项目《基于深度学习的小学生英语口语能力评价系统研究》(编号2019JJ50679)结题成果。
作者简介:胡薇,女1982年7月出生,汉族,湖南益阳,长沙师范学院,硕士,副教授,研究方向:小学英语教学和教师教育。