白娟
摘要:语音识别技术迅速发展,如何将其更好地应用于教育教学领域成为广大信息技术工作者关注的问题。文章对语音识别技术的工作方法及其教学应用进行探究,着重介绍了语音识别技术在教育教学领域应用的几种主要形式,包括:口语测评、学习记录、智能演讲台、多媒体信息检索等,阐述了语音识别技术应用于教学领域的可行性,并对语音识别技术目前存在的问题以及未来发展走向成熟的可行之路进行探讨。
关键词:语音识别;教学应用;口语测评;学习记录
中图分类号:G434 文献标识码:A 文章编号:1006-8228(2020)07-105-03
0引言
语音识别技术就是把语音信号转变为相应的命令,从而使计算机能够理解的一项技术。
计算机模拟人类交流信息的过程主要经历①自然语言生成→②语音合成→③语音识别→④自然语言理解这几个步骤。如图1。
1语音识别技术概述
1.1语音识别的基本原理
语音识别主要包括特征提取、模式匹配、参考模式库等三个基本环节,它的基本结构如图2所示。
经过预处理、特征提取、训练、模式匹配等单元,计算机将自动获取识别结果。从这个过程可以看出,语音识别本质上是一种模式识别系统,语音模板质量高低与算法优劣,决定识别的效率和准确度。
1.2语音识别的基本方法
语音识别的基本方法主要有如下三种。
(1)语音学和声学的方法
语音学方法起步较早,但由于相应模型库和语音知识过于复杂,在实际应用中存在多种问题,因而没能得到大规模推广使用。
(2)模板匹配的方法
模板匹配方法发展的较为成熟,目前常用的技术包括:动态时间规整(DTW)、隐马尔可夫(HMM)理论、矢量量化(VQ)技术。
(3)神经网络的方法
基于神经网络的语音系统目前在识别中逐步得到广泛应用,其主要由神经元、训练算法及网络结构等三大要素构成。
2语音识别技术在教育教學领域的应用
2.1自动口语测评
使用人工智能的口语测评技术会告诉用户,标准发音是什么,用户读的音又是什么,如同有老师在线辅导一般。目前,语言学习类的手机APP可以通过发音、重音、语调这3个层面去判断用户的发音。语言学习训练系统不仅能提供纠错反馈,判断发音错误的类型并给出相应的矫正建议,同时还兼顾语音、重音、语调等多个方面,能为用户提供更全面的语言学习体验。把语言学习技术深入到教育行业,是语音识别技术在教育领域的一个重要应用方向。
2.2智能学习助手
智能学习助手系统,可以通过自动做笔记解放学生的双手,使学生更专注于听讲,并且在课下为学生推荐题目查漏补缺,提高学生的学习效率。
2.3基于语音的演讲控制系统
基于语音识别技术的智慧演讲系统,由LCD显示屏来展示不同形式的信息内容,通过语音指令来控制讲台提词系统的运行,有效提高讲台提词控制的智能化和个性化水平。
基于语音的演讲控制系统则是增加语音识别程序,从而能够控制提词系统的进度。自动提词系统软件通过讲台桌面的USB接口,通过自动读取优盘里的文档内容,用于演讲者脱稿演讲。讲稿内容的操作包括手动和自动两种模式。手动模式下,演讲者通过操作鼠标来对讲稿点击翻页;自动模式下,通过语音识别技术与提词系统联动,做到演讲稿不读不走、已读标注、严格与演讲人演讲进程同步。
2.4基于内容的多媒体信息检索
传统信息检索技术主要是面向文本(text),早期阶段,百度等搜索引擎主要采用文本检索技术,随着技术发展,搜索引擎及手机APP融入语音、图像等多种跨信息检索方式。
基于内容的多媒体信息检索技术主要包括对图像、视频和音频等多媒体信息的内容处理和分析、自动标注、构建索引和相似检索等。例如:通过输入语音信息,检索需要的音视频片段。基于内容的多媒体信息检索可以融入语音、视频、图像,以及其他信息,从而分析语义,获取用户需要的信息。
3语音技术存在的问题探讨
3.1语音环境
受制于复杂的环境,像含糊不清的口音、噪声环境、多人对话场所等都能给语音识别造成影响,一旦识别错误就可能改变整句话的意思。
3.2语言对象
语音信息随说话对象的不同而产生较大变化。例如,一个演讲者在正式场合说话和私底下交谈时的语音信息是有较大变化的。因此,进行语音识别时,不同语音信息量也需要根据不同环境进行优化处理。
3.3噪声干扰
环境噪声和干扰对语音识别有严重影响,致使识别率低。目前所提到高识别率,还停留在“近场语音识别”的阶段,达不到自然的人机交互模式,即“远场语音识别”的阶段。
3.4语音与语义
将语音转换成文字并不是最终目的,语音识别的目标是让机器可以理解人类,如何将语音识别和语义理解结合起来可能是未来更为重要的一个方向。语义理解需要更多的历史信息才能有帮助,因此如何将更多上下文会话信息传递给语音识别引擎是—个难题。
4语音技术的未来与发展
4.1从“近场语音识别”向“远场语音识别发展”
“近场语音识别”要求必须是低噪声、无混响、距离声源很近的场景,比如用户总是要对着手机讲话才能获得符合近场语音识别要求的声音信号,同时还要求用户满足标准发音,其识别率才有可能达到95%以上。“远场语音识别”即声源距离距离较远,并且真实环境中存在大量的噪声、多径反射和混响等,在这种情况下,会导致拾取信号的质量下降,影响目前的语音识别率。
远场语音交互技术正在逐步成熟。亚马逊Echo的初步成功,已经佐证了远场语音识别的强大需求。目前,科大讯飞和声智科技都在这个方面不断前进发展。
4.2自然语言理解还有很长的路要走
目前的语音识别,很多还停留在speech-to-text的阶段,还需要继续向speech-to-meaning的阶段发展。语音识别,得益于基础声学和语音识别的巨大进步,但还需要自然语言处理(NamrM Language Process,NLP),以及自然语言理解(Natural Language Under-standing,NLU)方向继续前进。
基础声学和语音识别解决的是计算机“听得见”的问题,而在未来“听得懂”才是最为关键的问题。自然语言处理的进展还没有找到理想的突破点,若想要达到人类的这种理解层次,还需要走很长的路。
4.3全同声传译系统还需不断走向完善成熟
全自动同声传译系统包含语音识别、机器翻译以及语音合成等模块,实现语种间的翻译,实现过程流畅,核心技术采用深度学习算法。现有的同声传译系统在语义理解、语音识别、断句切割、语音合成等方面还存在不足,还不能做到译音质量的高标准要求,还不能完全与同传译员竞争。因此,提高语言翻译质量,加强全自动同传系统在背景噪声、较快语速下的语音识别,增强不同语种间的互译,是未来语音识别与机器翻译结合的重点发展方向之一。
5结束语
语音识别技术的应用必将随着人工智能的整体发展不断趋向成熟,在未来,语音识别技术必将深入应用到教育教学的各个方面,促进信息技术与教育教学的深度融合。语音技术的发展将进一步助力外语及语言教学,提高教学效率、改善教学效果,促进人工智能技术的整体发展。