关于语音识别的研究

2017-01-17 20:59周萌

东方教育 2016年8期

周萌

摘要：计算机出现和发展，为很多领域带来发展可能。在此之前，模式识别信号处理技术和声学等，仅能够独立研究和使用。而计算机不仅提供了融合平台，也使其得以交互，创造更加出色的功能。本文所研究的语音识别技术，便是通过上述学科实现。语音识别技术，主要应用在医学、交通、军事，工业生产等领域。特别是近年来技术成本降低，民用市场不断扩大，这也对语言识别技术的要求，有了进一步的提升。因此，本文对语音识别进行研究，借助其发展趋势和技术结构的阐述，帮助读者认识该技术。同时希望借助本文的研究，为相关研究者提供一定的理论借鉴。

关键词：语音识别；研究趋势

一、语音识别技术简介

语言是人类的基本功能，也是展现思维、进行沟通的重要载体。而语音，是由人类人体天赋转化下，所形成一种表达方式。在科学视野中，这种天赋的转化，被称之声学表现。然而，不可否认的是，虽然语音仅作为一种“天赋表象”，却是人类目前最为有效的交流手段。

二、语音识别技术的发展历史

科技引入到声音的声学研究，在人类历史上发起较晚，始于上世纪50年代，研究人员才致力于声学和语音学的基本概念。第一次实现研究突破是在1952年，学者AT& T Bell在其实验室，进行了一组当前视野来看，并不复杂的实验工作。但最终实现了一个单一发音人，孤立发音10个英文数字的语音识别系统，方法主要是度量每个数字的元音音段的共振峰；1956年，RCA Lab 基于Bell的人的研究基础，寻求另一个方向的实践研究工作，力求识别单一发音的10个不同的音节，同样采用了度量共振峰的方法；1959年，组织University College的研究学者，以谱分析和模板匹配的方式，借助构建音素识别器的理念，实现了识别4个元音和9个辅音；1962年，东京大学相关研究部门，对音素识别器的硬件进行实践性研究工作。以过零率方法分离语音信号的不同部分的识别方式，成为目前较为理想的研究手段之一；1963年，日本NEC Lab对数字进行语音识别技术进行尝试，并获得了相对可靠的研究成果。并创造NEC研究语音识别的模板，由此开创了语音识别技术的新领域。值得注意的是，在近四十年来，语音识别技术并未出现质的突破。但是，上述内容60年代所进行的研究，却成为了支撑人类语言识别技术近半个世纪的基础。而其最为重要的贡献，便是通过理论深度研究，于1969年提出时间归正法。

三、语音识别技术的应用及前景

随着声学研究的发展，语音识别技术已然具备了应用的基础。从现状来看，中小词汇量非特定人语音识别系统识别精度已经大于98%，对特定人语音识别系统就更高。随着科学技术的发展，集成电路的应用，帮助以往过度复杂的识别体系，能在更小的空间的内实现。从在西方经济发达国家来看，大量的语音识别产品已经进入市场和服务领域。包括手机等移动电子设备，多配备了相对完善的语音机制。并且盲人所使用的电子设备中的语音识别系统，已经达到了以往的军用标准。用户将借助移动通讯网络，以语音识别的口语对话系统，完成日常生活中，如订购票务、酒店等事宜。据调查统计结果，目前85%以上的使用者，对语音识别信息查询服务系统的功能性、准确性表示满意。由此，也可以进行预测：在未来的十年内，语音识别系统的应用范围将逐渐扩大，而基于各类语言、需求的产品涌现，或借助市场调节机制，有效降低此类系统的应用成本。由此更进一步满足各类语音需求。但是，以当前的技术来看，语音识别系统的局现性，或将成为阻碍其发展的根本原因。

四、语音识别技术的系统结构

不可否认，语音识别系统是复杂的。但是，在人类漫长研究中，不断的归纳和总结，最终找到可以大范围区分的“节点”。由此，帮助语言识别系统的构成更加清晰化。从相关研究发现，一个完整的基于统计的语音识别系统可大致分为两个部分：

1、语音信号预处理与特征提取

语音识别的基本工作特征，在于识别单元的选择，这也是能否获得识别结果的重要基础。然而，对于单元的选择，需要合理的区分各个要素，包括单词（句）、音节和音素三种。在选择适合的要素后，才能够进行后续的识别工作。

单词（句）单元广泛应用于中小词汇语音识别系统，但不太适合大词汇系统，原因在于模型库太庞大，训练模型任务繁重，模型匹配算法复杂。故此，看似简单识别通道，却因为复杂性降低了时效，最终导致难以准确的完成识别任务。

音节单元是基于我国语言特征，所提出的特殊识别要素。由于汉语言与英语等拉丁语系语种的差异性。我国发展语音识别技术，或难以借助他国成熟经验。但是，由于汉语音节总数为1300余个，其中包括408个无调音节，对比于大量多音节的拉丁语系，汉语言基础上的音节单元要素识别，将具备更高的时效性。这也是我国语音识别技术能够“后发制人”的关键。

音素的识别，主要借助线性预测（LP）实现。LP分析技术是目前应用广泛的特征参数提取技术，许多成功的应用系统都采用基于LP技术提取的倒谱参数。但线性预测模型为纯数学模型，未考虑人类听觉系统对语言的处理特点。

2、声学模型与模式处理

作为语音识别系统的第二个模块，也是其重要的基底模块。声学模型主要用于搭建声音体系，并借助特征算法，帮助后续的模式处理，对语音进行深度识别。而模式处理的重要性，在于保证识别结果的准确。通常对语音模型的处理，在理论和数据参数上，已经具备良好的基础。但是，在识别方面，却一直难以达成成效。这也是模式处理能力不足所带来的主要困境。从基本理论层面来看，声学模型作为语音识别系统底层模型，其关键性不言而喻。而声学模型存在的意义，在于提供计算语言的特征矢量序列，以及合理区分每个发音模板之间的距离。声学模型的设计和语言发音特点密切相关。声学模型单元体积对语音训练数据量大小、系统识别率，以及灵活性有较大影响。

五、语音识别技术的发展障碍

1、技术智能化不足。例如，同一说话者在不同语态时，语音信息有所差异；即使同一说话者以相同方式说话时，其语音模式也受长期时间变化的影响。

2、缺乏模糊语音处理能力。说话者在讲话时，不同的语词可能听起来很相似。

3、无法兼顾发音变化。单词或单词的一部分在发音过程中其音量、音调、重音和发音速度可能不同，使得测试模式和标准模型不匹配。

4、无法消除环境音响。为了提升语音识别技术的准确性，必须提升其收纳声音的范围。而这样的选择，无疑会放大环境因素的影响。原因在于语音识别系统的声音基础，是在相对安静的环境中创造。所以，无法应对自然环境中的噪声和干扰。而且，在采用抗干扰模式下，语言识别和接受能力又会大幅度下降。这也让技术遇到两难的选择。

参考文献：

[1] 施超群，陈坚刚.浅析语音识别原理[J].浙江工商职业技术学院学报，2011（03）：94-96.

[2] 韩纪庆，张磊，郑轶然.语音信号处理（第二版）[M].北京：清华大学出版社，2013.

[3] 陈永彬.语音信号处理[M].上海：上海交通大学出版社，1991.