浅谈离线语音识别及其应用

2021-12-02 09:12徐楷燚
电子元器件与信息技术 2021年9期
关键词:离线声学家具

徐楷燚

(南京邮电大学,江苏 南京 210017)

0 引言

当前市场的数据显示,传统家具、家电的增速已经放缓。用户如今不仅仅要求产品有高颜值,富有个性,还需要家具、家电能融入当前高科技[1]。离线语音识别毫无疑问是当前最契合智能家具、智能家电的功能。支持离线语音识别智能家具、智能家电使用起来也更加方便快捷,省去了诸如寻找遥控器的麻烦。而随着语音识别技术的愈加成熟,市面上会出现越来越多的智能家具、智能家电。

1 语音识别概述

1.1 语音识别发展历史及研究现状

语音识别是一门交叉学科,所涉及的学科包括:信号处理、模式识别、概率论和信息论、发声机理和听觉机理、人工智能等等。语音识别技术源于上个世纪50年代。1952年贝尔研究所研究成功了世界上第一个能识别10个英文发音的识别系统[2]。此时的语音识别主要是基于模式匹配的非统计模型方法。此后,动态时间规整算法,线性预测编码算法,矢量量化及LBG聚类算法也被应用到语音识别中。大规模的语音识别研究则是在上世纪70年代开始的。此时的语音识别由于隐马尔可夫模型的引入,开始实现从非统计模型方法到统计模型方法的转变。20世纪80年代人工神经网络也被用来搭建语音识别系统。研究的重点也逐渐转向大词汇量、非特定人连续语音识别。同时在研究思路上发生了重大变化,即由传统的基于标准模板匹配的技术思路开始转向基于统计模型(HMM)的技术思路。而随着硬件及其他技术的不断提升,不同深度的神经网络模型也在语音识别中实现了应用。2016年科大讯飞提出的全序列卷积神经网络大幅提升了训练速度和准确性。

语言模型是语音识别框架中的另一个重要的组件。20世纪初期,浅层的前馈神经网络被用于语言模型的建模。但是前馈神经网络模型是基于当前词与前词的关系的假设,因此始终不能很好的处理任意长度的信息。近年来,深层伸进模型也被用于语言模型的建立,使其效果进一步提升。2017年提出的Transformer网络结构则利用注意力机制,不仅实现的上下文建模的效果,同时也大大降低了语言模型训练的难度,因此现在的很多基于深度学习的语音识别技术都应用此结构。

总的来说,随着语音识别技术的发展,硬件性能不断提高,声学、语言模型的建立越发简便,精确度和处理速度也不断提高。

1.2 语音识别的基本过程及理论

搭建中文语音识别系统,首先需要对语音进行预加重,分频,加窗等预操作,再建立声学模型,接着通过训练文本语料建立语言模型,基于语料库建立发声词典,最后将三者组成解码器来输出识别结果[3]。语音识别本质上就是寻找与语音最相近的文字序列的过程,其工作状态与搜索引擎类似。

1.2.1 语音预处理

人们在说话时语音信号会受到声门气流波和口唇辐射的影响不断衰减,而且频率越高衰减越快。因此需要对语音进行预加重处理,实际情况中常常通过一阶高通滤波器来实现。

同时还要对语音信号进行分帧、加窗操作。分析信号频谱是常用到的傅里叶变换适用于平稳的信号,而语音信号通常是快速变化的。但是语音信号还具有短时平稳性,因此,在分析语音信号时要将信号划分成几十毫秒的小段,即分帧操作,每一小段就为一帧信号[4]。此时的语音信号既有符合要求的周期长度,变化又不剧烈,较为适合傅里叶变换分析。

1.2.2 特征提取

在预处理结束之后,通常需要对信号进行MFCC(Mel-scale FrequencyCepstral Coefficients梅尔倒谱系数)特征提取,即在傅里叶变换后,利用多个Mel滤波器得到梅尔频谱,再进行倒谱分析得到每帧信号的特征。人耳对高低频的语音信号的感知是不同的,而且人耳能够接收到的信号使在一定范围内的,MFCC在一定程度上模仿人耳处理语音的过程和特点。

2 离线语音识别

离线语音识别是基于语言库进行的线下语音识别过程。常见的离线语音识别就是将有限指令烧录在芯片中,使用者通过预设的语音命令来操控设备。相较于在线语音识别需要连接网络,离线语音识别对于使用者来说会比较方便,安全,对于制造商来说,离线语音识别意味着不需要云端来储存庞大的语音库,能够节约一些成本,也使得产品的安全性有更高的保障。

2.1 离线语音识别应用举例

离线语音识别相比于在线语音识别缺少对话的能力,且长语音的分析能力很差,而且基本只能基于预设的指令进行工作,因此更适合于照明,风扇,空调等一些不需要联网的设备。下面对离线语音识别在照明设备的应用进行举例说明。(例中所使用的芯片为启英泰伦公司生产的CI1122,及其对应的开发板)

(1)在启英泰伦语音AI开发平台下载语言模型。将命令词列表模板下载后,输入相应的唤醒词,命令词。再将此模板上传至语音AI开发平台网站,网站会自动生成声学模型和语言模型。

(2)播报音合成。下载播音词列表模板,对应命令词列表填写此列表。再将其上传,网站自动生成语音合成文件,即为相对应的播音语音。

(3)将下载的声学模型文件放在SDK中,替换原来SDK中相对应的文件。将下载的播音声源复制到voice文件夹中替换原音源。将播报音与命令词序号相对应。“合成分区bin文件”可以检测语音模型文件是否都复制到SDK文件中。

(4)烧录。将文件打包升级,烧录至开发板中。利用CH340串口工具将开发板连接电脑即给开发板上电并开始烧录。烧录完成后离线语音识别即可使用。说出提前设置的命令词,开发版即会发出相应的播音声音。

(5)在Eclipse中打开SDK对灯进行初始化。在user_msg_deal中修改cmd_id为命令词对应的序号,并修改相应的功能。在这里需要将命令词与相对应的指令操作写在一个逻辑段中。

(6)通过电路将开发板连接至灯上即可在离线情况下进行语音识别对灯进行控制。

由于当前离线语音芯片技术已经十分成熟,因此只需要掌握一些电路知识,即可设计制作简单的离线语音识别的智能家具。所需要的工具也只有相应的开发版,串口工具。离线语音识别除了可以应用在灯控方面,按摩椅,风扇,空调等家具都可以使用此技术。除此之外一些玩具也使用了离线语音技术,比如复读鸭等。这些家具,家电,玩具的设计难点都不在离线语音识别技术的实现,而在于其本身电路的构成。这些物品的离线语音识别都是基于已经设计好的芯片。

2.2 离线语音识别的其他实现方式

2.2.1 基于Windows平台的离线语音识别

首先需要设置相关的语言识别引擎。在指定了需要识别的国家,语言后,设置相关参数,如麦克风采样率等。接着加载语音识别语法。由于使用者会使用不同的语法及其组合,因此需要建立相应的语法树与词典,确保能够识别含义相近的输入信号。识别完成后即输出结果,并卸载语法。

基于Windows平台的离线语音识别允许相同命令词的不同表达方式,相对灵活。但是其语法树的建立十分繁琐,需要考虑谓语与宾语的变化。

2.2.2 基于深度学习的离线语音识别

首先需要考虑的是建模单元大小。声学建模可以分为:音素,韵母,音节和词。建模单元小,模型更复杂,精度低。建模单元大,精度高,但是搜索会耗费更长时间,导致效率低。考虑到汉语中词的复杂性和计算机性能,一般采用音节作为建模单元。

接着是声学模型的搭建与训练。一般采用卷积神经网络来搭建声学模型。卷积神经网络中的卷积层和池化层的平移不变特性对于分析语谱图有很大帮助。同时利用卷积网络可以大大降低训练的时间。

最后是语言模型的搭建。一般采用统计语言模型,即通过每个词在句子中出现的概率判断句子是否合理,再与解码器相结合来完成拼音到词语句子的转换。但是统计语言模型存在空间参数大,数据分散等问题[5]。因此通常会借鉴序列到序列模型,结合自注意力机制模块来搭建语言模型。

相比于传统的声学模型,结合卷积神经网络和相关算法的的声学模型参数少,处理速度更快,准确率也更高[6]。基于深度学习的离线语音识别系统分析的准确性特别是长语音分析的准确性较其他离线语音识别模式高出很多。

3 离线语音识别存在的问题

离线语音识别不同于在线语音识别,前者通过离线语音库进行识别,后者通过云端进行识别,也被称为“语音云识别”,因此在线语音识别对长语音的识别更加准确。而传统的离线语音识别基本只能识别短句,且准确率较低[7]。每次添加新的命令词也很麻烦。所以现阶段的离线语音识别基本都应用在一些简单的家具家电上。

基于深度学习或许能够在一定程度上解决这个问题。深度学习允许离线语音识别可以识别相近含义的词语,和较长的语音。但是应用的算法和模型仍然需要大量的时间来训练。而且受制于硬件处理速度,离线语音识别在处理速度,识别准确性和长语音的识别方面仍大幅落后在线语音识别。

离线语音识别还存在其他的问题比如环境音对识别结果的影响。支持语音识别的家具,家电很难保证其使用时环境时安静的,环境的噪声和干扰目前很难通过优化模型来消除,只能尽可能的优化拾音设备。者同样也是在线语音识别存在的一个很大的问题。

4 总结

离线语音识别技术经过多年的发展,已经是较为成熟的技术,有很多厂商生产离线语音识别的芯片,这大大降低了离线语音识别技术的使用门槛,促使离线语音技术与日常用品相结合。但是离线语音识别仍有很大发展空间。相比于在线语音识别技术,虽然离线语音识别不需要网络,更方便,但是仍存在准确率低等问题。如果能够提高硬件的处理能力,优化算法凭借离线语音识别较为低廉的成本,离线语音识别技术一定会被应用在更多的领域。

猜你喜欢
离线声学家具
异步电机离线参数辨识方法
家具上的“神来之笔”
现代家具创新化研究
浅谈ATC离线基础数据的准备
爱的就是这股Hi-Fi味 Davis Acoustics(戴维斯声学)Balthus 70
FTGS轨道电路离线测试平台开发
Acoustical Treatment Primer:Diffusion谈谈声学处理中的“扩散”
Acoustical Treatment Primer:Absorption谈谈声学处理中的“吸声”(二)
向日常生活敬:2018danishdesign MAKERS家具展
Acoustical Treatment Primer:Absorption 谈谈声学处理中的“吸声”