基于卷积神经网络的语音识别系统在养老软件中的实现

2019-12-10 09:48周钧锴毕君郁

电脑知识与技术 2019年28期

周钧锴毕君郁

摘要：随着人口老龄化的加剧，空巢老人精神世界贫瘠的问题引起了更多的关注。将语音识别系统应用于养老软件，为丰富老人的精神世界提供了更多的途径，该文介绍了一个基于卷积神经网络开发的语音识别系统，并将其应用于基于Android系统开发的养老软件。

关键词：语音识别;卷积神经网络;互联网养老

中图分类号：TP311 文献标识码：A

文章编号：1009-3044（2019）28-0229-02

空巢老人的精神世界贫瘠是老龄化社会中亟待解决的问题，手机软件操作难导致老人难以使用手机获取信息。语音识别技术可以用在语音控制、语音输入等多个方面，降低手机软件的操作难度。卷积神经网络在时间和空间上具有平移不变性卷积，可以克服语音信号因说话人和环境的不同产生的多样性，且易于实现快速的大规模并行化运算，为卷积神经网络在语音识别中的应用提供了基础。

1 软件介绍

1.1 主要功能

基于语音识别技术的“爱巢”养老软件（以下简称本软件），是一个关注空巢老人精神世界的服务类软件。针对空巢老人操作手机困难的问题，增加语音控制、语音输入等功能，旨在降低空巢老人使用手机的难度，同时为老人提供更多的信息获取途径。

1.2 软件开发方法

本软件基于Android系统实现了语音识别系统，编程语言采用python。语音信号的预处理采用双门限端点检测算法，使用短时过零率检测清音，使用短时平均能量检测浊音。特征提取采用Mel参数和基于感知线性预测分析提取的感知线性预测倒谱，模拟了人耳对语音的处理特点。为良好地适应老人说话的多样性和环境的多样性，语音识别算法使用具有良好自动调节能力的卷积神经网络（CNN）。

2 语音识别系统核心实现

不同的语音识别系统实现细节不同，但识别过程大致相同，一个典型的语音识别过程如图1所示。

本软件的语音识别算法使用卷积神经网络（CNN），核心实现步骤包括MFCC特征提取、数据归一化和卷积神经网络数据分类。

2.1 MFCC特征提取

对语音wav文件进行MFCC特征提取，MFCC特征提取的流程如圖2所示。

将语音信号的静态特征和动态特征结合能提高系统的识别性能，因此本系统采用由静态MFCC系数、动态一阶差分参数和二阶差分参数、帧能量共同构成MFCC的方式。

2.1.1 静态MFCC特征提取

预加重处理即将语音信号通过一个高通滤波器，提升高频部分，保持在低频到高频的整个频带中，能用同样的信噪比求频谱，同时突出高频的共振峰。经分帧后，将每一帧乘以汉明窗以增加帧左端和右端的连续性。再将各帧进行快速傅立叶变换得到各帧的频谱，并对频谱取模平方得到语音信号的功率谱。

将能量谱通过一组Mel尺度的三角形滤波器组，对频谱进行平滑化，并消除谐波的作用，突出语音的共振峰，三角滤波器的频率响应定义如式（1）。

2.2 基于卷积神经网络的数据分类

为加快梯度下降求最优解的速度和提高精度，首先对得到的数据进行归一化处理。本系统采用标准差归一化处理，转化函数如式（5）。

其中[μ]和[σ]分别表示原始数据的均值和标准差。

再使用卷积神经网络对归一化后的数据进行分类，经典的卷积神经网络主要包括卷积层、池化层和全连接层。

卷积层的功能是对语音信号的特征进行提取。卷积层含有多个卷积核，每个卷积核对应一个权重系数和一个偏差量，卷积核在计算时，将输入层上的滑动卷积结果求和并与此层的偏差量相加，如式（6）（7）所示。

式中，[C]、[D]和[Q]分别表示卷积核的数量、输入向量的数量和卷积核的深度，[HW]、[RS]和[EF]分别表示输入层向量、卷积核和输出层向量的高度和宽度，[N]表示卷积步长，[A[n]]表示卷积核的偏差量。

池化层的目的是简化卷积层的输出，减少网络层的参数，本系统采用最大池化的方式，即选取窗口范围内的最大值作为输出。数据经过池化层后，还需经过非线性运算ReLu函数，以增强模型的识别性能。

全连接层为向量与权值矩阵的乘积再与偏差量相加后得到的结果与非线性运算相结合。

2.3 卷积神经网络系统实现

本软件实现的语音识别系统的卷积神经网络模型如图3所示。此卷积神经网络模型由2层卷积层和5层全连接层组成，初始的输入尺寸为40×1×3，第二个卷积层的输入为第一个卷积层的输出，每个全连接层的输入都为前一层的输出。

2.4 系统测试

由于语音识别受个体差异和环境差异的影响，我们随机选取了四名软件的用户进行语音识别效果的测试，测试结果如表1所示。

从表1可以看出，该软件的语音识别系统识别正确率较高，达到80%以上，且识别时间小于50ms，能够进行实际的应用。

3 结语

本文基于卷积神经网络的计算并行性与数据的高重复性，通过MFCC特征提取、数据归一化和卷积神经网络数据分类，开发了语音识别系统并应用到养老软件中，实现了针对老人高达80%语音识别正确率和小于50ms识别时间的手机软件。

参考文献：

[1] 张晴晴，刘勇，潘接林，等.基于卷积神经网络的连续语音识别[J].工程科学学报，2015，37（09）：1212-1217.

[2] 屈家丽，贺光辉，王国兴.语音识别中卷积神经网络的FPGA实现[J].微电子学与计算机，2018，35（09）：37-41+46.

[3] 杨洋，汪毓铎.基于改进卷积神经网络算法的语音识别[J].应用声学，2018，37（06）：940-946.

[4] 禹琳琳.语音识别技术及应用综述[J].现代电子技术，2013，36（13）：43-45.

[5] 赵志宏，杨绍普，马增强.基于卷积神经网络LeNet-5的车牌字符识别研究[J].系统仿真学报，2010，22（03）：638-641.

[6] 张建华.基于深度学习的语音识别应用研究[D].北京邮电大学，2015.

[7] 周飞燕，金林鹏，董军.卷积神经网络研究综述[J].计算机学报，2017，40（06）：1229-1251.

【通联编辑：代影】