基于大数据和深度学习的语音识别研究

2020-10-21 07:49乔永凤周晓莉冯志永王凯
关键词:识别率卷积语音

乔永凤,周晓莉,冯志永,王凯

山西工程技术学院电气工程自动化系,山西 阳泉 045000

在人工智能飞速发展的今天,各种智能产品已经成为人们生活中不可或缺的一部分,越来越多的应用已经涉及智能语音技术、手机端的语音助手、导航系统等.语言作为人类最重要最便捷的基本交流功能,在科技信息日益发展的今天研发新的语音识别算法和策略显得尤为迫切.

语音识别的研究起源于20世纪50年代,从最初的孤立词识别系统向大词汇量连续语音识别系统发展,语音识别逐步成熟,但离实用化还相差甚远,语音识别的研究一度陷入瓶颈.2006年,辛顿(Hinton)提出深度置信网络(DBN),促使了深度神经网络(Deep Neural Network,DNN)研究的复苏[1],掀起了深度学习的热潮.

1 深度学习

深度学习(Deep Learning)的概念源于人工神经网络的研究,深度学习是机器学习的技术和研究领域之一,其模型结构是一个具有多隐层结构的感知器(Multi-layer Perceptron,MLP),通过模拟人脑神经元进行分析、学习,然后通过组合低层特征,形成更加抽象的高层特征,以有监督或无监督的训练过程对输入特征进行学习,从而发现数据分布特征,提升分类或预测的准确性[2].

1.1 语音识别常用深度学习模型

常用于语音识别的深度学习模型有自动编码器(Auto-encoder,AE)、深度神经网络(Deep Neural Network,DNN)、卷积神经网络(Convolutional Neural Network,CNN)和递归神经网络(Recurrent Neural Network,RNN)等[3].

(1)自动编码器神经网络是一种无监督学习算法,利用神经网络捕捉可以代表高维输入数据的重要特征,使用反向传播算法,使得输出值等于输入值.

自动编码器由两部分组成:编码器(Encoder)和解码器(Decoder).编码器将输入压缩成潜在空间表征,可以用编码函数h=f(x)表示.解码器重构来自潜在空间表征的输入,用解码函数r=g(h)表示.自动编码器一般用于降维或特征学习,可作为强大的特征检测器,应用于深度神经网络的预训练[4].

(2)深度神经网络是利用深度置信网络来初始化MLP的神经网络[5],本质上是一个包含多个隐层的多层感知器,相邻两层为全连接关系,采用无监督学习的算法逐层进行预训练,在最后一层加上一个softmax网络对模型进行精调.

(3)卷积神经网络的灵感来自生物过程[6,7],是一种属于深度学习网络范畴的前馈人工神经网络,适用于图像识别和语音信号识别分析.CNN的基本结构由输入层、卷积层、取样层(池化层)、全连接层及输出层构成[8],主要思想为局部连接和权值共享[9].

卷积层通过卷积运算对输入数据进行特征提取,使原始信号的某些特征增强.池化层对卷积层传递过来的数据进行特征选择和信息过滤,通过降低特征面的分辨率来获得具有空间不变性的特征[8,10].在经过多轮卷积层和池化层处理之后,在卷积神经网络的最后,一般会由1个到2个全连接层来给出最后的分类结果.语音识别就是利用卷积神经网络的时间和空间上的平移不变形特点.CNN把语音信号时谱当做一张图像进行扫描,抽取特征,选择特征,最后组合成句子的语义表示.

(4)递归神经网络也叫循环神经网络,是一种特殊的神经网络结构,主要用途是处理和预测序列数据,其深度能与系统输入序列长度相比拟[11].循环网络会记忆之前的信息,并利用之前的信息影响后面结点的输出,循环神经网络的来源就是为了刻画一个序列当前的输出与之前信息的关系.

2 大数据和深度学习

随着信息技术的提升,各行业信息化程度的普及,积累了越来越多的数据,这些数据具有体量规模大、数据流转快、类型多样化和价值密度低的4V特征,谓之大数据.大数据是对某种现象的模糊表示,具有很大的潜在价值.大数据的定义是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力来适应海量、高增长率和多样化的信息资产[12].大数据的价值在于经过数据分析从海量数据中发现隐藏的规律,获得有用信息.

深度学习算法通过逐层学习过程提取高级、复杂的抽象作为数据表示[13],它是一种基于对数据进行表征学习的方法,通过某种优化算法对深层非线性网络结构实现函数逼近.深度学习模仿人类大脑,在构建复杂的深度神经网络模型中通过大量的数据计算获得每个阶段进入神经元的权值,提取数据特征,它是通过增加数据集的规模来改善学习结果的.在大数据分析中,原始数据基本上是未标记和未分类的,深度学习通过分析和学习大量的无监督数据,从海量数据中挖掘出有用的信息,所以深度学习是大数据分析的有力工具.

3 大数据、深度学习和语音识别

具有多隐层的神经网络通过深度学习,展现出强大的从大量无标注样本集中学习数据集本质特征的能力,在大规模训练数据情况下,复杂结构的深层神经网络模型能够取得更好的效果,尤其是在图像、语音识别方面.

在大数据时代,更加复杂强大的深度模型能够揭示海量数据所承载的复杂而丰富的信息.在语音识别中,训练数据的匹配和丰富性是推动系统性能提升的最重要因素之一.深度学习用于语音识别,其本质上是通过深度神经网络学习模型并训练海量语音数据,从大量的音频数据中学习规律,发现有用特征,提升语音识别准确率.

3.1 深度学习用于语音识别

语音识别是利用有效手段,将语音信号所表示的内容转换为计算机可读的信息.随着深度学习在语音识别方面的应用,语音识别率大大提高.语音识别主要过程为:从语音波形中提取声学特征,通过训练创建声学模型,和语音模型进行匹配,经某种算法解码后获得与原始数据一致的文本信息.

在语音识别中,深度学习方法是要进行模型匹配,学习过程中会尽力分析优化得出最合理正确的匹配,利用训练好的数据分析构建好模型,这需要大量的数据,大数据时代为语音识别研究提供了机会,大量的语音数据可以获得并通过深度学习训练去匹配模型,本文用RNN深度学习模型来说明深度学习过程.RNN网络及隐层结构如图1所示.

(a)RNN神经网络(b)HiddenLayer的层级展开

由图1可以看出,中间隐层使用带自反馈的神经元,st由xt和st-1共同决定,即

st=φ(Uxt+Wst-1+b)

(1)

st-1体现了记忆功能,而它的值又是由st-2和xt-1决定的.因此st的值实际上是由x1,x2,...,xt决定的,它记住了之前完整的序列信息.上述RNN网络仅有输入、输出和一个循环隐层组成.输出为

ot=φ(Vst+b0)

(2)

其中,φ,φ为激活函数,b为偏置向量.φ可以选用tanh,relu,sig moid等作为激活函数,φ一般取soft max函数对输出作归一化处理.U,W,V为权重矩阵.

RNN模型中的三个参数U,W,V是全局共享的,参数的更新是利用随时间变化的反向传播算法(Backpropagation Through Time,BPTT).对含多个隐层RNN来说,神经元每一时刻都有监督信息计算损失,总的损失为

(3)

对全局来说,矩阵V的更新对应的微分

(4)

在求矩阵U,W时,因为t时刻U的微分与t-1时刻有关,推导时应将前t-1时刻全部带入,故矩阵U,W更新所对应的微分为

(5)

(6)

语音在语义的表达上具有时间连续性,由于RNN的记忆功能,对序列信号的建模非常有效[14].RNN通过反馈机制,将学习到的历史信息存储在网络的权重中,从而实现对时序信号的建模.理论上,RNN可以实现任意长度的序列到另一个序列的映射[15].RNN把一句话看成单词的序列,每个单词由一个向量表示,每一个位置上有一个中间表示,由向量组成,表示从句首到这个位置的语义.BPTT会导致RNN计算复杂度增加,且存在梯度消失问题,为此提出了一些改进的RNN结构或算法,比如加入长短期记忆(Long Short Term Memory,LSTM)机制,使RNN可以处理远距离依存关系,更好地表示整句的语义.采用端到端的学习算法,结合LSTM的RNN网络使语音中的音素识别率提高[16]以提高语音识别率等.

深度学习用于语音识别大大提高了识别率,科大讯飞发表的官方数据显示,基于大数据的深度学习用于语音识别,语音识别率逐年上升,如表1所示.

从表1可知,在大数据基础上,深度学习用于语音识别,语音识别率从2010年的60.2 %上升到2018年的98 %.大数据为神经网络训练提供了充足的样本,随着硬件技术的发展和计算机运算能力的提升,深度学习在训练大规模神经网络处理大数据的速度不断提高,语音识别率将会进一步得到提升.

表1 语音识别率逐年递增表Tab.1 Speech recognition rate increasing year by year

4 结论

基于大数据的深度学习为语音识别提供了良好的平台.语音识别技术的三个方面:特征提取、模式匹配和模型训练都离不开大量训练数据的积累和匹配,而数据的可靠和有效依赖于算法的可行性.在大数据基础上,深度学习用于语音识别大大提高了识别率.

猜你喜欢
识别率卷积语音
基于3D-Winograd的快速卷积算法设计及FPGA实现
卷积神经网络的分析与设计
魔力语音
基于MATLAB的语音信号处理
从滤波器理解卷积
基于真耳分析的助听器配戴者言语可懂度指数与言语识别率的关系
基于MQ3与MP3的价廉物美的酒驾语音提醒器
听力正常青年人的低通滤波言语测试研究*
对方正在输入……
提升高速公路MTC二次抓拍车牌识别率方案研究