郑文秀, 连晓飞, 张旭东, 黄琼丹
(西安邮电大学 通信与信息工程学院, 陕西 西安 710121)
近年来,深度神经网络(deep neural networks,DNN)模型在连续语音识别任务中广泛应用,语音识别准确率有了极大的提升。语音识别系统主要包含三个部分:特征提取、声学模型的建立、解码识别[1]。特征提取是指从原始数据中提取出有利于语音识别的部分特征,并进行降维、去噪处理[2]。声学模型的建立是语音识别系统中最重要的一个部分,目前应用最广泛的是高斯混合—隐马尔科夫模型(Gaussian mixture model-hidden Markov model,GMM-HMM),其优点是计算量较小且在语音识别中效果不俗。
传统的语音识别声学模型利用梅尔频率倒谱系数(Mel-frequency cepstral coefficient,MFCC)特征对GMM-HMM进行建模[3],但MFCC特征为短时特征,信息量较少、鲁棒性差,也忽略了连续语音中前后帧信息间的相关性。因此,文献[4]研究了一种具有狭窄中间层的瓶颈深度神经网络提取瓶颈(bottleneck,BN)特征,代替MFCC特征训练GMM-HMM声学模型,语音识别系统性能有效提升。
基于上述思想,本文联合L21范数惩罚函数和重叠组套索算法提取稀疏性BN特征[5~7],并将其与传统的MFCC特征相结合,构造一种新的复合特征参数流,利用新特征流重构GMM-HMM声学模型,在TIMIT数据库上的实验结果表明,稀疏BN复合特征能有效提高系统语音识别准确率。
当前,基于DNN的语音瓶颈特征提取方法仍有不足之处,处理冗余信息时会丢失部分语音特征信息,导致语音识别准确率仍达不到期望。此外,连续语音中前后帧之间具有一定的相关性,这也是提高语音识别率的关键。
深度神经网络瓶颈(BN-DNN)特征模型是在DNN模型的基础上,在隐含层之间引入瓶颈层来减少输出特征的维度[8]。如图1所示。
图1 BN-DNN结构
在机器学习中引入稀疏通常是在目标函数中添加稀疏正则项,并将其视为凸优化问题来解决。相关研究表明,将稀疏应用到DNN时,重叠组套索算法能较好表征稀疏变量的结构先验信息[9]。
将重叠组套索算法应用于DNN主要是将隐含层神经元hj,平均分配到M个互相重叠的组Gm(m=1,2,…,M)中,组间重叠的程度由系数∂控制。再通过引入L21范数惩罚函数到目标函数中,使学习的结果具有重叠组稀疏的特性。DNN模型训练采用反向传播(back propagation,BP)算法,因此稀疏DNN的目标函数可写为
L=-∑p(x)logq(x)+λ‖p(h=1|v)‖2,1
(1)
式中λ‖p(h=1|v)‖2,1为稀疏正则项的一般表达式,λ为正则化参数。由于本文选择重叠组套索作为稀疏DNN的正则项,式(1)可改写为
(2)
式中Gm为M个重叠组中的第m组神经元,n为Gm中对应的第n个隐含层神经元,p(hn=1|vl)为第l隐含层中第n个隐含层神经元的激活概率。选择L21范数有两个原因:在组间,L1范数可以促使部分隐含层单元组的范数为0;在组内,L2范数具有相关性特征选择的作用,从而有效提取语音前后帧相关性信息。
利用梯度下降算法对目标函数的对数似然概率进行计算,可得稀疏正则项的更新公式为
p(hm=1|vl)·vl
(3)
从而推导出BN-DNN训练的权值和偏置的更新公式为
(4)
(5)
式中 Δwi,j为从节点i到节点j的更新权值,Δbi为节点i的更新偏置。
训练方法:1)输入MFCC声学特征,采用无监督学习的方式预训练网络结构,初始化每个网络节点参数;2)在BN-DNN目标函数中加入稀疏正则项,使学习的结果具有重叠组稀疏的特性;3)对BN-DNN进行微调优化,采用标注数据进行网络的监督训练,使用BP算法来回调整网络参数,逐层更新网络权重集,在训练结束后的BN-DNN模型中提取稀疏性瓶颈特征;4)将BN层之后的网络移除,把原来的瓶颈层作为输出层,从BN-DNN模型中提取出稀疏性瓶颈特征[10,11]。
声学复合特征指将非短时差异特征与传统短时特征拼接后形成的新特征参数。吕丹桔等人[12]将采用ANN技术提取出的非短时差异特征MLP与传统短时特征MFCC复合构成声学复合特征,利用声学复合特征训练GMM-HMM声学模型,实验结果表明复合特征比单一特征具有更好的识别表现。本文由于只是截取部分DNN来提取稀疏性BN特征,也将损失一部分语音特征。因此,提出将BN-DNN提取的非短时39维稀疏性BN特征与传统的39维MFCC特征复合成78维的高维特征参数,来弥补语音特征的损失,通过线性区分分析(linear discriminant analysis,LDA)进行降维,降维后的39维特征参数用于GMM-HMM声学建模[13]。流程图如图2所示。
图2 稀疏BN复合特征构造流程图
本文利用TIMIT声学—音素学连续语音语料库来验证实验的有效性,其中共包含6.5 h的语音数据(测试集选用100名发音人约1 h的语料库),训练集包含500名说话人约5.5 h的语音数据,且训练集与测试集没有相同的说话人。实验将词错误率(word error rate,WER)作为评估指标。WER定义为
(6)
式中S为替换,D为删除,I为插入,N为单词数量。
本文使用三音素建模。对三音素单元使用自左向右的无状态间跨越的三状态HMM,每个HMM拓扑结构前后都有一个开始状态和一个结束状态[14]。利用最大似然估计准则训练的GMM-HMM声学模型,输入为连续11帧的39维特征(12维稀疏性BN特征和1维对数能量,以及两者的一、二阶差分),汉明窗帧长设置为25 ms,帧移设置为10 ms[15],HMM中每个状态设置100个独立的高斯分量。本实验DNN模型中包含5个隐含层,其中最中间的隐含层定义为BN层。BN层神经元个数通常设置与特征单帧维数相同,为了提升DNN的性能,其他隐含层神经元个数相同且尽量设置较大;输入层神经元个数=帧数×每帧特征的维数,即输入层的节点个数=11×39=429。因此,网络结构设置为429-[1024-1024-39-1024-1024]-429,稀疏组重叠系数∂设置为30 %。DNN模型训练采用BP算法,其中随机梯度下降的Mini-batch设为512。为了防止权重过大,使用较小的学习效率,模型学习效率设置为0.04,冲量值的大小为0.3。训练结束后,利用39维稀疏性瓶颈特征训练得到的GMM-HMM模型进行解码识别。
BN+MFCC-GMM-HMM模型的训练采用提取的39维稀疏性BN特征和39维MFCC特征进行串接得到的78维复合特征,经过LDA降维后[16,17]获得39维复合特征,训练复合特征的GMM-HMM声学模型。稀疏BN复合特征的GMM-HMM模型训练所涉及的一些参数配置与BN-GMM-HMM模型一致。过程如图3所示。
图3 稀疏BN复合特征的声学模型建立过程
实验1隐含层中神经元个数的最优配置
调整BN-DNN模型中隐含层神经元个数确定最佳的网络结构配置。设置BN层神经元个数为39、稀疏组重叠系数为30 %。隐含层依次设置为128,256,512,1 024,2 048五种时,WER分别为17.29 %,16.37 %,15.65 %,15.38 %,15.52 %。结果表明:在BN层神经元个数为39、稀疏组重叠系数设置为30 %的情况下,随着隐含层神经元个数增加,WER逐渐降低,当隐含层神经元个数达到1 024时,稀疏BN复合特征构建的声学模型效果达到最佳。当隐含层神经元个数继续增大时,WER反而升高,所以隐含层神经元个数并不是越多越好,五层隐含层神经元个数的最优设置为1 024。
实验2BN层神经元个数的最优设置
根据实验1确定隐含层神经元个数为1 024是最优设置,稀疏组重叠系数设置为30 %,确定BN层神经元个数为39是否为最优参数。改变BN层神经元个数,依次设置为30,35,39,45,50时,WER分别为13.67 %,13.61 %,13.53 %,13.62 %,13.65 %。结果表明,在隐含层神经元个数为1024、稀疏组重叠系数为30 %的情况下,改变BN层神经元个数,WER并没有太大的改变,最大差距是BN层神经元个数为39时,比30降低了0.14 %,但还是验证了BN层神经元个数为39时,稀疏BN复合特征建立的GMM-HMM声学模型性能最好。
实验3稀疏组重叠系数的最优配置
根据实验1、实验2确定隐含层神经元个数和BN层神经元个数的最优设置为1 024和39,改变稀疏组重叠系数,分别设置为0 %,20 %,30 %,40 %和50 %时,WER分别为14.86 %,14.41 %,14.21 %,14.27 %,14.33 %。可以看出,在隐含层和BN层神经元个数分别为1 024和39的情况下,当稀疏度越大时,WER的值越小。但当稀疏度达到一定的峰值,继续增加WER的值反而增大,稀疏组重叠系数设置为30 %是最优配置。稀疏组重叠系数30 %与0 %相比,其WER降低了0.65 %,其原因是稀疏正则项有效控制了深度神经网络的泛化能力,声学模型具有较强的鲁棒性。
实验4四种不同特征的声学模型识别率比对
在TIMIT上分别搭建基于MFCC,BN和BN+MFCC特征的GMM-HMM声学模型系统以及DNN-HMM声学模型系统的WER分别为18.31 %,16.56 %,16.35 %,13.07 %。可以看出,BN+MFCC-GMM-HMM声学模型具有最佳的识别效果。相较于传统的MFCC特征WER降低了5.24 %,语音识别率大幅提升。稀疏BN复合特征相较于深度神经网络后验特征和单一的BN特征WER分别降低了3.49 %和3.28 %。DNN后验特征与稀疏性BN特征具有相当的识别表现。稀疏性BN特征不仅能够借助成熟的GMM-HMM进行声学建模,而且在融合了MFCC特征后,其系统识别率又进一步提升,从而验证了基于稀疏BN复合特征的声学模型优良性能。
本文研究了联合L21范数惩罚函数和重叠组套索算法提取出低维、具有稀疏性的BN特征,并将它与传统的MFCC特征相融合,构造新的复合特征参数流,训练复合特征的GMM-HMM声学模型。最后在TIMIT数据库上对隐含层与BN层神经元个数、稀疏组重叠系数大小、不同特征的声学模型识别率进行了相关的对比实验。实验结果表明:基于稀疏DNN提取的BN特征比传统的MFCC特征有更好的识别表现,而且在融合了MFCC特征后,系统识别率又大幅度提升。稀疏BN复合特征不仅结合了稀疏性BN特征的语音长时相关性,还结合了MFCC特征更符合人耳的听觉特性。下一步会把稀疏性BN特征与其他传统特征相融合,以期获得更高的识别率。