基于HOPE-CTC的端到端语音识别

2021-02-25 05:51:24徐冬冬蒋志翔

计算机工程与设计 2021年2期

徐冬冬，蒋志翔

(中国航天科工集团第二研究院七〇六所，北京 100854)

0 引言

由于传统语音识别系统[1]的流程繁琐，不能高效地结合语言模型与声学模型，端到端方法开始流行。目前端到端模型[2]主要基于两种：一是连接时序分类(CTC)；二是注意力机制。CTC模型与传统的DNN-HMM声学模型不同，不需要在帧级别上对齐标签，但算法的实现基于假设每帧的解码条件独立。纯基于注意力机制的解码过程则与帧的顺序无关，忽略了语音的单调时序性，但预对齐过程会受噪声影响。

针对上述两种端到端模型缺乏先验知识，不能有效进行参数初始化的问题，考虑到联合优化正交投影和估计[3](HOPE)具有潜在特征交叉效果。本文提出采用基于HOPE-CTC的混合端到端模型。该模型首先采用CTC作为损失函数，在HOPE基础上训练获得瓶颈特征，然后将具有高维表示的语音特征输入注意力网络，最后解码输入目标音素标签。其中，HOPE的关键是融合了特征提取和数据建模，采用线性正交投影作特征提取实质上是降维处理，将原始相关性高的输入特征映射成维度较低且线性无关的特征向量；采用有限的混合模型来逼近数据模型分布任务精度。并且将基于HOPE-CTC的瓶颈特征提取网络置于注意力网络的前端，可以有效减少编码网络中循环神经网络的层数，加快模型训练速度。该方法实现了两种不同端到端模型的融合，并通过实验验证了该模型的有效性。

1 联合优化正交投影和估计模型

联合优化正交投影和估计被提出是为了探索神经网络内部各隐层之间密切的相关性，并且发现对于有监督和无监督DNN的学习都非常有效。采用基于最大似然准则(maximum likelihood estimation，MLE)的HOPE学习算法，对无标注数据种进行DNN无监督学习输出的特征，能够作为SVM等简单分类器的输入，与使用带标准数据进行有监督训练的结果相比，可以取得一定的性能提升。

对于一个HOPE模型[4]，可以用如图1所示的两层网络进行表示。其中，正交投影层借鉴了主成分分析的思想，将输入数据映射到低维隐特征空间；输出层采用有限个基于指数的混合模型，逼近隐状态特征的分布精度。

图1 HOPE模型表示为网络结构

根据PCA[5]的理论，利用正交变换把线性相关的高维数据变量转换为线性无关的主成分变量，其余的那些数据可以认为是噪声数据，以达到高维样本数据的特征降维。

对于任意的M维特征语音数据样本x，通过线性投影得到N维的向量z，z=Ux。投影得到的(M-N)维噪音组成部分c,c=Vx。其中V和U均是正交投影矩阵，且相互正交。即满足UUT=I、VVT=I和VUT=0。因此可以得到该投影过程表达公式如下

(1)

(1)首先，我们考虑如何学习投影矩阵U。假设上映射得到的z和c在隐特征空间相互独立，可以将原始数据x的概率分布表示为

(2)

(2)最后，求信号投影成分的分布p(z)。本文的做法是假设z服从一个基于指数分布族的有限混合模型分布，使用一定数目的混合组成成分，无线逼近隐特征空间数据分布。由此可以得到信号成分z的分布

(3)

(4)

其中，μk表示第k个单峰指数分布的模型参数，CN(k)是相应N维特征向量上的概率规整项

(5)

Id(k)是d阶修正的第一类Bessel函数，分布公式如下

(6)

这样就得到了正交投影矩阵U和信号投影成分z在混合模型隐特征空间上的分布。理论上，HOPE模型中映射模型和混合模型的所有参数均可以使用最大似然估计训练更新，然而由于混合模型分布的复杂性，使得无法直接计算参数的解析解。因此，模型训练采用随机梯度下降法，使分布函数的似然值[6]逐步最大化，从而联合更新优化投影矩阵U和混合模型的参数。

为了应对输入语音数据样本的多样性，能够充分提取突出显著特征，合理调整输入和输出特征维度显得尤为重要。因此有些模型参数的选择需要人为进行控制，选择合适的N值将噪声成分从目标信号中滤除，有效防止模型过拟合；单独选择K值，即上述公式中指数分布函数的个数，保证模型在对大量数据建模时，有一定的泛化能力。

2 基于HOPE-CTC的瓶颈特征提取网络

瓶颈特征[7]是在多层感知(multiplayer perceptron，MLP)的瓶颈层中产生的特征，经过一定数目的非线性模型层之后，输出前后相关的且有助于输出分类的语音特征。一开始经常使用的深度信念网络模型中神经元数量很少，随着网络模型深度逐步加深，在语音识别任务模型中引入瓶颈特性，以改善和简化系统的性能。

本文提出的基于HOPE-CTC的瓶颈特征提取网络训练过程中，不依赖字典，将CTC[8]作为目标准则函数，摆脱对先验对齐信息的依赖，网络提取的HOPE瓶颈特征具有更强的区分性和有效性。

这里采用CTC，是因为传统的混合神经网络通常在语音识别中被训练为帧级分类器，这需要对每个帧有单独的训练目标以及输入音频序列和转录序列之间保证对齐。由于语音信号的非稳定性，输入语音特征序列的长度比音频对应的文本序列的长度大得多，CTC函数层却实现了直接预测从输入语音帧特征序列到句子标签序列的后验概率的功能。CTC模型通常使用循环神经网络的softmax层[9]的输出作为CTC的输入，并设置一个指示空白的附加标签，用于估计在某些帧时刻不输出标签的可能性，进而保证输出层中的节点与训练样本数据中的标签序列一一对应。因此所有可能的句子标签后验概率都可以由softmax层节点分类输出表示。引入空白标签，让网络对当前输入语音帧的判断得到缓冲，很好解决了重复字符和连续标签对齐的问题，真实句子标签序列的后验概率则为基于帧输入的特征能映射成相应标签序列的后验概率的总和。

基于HOPE-CTC的瓶颈特征提取网络系统结构如图2所示。

图2 基于HOPE-CTC瓶颈特征提取

原基于循环神经网络的CTC模型包含四层LSTM层和一层softmax投影层。叠加多层循环神经网络目的是提取输入音频帧相邻序列的前后相关性，最后一层循环神经网络的输出经过softmax层映射到句子标签序列。投影层神经元数目与输入数据序列标签个数相关，一般小于LSTM单元个数。

为了训练基于HOPE-CTC的瓶颈特征提取网络，在原模型四层循环神经网络后面添加HOPE瓶颈特征层和全连接层。由于本文选用汉语拼音的58个声韵母作为音素标签，所以投影层节点数等同于包含空白标签在内的59个所有可能标签数。为了获得有利于输出分类的瓶颈特征，设置HOPE瓶颈层输出维度与投影层节点数相接近。连接在第四层中的LSTM单元后的HOPE瓶颈特征层输出维度为50，即上述K值是50，通过设置相对较小的瓶颈层，可以更紧密地压缩显著特征。增加的全连接层神经元数目为1024，这与循环神经网络的隐藏层节点数相同。

在训练过程中，HOPE瓶颈层可以尽可能地还原循环神经网络层中的特征信息。采用标签同步解码算法[10]，通过与给定的真实标签进行比较，获得最终的CTC损失函数。通过不断降低CTC损失值的训练，预测结果逐渐接近真实标签。

为了将将网络中的知识迁移至注意力模型中，对于训练好的基于CTC的连续语音识别系统，删除网络HOPE的瓶颈特征层之后的所有网络单元状态和连接权重参数，并将瓶颈层的状态作为网络的输出，此时获得基于HOPE-CTC的瓶颈特征提取网络。

3 基于HOPE-CTC的混合注意力模型

基于注意力机制的端到端模型[11]主要包括编码网络、注意力子网络和解码网络3个模块。特征输入和序列输出同以上基于HOPE-CTC的瓶颈特征提取网络模型设置。编码网络中的循环神经网络由双向GRU单元构成，可以同时接收和传递帧序列前后信息，增强输入语音帧序列的长时相关性。

假定编码网络中输入原始音频特征序列(x1,x2,…,xT)时，输出是高层表征的特征序列(h1,h2,…,hU)。

注意力子网络主要是计算出编码网络的输出h的权重分布。首先将解码网络当前步的隐藏向量si和hj进行计算得到一个能量系数eij，可以使用叠加神经网络层或者求内积的方式。再经softmax层归一化处理得到注意力系数αij，最后将高层特征序列和注意力系数加权求和得到注意力网络输出向量ci。具体计算公式如下

eij=Energy(si,hj)

(7)

(8)

(9)

解码网络的作用类似于语言模型，RNN当前位置的输入包括上一位置的输出，因此可以有效利用上下文信息。首先当前步的隐藏隐藏向量si是由上一步的隐藏隐藏向量si-1、输出音素yi-1和注意力网络输出向量ci-1计算得到。最后使用当前步的注意力网络输出向量ci和隐藏隐藏向量si进一步获得当前步的输出音素yi。

然而，CTC模型输出单元间作了的独立性假设，导致在模型训练过程中丢失了帧前后的联系，而基于注意力机制的模型却没有假定独立性。结合了CTC和注意力机制的端到端模型有助于解决输入帧和输出标签序列不规则对齐的问题。基于HOPE-CTC的瓶颈特征提取网络可以充分表达相邻帧之间的联系，并抽象出最有利于输出分类的显著特征。基于HOPE-CTC的混合注意力模型对输入样本序列没有严格要求，并且对说话人和噪声等干扰信息具有一定程度的鲁棒性，从而提高了语音序列识别性能。这种混合模型将两个主流端到端模型集成在一起，并且可以有效地将信息从基于CTC的连续语音识别系统转移到注意力模型。

改进后基于HOPE-CTC的混合注意力模型框架如图3所示。①特征输入为Fbank特征序列x=(x1,x2,…,xT)，对应的输出分类是音素标签序列y=(y1,y2,…,yO)。②编码网络中添加了本文提出的算法框架，即将以上经过训练的基于HOPE-CTC网络提取到的瓶颈特征作为循环神经网络层的输入，并减少循环神经网络层数为1层，得到具有更好区分度和表征能力的高层抽象特征序列h=(h1,h2,…,hU)。③注意力网络同以上描述，是用来量化是编码网络得到的高层特征序列hj和解码器隐藏状态向量si之间的关联程度，并计算出高层表征向量的加权和ci。解码网络由单层循环神经网络和softmax层组成。解码RNN第i步输出的隐藏状态向量si=RNN(si-1,yi-1,ci-1)，最后softmax层由隐藏状态向量si预测分类当前步音素标签yi。

图3 基于HOPE-CTC的混合注意力模型

模型训练采用梯度下降法，不难看出整个融合系统训练目标是最大化标签序列的后验概率，目标函数可以表示为

(10)

其中，θ是模型参数，N是训练集总数。

最后需要注意的是，联合训练优化整个融合系统时，固定基于HOPE-CTC的瓶颈特征提取网络参数，不需要调整基于HOPE-CTC的瓶颈特征提取网络中参数，只对注意力模型中剩下的1层循环神经网络、注意力子网络以及解码网络的全部参数进行更新调整。

4 实验过程

4.1 实验数据

实验评估了分别采用纯净和含噪的数据集的方案效果。纯净语音数据来自中文语音数据集AISHELL-1，包含178小时来自400个说话人的普通话音频和相应文本信息。AISHELL-1中的音频数据重采样为16 kHz、16 bit的WAV格式。开发人员将数据集分为3个部分：训练集、验证集和测试集。含噪语音是由加入NOISEX-92数据库的工厂噪声合成而来，其中纯净和含噪信号的平均信噪比约为6 dB。

4.2 参数设置

HOPE-CTC瓶颈特征网络：以帧长25 ms、帧移为10 ms提取语音原始信息。音频特征预处理设置滤波器组数目为40，得到高相关性的Fbank特征，前后拼接5帧共440维。输出层单元数为59，分别对应59个声韵母，其中一共有23个声母、35个韵母和1个空白符。除输入层外，4层LSTM均含有1024个单元。全连接层的维度为1024。HOPE网络结构中M和K值分别选取90和50。

基于HOPE-CTC的混合注意力模型：GRU单元数目设置为256；设maxout网络中隐含层数目为64；解码网络最后softmax层需要输出58个声韵母、空白符和序列终止符共计60个分类标签的后验概率，因此softmax层单元数设置为60。

4.3 训练过程与评价指标

HOPE-CTC瓶颈特征网络的训练过程：采用CTC损失函数，观察并记录训练过程中识别错误率有无收敛趋势。模型训练采用适应性动量估计算法(adaptive moment estimation，Adam)，加快网络的收敛速度。再进行微调，将学习速率设置为0.000 01，采用随机梯度下降算法用作模型的优化器，通过设置较低的学习速率，使得网络优化更加稳定。

基于HOPE-CTC的混合注意力模型的训练过程：通过上述目标函数式(10)，同上也采用Adam算法进行模型参数优化更新。整个训练包括3个阶段：第一阶段，设置批大小(batch size)为16，使模型参数尽快收敛，提高训练效率。到了第二阶段，批大小为1，将随机高斯噪声添加到模型的所有参数中，然后再计算梯度，以增强模型的抗噪性能。HOPE-CTC瓶颈特征提取网络的参数始终保持不变。第三阶段的批处理大小为32。训练HOPE-CTC瓶颈特征提取网络参数时，学习率依次降低为原来的1/2。在上述3个阶段中，若连续5次都没有降低音素识别错误率，则判定模型收敛，自动停止训练或者进入下一阶段。

评价指标：考虑到输出的音素序列为中文语音数据集AISHELL-1的识别结果，采用音素错误率(phone error rate，PER)进行评估

(11)

其中，I为插入错误，表示插入了一个标注序列中没有的音素输出；D为删除错误，表示分类输出序列中的音素被丢失；R为替代错误，表示标注序列中的音素被一个错误音素替代；N为训练数据中的标签序列音素总数。

5 实验结果分析

为了验证和测试基于HOPE-CTC的混合注意力模型的性能，对AISHELL-1数据集进行了音素识别实验，并记录了在纯净和嘈杂语音数据集上不同模型系统的音素错误率。在训练音频数据过程中，每次更新模型参数之前，都要记录网络输出标签的音素错误率，通过绘制图像来比较原始模型和使用HOPE-CTC瓶颈特征提取网络模型训练的收敛速度快慢。同时更改HOPE-CTC网络输出的瓶颈特征维度，即混合模型个数K，比较使用不同结构瓶颈特征提取网络获得的抽象特征对模型识别效果的影响，并找出音素识别错误率最低的模型。

(1)基于HOPE-CTC的混合注意力模型与其它模型性能对比

表1列出采用不同结构网络模型对应的音素错误率。通过表中纵向数据可得，在注意力模型编码网络中添加HOPE-CTC瓶颈特征提取网络后，模型的识别性能得到了提升。分析原因是，编码网络采用深层结构后，输入的语音数据样本特征被映射为具有更强表征能力的显著特征，有利于音素标签输出分类预测，从而有效地提高了识别性能。还可以得到，增加HOPE-CTC瓶颈特征提取网络后分别在纯净和噪声环境下最大有9.32%和15.31%的音素识别错误率降低，验证了HOPE模型结构在语音识别上的有效性。其中线性正交分解，高度相关的高维原始数据被投影到较低维度的隐特征空间，有效保证了纯净语音和噪声特征的线性无关性，有助于将信号中的噪声成分滤除；有限的指混合模型逼近与音素相关的特征数据分布精度，尽可能描述对应标签不同特征维度的差异性，有助与提高音素识别率。

表1 不同结构网络模型在纯净和带噪语音数据集上的音素识别错误率/%

(2)不同模型在训练过程中音素识别错误率性能对比

图4显示了训练期间不同模型的音素识别错误率的下降曲线。可以看出，图中黑色实线，即融合HOPE-CTC瓶颈特征提取网络的模型，与原始联合CTC和注意力的混合端到端模型相比，音素错误率下降速度更快，收敛所需的迭代次数从136减少到87。这表明，在注意力模型前端添加HOPE-CTC瓶颈特征提取网络，可以有效地提供语音特征的先验信息，使得模型训练收敛更快，融合HOPE-CTC瓶颈特征提取网络一定程度上提高了注意力模型的训练效率。

图4 原始模型和融合HOPE-CTC模型在训练过程中训练集音素识别错误率

(3)不同HOPE瓶颈层特征维度对系统性能的影响

表2展示了使用不同维度的HOPE-CTC瓶颈特征提取网络，即改变瓶颈特征输出维数K值的大小，然后在AISHELL-1语料库下一起训练整个模型，得到的音素错误率数据。由表中数据可以得出，随着K值的不断增加，音素错误率呈现先下降后上升的趋势，并且在K值为70时，达到音素错误率最低点。它表明适当增加瓶颈特征输出维数可以得到更好的系统识别性能，但是当将其增加到一定数量时，结果反而将降低。由于本文设置AISHELL-1语料库标签为58个汉语声韵母，能够看出，当HOPE-CTC瓶颈特征提取网络中瓶颈层特征数目与音素标签数量相接近时，网络结构具有更强的建模能力，进而有利于提升语音识别准确率。

表2 不同K取值对系统性能的影响

6 结束语

本文结合基于CTC和注意力机制的两种端到端模型的优势，提出将基于HOPE-CTC的瓶颈特征提取网络与注意力模型融合的方法，充分考虑不同语音数据样本分布的复杂性和差异性，有效提升系统识别的准确率。在纯净和带噪的AISHELL-1 数据集中音素识别错误率分别低至10.31%和13.43%。同时，可以减少原注意力模型编码网络中堆叠多层的循环神经网络，加快模型训练速度。但是网络的泛化能力很差，没有验证在不同数据集和低信噪比语音数据集上的识别效果。因此，结合深度学习的优势，设计更加泛化能力更强的模型，克服环境因素带来的影响，还是非常必要且很有价值的课题。