摘 要:针对Conformer编码器的声学输入网络对FBank语音信息提取不足和通道特征信息缺失问题,提出一种RepVGG-SE-Conformer的端到端语音识别方法。首先,利用RepVGG的多分支结构,增强模型的语音信息提取能力,而在模型推理时通过结构重参数化将多分支融合为单分支,以降低计算复杂度、加快模型推理速度。然后,利用基于压缩和激励网络的通道注意力机制弥补缺失的通道特征信息,以提高语音识别准确率。最后,在公开数据集Aishell-1上的实验结果表明:相较于Conformer,所提出方法的字错误率降低了10.67%,验证了方法的先进性。此外,RepVGG-SE声学输入网络能够有效提高多种Transformer变体的端到端语音识别模型的整体性能,具有很好的泛化能力。
关键词:语音识别; Conformer; RepVGG; 压缩和激励网络
中图分类号:TP912.34 文献标志码:A 文章编号:1001-3695(2024)07-014-2018-07
doi:10.19734/j.issn.1001-3695.2023.11.0563
End-to-end method based on Conformer for speech recognition
Abstract:The acoustic input network based on the Conformer encoder has the problem of insufficient extraction of FBank speech information and missing channel feature information. This paper proposed an end-to-end method based on RepVGG-SE-Conformer for speech recognition to solve these problems. Firstly, the proposed model used the multi-branch structure of RepVGG to enhance the speech information extraction capability, and using the structural re-parameterization fused the multi-branch into a single branch to reduce the computational complexity and speed up the model inference. Then, based on the squeeze-and-excitation network, the channel attention mechanism made up for the missing channel feature information to improve speech recognition accuracy. Finally, the experimental results on the public dataset Aishell-1 show that the proposed method’s character error rate is reduced by 10.67% compared with Conformer, and the advancement of the method is verified. In addition, the proposed RepVGG-SE acoustic input network has good generalization ability in the end-to-end scene, which can effectively improve the overall performance of speech recognition models based on Transformer variants.
Key words:speech recognition; Conformer; RepVGG; squeeze-and-excitation network
0 引言
自动语音识别(automatic speech recognition,ASR),简称语音识别,是人与人、人与机器顺畅交流的关键技术[1]。随着智能通信设备的蓬勃发展,语音识别技术早已转换成产品,并被广泛应用于会议、客服电话、出行驾驶、教育医疗等各种场景。主流的语音识别技术主要包括基于机器学习的方法(如GMM-HMM[2])和基于深度学习的方法(如DNN-HMM[3,4])。但由于GMM-HMM不仅要求帧内元素之间相互独立,而且没有利用帧间上下文信息,致使模型无法充分刻画声学特征的空间状态分布[5],识别率较低。而DNN-HMM是有监督训练,由于训练数据人工无法标注,需要借助GMM-HMM来实现帧与状态的对齐,所以DNN-HMM模型依然存在一定局限性。在训练架构上,以上两种主流语音识别模型在声学模型、语言模型和发音词典三大组件上都需要单独设计和训练,步骤比较烦琐。而且这种分阶段系统还需要声学、语言学等专业知识和技术的积累,存在入门门槛高、开发成本高和难维护等问题。
近年来,随着计算能力的快速发展,出现了将传统语音识别技术的三大组件融合成一个模型的端到端语音识别技术,实现了语音到文本的直接映射。为解决语音输入序列和输出序列长度不一致的问题,端到端语音识别技术可分为连接时序分类(connectionist temporal classification,CTC)[6,7]、循环神经网络转换器(RNN-Transducer,RNN-T) [8]以及基于注意力机制(attention)的方法 [9~11]。Wang等人[12]不仅对这三种模型的发展趋势进行了详细总结,而且深入分析了相关技术的优缺点。随着Transformer[13]在机器翻译领域的广泛应用,Dong等人[14]首次将Transformer模型架构引入到语音识别领域,进一步提升了语音识别的准确率。谢旭康等人[15]提出了一种TCN-Transformer-CTC模型,通过时序卷积(TCN)加强Transformer对位置信息的捕捉能力。尽管Transformer在捕获长距离上下文信息上具有较大的优势,但提取局部特征的能力较弱。为解决这个问题,Gulati等人[16]提出了Conformer模型,该模型在Transformer编码器的基础上加入卷积模块,通过卷积捕获局部细粒度特征,同时保留了Transformer的全局表征能力。Burchi等人[17]提出了一种更为高效的 Conformer模型, 进一步降低了计算复杂度。Gao等人[18]提出了一种快速并行的Transformer模型——Paraformer,将模型的解码速度提升了10倍以上。Peng等人[19]提出了一种Branchformer模型,进一步研究了局部特征和全局特征的关系及其对语音识别准确率的影响。Radford等人[20]提出了一种Whisper模型,该模型支持多任务学习,在解码器里通过引入prefix prompt[21~23]来支持任务切换,从而实现多种语言到文本的转换。
针对图像分类任务,Ding等人[24]提出了一种简单高效的轻量化VGG卷积网络——RepVGG,以降低模型推理时的资源开销。Hu等人[25]提出了一种包含通道注意力机制的网络模型——SENet,增强了网络模型的表征能力。受他们工作及文献[16]的启发,本文提出了一种端到端语音识别模型RepVGG-SE-Conformer,以进一步提高语音识别准确率。主要贡献如下:
a)在语音识别模型中首次引入RepVGG网络,在训练阶段通过多分支结构来增强模型对FBank信息的提取能力,在推理阶段通过结构重参数化降低了计算复杂度。
b)为弥补缺失的通道特征信息,在RepVGG网络中融合压缩和激励模块(SENet)以及通道注意力机制,通过优化融合方式充分利用空间特征,提高了语音识别准确率。
c)在公开数据集Aishell-1[26]上的实验结果表明:与Conformer相比,本文模型的语音识别准确率提高了10.67%,而且RepVGG-SE声学输入网络能够有效提高多种Transformer变体的端到端语音识别模型的整体性能,具有很好的泛化能力。
1 相关知识
利用Transformer在捕获长距离上下文信息上的优势可以提升语音识别的准确率,但其提取局部特征的能力较弱。为了解决这个问题,谷歌团队提出了一种融合卷积操作的Transformer网络模型——Conformer。该模型保留了原有的Transformer解码器部分,主要对Transformer的编码器部分进行了改进,模型总体架构如图1所示。
1.1 编码器声学输入网络
语音信号在进入编码器声学输入网络之前,首先需要经过预加重、分帧、加窗、傅里叶变换等信号预处理来获取振幅谱,再对其幅度求平方;最后通过一组梅尔(Mel)滤波器来仿真人耳感知特性进行信息压缩,进一步生成编码器声学输入网络所需要的对数功率谱——FBank特征图。语音信号预处理过程如图2所示。
编码器声学输入网络结构如图1(a)所示,主要由四部分组成:specaugment模块[27]、卷积模块(convolution subsampling)、线性层(linear)以及一个dropout。其中:specaugment模块负责对FBank进行数据增强;convolution subsampling负责降采样;linear负责特征维度的降维操作;dropout层负责缓解过拟合现象的发生,达到正则化的效果。
1.2 Conformer编码器和解码器
Conformer编码器结构如图1(b)所示,主要由五部分组成:两个前馈网络层(feedforward module)、一个多头注意力层(multi-head self-attention)、一个卷积模块层(convolution module)以及一个层归一化(layernorm)。其中,编码器采用了Macaron Net架构[28],且两个前馈网络层在输出时均乘以1/2,编码器的每个子层均以残差方式进行连接。
Conformer解码器直接采用了Transformer解码器结构,如图1(c)所示,主要由三部分组成:一个屏蔽未来标签信息的掩码多头注意力层(multi-head self-attention)、一个混合编码器和解码器的注意力层(encoder-decoder attention)、一个前馈网络层(feedforward module)。其中,解码器的每个子层同样均以残差方式进行连接。
1.3 RepVGG
为了降低模型推理时的资源开销,文献[24]基于VGG[29]单路模型和ResNet[30]多分支网络,提出了一种结构重参数化思想,设计了一种训练网络和推理网络相解耦的模型——RepVGG。其中,训练网络结构如图3所示,包含两种多分支结构,分别用RS1和RS2表示。RS1的结构为:一个3×3卷积平行添加一个1×1卷积分支,每个卷积步幅取值为2,padding为1,且输出后均经过批量归一化(batch normalization,BN)处理。RS2的结构为:一个3×3卷积平行添加一个1×1卷积分支和一个恒等映射(identity)分支,每个卷积步幅取值为1,padding为1,输出后同样经过批量归一化(BN)处理。RepVGG训练网络主要由一个RS1和N个RS2串行组成,通过这种多分支结构增强了模型的表征能力。
推理网络结构如图4所示,包含两种单路结构,通过结构重参数化将多分支结构的RepVGG训练网络转换成单路的推理网络。其中,Con1单路卷积层由RS1训练多分支结构转换得到,Con2单路卷积层由RS2训练多分支结构转换得到。在推理阶段利用这种单路模型,可以减少显存占用、降低计算复杂度,从而加快推理速度。
1.4 SE通道注意力机制
在多通道特征图中通常包含两种特征:第一种是每个通道特征图内部的空间特征;第二种是反映通道间相互依赖关系的通道特征。为了进一步增强网络模型的表征能力,文献[25]提出了一种包含通道注意力机制的网络模型——SENet。该模型通过一种压缩和激励(squeeze-and-excitation,SE) 网络模块引入了通道注意力机制,学习了每个通道的重要程度,从而进一步刻画了通道间的相互依赖关系。SE模块结构如图5所示,其主要由四部分组成:普通卷积网络Ftr、压缩操作Fsq、激励操作Fex以及特征重标定Fscale。其中,Fsq利用全局平均池化(global avgpooling)对经过Ftr卷积后的特征图进行压缩,捕获全局特征;激励操作则是由全连接层、非线性激活ReLU、全连接层、sigmoid函数串行组成,用于表征不同通道的权重信息;Fscale负责将Ftr的输出和Fex的输出通过乘法进行逐通道加权,实现在通道维度上对原始特征的重标定操作。本质上,SE网络利用了通道注意力机制,使得网络模型增加对包含信息量最大的通道特征的关注度,同时抑制不重要的通道特征信息。
2 RepVGG-SE-Conformer模型
在Conformer编码器声学输入网络中,如图6所示,FBank经过卷积降采样(convolution subsampling)模块进行连续两次降采样,会造成特征信息提取不充分的问题。此外,卷积模块输出是一个多通道特征图,在进入linear层之前,需先将所有通道的特征图沿特征维度方向依次拼接,形成一个高维度的单通道特征图,这种拼接操作会导致通道特征信息的缺失。
为解决上述问题,本节对Conformer编码器声学输入网络进行改进,提出一种融合RepVGG和注意力机制的模型——RepVGG-SE-Conformer,以进一步提高语音识别准确率。下面首先对该模型的整体架构进行介绍;然后,详细说明声学输入网络中掩码降采样策略的优化方法,再对声学输入网络的训练与推理两个阶段以及模型的损失函数进行说明;最后,对模型的主要算法实现部分进行简要概述。
2.1 模型架构
RepVGG-SE-Conformer模型总体架构如图7所示,主要由三部分组成:编码器声学输入网络、共享的N层Conformer编码器模块和Two-Pass[31]方式解码器。其中,编码器声学输入网络和Conformer编解码器的详细结构已在第1章进行了详细描述。Two-pass解码器由CTC解码器和M个Transformer解码器组成。本文的主要创新是在编码器声学输入网络中,用两个RepVGG 模块替换原来的convolution subsampling模块;并且对第二个RepVGG 模块进行改造,通过添加压缩和激励(SE)模块引入通道注意力机制,该模块简称为RepVGG-SE。
2.2 声学输入网络中掩码降采样策略优化
FBank语音特征序列可以看成一个单通道的二维图像,但与计算机视觉领域中以固定尺寸图像作为输入不同,FBank作为语音识别领域的输入,其长度具有时序性。为了保持每个batch内部FBank时间长度一致性,在数据预处理过程使用padding将每个batch内的语音均填充到当前batch内部最大的FBank时间长度。如图8所示,假设batch_size设置为4,填充前每个FBank时间长度分别为T1、T、T2、T3;填充后batch内每个FBank时间长度均变为内部的最大长度T。
为了避免padding引发的均值计算偏移误差问题,Conformer引入掩码(mask)操作,且mask掩码时间长度初始值也为T。在Conformer编码器声学输入网络的convolution subsampling模块中包含两种降采样。第一种降采样:FBank降采样。FBank以步幅为2、padding为0的3×3卷积进行连续两次降采样,如图6(a)所示。其中,FBank特征图时间维度发生了改变,第一次卷积后特征图时间维度上的长度T1为
第二次卷积后特征图时间维度上的长度T2为
第二种降采样:mask掩码降采样。在FBank连续两次降采样后,mask掩码连续两次从第3列开始,以步幅为2的策略进行降采样。这种mask掩码降采样策略简称Mask1,该策略等效于构建一个特殊的1×3卷积核:前两个元素值为0,第三个元素值为1,步幅为2,降采样策略如图9所示。显然,mask掩码和FBank在时间维度的长度变化数学公式相同,即经过降采样输出的特征图和掩码在时间维度上长度仍然保持一致。
在声学输入网络中引入计算机视觉领域的RepVGG网络模型后,由于RepVGG网络中二维卷积的padding参数值均为1,使得FBank在经过RepVGG网络的RS1结构进行降采样后,输出的特征图在时间维度上长度发生改变。第一个RS1后,的特征图时间维度上的长度T′1为
第二个RS1后,特征图时间维度上的长度T′2为
这时,mask掩码在时间维度上的长度为T2,与FBank的长度T′2不一致,导致在模型的掩码计算过程中出现维度不一致,使模型在训练过程中出现错误。此外,对比式(2)(4)可以看出,当T1为奇数时,两种FBank降采样后的输出在时间维度上的长度相差1帧;但当T1为偶数时,两种FBank降采样后的输出在时间维度上的长度相差2帧。由于mask使用的是单一的掩码降采样策略,所以很难解决这种奇偶性引发的输出长度波动问题。
为了解决上述时间长度不一致的问题,本部分在RepVGG网络降采样的基础上对原来的mask降采样策略进行了优化,提出一种新的mask降采样策略,如图10所示。在每次执行mask掩码降采样前,首先获取mask掩码的时间长度T,然后判断T的奇偶性。若为偶数,则mask从第2列开始,以步幅为2的方式进行降采样;若为奇数,则mask从第1列开始,以步幅为2的方式进行降采样。与原始的降采样策略不同,改进后的降采样策略不能等效为任何1×3卷积。
2.3 声学输入网络的训练
声学输入网络在训练阶段,如果采用浅层单分支卷积模块进行降采样会造成FBank特征提取不充分。为解决这个问题,本部分在卷积降采样模块中引入RepVGG的训练网络。通过增加卷积网络层数使模型能够学习到更为复杂的语音特征;同时利用RepVGG训练网络的多分支结构来进一步提升模型的表征能力,改进后的卷积降采样模块结构如图11(a)所示。该卷积降采样模块使用两个RepVGG训练模块来构成一个串行结构,简称RepVGG-CS。其中,每个RepVGG训练模块由一个RS1结构和三个RS2结构组成。为了验证RepVGG多分支结构在训练阶段的优势,本部分还设计了一种基于两个VGG串行的单路卷积降采样模块——VGG-CS进行对比,如图11(b)所示。其中,每个VGG由一个Con1结构和三个Con2结构组成。在第三部分实验中将对RepVGG-CS、VGG-CS和基线模型Conformer进行分析对比。
为了解决拼接操作造成的通道特征信息损失问题,本部分在RepVGG训练网络中,通过融合压缩和激励(SE)模块引入通道注意力机制。在不破坏RepVGG网络结构的情况下,设计了第一种融合方式:在图11(a)中第二个RepVGG模块后直接加入SE模块,如图12(a)所示。其中,SE模块通过一个全局池化层进行压缩,再依次通过全连接层、ReLU、全连接层、sigmoid进行激励。这种融合方式简称为RepVGG-SE-1。
在Conformer原有的卷积降采样模块中仅包含两层卷积,而在本部分设计的RepVGG-CS降采样模块中包含八层卷积以增强对FBank特征图的信息提取能力。但是,网络模型层数的增加会带来模型退化问题[30]。此外,第一种融合方式RepVGG-SE-1可能存在过度侧重通道特征、削弱空间特征等问题。为了解决上述问题,本部分设计了第二种融合方式:在RepVGG-SE-1的基础上,将经过RS1层和SE模块的输出以跳跃连接的方式进行残差融合,如图12(b)所示。这种融合方式简称为RepVGG-SE-2,在第三部分实验中将对以上两种融合方式进行对比分析。
2.4 声学输入网络的推理
推理阶段,为了降低语音识别模型在部署阶段的计算资源开销、加快推理速度,本部分对RepVGG-SE-Conformer模型进行等效压缩:通过结构重参数化将训练阶段RepVGG-CS包含的多分支结构——RS1和RS2分别转换成Con1与Con2单路结构。
为了实现模型的等效压缩,结构重参数化过程需要进行以下操作:卷积和批归一化(BN)的融合、不同尺度的卷积核的转换以及所有3×3卷积分支的融合。第一步是卷积和BN的融合,其中卷积公式如下:
Conv(x)=Wx+b(5)
其中:x为语音特征序列;W为卷积权重;b为偏置。在不考虑b的情况下,式(5)变为
Conv(x)=Wx(6)
BN的计算公式为
其中:y为x通过卷积处理后的语音特征序列;γ为可学习的缩放系数;β为可学习平移系数;ε是为防止除零所设置的一个极小值;μ和σ 2表示的是在整个语音训练集上总体期望和方差,且这两个值是在训练过程中利用每个batch上的均值和方差,使用滑动窗口求平均的方式进行更新得到的 [32]。当模型进入推理阶段后,μ和σ 2直接作为已知常数参与计算。将式(6)代入式(7),化简得
至此,卷积和批量归一化(BN)融合操作完成。
第二步,不同尺度的卷积转换。对于1×1卷积分支,在融合BN之后,通过周边补零的方式构建3×3卷积,如图13所示。
但是在RS2多分支结构中,由于恒等映射(identity)分支不存在实际的卷积核,无法进行BN融合。为解决这个问题,首先构建了一种特殊的3×3卷积核,如图14所示。该卷积核构建方法如下:对于当前通道,中心权重值设置为1,周边用0填充;对于其他通道,所有权重均设置为0。通过这种特殊的卷积核可以实现语音特征序列的自身映射。然后,再结合式(10)将新构建的卷积核与BN进行融合。
最后基于卷积操作的可加性,三个3×3卷积分支融合为一个3×3卷积。RepVGG-CS的多分支结构等效压缩后的单路结构效果与图11(b)所示的VGG-CS结构一致。
2.5 混合CTC/Attention loss
由于基于Attention机制的Conformer模型在输入语音序列和输出字符序列的对齐关系上没有限制,所以需要更多的语音数据来训练这种对齐关系。因此,本部分采用CTC的前向-后向方法来强制文本序列与语音序列在时间维度上进行对齐,以达到辅助Attention进行模型训练的效果。同时,采用多任务学习方式,加速模型训练过程。针对RepVGG-SE-Conformer模型设计的损失函数如下:
L=λ×LossCTC+(1-λ)LossAttention(11)
其中:λ∈[0,1]用于平衡CTC和Attention损失的权重。
2.6 RepVGG-SE-Conformer算法
在图7所示的RepVGG-SE-Conformer模型架构中,主要包含声学输入网络、共享Conformer编码器、CTC解码器、Transformer解码器以及CTC/Attention loss。其中,本文的创新点主要体现在声学输入网络中的卷积降采样模块。受篇幅限制,本部分仅给出训练阶段和推理阶段的卷积降采样算法描述。
训练阶段的卷积降采样过程实现如算法1所示。输入为语音特征图x和掩码序列x_mask,输出为降采样后的语音特征图x″和掩码n_mask。
算法1 训练阶段的卷积降采样算法
推理阶段的卷积降采样过程如算法2所示。输入为语音特征图x和掩码序列x_mask,输出为降采样后的语音特征图x″和掩码n_mask。
算法2 推理阶段的卷积降采样算法
3 实验结果及分析
3.1 实验数据和实验环境
本文实验数据选用由希尔贝壳开源的中文普通话数据集Aishell-1,该数据集是由400位来自国内不同地域的发音人,在安静的室内环境中通过麦克风(44.1 kHz,16 bit)、Android或iOS手机(16 kHz,6 bit)录制而成。其中,为平衡麦克风数据,其数据格式降采样为16 kHz;录音内容涉及财经、体育、科技、娱乐、时事新闻五大领域。数据集由三部分组成:150 h的训练集、18 h的验证集和10 h的测试集,数据集总时长共计178 h。
本文实验环境为IntelXeonPlatinum 8255C CPU,主频2.5 GHz的处理器,单颗NVIDIATeslaT4 GPU,显存为16 GB,运行内存为32 GB,磁盘空间100 GB。在Ubuntu Server 18.04 LTS 64位操作系统上搭建基于Pytorch的深度学习框架,并基于Wenet[33]语音识别工具包进行各项实验。
3.2 评价标准
语音识别准确率的评价标准采用字错误率(character error rate,CER),其计算公式如下:
其中:D表示删除错误的字数量;S表示替换错误的字数量;I表示插入错误的字数量;N表示所有字数量。
对于模型推理速度的评价采用实时率(real time factor,RTF),其计算公式如下:
其中:TASR表示解码时长;T为音频时长,实时率越小解码速度越快、推理速度也越快。
3.3 训练过程
首先,进行数据预处理。对于音频特征,本文选用帧长为25 ms,帧移为10 ms的FBank作为模型输入特征,其中FBank特征维度取80,不使用全局倒谱均值方差归一化(Global-CMVN)[34]处理。另外,本文分别采用0.9和1.1的音频速度扰动技术对训练数据集进行扩充,使用语音增强技术来提升模型鲁棒性。对于文本输出,使用的Aishell-1字典共有4 233个字符。其中,除了训练集4 230个字符外,还包含开始结束字符〈sos/eos〉、空白符〈bank〉以及未知字符〈unk〉。
然后是模型的声学输入网络、编码器、解码器的配置。a)在声学输入网络的卷积降采样模块中,第一个RepVGG模块输出通道维度为128;第二个RepVGG模块输出通道维度为256;SE的降维系数为16;Linear输出特征维度为256。b)编码器包含12个Conformer 模块,其中每个模块输出维度为256,注意力头数设置为4;前馈网络内部维度设置为2 048;卷积模块中的深度卷积(depthwise-convolution)卷积核大小为15;每个子层的dropout取值为0.1。c)解码器包含6个Transformer decoder解码块,除编码器中的卷积模块外,参数配置与编码器相同。
最后,在训练阶段batch_size为16,采用梯度累计accum_grad为4,梯度阈值grad_clip为5,训练轮数epoch为100,CTC损失辅助权重 λ为0.3。采用动态调整学习率策略,其中热身步数warmup_steps取35 000,最高学习率lr为0.000 5。采用Adam作为优化器,其中超参数β1为0.9,β2为0.98,ε为10-9。在训练结束后,选取验证集表现最好的10个epoch模型,对其参数求平均得到一个训练模型。在推理阶段,将训练模型中RepVGG模块的分支进行合并,得到最终的推理模型。然后再将beam设置为10,通过Two-pass进行解码得到最后的预测文本序列。
3.4 实验结果与分析
3.4.1 识别率实验结果分析
本文以字符为建模单元,在Aishell-1数据集上对RepVGG-SE-Conformer的语音识别效果进行了验证。
1)模型精度
以原始的Conformer为基线(baseline)模型,将图11提出的RepVGG-CS、VGG-CS和图12提出的RepVGG-SE-1、RepVGG-SE-2分别作为声学输入网络,再与Conformer组合进行对比实验。不同声学输入网络组合Conformer的实验结果如表1所示。从表中结果可以看出, RepVGG-SE声学输入网络提升模型识别能力的效果最好,与基线模型相比测试集字错误率降低了10.67%;与RepVGG-SE-1融合方式相比,RepVGG-SE-2方式能够将字错误率降低到4.52%,模型的鲁棒性最好。
为进一步评估不同声学输入网络对模型精度的影响,在验证集中取后60 epoch的损失值进行分析,各组合模型的验证集损失曲线如图15所示。
从图15可以看出,使用RepVGG-SE-2输入网络的模型整个验证集损失最低;同时RepVGG-SE-2融合方式的损失曲线普遍低于RepVGG-SE-1。
2)模型的泛化性
为验证以RepVGG-SE-2融合方式的声学输入网络(简称RepVGG-SE)的泛化性,本文将该输入网络分别与Transformer、Paraformer、Branchformer模型组合,并在Aishell-1数据集上进行实验,实验结果如表2所示。
从表2可以看出,RepVGG-SE输入网络使Transformer的字错误率相对降低了16.02%,Paraformer的字错误率相对降低了5%,Branchformer相对降低了8.1%。实验结果表明,本文提出的RepVGG-SE声学输入网络能够有效提高多种Transformer变体的端到端语音识别模型的整体性能,具有很好的泛化能力。
3.4.2 实时率实验结果分析
实时率(RTF)是反映语音识别模型性能的另一个重要评价指标。本文将RepVGG-SE声学输入网络分别与Transformer、Conformer、Paraformer以及Branchformer进行组合,并在Aishell-1的测试集上进行推理实验。为了体现多分支训练网络融合成单分支推理网络的加速效果,本部分对训练网络(多分支结构)的实时率和推理网络(单分支结构)的实时率进行对比,模型推理速度的对比结果如表3所示。
从表3可以看出,融合RepVGG-SE单分支结构的识别速度明显优于多分支结构,在Transformer、Conformer、Paraformer、Branchformer上的单分支实时率相比于多分支分别下降了2.24%、4.65%、3.42%、1.98%。融合RepVGG-SE单分支结构后的Transformer变体的端到端语音识别模型与原始模型相比,实时性有所降低,实时率稍微增加了0.000 3~0.000 6。但是融合模型在语音识别率方面提升较高,比如RepVGG-SE-Conformer模型相比于Confomer在识别率方面提升了10.67%,而实时率的降低则相对较小。综合来看,融合RepVGG-SE网络的模型能够均衡识别精度和实时性两方面的性能,具有一定的先进性。
4 结束语
RepVGG是一种轻量级的卷积神经网络,本文基于该网络提出了一种RepVGG-SE-Conformer端到端语音识别模型。首先,通过对mask降采样策略进行优化,使掩码和语音特征图在降采样后时间长度保持一致。然后,在声学输入网络中利用RepVGG的多分支结构提升了模型的表征能力,并通过融合基于SE的通道注意力机制,使模型弥补了缺失的通道特征信息,提高了语音识别准确率。最后,在使用声学输入网络进行推理时,通过结构重参数化将多分支结构转换为单分支结构,降低了计算复杂度、加快了模型推理速度。在公开数据集Aishell-1上的实验结果表明:以残差方式融合的RepVGG-SE声学输入网络能够使模型的语音识别性能最好。而且,本文提出的RepVGG-SE声学输入网络能够有效提高多种Transformer变体的端到端语音识别模型整体性能,具有很好的泛化能力。未来的研究将结合Conformer探索端到端语音识别的轻量化技术,进一步提高模型推理速度,使其能够更好地应用于边缘设备。
参考文献:
[1]俞栋,邓力. 解析深度学习:语音识别实践[M].俞凯,钱彦旻,译. 北京:电子工业出版社, 2016:1-7. (Yu Dong, Deng Li. Deconstruct deep learning: speech recognition practices[M]. Yu Kai, Qian Yanmin, trans. Beijing: Publishing House of Electronics Industry, 2016:1-7.)
[2]9f3eed88627b9c25fe7114350ad2b6f2邓江云,李晟. 基于GMM-HMM的语音识别垃圾分类系统[J]. 现代计算机, 2020(26):27-32. (Deng Jiangyun, Li Sheng. Speech recognition garbage classification system based on GMM-HMM[J].Modern Computer, 2020(26):27-32.)
[3]Dahl G E, Yu Dong, Deng Li, et al. Context-dependent pre-trained deep neural networks for large-vocabulary speech recognition[J]. IEEE Trans on Audio, Speech, and Language Processing, 2011, 20(1): 30-42.
[4]Graves A, Mohamed A, Hinton G. Speech recognition with deep recurrent neural networks[C]//Proc of IEEE International Conference on Acoustics, Speech and Signal Processing. Piscataway,NJ:IEEE Press, 2013: 6645-6649.
[5]洪青阳,李琳. 语音识别:原理与应用[M]. 2版. 北京:电子工业出版社, 2020:138-142. (Hong Qingyang, Li Lin. Principle and application of speech recognition[M]. 2nd ed. Beijing: Publishing House of Electronics Industry, 2020:138-142.)
[6]Graves A, Fernández S, Gomez F, et al. Connectionist temporal classification: labelling unsegmented sequence data with recurrent neural networks[C]//Proc of the 23rd International Conference on Machine Learning. 2006: 369-376.
[7]杨威,胡燕. 混合CTC/attention架构端到端带口音普通话识别[J].计算机应用研究, 2021,38(3):755-759. (Yang Wei,Hu Yan.Hybrid CTC/attention architecture for end-to-end multi-accent mandarin speech recognition[J]. Application Research of Computers, 2021,38(3):755-759.)
[8]Graves A. Sequence transduction with recurrent neural networks[EB/OL]. (2012).https://arxiv.org/abs/1211.3711.
[9]Chorowski J K, Bahdanau D, Serdyuk D, et al. Attention-based mo-dels for speech recognition[C]//Advances in Neural Information Processing Systems. 2015.
[10]Bahdanau D, Chorowski J, Serdyuk D, et al. End-to-end attention-based large vocabulary speech recognition[C]//Proc of IEEE International Conference on Acoustics, Speech and Signal Processing. Piscataway,NJ:IEEE Press, 2016: 4945-4949.
[11]Chan W, Jaitly N, Le Q, et al. Listen, attend and spell: a neural network for large vocabulary conversational speech recognition[C]//Proc of IEEE International Conference on Acoustics, Speech and Signal Processing. Piscataway,NJ:IEEE Press, 2016: 4960-4964.
[12]Wang Dong, Wang Xiaodong, Lyu Shaohe. An overview of end-to-end automatic speech recognition[J]. Symmetry, 2019, 11(8): 1018.
[13]Vaswani A, Shazeer N, Parmar N, et al. Attention is all you need[C]//Advances in Neural Information Processing Systems. Cambridge,MA: MIT Press, 2017:5998-6008.
[14]Dong Linhao, Xu Shuang, Xu Bo. Speech-transformer: a no-recurrence sequence-to-sequence model for speech recognition[C]//Proc of IEEE International Conference on Acoustics, Speech and Signal Processing. Piscataway,NJ:IEEE Press, 2018: 5884-5888.
[15]谢旭康,陈戈,孙俊,等. TCN-Transformer-CTC的端到端语音识别[J].计算机应用研究, 2022,39(3):699-703. (Xie Xukang,Chen Ge,Sun Jun,et al. TCN-Transformer-CTC for end-to-end speech recognition[J].Application Research of Computers,2022,39(3):699-703.)
[16]Gulati A, Qin J, Chiu C C, et al. Conformer: convolution-augmented transformer for speech recognition[EB/OL]. (2020-05-16). https://arxiv.org/abs/2005.08100.
[17]Burchi M, Vielzeuf V. Efficient conformer: progressive downsampling and grouped attention for automatic speech recognition[C]//Proc of IEEE Automatic Speech Recognition and Understanding Workshop (ASRU). Piscataway,NJ:IEEE Press, 2021: 8-15.
[18]Gao Zhifu, Zhang Shiliang, McLoughlin I, et al. Paraformer: fast and accurate parallel transformer for non-autoregressive end-to-end speech recognition[EB/OL]. (2023-03-30).https://arxiv.org/abs/2206.08317.
[19]Peng Yifan, Dalmia S, Lane I, et al. Branchformer: parallel MLP-attention architectures to capture local and global context for speech recognition and understanding[C]//Proc of International Conference on Machine Learning. New York:ACM Press, 2022: 17627-17643.
[20]Radford A, Kim J W, Xu Tao, et al. Robust speech recognition via large-scale weak supervision[C]//Proc of International Conference on Machine Learning. New York:ACM Press, 2023: 28492-28518.
[21]Schick T, Schütze H. Exploiting cloze questions for few shot text classification and natural language inference[EB/OL]. (2021-01-25). https://arxiv.org/abs/2001.07676.
[22]Shin T, Razeghi Y, Logan IV R L, et al. Autoprompt: eliciting knowledge from language models with automatically generated prompts[EB/OL]. (2020-11-07).https://arxiv.org/abs/2010.15980.
[23]Li X L, Liang P. Prefix-tuning: optimizing continuous prompts for generation[EB/OL]. (2021-01-01). https://arxiv.org/abs/2101.00190.
[24]Ding Xiaohan, Zhang Xiangyu, Ma Ningning, et al. RepVGG: ma-king VGG-style convnets great again[C]//Proc of IEEE/CVF Confe-rence on Computer Vision and Pattern Recognition. Piscataway,NJ:IEEE Press, 2021: 13733-13742.
[25]Hu Jie, Shen Li, Sun Gang. Squeeze-and-excitation networks[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway,NJ:IEEE Press, 2018: 7132-7141.
[26]Bu Hui, Du Jiayu, Na Xingyu, et al. Aishell-1: an open-source mandarin speech corpus and a speech recognition baseline[C]//Proc of Conference of Oriental Chapter of International Coordinating Committee on Speech Databases and Speech I/O Systems and Assessment. Piscataway,NJ:IEEE Press, 2017: 1-5.
[27]Park D S, Chan W, Zhang Yu, et al. Specaugment: a simple data augmentation method for automatic speech recognition[EB/OL]. (2019-12-03). https://arxiv.org/abs/1904.08779.
[28]Lu Yiping, Li Zhuohan, He Di, et al. Understanding and improving transformer from a multi-particle dynamic system point of view[EB/OL]. (2019-06-06). https://arxiv.org/abs/1906.02762.
[29]Simonyan K, Zisserman A. Very deep convolutional networks for large-scale image recognition[EB/OL]. (2015-04-10). https://arxiv.org/abs/1409.1556.
[30]He Kaiming, Zhang Xiangyu, Ren Shaoqing, et al. Deep residual learning for image recognition[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway,NJ:IEEE Press, 2016: 770-778.
[31]Sainath T N, Pang Ruoming, Rybach D, et al. Two-pass end-to-end speech recognition[EB/OL]. (2019-08-29).https://arxiv.org/abs/1908.10992.
[32]Ioffe S, Szegedy C. Batch normalization: accelerating deep network training by reducing internal covariate shift[C]// Proc of International Conference on Machine Learning. New York:ACM Press, 2015: 448-456.
[33]Yao Zhuoyuan, Wu Di, Wang Xiong, et al. WeNet: production oriented streaming and non-streaming end-to-end speech recognition toolkit[EB/OL]. (2021-12-29).https://arxiv.org/abs/2102.01547.
[34]Rehr R, Gerkmann T. Cepstral noise subtraction for robust automatic speech recognition[C]//Proc of IEEE International Conference on Acoustics, Speech and Signal Processing. Piscataway,NJ:IEEE Press, 2015: 375-378.