基于双路径递归网络与Conv-TasNet的多头注意力机制视听语音分离

2024-04-11 07:29兰朝凤蒋朋威赵世龙郭小霞韩玉兰

电子与信息学报 2024年3期

关键词：音频注意力语音

兰朝凤蒋朋威陈欢赵世龙郭小霞韩玉兰韩闯*

①(哈尔滨理工大学测控技术与通信工程学院哈尔滨 150080)

②(哈尔滨工大卫星技术有限公司哈尔滨 150023)

③(中国舰船研究设计中心武汉 430064)

1 引言

语音作为一种信息交流和表达情感最方便和准确的方式而存在，为人类社会发展起到了重要推进作用。语音处理技术的发展，促进了语音人机交互技术的进步，进而提升了人类与智能终端进行交互的能力[1]。语音处理包括语音分离、语音增强、语音识别、自然语言理解等方面[2]，其中语言分离是语音技术的前端处理，语音分离的结果影响后续交互链路的质量，因此语音分离问题受到越来越多的学者关注。

语音分离来源于“鸡尾酒会问题”，在复杂的噪声环境下，人们可以听到感兴趣的声音[3]。传统的语音分离技术主要是基于信号处理和统计学方法，常见的单通道语音分离方法有独立成分分析(Independent Component Analysis, ICA)[4]、非负矩阵分解(Non-negative Matrix Factorization,NMF)[5]和计算听觉场景分析(Computational Auditory Scene Analysis, CASA)[6]。传统的语音分离方法存在算法优化困难、训练时间长的缺点，同时传统语音分离方法需要语音的先验信息，限制了分离性能的进一步提高。随着深度学习的快速发展，通过数据去挖掘深度信息，促进了语音分离领域的技术更新，例如深度聚类(DeeP CLustering, DPCL)[7]、置换不变训练(Permutation Invariant Training,PIT)[8]、话语级的置换不变训练方法(utterancelevel Permutation Invariant Training, uPIT)[9]，基于深度学习的纯语音分离输入信息只含有音频信息，面对更加复杂的现实场景，干扰信息增加，分离性能易受到影响。

在拥挤的餐厅和嘈杂的酒吧，人类可以只关注自己感兴趣的声音，忽略掉外部干扰，这种复杂场景下的语音感知能力不仅依赖人类听觉系统，还得益于视觉系统，共同促进人类的多感官感知系统处理复杂环境[10,11]。心理学研究表明，说话人的面部表情或者嘴唇运动会影响人脑对声音的处理，视觉信息在对话和交流中起着重要作用，因此观察说话人嘴唇运动可以帮助人们在嘈杂的环境中理解说话人的意思。受此启发，基于视听融合的多模态主动说话者检测[12]、视听语音分离[13]、视听同步[14]等研究被相继提出，至此音视频融合的语音分离方法成为新的研究热点[15]。

针对多说话者语音分离，由于说话者的数量较多，图像信息运算量大、模型复杂度高、易出现过拟合或欠拟合现象，同时在音视频语音分离过程中，视觉信息仅起辅助作用，因此多说话者语音分离研究的重点依然为音频信号。如果音频信号能得到最大程度的利用，则分离效果将会有很大幅度的提升，因此端到端的语音分离方法被相继提出。端到端的语音分离方法输入与输出都是时域语音信号，不需要进行短时傅里叶变换(Short Time Fourier Transform, STFT)将时域信号转换至频域，因此可以利用音频信号的相位信息，提高语音分离效果。端到端的语音分离方法，最早适用于纯语音分离，Luo等人[16]相继提出时域分离网络(Time-domain audio separation Network, TasNet)、卷积时域分离网络(Convolutional Time-domain audio separation Network, Conv-TasNet)[17]和双路径递归神经网络(Dual-Path Recurrent Neural Network,DPRNN)[18]，随着多模态音视频语音分离技术的发展，研究学者结合端到端方法和音视频语音分离方法，实现了端到端的时域音视频语音分离。

Wu等人[19]提出了时域音视频语音分离模型，对于音频部分采用Conv-TasNet网络结构，利用编码器获得音频特征，对于视频部分采用残差网络(Residual neural Network, ResNet)提取视觉特征，采用CNN提取视觉特征中唇部图像，由于唇部图像含有与音频无关的视觉信息，导致运算量稍大。范存航等人[20]利用混合语音与网络输出信号的差值，实现了多路语音的解算。徐亮等人[21]提出了多特征融合音视频的语音分离模型，视觉部分采用多次特征提取的方法，获得更多包含语音信息的视觉特征，音视频融合部分采用了多次融合的方法，该模型分离网络采用TCN网络，面对超长语音序列时，受卷积感受野的限制。Gao等人[22]提出了多任务建模策略，该策略利用膨胀卷积网络(Inflated 3D convnet, I3D)模型获取唇部运动光流信息，通过学习跨模态的嵌入来建立人脸和声音的匹配，通过人脸和声音的相互关联，有效解决了视听不一致问题。Xiong等人[23]将多任务建模基础应用于视听融合，利用轻量级网络ShuffleNet v2提取唇部特征，同时基于自注意力机制，提出了基于跨模态注意力的联合特征表示的视听语音分离，提高了视觉信息利用率。Zhang等人[24]提出了对抗性纠缠视觉表征的音视频语音分离网络，该网络采用对抗性纠缠的方法从视觉输入中提取与语音相关的视觉特征，并将其用于辅助语音分离，该方法虽有效地减少了图像数据的输入，但在视听融合部分，是在卷积层进行的特征拼接，未能充分利用到视觉特征。Wu等人[25]又提出了低质量时域音视频语音分离模型，针对低质量的视频，利用注意力机制选择与音频特征相关的视觉特征，并基于Conv-TasNet模型与多模态融合相结合，当使用低质量数据进行训练时，得到了较好的分离结果。

上述时域视听语音分离，虽取了不错的语音分离性能，但在视听特征融合或者分离网络上，存在视听融合简单或面对长语音序列无法进行完整的序列提取的问题。因此针对上述问题，本文采用注意力机制的跨模态融合策略，解决音视频融合单一问题，同时尝试使用DPRNN作为模型的分离网络，使得模型面对超长语音序列可以进行建模和优化，力求解决多说话者的语音分离问题。

2 时域视听跨模态融合语音分离模型

2.1 语音分离模型的构建

人机语音交互中，常常会遇到视频中出现多个说话者图像的情况，为分离每位说话者，需对多说话者进行语音分离。端到端的语音分离网络模型，可以更好地利用音频信号的相位信息，提取更为准确的音频特征。因此，本文基于纯语音分离Conv-TasNet网络架构，构建语音分离模型。Conv-Tas-Net网络主要由编码器、时间卷积分离网络和解码器组成，如图1所示。

图1 Conv-TasNet语音分离结构框架

图1中，Conv-TasNet利用编码器代替了STFT获得音频特征，由于编码器输入直接为混合语音波形，不需要进行时频转换，因此可以利用到音频信号的相位信息。时间卷积分离网络是通过编码器输出的音频特征，计算各个说话者的掩蔽，时间卷积分离网络输出的掩蔽与编码器输出的音频特征相乘，再通过解码器得到分离后的语音，解码器的作用类似于ISTFT。

本文对Conv-TasNet网络进行了改进，增加视觉编码器，结合基于注意力机制的跨模态融合方法和DPRNN分离网络，提出多头注意力机制时域视听语音分离(Multi-Head Attention Time Domain AudioVisual Speech Separation, MHATD-AVSS)模型，MHATD-AVSS模型结构如图2所示。

图2 基于多头注意力机制时域视听跨模态融合语音分离模型

图2的语音分离模型主要由4部分组成：分别是视觉编码器、音频编码器/解码器、多说话者跨模态融合模块和分离网络。视觉编码器由唇部嵌入提取器和时间卷积块组成，其中唇部嵌入提取器由3D卷积层和18层的残差网络组成，时间卷积块由1个时间卷积、ReLU激活函数和BN组成。视觉编码器通过唇部嵌入提取器和时间卷积块，生成维度为kv的唇部特征向量fv， v表示唇部图像。音频编码器由1维卷积组成，利用1维卷积代替STFT，生成维度为ka的音频特征向量fa， a表示输入音频。

为了充分考虑各个模态之间的相关性，实现不同模态之间的联合表示，本文提出基于注意力机制的跨模态融合模块，多说话者跨模态融合模块首先对视觉编码器输出的不同说话者的视觉特征进行拼接，然后将拼接后的视觉特征与音频特征进行跨模态融合，最后输出维度为kav的视听特征fav， av表示音频和视觉融合。

分离网络采用DPRNN网络，DPRNN在深层模型中对RNN网络进行优化，使其面对长序列时也可以高效处理。DPRNN分离网络首先将输入的视听特征fav进行分割，得到分割后的视听融合块，然后将视听融合块输入到BiLSTM网络进行块间处理，再对处理后的视听融合模块进行叠加还原，输出各个说话者的预测掩码Mi,i=1,2,...,n,n为说话者的个数，预测掩码Mi的维度与音频特征向量fa维度相同，最后将复合掩码Mi与音频编码器的输出fa相乘，输入到解码器，通过解码器还原出预测的说话者音频。

2.2 音视频特征提取及跨模态融合

2.2.1 视觉编码器

由于唇部图像包含语音信息和上下文信息，因此本文设计视觉编码器提取视觉特征作为说话者的唇部视觉特征，其内部结构如图3所示。

图3 视觉编码器结构

在图3中，视觉编码器由唇部嵌入提取器和时间卷积块组成，唇部嵌入提取器由3D卷积层和18层ResNet组成，采用CNN可以从输入的混合视觉信息中，更好地提取到唇部特征。同时，为避免随网络层数的增加而出现网络退化问题，增加了ResNet网络。ResNet由17层卷积层和1个全连接层组成，网络的输入为视频帧，输出为256维特征向量lv，lv表示唇部图像。

本文的时间卷积块由1个时间卷积、BN, ReLU激活函数和下采样组成，输入的256维特征向量lv，经过ReLU激活函数和BN处理，抑制梯度爆炸和梯度消失问题，下采样对特征向量lv进行降维处理，时间卷积的卷积核大小为3，通道数为512，步幅大小为1。输入的视频图像经视觉编码器处理后的唇部特征向量为

其中， Conv1D(·) 表示卷积操作， v表示唇部图像，Lv表示卷积核大小，Sv表示卷积步长，F(·)表示ReLU函数。

2.2.2 音频编码器/解码器

由于使用STFT方式进行音频特征提取，没有考虑相位信息，且时频域信息与视觉信息相关性较小，由此本文设计了音频编码器，从输入混合语音信号中提取音频特征，音频编码器采用1维卷积直接对混合语音进行音频特征提取。首先是音频编码器对输入的混合语音先进行1维卷积运算，卷积核大小为40，步长为20，然后再将混合语音an转换成 ka维表示的W ∈R1×ka。此时，用矩阵乘法表示可写为

其中，W表示卷积计算结果，U表示编码器基函数，F(·)表示ReLU函数。

在进行1维卷积后，增加了整流线性单元ReLU函数，从而保证了卷积后矩阵W ∈R1×ka非负性。输入的混合语音经音频编码器，可得

其中， Conv1D(·) 表示卷积操作，an表示输入混合音频，La表示卷积核大小，Sa表示卷积步长。

解码器使用1维转置卷积运算，从W ∈R1×ka表示形式重建出波形，用矩阵乘法表示为

2.2.3 多说话者跨模态融合模块

为充分考虑各个模态之间相关性，实现不同模态之间的联合表示，本文在Xiong等人[23]跨模态融合策略的基础上，采用多头注意力机制，提出基于注意力机制的跨模态融合模块。注意力机制可以获取局部和全局的关系，同时参数少、模型复杂度低。因此，本文在所构建的模型中利用注意力机制从视觉特征中获得与音频特征相关的部分，从而减少视觉特征中无关信息的干扰，提高视觉信息的利用率，注意力机制的表达公式为

其中，Q,K,V分别表示查询、键、值，dk表示K的维度大小。

受Transformer[26]多头注意力启发，跨模态融合模块将采用跨模态注意力融合(Cross-Modal Attention, CMA)策略，在式(5)中加入可学习参数λ，这样不仅能自适应地调整注意力权重，还能作为残差连接I(fm)，加快模型收敛速度。由式(5)可得自注意力跨模态融合(Scaled dot-product Cross-Modal Attention, SCMA)机制，表示为

其中，视觉特征fvm经过2维卷积得到Qvm和Kvm，音频特征fa经过2维卷积得到Va，d是Qvm,Kvm和Va的维度，输出为视听融合特征。

多头注意力的特点是利用多个子空间让模型去关注更多的视觉信息，为了进一步增强模型拟合性能，充分利用不同模态的相互关系，在SCMA基础上，采用多头注意力跨模态融合(multiple Head Cross-Modal Attention, HCMA)，利用多个子空间让模型去关注不同方面的信息。HCMA可根据式(7)-式(9)来计算

其中，i表示多头注意力头数，WiQ,WiK和WiV表示权重训练矩阵，Qvmi,Kvmi,Vai分别表示不同子空间下Qvm,Kvm,Va, headi表示自注意力的融合结果。

2.2.4 语音分离网络

DPRNN网络是在深层模型中对RNN进行了优化，在对音频信号分离过程中可将较长的音频分割成小块，并迭代地应用块内和块间操作，使其面对长序列时也可以高效处理。因此，本文基于DPRNN网络[18]，并结合Wu等人[19]的研究成果，提出MHATDAVSS的语音分离模型。

本文的DPRNN分为3个阶段：分段、块处理和重叠相加。输入为音视频特征fav，首先进行分段处理，将fav分割成重叠的块，分割的第1块和最后一块用零填充，保证各个分割后的块等长，然后将分割后的音视频特征块连接在一起，形成一个3D张量。

2.3 分离性能评价

在语音分离领域，常用以下指标衡量分离效果：客观语音质量评估(Perceptual Evaluation of Speech Quality, PESQ)指标，衡量语音的感知能力；短时客观可懂度(Short-Time Objective Intelligibility, STOI)指标，衡量分离语音的可懂度；源失真比(Signal-to-Distortion Ratio, SDR)指标，衡量语音的分离能力。本文所用的3种评价指标，计算过程为：

(1)PESQ。PESQ是衡量语音质量的常用指标之一，算法过程是首先对源信号和分离出来的语音信号进行电平调整，然后对调整后的标准电平进行滤波处理，并使用听觉转换，再通过认知操作计算PESQ的值。PESQ的计算表达式为

其中，dSYM为对称干扰，dASYM为非对称干扰。

(2)STOI。STOI是衡量语音可懂度指标，对于语音信号中的某段内容，人们只有懂或者不懂两种情况。从这个角度考虑，可以将“懂”量化为1，“不懂”量化为0。计算STOI的表达式为

其中，J为频带数，N为帧数，dj,n为分离后语音与原始语音之间的短时谱向量的相关系数。

(3)SDR。SDR可以说明信号之间的失真比，是语音分离常用评价指标，计算表达式为

其中，Starget为分离出来的语音信号；einterf为干扰信号；enoise为加性噪声；eartif为算法构件所产生的干扰信号。

本文利用上述3种评价方法，对提出的语音分离模型进行性能评估。

3 实验结果与分析

3.1 数据集

VoxCeleb2是由牛津大学Chung等人[27]收集YouTube录像资料制作的音视频数据集，数据集共有100万条视频片段。这些视频片段来自全球6 000多名发言者视频。VoxCeleb2数据集包含了140多个不同民族、不同语言，并且口音、说话者年龄、说话者性别比较均衡。该数据集主要由演讲和采访视频组成，其中每个片段只有一个人的图像，视频片段时间由4 ～20 s不等，这些录像都经过了人脸识别和人脸跟踪处理，保证了说话人的脸是在图片里的，并且唇部是在图片中间的。

从VoxCeleb2数据集下载40 000个视频片段。首先利用FFmpeg对40 000个视频片段进行裁剪，使得每个视频片段长度为3 s。然后将40 000个视频片段随机分成4等份，每份有10 000个视频片段，分别作为说话者1、说话者2、说话者3和说话者4的数据来源。最后对各个说话者的视频片段进行编号。

针对两个说话者情况，将说话者1和说话者2进行对应编号混合，获得10 000个混合语音，随机选取9 000个视频片段作为模型的训练集，剩余的1 000个作为测试集。

针对3个说话者情况，将说话者1、说话者2和说话者3进行对应编号混合，获得10 000个混合语音，随机选取9 000个视频片段作为模型的训练集，剩余的1 000个作为测试集。

针对4个说话者情况，将说话者1、说话者2、说话者3和说话者4进行对应编号混合，获得10 000个混合语音，随机选取9 000个视频片段作为模型的训练集，剩余的1 000个作为测试集。

3.2 实验配置

本文提出的跨模态融合MHATD-AVSS网络，是用Pytorch工具包实现的。唇部数据和音频数据的处理基于文献[19]，并对训练数据进行预处理。使用权重衰减为 10-2的AdamW作为网络优化器，在本次训练过程中，设置的batch size为10，共进行了500个周期，设置的初始学习率(learning rate)为 1×10-4。如果连续5个周期损失没有降低，则学习率会变为原来的1/10。实验设备采用处理器Intel(R)Core(TM) i7-9700 CPU @ 3.00 GHz，安装内存32，操作系统64位Windows10，GPU型号GEFORCE RTX2080 Ti，实验在GPU模式下运行。

3.3 结果分析

(1)为了分析跨模态融合的MHATD-AVSS网络性能，以两个说话者分离情况为例，利用SDR, PESQ及STOI评价语音分离效果，结果如表1所示。表中，TCN+“特征拼接”表示分离网络使用TCN，视听融合采用特征拼接方法的AV基线；DPRNN+“特征拼接”表示分离网络使用DPRNN，视听融合采用特征拼接方法的网络结构；TCN+SCMA表示分离网络使用TCN，视听融合采用自注意力跨模态融合的网络结构；TCN+HCMA表示分离网络使用TCN，视听融合采用多头注意力跨模态融合的网络结构；DPRNN+SCMA表示分离网络使用DPRNN，视听融合采用自注意力跨模态融合的网络结构。

表1 MHATD-AVSS模型的消融实验

由表1可知，DPRNN+特征拼接的SDR值为9.53 dB，相比较AV基线未采用DPRNN分离网络的SDR提升了0.38 dB，说明使用DPRNN分离网络，可以更好地进行建模，有效提高视听语音分离性能。DPRNN+SCMA, MHATD-AVSS的SDR值分别为10.31 dB, 11.02 dB，相比DPRNN+“特征拼接”，SDR分别提高了0.78 dB, 1.49 dB，说明采用模态注意力，相比特征拼接，能更好地利用不同模态之间的相互关系，得到更理想的视听特征。MHATDAVSS的SDR值为11.02 dB，相比DPRNN+SCMA, SDR提高了0.71 dB，说明采用多头注意力跨模态融合，相比自注意力跨模特融合，可以利用多个学习的权重矩阵，可以获得更多与音频特征关联性强的视觉信息，获得更好的分离性能。

(2)由于测试集、服务器配置等不同，评价结果也不同。为了提高对比的准确性，针对不同说话者情况，利用本实验室服务器的配置环境，在本文测试集下对时域纯语音分离网络Conv-TasNet[17]、时域视听分离网络AV模型[19]和文献[24]进行了复现，并与MHATD-AVSS模型进行对比，结果如表2所示。

表2 同一数据集、服务器下不同模型多说话者分离结果

由表2可知，在两个说话者语音混合情况下，采用多头注意力跨模态融合MHATD-AVSS，相比较时域纯语音分离网络Conv-TasNet、文献[19]时域视听分离模型和文献[24]对抗性视听语音分离网络，SDR分别提高了2.09 dB, 1.87 dB, 1.18 dB；3个说话者语音混合情况下，SDR分别提高了2.29 dB,2.05 dB, 1.17 dB；4个说话者语音混合情况下，SDR分别提高了2.14 dB, 1.93 dB, 1.06 dB。说明时域视听跨模态融合语音分离网络与时域纯语音分离网络相比，利用视觉信息辅助音频信息，能具有更好的抗干扰能力，获得更好的分离效果；相比较文献[19]时域视听分离模型和文献[24]对抗性视听语音分离网络，采用了跨模态融合的方案，相比较音频特征与视觉特征拼接的方法，能更好地利用视觉信息与音频信息的相关性。

由表2还可知，随着说话者人数的增多，各个网络的分离效果都有所下降，相对于2个说话人混合的分离结果，3个说话人混合的分离结果略微下降，4个说话人混合的分离结果则有明显下降。由此可见，当4个说话人或者更多说话者混合是处在一个极度嘈杂环境中时，对网络模型的分离能力将提出更高要求。

4 结论

本文针对单通道多说话者语音分离，提出一种基于Conv-TasNet模型和跨模态注意力融合的时域视听语音分离模型。采用DPRNN分离网络，在深层模型中对RNN网络进行优化，使其面对长序列时也可以高效处理。采用注意力机制进行跨模态视听特征融合，可以充分利用音频流和视频流之间的相关性。实验结果表明，本文提出的基于Conv-TasNet时域视听跨模态融合语音分离网络在SDR, PESQ和STOI 3个指标上，都优于纯语音分离和采用特征拼接的视听语音分离网络。