Att-U-Net:融合注意力机制的U-Net骨导语声增强∗

2023-09-15 12:36邦锦阳张雄伟栾合禹
应用声学 2023年4期
关键词:导语解码注意力

邦锦阳 张 玥 张雄伟 孙 蒙 刘 伟 栾合禹

(1 陆军工程大学 南京 210007)

(2 中国人民解放军66389 部队 郑州 450009)

0 引言

骨导(Bone-conducted,BC)语声是由骨传导传声器采集得到的语声信号,与气导(Air-conducted,AC)语声相比,骨导语声的抗噪能力更强。骨导传声器通过拾取声带振动采集语声信号,其特点是从声源处屏蔽了噪声,抗背景噪声能力强。然而,由于人体发声原理以及固体传声的性质,骨导语声的低频成分厚重,频谱成分不丰富[1];高频成分缺失严重,语声听感沉闷、不自然,直接使用骨导语声通信质量不佳。在大型车辆、船舶、飞机、坦克强大的背景噪声环境中,骨导传声器可以有效地避免强背景噪声的干扰[2]。重构骨导语声的高频成分,提升其听感,可以极大地促进骨导语声在实际中的应用价值。目前针对骨导语声增强的研究主要分为两大类。一类是融合性的增强方法,将其与气导语声相结合,既利用气导语声高频成分丰富的优点,也借助于骨导语声优秀的抗噪性能,实现融合性的增强[3-5]。Zhou 等[6]从骨导信号中获得准确的语声激活检测(Voice activity detection,VAD),并将其纳入自适应噪声消除器和自适应块矩阵中,在多噪声类型和多噪声强度上提供了显著的效果改善。Yu 等[7]提出了一种新的多模态语声增强结构,利用骨传导和空气传导信号,提出前期融合和后期融合两种集成学习的策略,利用全卷积网络(Fully convolutional network,FCN)进行增强。另一类是仅依据骨导语声进行盲增强,试图重构高频成分[8-9],得到与气导语声尽可能相似的增强语声,提高其语声质量、可懂度和主观听感。Liu 等[10]为了提升骨导语声在自动语声识别(Automatic speech recognition,ASR)系统中的表现,提出了一种新的深度去噪自编码方法构建气导与骨导之间的映射关系,并将增强后的骨导语声输入ASR系统,实验证明该方法有效提升了语声质量和可懂度。与融合性增强方法相比,骨导语声盲增强的应用场景更贴近实际,硬件部署难度更小,因此本文针对骨导语声盲增强方法进行研究。

近年来,已经有大量基于深度学习的方法应用在语声增强上,与传统的骨导语声增强方法相比,深度学习模型对于语声特征的高维表征能力得到了极大的提升,能够较好地拟合气导语声到骨导语声的非线性复杂映射。目前主流方法是将语声信号经过快速傅里叶变换后得到的语声幅度谱作为输入数据,建立源幅度谱与目标幅度谱之间的映射关系。Shifas 等[11]在卷积神经网络(Convolutional neural network,CNN)模块中加入递归层,提出了一种鲁棒的上下文感知的语声增强特征提取策略,该方法利用CNN 实现了递归的特征提取,有效提升了语声增强方法对于噪声的鲁棒性。Ashutosh等[12]利用一种FCN 进行时域语声增强,在训练中增加了一个将时域转换为频域的操作,从而实现了时域上波形的增强,避免了相位信息不匹配的问题。Zhao 等[13]将注意力机制加入卷积模块,通过构造更多的信息特征来提高卷积层的特征表示能力,在此基础上提出一种混合损失函数,在时域和频域上对模型进行联合优化。以上工作说明CNN 和注意力机制等基于深度学习的方法在语声增强任务中具有优秀的特征提取能力和准确的高维映射表征能力,且通过互补网络结构的设计克服不同方法的局限性,兼顾特征提取与上下文信息关联,能有效提升语声增强的质量,对骨导语声增强具有借鉴意义。

编码-解码(Encoder-Decoder)结构是一种序列问题的模型框架,被广泛应用于自然语言处理、语声识别等任务。其显著特征是它是一个端到端的模型,在序列问题处理上应用广泛,且其结构非常灵活,编码层和解码层可以根据实际问题选择不同的网络,使用一些低复杂度的网络也可得到较好的效果。基于Encoder-Decoder框架,大量文献利用卷积网络、循环网络等对其进行编码得到语义编码向量后,在解码层对其进行增强,在时频域上实现语声增强[14-18]。Tan等[19-21]结合CNN与循环神经网络构建Encoder-Decoder 框架用来实现时频域的语声增强,取得了显著的效果。

最早用于医学图像分割问题的一种新型编解码网络U-Net[22]近些年来广泛应用在语声分离[23-24]、语声增强[25-26]中。U-Net的U型结构共进行了4 次下采样和4 次上采样,同时在对应编解码层之间引入了跳跃连接,而不是直接在编码得到的高维特征上进行反向传播和监督学习,这样有利于解码重构时恢复更多低维的特征,实现多尺度特征融合。因为U-Net 对于结构复杂度不是很高的图像和小样本数据也能产生较好的效果,这些特点与骨导语声语谱图恰好吻合,因此本文研究基于改进U-Net 用于骨导语声增强。由于U-Net 模型在编码阶段将所有输入数据压缩为一个固定长度的语义编码向量。这是一个有损压缩,过程中会产生信息丢失的问题,随着序列长度的增加,深层的特征会不断覆盖浅层的特征,信息丢失会更加严重,解码阶段的质量自然会受到影响。且语声信号作为一种时序信号,上下文内容间存在关联性,U-Net采用多层卷积与反卷积结构,无法关注到语声序列中时频结构的关联信息。因此需要一种能够关注全局关联信息的结构来提升U-Net 模型对于骨导语声增强的性能。据此,本文在U-Net 的跳跃连接中引入了Attention 机制。Attention 机制模仿人类的视觉注意力[27],能够快速将关注点聚焦于重要区域。引入Attention的优势在于在解码阶段中,解码器不再依据同一个语义编码向量,而是根据目标语声与源语声不同的重要性关联程度,分配注意力系数,把与当前解码序列关联性较大的时频结构信息通过跳跃连接送入解码器,从而提升骨导语声增强的效果。

1 融合注意力机制的U-Net网络增强算法

本文的工作基于U-Net 网络[22],U-Net 网络在医学图像分割中展示出了强大的性能,该方法获得了ISBI 2015 细胞追踪挑战赛和龋齿检测挑战赛的冠军。U-Net是一种典型的编解码结构,编码层和解码层相互对称,结构类似于“U”型而得名。在恢复丢失的高频成分与预测结果时,与高频成分相关程度大的输入数据,应分配更大的权重。为了使模型能定位重要信息,区分相关与不相关信息,在U-Net的跳跃连接中引入了Attention 机制,将输入数据有选择性地传入解码层,以达到更好地恢复丢失高频成分的目的。

1.1 算法的总体框架

融合注意力机制的编解码网络总体框架如图1所示。本方法是基于气导语声与骨导语声的语谱图来实现骨导语声增强。在数据预处理阶段,所有归一化后的语声信号经过分帧加窗、短时傅里叶变换(Short time Fourier transform,STFT)后取对数得到语声对数幅度谱和相位谱。近年来,研究表明相位信息对于语声增强效果具有重要的作用[28]。然而由于相位信息不易估计,语声幅度谱的增强已能够满足目前骨导语声增强的大部分需求,因此只对语声对数幅度谱进行增强。

在训练阶段,通过构建的结合注意力机制的U-Net网络建立骨导语声与气导语声的幅度谱映射关系,损失函数采用均方误差(Mean squared error,MSE),其计算公式为

其中,y为气导语声的幅度谱,y′为预测语声的幅度谱,n为语声条数。网络优化目标为最小化MSE,选择梯度下降法对网络参数进行训练优化。

在增强阶段,仅将待增强的语声对数幅度谱输入网络得到增强幅度谱后,与原待增强语声的相位谱通过傅里叶逆变换(Inverse short time Fourier transform,ISTFT)合成得到增强后语声波形。

1.2 编解码网络Att-U-Net的设计

U-Net在结构复杂度不高的图像和小样本数据集上具有优势,因为对于复杂度不高的图像,高维特征与低维特征都会对结果产生重要影响,U-Net 的跳跃连接部分恰好解决了这个问题。语声语谱图中的频谱结构具有一定的规律性,且本文使用的骨导语声数据集是小样本数据集,因此U-Net 适用于本场景下的语声增强。U-Net 的编码器由4 层卷积模块和4 个最大池化层构成,每个卷积模块中有两个卷积层和两个ReLU 激活层,实现对输入数据的隐层特征提取,最大池化层实现对数据的降维。解码器由4 层上采样层和4 层卷积模块构成,数据经过上采样和注意力模块的升维和权重计算后进入卷积模块,由卷积模块重构数据。另外,U-Net 网络中采用了跳跃连接,将对应层的编码器和解码器用跳跃连接的方式连接起来,将编码器中的低维特征与解码器的高维特征拼接起来后进行数据重构,使解码器能够结合编码前的低维特征和编码后的高维特征,实现多尺度的特征融合。

融合Attention 机制的U-Net 算法在图像分割中已有应用[29-30]。上述两项工作都是在已知信息中分割出目标信息,对于解码时的准确性要求较高。而骨导语声增强需要恢复未知的高频成分,所以编码后的语义特征以及编码时得到的浅层特征对恢复高频信息同样重要,因此在标准U-Net 的跳跃连接部分引入了Attention 机制。标准的U-Net网络在跳跃连接部分直接将编码层的隐层状态直接与对应解码层的输入拼接成为一个更高维的特征向量,也就是说,所有解码层在重构数据时都是无选择性地利用了所有的输入数据,而且也没有利用输入数据的上下文关联信息。为了在重构数据时模型可以关注到上下文信息间的关联信息,同时抑制不重要信息对重构数据的影响。在U-Net 的跳跃连接部分加入了Attention 模块,具体操作是在执行跳跃连接时不再将编码层状态直接拼接到解码层中,而是通过编码层状态与上采样后的解码层状态共同计算出注意力权重系数,编码层状态与权重系数相乘后再与解码层状态拼接后进行解码重构。Att-U-Net的网络结构如图2所示。

图2 Att-U-Net 网络结构图Fig.2 Att-U-Net network structure diagram

Att-U-Net 共有4 层编码和4 层解码,对应4 组跳跃连接和注意力模块。在上采样和下采样的过程中,由于语声信号长度不统一,输入数据的大小无法固定使其恰好适合上下采样操作,可能会导致特征维度不统一。训练中在解码层中为了确保上采样后的特征与对应编码层特征维度保持一致,需要进行填充对齐操作。同时,最后一层解码器采用了一个1∗1 卷积进行降维,最终保证重构得到与输入数据尺寸相同的输出。

1.3 Attention机制

Attention 机制类似于人类的视觉,能够将有限的注意力集中在重点信息上。从数学角度来看,Attention是一组注意力分配系数,提高重要信息的权重同时降低那些不重要信息的权重。如图3所示,Attention函数的本质是一个从查询Q(Query)到一系列键-值对(Key-Value,K-V)的映射,得到注意力系数α,通过α来控制输入信息的权重。

图3 Attention 机制Fig.3 Attention mechanism

Attention的计算过程如下:

其中,X表示输入数据。

由Q和X计算得到注意力系数α,其中αi表示第i个输入数据Xi的重要性度量,即权重系数;s表示注意力度量机制,即计算重要性程度的函数,常用的度量机制有加性模型、点积模型等。

最后,由注意力系数α和输入数据X相乘得到加权后数据编码。

图3 中介绍的是经典的序列问题中的Attention 机制,而文中所用数据是二维的语谱图特征。针对二维特征,Attention机制的计算步骤和原理不变,只需将序列中的先后位置理解为二维平面中的坐标位置,而最后得到的注意力系数α类似于一张二维的热力图,图中被激活的区域就是权重系数大,重要程度高的数据区域。

本文针对二维语谱图特征数据设计的注意力模块,如图4 所示。以一层编解码层为例,说明Attention机制与U-Net网络结合的方法。图4 上半部分为U-Net 对应的一层编解码层,下半部分为Attention模块设计。u为上一解码层输出通过上采样得到的结果,x为对应编码层的输出,此处u可以理解为上述Attention 机制中的查询Q,x为键-值对K-V,通过跳跃连接中设计的注意力模块,依据计算得到的注意力系数α将编码层特征x有选择性地输入解码层。因为卷积操作会产生不同通道数的特征,不同的编解码层得到的特征维度不统一,因此在注意力模块中,多次利用1∗1 卷积进行数据升维和降维,以保证数据u、x和α的尺寸大小一致,便于计算。1∗1的卷积核可以实现跨通道的信息交互和数据整合,而且可以改变数据的维度,同时1∗1的卷积非常节省计算量。在数学上,1∗1 卷积本质就是向量的线性组合,因此,一般在1∗1 的卷积后会加入一个非线性激活函数,增加更多的非线性因素,在特征向量大小不变的前提下学习到更多的高维特征。此处采用sigmoid 激活函数,sigmoid 激活函数将数据映射到[0,1] 之间,表示该处数据对重构输出数据的权重。

图4 U-Net 中的Attention 机制Fig.4 Attention mechanism in U-Net

以图4 为例,注意力模块的计算过程如下所述,在当前解码层Decoder_i,前一解码层的输出yi-1上采样得到ui,ui与对应编码层的隐层状态xi作为注意力模块的输入,两者分别进行1∗1 卷积操作φ(·)得到φ(ui)和φ(xi)后相加并进行ReLU 激活,最后再次通过一个1∗1 卷积φ(·)和sigmoid 激活σ(·),得到注意力当前解码层的注意力权重矩阵αi,对应编码层的隐层状态xi与注意力权重矩阵αi相乘后,通过跳跃连接与ui拼接得到多尺度特征mi,解码器对其进行解码重构。该过程公式表述如下:

其中,Upsample 为上采样操作,[α|β]为矩阵拼接操作,表示将α与β按第一维进行拼接。

通过以上的建模,引入注意力机制能使编解码器在预测不同位置输出时对输入的不同位置赋予不同的权重,提高对重要信息的捕捉能力,对于长序列输入数据效果尤为明显。

1.4 算法流程

算法流程有3个主要步骤:

(1) 在数据预处理阶段,首先将骨导语声x(n)和气导语声y(n)的波形归一化到[-1,1],而后分别进行分帧加窗、短时傅里叶变换,对语声幅度谱取对数得到对数幅度谱并计算其均值方差,进行均值方差归一化完成数据预处理。

(2) 在模型训练阶段,首先初始化模型参数θn,将骨导语声训练数据输入模型得到估计值,以网络训练目标气导语声数据为参照,计算训练误差,并优化模型参数θn,直到训练轮次结束或连续5 轮误差不再下降。

(3) 在增强阶段,待增强语声经过数据预处理后输入训练好的模型,得到估计对数幅度谱,最后与对应原始骨导语声相位谱进行快速傅里叶逆变换和重叠加操作得到增强后的语声波形。

2 仿真实验与结果

本文基于课题组自建的骨导语声数据集,选取了几种目前主流的方法进行对比实验,实验设置与实验结果在本节中详细阐述。

2.1 数据集和评价指标

本文选取了文献[31]中的骨导语声语料库作为训练数据。数据库中有利用喉震式传声器采集的骨导语声与对应的气导语声,每条语声的时长为3∼5 s 不等,语声采样率为32 kHz,16 bit 量化。选取了男1、男2,女1、女2 各200 条语声作为数据集,对每个人分别进行实验,实验数据分为训练集、验证集和测试集。随机选取单人140 条语声作为训练集,30条语声作为验证集,30条语声作为测试集。在不同模型上测试增强性能。

感知语声质量评估(Perceptual evaluation of speech quality,PESQ)[32]、短时客观可懂度(Shorttime objective intelligibility,STOI)[33]、对数谱距离(Log spectral distance,LSD)[34]是评价语声质量最常用且具有代表性的客观评价指标。PESQ能预测待测语声的平均主观意见分(Mean opinion score,MOS),PESQ将待测语声和原始语声滤波变换后,综合待测语声与原始语声的时频特性,给出一个在[-0.5,4.5]区间的PESQ 得分,语声质量与PESQ 得分成正比。STOI 是衡量语声的重要指标之一,对于语声来说,只有听懂和听不懂两种情况,可以理解为在短时内可懂度是二值的,其范围在[0,1]之间,越接近1质量越好。STOI是将待测语声和原始语声经过移除静音区、STFT变换、归一化后计算短时谱向量的相关系数得到的。LSD衡量待测语声对数谱与原始语声对数谱之间的距离,LSD 的值越小,说明待测语声越接近于原始语声,增强质量就越高。

2.2 对比方法及参数设置

为了验证Att-U-Net 方法的性能,选取两种典型的编解码网络和一种时序上的循环网络--长短时记忆网络(Long-short term memory,LSTM)作为对比模型,分别是(a) U-Net[22];(b) 卷积递归神经网络(Convolutional recurrent neural networks,CRNN)[35];(c) LSTM(两层隐藏层,每层节点数256)。这两种方法均是目前主流的编解码网络,在语声增强中都取得了不俗的成绩,3 种模型都采用均方误差作为损失函数,使用Adam 优化器选择梯度下降法对网络参数进行优化。

原始语声采样率为32 kHz,但由于骨导语声的高频成分缺失严重,在2.5 kHz 以上已经几乎没有频谱分量,图5 给出了相对应的气导语声与骨导语声语谱图。若不进行降采样,则需要通过少量的低频成分恢复大量的高频成分,不仅难度较大,且耗费的计算资源和参数将大大增加。根据人耳的听觉特性,对语声信号清晰度影响最大的频率成分集中在8 kHz 以下,因此首先将语声降采样到8 kHz,分帧后采用汉明窗加窗,而后进行256 维的短时傅里叶变换,其帧长为32 ms,帧移为2.5 ms,得到频率维度为129维的语声幅度谱并对其进行增强。

图5 气导、骨导语声语谱图Fig.5 AC and BC speech spectrogram

Att-U-Net 网络的参数如表1 所示。其中卷积层参数分别代表通道数(channels)、卷积核大小(kernel size)、步长(stride)、填充数(padding),池化层参数分别代表核大小(kernel size)、步长(stride)。在解码层中的Upconv 层中,同时进行了对齐操作和拼接操作。模型的初始学习率为0.002,当验证集误差不再减少时学习率降低为原来的一半,直到验证集误差连续5轮不下降训练停止。

表1 网络结构参数Table 1 Network structure parameters

2.3 实验结果与分析

本节对2.2 节中改进的网络结构以及3 种对比方法进行了实验,分别是U-Net(4 层编码和4 层解码)、CRNN、LSTM与所提出的Att-U-Net结构。测得4 种模型在不同实验对象下的PESQ、STOI 与LSD值如表2∼表4所示。

表2 4 种模型在不同实验对象下的PESQ 值Table 2 PESQ scores of four models for different speakers

表3 4 种模型在不同实验对象下的STOI 值Table 3 STOI scores of four models for different speakers

表4 4 种模型在不同实验对象下的LSD 值Table 4 LSD scores of four models for different speakers

从上述表中可以看出,引入Attention 机制后,Att-U-Net 的效果比U-Net 有所提升,PESQ、STOI和LSD指标分别提升了4.1%,1.8%和3.4%,语声增强质量进一步提升。其中说话人女1 的语声增强效果不佳,通过对原始数据的比对发现,该说话人采集到的原始骨导语声质量欠佳,部分语句咬字不清晰,从而影响了语声增强的质量。Att-U-Net与3 个对比模型相比,在3 个客观指标上均取得了最好的效果,证明了所提方法的有效性。

通过对比不同性别的实验对象3 种指标的得分,发现男声的平均值要高于女声,推测是因为女声的高频成分较为丰富,而男声发音较低沉,男声低频成分比重较大,利于恢复出高频成分,相比之下女声的高频成分更难恢复。

此外,实验结果表明,加入Attention 机制后,Att-U-Net 的模型参数量仅比U-Net 模型增加了1.9%,在保证模型轻量、计算复杂度低的前提下,完成了增强质量的提升。

图6给出了一段女声经过不同模型增强的增强语声语谱图。从图中可以看出,4 种方法都能有效地解决骨导语声低频成分厚重的问题,在低频部分,4 种方法都恢复出了较为清晰的频谱结构,而在高频部分,4 种方法虽然都能恢复一定的音素成分,改善了语声质量和听感,但从细节来看,缺乏清晰的频谱结构。图6(c)和图6(d)的矩形框中,LSTM和CRNN 增强的语声在高频部分具有一定的频谱结构,其他部分的高频成分恢复不足,尤其是对于高频部分的摩擦声和清声,几乎很难恢复出音素。从图6(e)和图6(f)的矩形框中可以看出,经过Att-U-Net方法增强的语声能更好地恢复高频的频谱结构,在清声和摩擦声部分也恢复出了一定的音素成分,整体上更接近目标语声。

图6 经过不同方法增强的语谱图Fig.6 Spectrogram enhanced by different methods

2.4 可视化分析

为了探索引入Attention 机制对U-Net 在编解码过程中如何发挥作用,显示编码层中对解码层的预测影响权重大的数据区域,本节对Att-U-Net中3层跳跃连接的注意力模块进行了可视化分析,结果如图7 所示。从左至右分别为第一层至第三层跳跃连接,自上而下分别表示编码层输出、经注意力模块计算出的注意力系数、跳跃连接部分的输出,即前两者的乘积。其中,注意力系数颜色越亮的部分,注意力机制分配的权重系数越大。由于随着网络层数的加深,卷积通道数逐渐递增,为便于可视化分析,将所有通道的特征求平均值得到一张二维特征图进行分析。

图7 Attention 模块可视化Fig.7 Attention module visualization

从图7 可以看出,引入Attention 后,在语声中间部分的无声段和语谱图顶端,3 个注意力模块滤除了原特征中的一些噪点,有效保留了有声段的时频结构特征,语谱图中频谱结构更为清晰。沿时间轴方向,3 个注意力模块的权重矩阵都有效地区分了有声段和无声段,抑制了无声段中的不相关信息,将大量与输出结果相关的编码特征通过跳跃连接传递到解码层中,提高了用于训练网络的数据质量。沿频率轴方向,从3 张注意力系数图中可以看出,低频和高频部分始终保持高亮,说明Attention 机制对于低频和高频信息始终保持较高的关注度,且随着网络层数深入,高频特征的权重逐渐增加,高频信息逐步得到恢复。同时,图中可以发现注意力机制消除了部分中频共振,这说明中频部分的信息对于骨导语声高频信息恢复的影响权重不大,由于骨导语声的低频成分相比气导语声更厚重,且多了一部分中频谐波成分,通过注意力机制,滤除了这部分信息,将原特征有选择性地传递给解码层,恢复出更逼真,听感质量更好的语声信号。

3 结论

本文提出了一种结合注意力机制和编解码网络的骨导语声增强模型,通过在跳跃连接中引入注意力机制,使模型可以重点关注输入信息的重要部分,同时抑制不相关的信息,通过引入注意力机制,解决了编解码网络对于长序列数据信息丢失的问题。实验结果和可视化结果分析证明该方法在骨导语声数据集上是有效的。该方法的潜力有待于进一步发掘,例如减少模型的冗余和如何更充分地利用语声信号的上下文关联信息来改进Att-U-Net。同时,由于骨传声特性决定骨导语声增强不同于语声去噪,该任务与说话人特征紧密相关,且骨导语声数据集的质量和数量仍显不足,对于说话人自适应的骨导语声增强是一个非常具有挑战性的问题。

猜你喜欢
导语解码注意力
《解码万吨站》
让注意力“飞”回来
导语
阳光
解码eUCP2.0
本期专栏导语
NAD C368解码/放大器一体机
Quad(国都)Vena解码/放大器一体机
导语
“扬眼”APP:让注意力“变现”