柏梁泽,高 勇
(四川大学 电子信息学院,四川 成都 610065)
语音增强可以从带噪语音中分离出语音,它有着广泛的应用,如稳健的自动语音识别(Automatic Speech Recognition,ASR)[1]、助听器的设计和移动通信等。其中,单通道语音增强与多通道语音增强相比更有应用市场,因为不需要较多的空间配置资源[2]。语音增强在传统的数字信号处理领域已经得到广泛的研究,其中谱减法[3]是一种经典的降噪方法,主要是通过从带噪语音谱中减去估计的噪声,但是容易引来音乐噪声。随后,维纳滤波和均方误差估计方法[4]在语音增强领域也得到了广泛应用,这类方法对于噪声和语音之间的统计特性假设至关重要,因此难以满足非平稳噪声的真实环境。
与以往的数字信号处理方法相比,基于模型的方法使用预先混合信号建立关于语音和噪声的模型已经取得显著的成果。例如文献[5]中的技术通过学习先验知识在不同源之间建立了概率干扰模型,在低信噪比条件下可以显著提高性能。类似的非负矩阵分解语音增强利用不同的信号基,从混合信号中分离出噪声和语音信号,从而达到语音增强。但是,这类方法不能很好地推广到没有训练过的噪声条件下,此外需要复杂的计算,使得很难在实际环境中得到应用。
近年来,有监督的语音增强受到较多关注,最简单的形式是通过向训练的分类器——通常是深度神经网络(Deep Neural Network,DNN)输入混合语音的特征来估计混合语音的理想时频掩蔽从而达到语音增强的效果。理想时频掩蔽表示每个时频单元是否、或在多大程度上是目标语音主导。其中常用掩蔽码有基于二元决策的二元掩蔽(IBM)[6]和基于比率决策的比率掩蔽(IRM)[7]。与传统的语音增强不同,有监督分离并没有对潜在的语音或噪声信号做出明确的统计假设,而是从训练集中学习数据分布,并且基于DNN的IBM和IRM估计器已经被证明能够提高增强后语音的可懂度[8]。
有监督的语音增强的2个关键组成部分是从带噪语音中提取的声学特征和用于监督学习的分类器。本文在多分辨率耳蜗谱[9]的基础上,引入声学特征卷积平滑耳蜗谱(Convolution Smoothing Cochleagram,CSCG),该特征将3个不同平滑度的耳蜗谱结合起来,充分提取出语音的局部和前后信息。选取一系列已经在语音增强方面被证明有效果的特征进行对比,例如,对数能量谱(LPS)、梅尔倒谱系数(MFCC)、幂归一化倒谱系数(PNCC)和听觉滤波器频率倒谱系数(GFCC)。实验表明,CSCG特征参数取得了较好的效果。为了提高分类器的学习能力,采用深度双向长短时记忆网络(Deep Bidirectional Long Term Short Memory Networks,DBLSTM)进行分类。DNN只能从输入到输出一个方向进行学习,然而DBLSTM可充分利用上下文信息进行学习并且对分类任务有较大的适应能力[10],能有效提高分类器的准确性。最后,为了进一步提高语音增强效果,研究了利用差分平均滤波作为一种后处理技术来增强特征的鲁棒性。
语音增强可以解释为将带噪信号映射到可懂度和清晰度有提高的目标信号的过程,其中,基于有监督的语音增强,通过从带噪语音中提取声学特征,并将其与期望目标值一起输入到分类器中进行训练,从数据中显式学习映射。最后,通过将估计的输出和混合语音送入合成器中,产生增强后的语音。系统基本结构分为特征提取、时频估计和合成语音三部分。
(1) 对数能量谱
计算对数能量谱,首先将语音信号进行分帧,其中采用帧长为32 ms、帧移为16 ms、相邻帧的重叠率50%以有效保证恢复的信号比较平滑。其次,对数能量谱是对离散傅里叶变换(DFT)后的各个系数取模的平方后取对数,取对数可以模拟人耳对声强的非线性感知。因为对数能量谱上的信息比较完整,因此将以对数能量谱为基础,结合其他特征进行语音增强。
(2)梅尔倒谱系数
计算梅尔倒谱系数,首先将输入语音信号进行分帧处理,并使用DFT导出功率谱,然后将功率谱转换成Mel尺度。最后,利用对数压缩和离散余弦变换(DCT)计算MFCC。
(3)听觉滤波器频率倒谱系数
计算听觉滤波器频率倒谱系数,首先将输入信号通过64通道的Gammatone滤波器输出子带信号,进行分帧处理,然后使用3次根式压缩每个子带信号的能量,最后采用DCT形成GFCC。
(4)幂归一化倒谱系数
幂归一化倒谱系数是一种语音识别中新的特征,它利用平滑帧间信号能量技术处理来减少噪声破坏,并且采用幂率压缩取代了传统的对数压缩。首先用Gammatone频率积分法对输入信号的功率谱进行积分,然后再进行非对称滤波和时间掩蔽除去背景噪声,最后利用幂律非线性和DCT得到PNCC。
(5)听觉滤波器系数
计算听觉滤波器系数,只需要在计算GFCC的过程中省略掉DCT就可以得到GF。
(1)理想IBM
理想IBM是计算听觉场景分析(CASA)常用的特征。IBM是一个由预混信号构成的时频掩蔽。对于每个时频单元,如果局部SNR大于局部准则(表示为LC),则将对应的掩蔽值设置为1,否则设置为0。IBM被定义为:
(1)
式中,SNR(t,f)为时间t和频率f的局部信噪比。
(2)理想IRM
理想IRM定义如下:
(2)
式中,S2(t,f)和N2(t,f)以时频单元的形式,分别表示语音和噪声的能量;β为调整掩蔽码的参数。可以看出,IRM很接近于假设语音和噪声不相关的维纳滤波器。实验研究表明,当β值为0.5时,可以得到好的语音增强效果,此时的IRM相似于能量谱最优估计的均方根维纳滤波器。
选取理想IRM作为训练目标,文献[11]表明,IRM在提高语音的质量和清晰度上比理想IBM获得效果更好。
通过将估计出的理想IRM与带噪语音的幅度相乘,得到增强后的语音幅度谱,并利用带噪语音的相位,再通过重叠相加法,生成增强后的语音。
在耳蜗谱的基础上,引入特征CSCG,包含多种能量分布的信号的时频单元。通过使用2维卷积产生3个不同平滑度的耳蜗谱,不同平滑度的耳蜗谱在不同尺度下捕捉语音的信息。
CSCG主要是由语音增强领域中广泛使用的耳蜗谱来构成,为了计算耳蜗谱,首先将输入语音信号送入Gammatone滤波器组,其中特定Gammatone滤波器组的脉冲响应为:
gfc(t)=tN-1exp[-2πtb(fc)]cos(2πfct)u(t),
(3)
式中,fc为中心频率;N为滤波器的阶数;u(t)为阶跃函数。函数b(fc)通过fc来决定带宽。为了模拟人耳的听觉系统,中心频率fc在等效矩形带宽(ERB)度量上均匀分布。b(fc)和fc的函数关系如下:
b(fc)=1.019×ERB(fc)=
1.019×24.7×(4.37×fc/1 000+1),
(4)
可以看出,b(fc)随着fc的增加而增加,因此低频具有高的分辨率,高频具有较低的分辨率。得到Gammatone滤波器组的响应信号后,在每一通道进行分帧,其中帧长为32 ms、帧移为16 ms。然后,在每一通道计算每一帧的能量得到耳蜗谱。耳蜗谱中的时频单元仅包含局部信息,估计的目标掩蔽效果不佳。为了弥补这一缺点,CSCG采用二维卷积对耳蜗谱进行处理,可更好地提供每个时频单元相邻的能量分布信息。计算CSCG基本步骤如下:
① 在给定的输入语音信号基础上,计算第一个64通道的耳蜗谱CG1,然后对每一个时频单元进行非线性的对数操作,提高低频的能量信息。
② 在给定耳蜗CG1的基础上,以给定时频单元为中心,用一个长度为11通道、宽度为11帧的窗,对周围的时频单元进行二维卷积操作,取平均赋值给该时频单元。如果窗口超出耳蜗谱大小,采用零值进行填充,通过以上操作获得耳蜗谱CG2。
③ 产生耳蜗谱CG3和产生耳蜗谱CG2一样,需将窗口大小调整为23通道、23帧来改变平滑度。
④ 最后,将CG1、CG2、CG3拼接起来形成64×4维的CSCG。
在CSCG特征中,可以看出CG1主要包含了自身时频单元所具有的局部语音信息,而CG2和CG3通过不同平滑度的卷积操作,可以给时频单元提供不同程度的相邻时频单元的信息。CSCG的构成方法,主要是通过固定耳蜗谱CG1,逐步拼接不同平滑度耳蜗谱CG2和CG3,然后观察实验结果,到实验效果不再上升为止。在5 dB多种噪声下增强后语音的客观语音质量评估(PESQ)如图1所示。当在CG1、CG2和CG3的情况下继续拼接平滑度更高的耳蜗谱CG4时,PESQ有所下降,因此拼接不宜过多。
图1 不同平滑度耳蜗谱增强语音效果Fig.1 Speech enhancement effect of cochleagramwith different smoothness
CSCG特征的可视化图如图2所示,右边是纯净信号的耳蜗谱特征,左边是信噪比5 dB、噪声为Babble的带噪语音耳蜗谱特征。可以看出,CG1是正常的耳蜗谱,CG2、CG3是不同平滑度的耳蜗谱。CSCG如果判断该时频单元是语音主导,那么它相邻的时频单元也有很大可能是语音主导,即语音主导的时频单元很少单独出现,从而有利于分类器对目标掩蔽的估计。
图2 CSCG特征图Fig.2 CSCG feature map
引入DBLSTM网络做分类器进行语音增强,DNN只能学习当前帧的语音信息,不能利用语音上下文信息所具有的关联性,因此采用DBLSTM网络能取得更好的效果。
循环神经网络(Recurrent Neural Networks,RNN)在处理序列数据时,能得到很好的效果。在给定输入序列x=(x1,x2,...,xT)的条件下,RNN在时间t为1~T计算隐藏序列h=(h1,h2,...,hT)和输出序列y=(y1,y2,...,y2)。显式连接相邻序列中的多个输入向量,以提高网络学习上下文的能力。
传统的RNN的缺点就是只能利用以前的语音信息,语音信息的前后具有较强的相关性,所以有必要采用双向循环神经网络(BRNN)来进行增强。BRNN通过使用2个单独的隐藏层在2个方向上处理数据,然后将其转发到同一输出层来实现,结构如图3所示。
图3 双向循环神经网络Fig.3 Bidirectional recurrent neural network
但是,在进行后向传播中很容易出现“梯度消失和爆炸”的问题,很难让RNN得到良好的训练结果,LSTM很好地缓解了以上问题,通过引入存储单元和一系列门来动态地控制信息流。单个LSTM存储单元如图4所示。
图4 长短时记忆细胞Fig.4 Long and short term memory cells
LSTM的实现公式:
it=σ(Wxixt+Whiht-1+bi),
(5)
ft=σ(Wxfxt+Whfht-1+bf),
(6)
ct=ft⊗ct-1+it⊗tanh(Wxcxt+Whcht-1+bc),
(7)
ot=σ(Wxoxt+Whoht-1+Wcoct+bo),
(8)
ht=ot⊗tanh(ct),
(9)
式中,t为帧索引;σ为Sigmod激活函数;i,f,o,c分别为输入门、遗忘门、输出门和细胞激活向量,它们的大小都和隐藏向量ht相同;⊗表示元素相乘;W,b分别表示从序列向量到各个门的权重矩阵(例如Wxi表示xt到输入门i)和偏移向量。
(10)
(11)
(12)
使用深层结构,能够获得更深入的信息,可以通过将多个RNN隐藏层堆叠起来形成深度循环网络D-RNNs,其结构如图5所示。
图5 深度循环神经网络Fig.5 Deep recurrent neural network
本文将在后面讨论使用多少隐藏层取得较好效果。假设D-RNNs中的所有N层都使用相同的隐藏层函数,则隐藏序列hn从n=1到N和t=1到T迭代计算如下:
(13)
式中,H()为隐藏层激活函数;其中W,b分别表示权重矩阵(例如Whn-1hn代表第n-1~n层隐藏层)和偏移向量,定义h0=x,网络的输出yt如下:
yt=WhNyhNt+by。
(14)
图6 深度双向长短时记忆网络Fig.6 Deep bidirectional long short term memory network
通过DBLSTM网络,既可以避免“梯度爆炸和消失”带来的问题,又可以从输入和输出2个方向同时取得语音的背景信息,可以提高语音增强中语音的质量和可懂度。
实验主要分为训练和测试2个阶段,其中训练阶段采用的纯净语音来自TMIT数据库[12],使用的噪声语音是来自OSU Perception and Neurodynamic Laboratory[13]采集的100种环境噪声,多种噪声的选取可以有效地提高模型在面对没有训练过的噪声时的泛化能力。将4 620条TIMIT库语音和各种噪声进行混合,产生多种信噪比的带噪语音,构成了10 h训练集。然后提取带噪语音的声学特征:LPS、MFCC、GFCC、PNCC、CSCG。最后以LPS为基础,因为它保留了语音比较完整的信息,分别单独结合其他几种特征送入分类器进行训练,目标时频单元选取的是效果良好的IRM。
测试阶段,纯净语音是来自TMIT语音库的192条语音,测试的噪声来自Noisex92噪声库包含Factory、Buccaneer、Babble、Desroty、Hfchannel、Destroyerops等非平稳噪声和Pink、White等平稳噪声。提取出带噪语音的相应声学特征后送入网络得到估计出的时频单元,然后利用带噪语音的幅度和相位,结合估计的时频单元产生增强后的语音。
为了评价各种方法下的语音增强性能,将采用多种评价标准对增强后的语音进行评估,其中包括PESQ[14]来评估增强语音的质量、STOI[15]来评价语音的可懂度、分段信噪比segSNR来评价增强语音的信噪比。
在语音信号处理中,差分和二阶差分被广泛用于捕捉短暂的动态信息,比如在语音识别领域,级联MFCC参数的差分和二阶差分可以有效提高识别率。差分滤波技术计算公式为:
C(m+M)]/(2M+1),
(15)
图7 5 dB情况下差分平均滤波PESQFig.7 Differential average filtering PESQ at 5 dB
图8 5 dB情况下差分平均滤波STOI效果Fig.8 Differential average filtering STOI at 5 dB
为了对比各特征参数对语音增强效果的影响,先采用4.2节所使用的DAF,然后送入统一的分类器DNN,得到增强语音,然后分别测试在不同噪声下,各种信噪比条件下的平均PESQ和平均segSNR,如表1和表2所示。可以看出,GF、GFCC、CSCG采用Gammatone滤波器的效果明显比PNCC和MFCC好。其次,由于MFCC、GFCC、PNCC采用了离散余弦变换压缩了语音信息,导致增强效果不好。广泛使用在语音识别中的MFCC参数对比PNCC参数也有效果上的提升。本文提出的CSCG通过不同的平滑程度的耳蜗谱,可获得多个层次语音信息,从而不管是PESQ,还是segSNR都比其他特征效果好。
表1 各声学特征在不同噪声下的PESQTab.1 PESQ of speech features under different noises
首先探索网络深度对增强性能的影响,分别选取各种数量的隐藏层数,如图9所示,比较各种噪声类型上的平均PESQ,BLSTML中的L代表了双向长短时网络(BLSTM)的层数。网络结构参数是L层BLSTM作为隐藏层,每层包含1 024个神经元,激活函数选取tanh。最后一层采用全连接层,作为输出层,包含257个神经元,激活函数选取Sigmod。其中可以看出2层BLSTM取得效果最好,随着层数的增加,语音的质量效果反而下降,说明层数的增加导致语音信息的丢失。
图9 5 dB噪声下网络层数的PESQFig.9 PESQ of network layers under 5 dB noise
接下来,选取2层BLSTM作为本文的基础网络,保持输入的声学特征一样,和DNN进行实验对比,如图10所示,其中DNN网络结构参数是4层全连接层,前3层包含1 024个神经元,激活函数是Relu,最后一层包含257个神经元,激活函数是Sigmod。可以看出,本文使用的DBLSTM网络结构,充分使用语音的上下文信息,不管是何种信噪比情况下,都获得了比DNN获得更好的语音效果。
图10 DNN和BLSTM分类器PESQFig.10 PESQ of DNN and BLSTM classifiers
采用PESQ、segSNR、STOI三种客观评价指标对各类方法效果进行评估。其中对比方法有时频掩蔽估计DNN_MASK[16]、回归模型语音增强DNN_BASE[17]、深度神经网络的非负矩阵分解DNN_NMF[18]、传统语音增强算法Logmmse[4]和本文提出的DBLSTM_CSCG,用于实验测试的噪声都是未经训练过的,可以充分说明模型的泛化能力。各信噪比下、各种噪声条件下包括平稳和非平稳噪声,不同方法语音增强的平均效果如图11~图13所示。
图11 各种方法的PESQ对比Fig.11 PESQ comparison of various methods
图12 不同方法下的segSNRFig.12 SegSNR comparison of various methods
图13 不同方法下的STOIFig.13 STOI comparison of various methods
可以看出,本文提出的方法DBLSTM_CSCG不管是在分段信噪比segSNR、语音的质量清晰度PESQ和语音的可懂性STOI都比其他几种方法取得更好的效果,并且随着信噪比的降低效果明显更好,因此更适用于噪声恶劣的环境。尽管传统方法Logmmse在PESQ和segSNR都比其他几种方法要好,但是短时可懂性STOI效果明显不好,破坏了语音的完整信息。可以看出,DNN_NMF、DNN_BASE、DNN_ MASK这3种方法对各评价指标差别不大,提升性能较小,并且从图12可以看出,DNN_BASE在高信噪比下,分段信噪比反而降低,充分说明了DBLSTM给语音增强效果带来的益处。
本文主要从有监督的语音增强系统的声学特征和网络结构进行改进,引入了CSCG,有效利用语音的多个维度的信息,并且在此基础上,将原有的DNN作分类器,改成DBLSTM网络,充分利用语音的前后信息的相关性,提高了网络的学习能力。通过多组对比实验证明,本文提出的方法不管在语音的可懂性、清晰度质量,还是分段信噪比上都有较大的提升,并且在低信噪比下可以带来更多益处。