李艳生 刘园 张毅
摘 要:针对非负矩阵分解(NMF)语音增强算法在低信噪比(SNR)非稳定环境下存在噪聲残留的问题,提出一种基于感知掩蔽的重构NMF(PM-RNMF)单通道语音增强算法。首先,该算法将心理声学掩蔽特性应用于NMF语音增强算法中;其次,对不同频率位采用不同的掩蔽阈值,建立自适应感知掩蔽增益函数,通过阈值约束残余噪声能量和语音失真能量;最后,结合语音存在概率(SPP)进行感知增益修正,重构NMF算法,以此建立新的目标函数。仿真结果表明,在不同SNR的3种非稳定噪声环境下,与NMF、重构NMF(RNMF)、感知掩蔽深度神经网络(PM-DNN)算法相比,PM-RNMF算法的感知语音质量评估(PESQ)平均值分别提高了0.767、0.474、0.162,信源失真比(SDR)平均值分别提高了2.785、1.197、0.948。实验结果表明,无论是在低频还是高频PM-RNMF有更好的降噪效果。
关键词:非负矩阵分解;感知掩蔽;语音增强;语音存在概率;单通道
中图分类号: TP912.35
文献标志码:A
文章编号:1001-9081(2019)03-0894-05
Abstract: Aiming at the problem of noise residual in Non-negative Matrix Factorization (NMF) speech enhancement algorithm in low Signal-to-Noise Ratio (SNR) unsteady environment, a Perceptual Masking-based reconstructed NMF (PM-RNMF) single-channel speech enhancement algorithm was proposed. Firstly, psychoacoustic masking features were applied to NMF speech enhancement algorithms. Secondly, different masking thresholds were used for different frequencies to establish an adaptive perceptual masking gain function, and the residual noise energy and speech distortion energy were constrained by the thresholds. Finally, Speech Presence Probability (SPP) was combined to realize perceptual gain correction, the NMF algorithm was reconstructed and a new objective function was established. The simulation results show that under three kinds of unsteady noise environments with different SNR, the average Perceptual Evaluation of Speech Quality (PESQ) of PM-RNMF algorithm is improved by 0.767, 0.474 and 0.162 respectively and the average Signal-to-Distortion Ratio (SDR) is increased by 2.785, 1.197 and 0.948 respectively compared with NMF, RNMF (Reconstructive NMF) and PM-DNN (Perceptual Masking-Deep Neural Network) algorithms. Experimental results show that PM-RNMF has better noise reduction effect in both low frequency and high frequency.
Key words: Non-negative Matrix Factorization(NMF); perceived masking; speech enhancement; Speech Presence Probability (SPP); single-channel
0 引言
语音增强是从带噪语音中提取纯净的语音信号,一方面可提高语音信号的可懂度和话音质量,另一方面可增强语音识别和声纹识别的鲁棒性。传统语音增强方法如维纳滤波法[1]、最小均方误差(Minimum Mean Squared Error, MMSE)[2]等均属于无监督的语音增强方法,这类方法不需要预先的任何训练阶段。然而这类方法通常假定噪声是平稳的,在真实环境下难以有效抑制非平稳噪声的影响。随着互联网数字处理能力的增强,有监督的语音增强算法发展迅速,如基于深度神经网络的算法[3-4]、基于字典学习和稀疏表示的算法[5-6]。相比无监督方法,有监督学习的方法需要大量先验信息,但是有很好的语音增强效果,尤其是在非平稳噪声环境下。
近年来,非负矩阵分解(Non-negative Matrix Factorization, NMF)[6]的算法由于成功地找到了能够最好地描述未处理数据的潜在特征的高质量字典原子而备受关注,其基本思想是通过一组基函数和它们的激活系数来表示源的特征,每个源一组,然后使用基本函数的级联集合分析信号的混合状态,并且使用相应的激活系数和基本集合重建每个源。Wilson等[7]
将NMF与基于统计模型结合,提出一种NMF语音增强算法。该算法弥补克服了基于统计模型不能有效处理非平稳噪声的不足,取得了不错的增强效果。Hoyer[8]根据NMF能产生对数据稀疏表示的特性,在NMF上增加L1正则项作为稀疏性限制来平衡重构误差和稀疏程度。在此基础上,路成等[9]提出L1/2稀疏约束NMF单通道语音增强算法。由于语音信号随时间变化的双状态特性即存在与不存在特性,Kwon等[10]提出将语音存在概率(Speech Presence Probability, SPP)与NMF算法结合的无监督在线语音增强算法。该算法能够很好地抑制噪声同时可以保留弱语音成分,但由于语音信号的基矢量是从多个源(如Babble噪声)的混合中进行调整的,因此仍然可以表现出不同源的特征,导致增强语音中可能包含残余噪声。Chung等 [11]针对该问题提出NMF模型的基础补偿算法,用于监督单通道语音增强。
但是,语音增强效果是由人耳主观感受评价的,以上增强算法很少考虑人类的心理声学掩蔽特性对语音增强效果的影响,会影响增强语音的试听效果。韩伟等[4]将心理声学的掩蔽特性应用于基于深度神经网络的语音增强算法中,利用深度神经网络(Deep Neural Network, DNN)对带噪语音特征进行训练得到具有心理声学掩蔽特性的增益函数,然后将该感知增益函数与带噪语音幅度谱进行计算得到纯净语音的幅度谱估計,实验证明该算法能提高语音增强的效果。
基于上述分析,本文利用NMF在语音增强方面的优势,提出一种基于感知掩蔽的重构NMF(Perceptual Masking-Reconstructive NMF, PM-RNMF)单通道语音增强算法。首先通过NMF获得语音信号的先验信息,然后将心理声学掩蔽特性融合于NMF增益函数估计中,通过阈值来约束增强语音的失真和残余噪声的能量,建立感知掩蔽的增益函数,最后结合SPP进行增益修正。
1 NMF语音增强算法
NMF语音增强算法是通过对语音和(或)噪声信号进行建模,然后用语音或噪声样本对所建模型进行训练估计出模型具体参数,最后利用所得参数从带噪语音中估计出纯净语音。NMF语音增强算法分为两个阶段:训练阶段和增强阶段,如图1所示。
假设带噪语音信号帧为y=s+n,s、n分别为纯净语音信号帧和噪声信号帧,且两者互不相关。在训练阶段通过短时傅里叶变换(Short-Time Fourier Transform, STFT)得到纯净语音和噪声的幅度谱S(ω)、N(ω)(ω为采样频率),然后用NMF算法X≈WH分别将S(ω)和N(ω))分解为特征字典矩阵Ws、Wn和对应的激活矩阵Hs、Hn。最后将特征字典矩阵Ws、Wn作为增强阶段的先验信息保存下来。
在增强阶段通过STFT得到带噪语音的幅度谱Y(ω),同样用NMF算法对带噪语音幅度谱进行分解,得到带噪语音激活矩阵Hs′、Hn′后,与训练阶段保存的特征字典矩阵Ws、Wn重构出纯净语音的幅度谱S^(ω),如式(1)所示。最后通过逆短时傅里叶变换(Inverse Short-Time Fourier Transform, ISTFT)得到增强后的语音信号。
其中,G(ω)为增益函数; μ为语音信号的谱衰减约束因子,通常选择μ=1;表示对应元素相乘。
2 NMF算法改进
使用NMF进行语音增强通常由于谱衰减因子的取值不同,获得不同的增强效果[12],如当式(1)中μ=1时为对所有频率位谱衰减因子均相同的维纳滤波增益函数,获得的增强语音对不同的频率位的响应是不变的。该增益函数的缺点是对不同频率位的不同语音分布特性,只有一个阈值约束,即对所有的频率响应是固定不变的,没有考虑人耳对语音的频率感知特性。人类听觉感知特性描述了人类听觉系统对语音及噪声的感知和掩蔽能力,感知掩蔽是指当一些噪声处于人类听觉掩蔽阈值之下时,听觉系统就无法感知这些噪声存在的现象,通过掩蔽阈值的约束能够提高语音的清晰度,减小畸变度,因此,本文提出通过将人耳对不同频率位的掩蔽阈值作为增强语音和纯净语音误差的约束,以此得到不同频率位不同的增益函数,解决NMF算法对频率响应单一的问题。
2.1 感知增益函数计算
本文通过人耳听觉系统的感知掩蔽特性对不同频率位建立不同增益函数G(ω),具体步骤如下:
2.2 结合SPP的感知增益函数计算
实际情况下语音会包含大量的停顿,即使在语音活动期间也是如此。例如塞音闭合段,即闭塞辅音脉冲发出之前的短暂静音时段,通常会在语句的中间阶段。另外,即使在浊音段,在某些特定的频率上可能也没有语音。SPP为频率位上语音存在的状态模型,能够对带噪语音谱的语音和噪声进行估计,避免低SNR时端点检测不准确问题。对于语音帧存在的先验概率,本文选用低SNR仍具有很好强鲁棒性的基于子带能熵比的语音端点检测算法[13]获得。该算法将子带能量和子带谱熵的比值作为端点检测的重要参数,以此设定阈值进行语音端点的检测。
在得到语音帧存在的先验概率后采用文献[14]中的复高斯分布模型来估计语音的条件存在状态。假设语音和噪声
2.3 PM-RNMF算法框架
本文提出的PM-RNMF语音增强框架,如图2所示。
PM-RNMF语音增强算法将感知增益函数与SPP结合建立增益函数模型,然后与有监督的NMF语音增强算法进行集成,具体步骤如下:
步骤1 通过NMF对纯净语音和噪声进行训练,得到字典矩阵Ws、Wn作为增强阶段先验信息;
步骤2 选择μ=1时NMF增强算法,得到增强的语音和噪声的初始幅度谱、,以及先验SNR ξ(ω)和后验SNR γ(ω);
步骤3 利用增强后的语音幅度谱计算掩蔽阈值T(ω),用得到的T(ω)和噪声幅度谱计算感知增益函数G(ω,ξ);
步骤4 利用ξ(ω)计算条件先验SNR ξ′(ω),由此计算G(ω,ξ′),再结合γ(ω)计算语音存在概率p(H1|Y(ω));
步骤5 结合SPP集成新的感知增益函数,通过式(15)得到纯净语音幅度谱S^(ω));
步骤6 结合带噪语音的相位信息进行语音重构得到增强语音的频谱,最后通过ISTFT得到时域的增强语音信号。
3 仿真与结果
本章对提出的PM-RNMF语音增强算法进行Matlab实验仿真,并对其性能进行评估。
3.1 实验数据与评价指标
实验中纯净语音是从TIMIT(The DARPA TIMIT Acoustic-Phonetic Continuous Speech Corpus)数据库中随机选择的男声50句和女声50句,每句约长3s;噪声选自Noisex-92标准噪声库中的Babble、Factory1、F-16这3种非稳定噪声作为训练噪声;带噪语音集为SNR为-5dB、0dB、5dB、10dB的纯净语音和噪声的随机混合。在实验中使用的所有音频数据以WAV格式文件被采样,采样率为16kHz,用STFT计算语音和噪声幅度谱时对信号进行分帧处理,帧长为512,帧移为128。训练算法经500次迭代得到字典矩阵和激活矩阵,语音字典基和噪声字典基分别设为60和30。式(6)中的语音平滑系数τs=0.4,噪声平滑系数τn=0.9[15]。
为了验证PM-RNMF算法的性能,本文选择NMF[5]、重构NMF(Reconstructive NMF, RNMF)[10]、感知掩蔽深度神经网络(Perceptual Masking-Deep Neural Network, PM-DNN)[4]作对比实验。其中,NMF是代价函数为IS(Itakura-Saito)距离的增强算法;RNMF是将基于统计模型和NMF与在线语音和噪声基更新相结合的增强算法;PM-DNN是将感知掩蔽特性与深度神经网络结合的增强算法,隐藏层设为3层,每层2048个节点,激活函数为修正线形单元(Rectified Linear Unit, ReLU)函数。为了更合理地比较各个算法性能,实验中3种对比算法均采用与PM-RNMF相同类型和相同数量的输入信号。
评价指标采用感知语音质量评估(Perceptual Evaluation of Speech Quality, PESQ)方法[16]和信源失真比(Signal-to-Distortion Ratio, SDR)[17]来分别评估增强语音的质量和增强方法的性能。其中PESQ是评价语音主观试听效果的客观评价方法,取值范围为-0.5~4.5;SDR是在考虑语音失真和噪声失真时以分贝(dB)为单位的评估语音和噪声平均分离效果的值。两个评价指标的得分越高表示增强效果越好。
3.2 实验结果及分析
表1为在不同SNR下,4种增强方法分别在Babble、Factory1、F-16这3种不同噪声环境下的PESQ测量值。从表1的PESQ测量值中看出,本文所提出的PM-RNMF增强算法在不同SNR下均有优于NMF、RNMF、PM-DNN的增强效果,尤其是在低SNR时。PM-RNMF与NMF、RNMF对比,由实验结果可知增强语音质量提高,这是由于感知掩蔽自適应的阈值约束虽然使得相邻共振峰之间波谷处的能量失真误差增大,但共振峰处的能量得到了很好的保留,而波谷处的失真并不影响主观的试听效果;PM-RNMF与PM-DNN对比,由于SPP的增益修正,使得在低SNR时,PM-RNMF的增强效果优于PM-DNN,随着SNR的提高存在PM-DNN的PESQ值高于PM-RNMF,这是由于PM-DNN算法的训练对增强语音的幅度谱描述更加准确,使得以此计算出掩蔽阈值也更加准确,增强效果也更好。
表2为不同SNR下,4种增强方法分别在3种不同噪声环境下的SDR值。从表1的SDR值中显示,PM-RNMF的SDR值在不同SNR下均优于NMF、RNMF、PM-DNN,这与PESQ测量值所得出的结论一致。PM-RNMF与NMF、RNMF对比,由于感知掩蔽的阈值约束,语音失真减少,使得增强后的语音听起来更加自然,SDR的值得到提高;PM-RNMF与PM-DNN对比,SDR的值提高明显,这是由于相比DNN方法NMF利用掩蔽更能提高SDR的值。
表1通过PESQ和SDR值证明了PM-RNMF算法的优良性能,但是为了更直观地看出PM-RNMF算法的增强性能,本文给出了NMF、RNMF、PM-DNN、PM-RNMF这4种增强算法在噪声为Babble噪声、输入SNR为5dB时带噪语音的增强前后的语谱图,如图3所示。
由图3中(a)和(c)对比可知,使用NMF进行增强的结果在高频段降噪效果明显,但存在语音失真,并且在低频段存在较多的噪声残留,试听效果不佳;(d)和(c)相比,RNMF在低频段降噪效果优于NMF,这是由于SPP对噪声和语音的估计,提高了语音质量且减少了噪声残留,但由于语音与噪声特性的相似性,使得增强语音中存在残余噪声;(e)和(c)、(d)相比,PM-DNN的增强效果要好很多,在有效去除噪声的前提下,很好地保存了语音固有的谐波结构,但低频段存在少量的噪声残留;(f)与(d)相比,PM-RNMF由于感知掩蔽的约束,语音失真减少,提高了语音的可懂度;(f)与(e)相比,PM-RNMF提高了低频的去噪效果。综上所述,本文所提的PM-RNMF算法增强效果明显优于NMF、RNMF、PM-DNN算法。
4 结语
针对低SNR非稳定噪声环境下NMF语音增强算法存在噪声残留的问题,本文提出PM-RNMF语音增强算法。该算法将感知增益函数与SPP结合建立增益函数模型,然后与有监督的NMF语音增强算法进行集成。通过Matlab仿真,与NMF、RNMF、PM-DNN算法相比,PM-RNMF算法提高了在低SNR非稳定噪声环境下的语音增强效果。然而在实际环境中,随着人工智能领域应用范围的逐渐扩大,如服务机器人通常会工作在室内环境中,由于室内环境通常会存在混响噪声,这将影响该算法的性能,因此如何在混响环境下提高语音增强性能将成为下一步的研究重点。
参考文献 (References)
[1] VENKATESWARLU S C, PRASAD K S, REDDY A S. Improve speech enhancement using Wiener filtering [J]. Global Journal of Computer Science and Technology, 2011, 11(7): 30-38.
[2] MARTIN R. Speech enhancement using MMSE short time spectral estimation with gamma distributed speech priors [C]// ICASSP 2002: Proceedings of the 2002 IEEE International Conference on Acoustics, Speech, and Signal Processing. Piscataway, NJ: IEEE, 2002,1: 253-256.
[3] XU Y, DU J, DAI L, et al. A regression approach to speech enhancement based on deep neural networks [J]. IEEE/ACM Transactions on Audio, Speech, and Language Processing, 2015, 23(1): 7-19.
[4] 韓伟,张雄伟,闵刚,等.基于感知掩蔽深度神经网络的单通道语音增强方法[J].自动化学报,2017,43(2):248-258.(HAN W, ZHANG X W, MIN G, et al. A single-channel speech enhancement approach based on perceptual masking deep neural network [J]. Acta Automatica Sinica, 2017, 43(2): 248-258.)
[5] MOHAMMADIHA N, SMARAGDIS P, LEIJON A. Supervised and unsupervised speech enhancement using nonnegative matrix factorization [J]. IEEE Transactions on Audio, Speech, and Language Processing, 2013, 21(10): 2140-2151.
[6] 蒋茂松,王冬霞,牛芳琳,等. 稀疏正则非负矩阵分解的语音增强算法[J].计算机应用,2018,38(4):1176-1180.(JIANG M S, WANG D X, NIU F L, et al. Speech enhancement method based on sparsity-regularized non-negative matrix factorization [J]. Journal of Computer Applications, 2018, 38(4): 1176-1180.)
[7] WILSON K W, RAJ B, SMARAGDIS P, et al. Speech denoising using non-negative matrix factorization with priors [C]// ICASSP 2008: Proceedings of the 2008 IEEE International Conference on Acoustics, Speech and Signal Processing. Piscataway, NJ: IEEE, 2008: 4029-4032.
[8] HOYER P O. Non-negative matrix factorization with sparseness constraints [J]. Journal of Machine Learning Research, 2004, 5(9): 1457-1469.
[9] 路成,田猛,周健,等.L1/2稀疏约束卷积非负矩阵分解的单通道语音增强方法[J]. 声学学报,2017,42(3):377-384.(LU C, TIAN M, ZHOU J, et al. A single-channel speech enhancement approach using convolution non-negative matrix factorization with L1/2 sparse constraint[J]. Acta Acustica, 2017, 42(3): 377-384.)
[10] KWON K, SHIN J W, KIM N S. NMF-based speech enhancement using bases update [J]. IEEE Signal Processing Letters, 2015, 22(4): 450-454.
[11] CHUNG H, PLOURDE E, CHAMPAGNE B. Basis compensation in non-negative matrix factorization model for speech enhancement [C]// ICASSP 2016: Proceedings of the 2016 IEEE International Conference on Acoustics, Speech and Signal Processing. Piscataway, NJ: IEEE, 2016: 2249-2253.
[12] HU Y, LOIZOU P C. Incorporating a psychoacoustical model in frequency domain speech enhancement [J]. IEEE Signal Processing Letters, 2004, 11(2): 270-273.
[13] 張毅,王可佳,席兵,等.基于子带能熵比的语音端点检测算法[J].计算机科学,2017,44(5):304-307.(ZHANG Y, WANG K J, XI B, et al. Speech endpoint detection algorithm based on sub-band energy-entropy-ratio [J]. Computer Science, 2017, 44(5): 304-307.)
[14] LEE S, HAN D K, KO H. Single-channel speech enhancement method using reconstructive NMF with spectrotemporal speech presence probabilities [J]. Applied Acoustics, 2017, 117: 257-262.
[15] SUNNYDAYAL V, KUMAR T K. Speech enhancement using posterior regularized NMF with bases update [J]. Computers and Electrical Engineering, 2017, 62: 663-675.
[16] RIX A W, BEERENDS J G, HOLLIER M P, et al. Perceptual Evaluation of Speech Quality (PESQ)—a new method for speech quality assessment of telephone networks and codecs [C]// ICASSP 2001: Proceedings of the 2001 IEEE International Conference on Acoustics, Speech, and Signal Processing. Piscataway, NJ: IEEE, 2001,2:749-752.
[17] HUANG P S, KIM M, HASEGAWA-JOHNSON M, et al. Deep learning for monaural speech separation [C]// ICASSP 2014: Proceedings of the 2014 IEEE International Conference on Acoustics, Speech and Signal Processing. Piscataway, NJ: IEEE, 2014: 1562-1566.