一种改进的基于对数谱估计的语音增强算法

2020-05-09 08:57孔德廷
声学技术 2020年2期
关键词:谱估计背景噪声先验

孔德廷

一种改进的基于对数谱估计的语音增强算法

孔德廷

(中国西南电子技术研究所,四川成都 610036)

提出了一种基于对数谱估计的改进型语音增强算法。相对于传统语音增强算法,在语音信号存在不确定的条件下,利用软判决增益因子修正技术调正带噪语音信号的对数谱幅度,抑制背景噪声。引入的改进型先验信噪比估计和语音信号先验不存在概率估计方法,能够有效地估计得出语音信号的存在概率,进而求得语音信号存在时的谱增益因子函数,联合语音信号不存在时设定的增益因子函数加权求得谱增益函数。计算机仿真表明,即使在低信噪比条件下,输入背景噪声为高斯白噪声和粉红噪声等加性白噪声时,所提算法对噪声的抑制效果非常明显,且有效地克服了传统算法中引入的“音乐噪声”和语音信号畸变。

短时傅里叶变换;语音增强;幅度谱估计;先验信噪比;先验语音不存在概率

0 引言

语音增强算法作为语音信号处理中的一个重要分支领域,多年来一直吸引着广大学者对其进行不断的研究。语音增强算法旨在降低带噪语音信号中的背景噪声,提取纯净的语音信号,同时尽量减少信号畸变。语音增强算法不但涉及信号检测、波形估计等传统信号处理理论,而且与语音产生的生理特性、人耳的感知特性等生理学密切相关。

目前,国内外的研究成果一般分为三大类[1-2]:(1) 基于背景噪声估计的谱减法,提高输入带噪语音信号的信噪比;(2) 寻找稳健的、耐噪声的语音特征参数;(3) 基于模型参数适应化的噪声补偿算法。目前的补偿算法通常只考虑到噪声环境是平稳的,在低信噪比以及非平稳噪声环境中的效果并不理想。

语音增强算法一般基于短时傅里叶分析/修正/综合(Short-Time Fourier Analysis-Modification- Synthesis, STFT AMS),例如:1979年Boll提出的谱减法[3],1949年Wiener提出的Wiener滤波法,以及1984年Ephraim和Malah提出的MMSE短时幅度谱估计(Acoustic Magnitude Estimator, AME)算法[4]。Boll提出的谱减法是直接从带噪语音信号频谱中减去噪声估计谱,尽管该方法能够有效地降低噪声,但在原始语音中会引入“音乐噪声”。为了克服上述问题,Ephraim和Malah提出的MMSE短时幅度谱估计算法可有效避免“音乐噪声”的引入。Cappe[5]、Scalart等[6]先后在1994年和1996年证明了利用先验信噪比的软判决方法可以得到较好的降噪性能。

近年来,在语音信号增强算法中,利用软判决增益因子修改技术成为了一个热门的研究方向[7-10]。相对于使用传统的语音增强算法,在语音信号存在不确定(Speech Signal Presence Uncertainty)的假设条件下,联合改进的背景噪声估计(Optimized Noise Estimator)算法和先验语音不存在概率(Priori Speech Absence Probability, PSAP),给出了比较好的降噪性能。本文提出了一种改进的对数谱幅度估计(Optimized Log-Spectral Amplitude Estimator, Optimized-LSA)方法,引入了一种新的先验信噪比估计(Priori Signal-to-Noise Ratio, Priori-SNR)方法以及一种有效的先验语音不存在概率估计方法。本文首先给出了语音信号存在或者缺失时增益因子的估计方法,然后结合先验语音不存在概率的估计值加权求得最终的谱增益因子。先验语音不存在概率基于软判决的方式获得,其在连续语音信号的相邻频点上呈现出很强的相关性。与传统的降噪算法相比,本文算法具有更好的降噪性能,即使在低信噪比条件下,仍然能够有效地避免“音乐噪声”的引入和语音信号的畸变。

1 增益估计模型

当语音不存在时,修正因子约束为大于一个指定阈值,该阈值可以依据对背景噪声属性的主观经验确定,基本准则是背景噪声越大,该值越小,反之越大。则在语音缺失的条件下,输入信号的语音谱估计可表示为

代入条件概率密度分布函数,可以得:

代入式(5),可以得到改进型对数谱估计的谱增益修正因子可以表示为

基于改进型对数谱估计的语音增强算法原理框图如图1所示。

2 语音缺失先验概率估计方法

Ephraim等[11]提出的判决导引算法,提供一种有效的估计先验信噪比的方法,其公式表示为

图1 语音增强算法原理框图

通过在频域加窗求得先验信噪比的均值,根据窗长的不同得到局部均值和全局均值,公式表示为

为了获得更好的性能,在使用估计先验信噪比之前,首先对其进行一阶递归平均,如式(15)所示:

其中:

3 仿真分析

文中提出的改进型对数幅度谱估计算法,相对于传统对数幅度谱估计算法,提出了一种新的先验信噪比估计方法和先验语音不存在概率估计方法。本节将在不同的背景噪声及不同的输入信噪比下,仿真分析文中所提改进算法的降噪性能。

图2和图3分别给出了本文算法在0 dB高斯白噪声条件下,与3GPP2文献中提出的降噪算法[12]在时域和频域的噪声抑制性能对比图。由图可知,本文算法相对于3GPP2文献中提出的降噪算法对高斯白噪声的抑制性能较好,并且未引入任何的音乐噪声及很小的信号畸变。

图2 高斯白噪声条件下两种降噪算法的噪声抑制性能对比(时域信号)

图3 高斯白噪声条件下两种降噪算法的噪声抑制性能对比(语谱图)

图4给出了本文算法与3GPP2文献中提出的降噪算法以及基于对数谱估计的MMSE降噪算法在背景噪声为高斯白噪声时,不同输入信噪比下输出语音信噪比改进曲线对比图。从图4中可以看出,本文算法对低信噪比输入语音的噪声抑制能力明显优于其它两种降噪算法。

图5和图6分别给出了本文算法在0 dB粉红噪声条件下,在时域和频域的噪声抑制性能对比图。从图中可以看出,本文算法能够很好地抑制粉红噪声,且有效地克服传统谱减算法中引入的音乐噪声。

图4 高斯白噪声不同输入信噪比条件下3种降噪算法性能曲线

图5 粉红噪声条件下两种降噪算法的噪声抑制性能对比(时域信号)

图7给出了本文算法与3GPP文献提出的降噪算法以及基于对数谱估计的MMSE降噪算法在背景噪声为粉红噪声时,不同输入信噪比下输出语音信噪比改进曲线对比图。从图中可以看出,本文算法对粉红噪声的抑制能力明显优于其它两种降噪算法。

最后,给出在高斯白噪声和粉红噪声背景下不同信噪比时的主观语音质量评估(Perceptual Evaluation of Speech Quality, PESQ)对比分析表格,如表1所示。从表1中可以看出,本文算法在输入低信噪比语音信号时,PESQ得分明显高于3GPP2中给出的降噪算法以及基于对数谱估计的MMSE降噪算法。

图7 粉红噪声不同输入信噪比条件下3种降噪算法性能曲线

表1 高斯白噪声和粉红噪声条件下3种降噪算法的PESQ得分对比

4 结束语

本文针对语音信号存在不确定条件下的语音增强问题,通过引入的改进型先验信噪比估计方法和先验语音不存在估计方法,提出了一种基于软判决技术的改进型对数幅度谱估计算法。仿真结果表明,即使在低信噪比条件下,本算法仍然能够有效地抑制带噪语音信号的加性白噪声,且有效地克服了传统降噪算法引入的“音乐噪声”及语音信号畸变。

[1] 赵力, 梁瑞宇, 等. 语音信号处理[M]. 北京: 机械工业出版社, 2017: 104-120.

[2] DEVYANI S, RATNADEEP R, PUKHRAJ P. A review of speech signal enhancement techniques[J]. International Journal of Computer Applications, 2016, 139(14): 23-26.

[3] BOLL S. Suppression of acoustic noise in speech using spectral subtraction[J]. IEEE Transactionson Acoustics Speech and Signal Process, 1979, ASSP-27(2): 113-120.

[4] EPHRAIM Y, MALAH D. Speech enhancement using a minimum-mean square error short-time spectral amplitude estimator[J]. IEEE Transactions on Acoustics Speech and Signal Process, 1984, 32(6): 1109-1121.

[5] CAPPE O. Elimination of the musical noise phenomenon with the Ephraim and malah noise suppressor[J]. IEEE Trans. Speech Audio Process, 1994, 2(2): 345-349.

[6] SCALART P, FILLO J V. Speech enhancement based on a priori signal to noise estimation[C]//IEEE International Conference on Acoustics, Speech and Signal Process, 1996: 629-632.

[7] MALAH D, COX R V, ACCARDI A J. Tracking speech-presence uncertainty to improve speech enhancement non-stationary noise environments[J]. IEEE International Conference on Acoustics Speech and Signal Process, 1999, 10(2): 1102-1105.

[8] COHEN I. Noise spectrum estimation in adverse environments: Improved minima controlled recursive averaging[J]. IEEE Transactions on Acoustics Speech and Signal Process, 2003, 11(5): 466-475.

[9] ABRAMSON A, COHEN I. Simultaneous detection and estimation approach speech enhancement[J]. IEEE Transactions On Audio, Speech, And Language Processing, 2007, 15(8): 327-335.

[10] KIM N S, CHANG J H. Spectral enhancement based on global soft decision[J]. IEEE Signal Processing Letters, 2000, 7(5): 108-110.

[11] EPHRAIM Y, MALAH D. Speech enhancement using a minimum mean-square error log-spectral amplitude estimator[J]. IEEE Trans. Acoust. Speech Signal Processing, 1985: 443-445.

[12] 3GPP2. Enhance variable rate codec, speech service options 3,68,70, and 73 for wideband spread spectrum digital systems[S]. 3GPP2 C.S0014-D, 2009: 83-92.

An improved speech enhancement algorithm based on log-spectral amplitude estimation

KONG Deting

(Southwest China Institute of Electronic Technology, Chengdu 610036, Sichuan, China)

An improved speech enhancement algorithm is proposed for suppressing the background group noise in noisy speech. Compared with the traditional noise suppressor, the proposed method uses the soft-decision modification method to modify the log-spectral amplitude of noisy speech under the condition of uncertainty in speech signal presence. In this paper, an improved estimator for the priori signal-to-noise ratio and an effective estimator for the priori probability of speech absence are proposed, by which the conditional probability of speech presence can be obtained. Simulation results confirm the superiority of this method in noise suppression and speech enhancement under the background of Gaussian white noise and pink noise.

short-time Fourier transform; speech enhancement; acoustic magnitude estimation; priori signal-to-noise ratio; priori speech absence probability

TN912.35

A

1000-3630(2020)-02-0208-06

10.16300/j.cnki.1000-3630.2020.02.014

2019-03-02;

2019-04-04

孔德廷(1986-), 男, 湖北荆门人, 硕士, 工程师, 研究方向为基带信号处理,语音信号处理,智能优化算法等。

孔德廷, E-mail: dtkong@126.com

猜你喜欢
谱估计背景噪声先验
环境背景噪声对飞机噪声监测结果的影响
基于无噪图像块先验的MRI低秩分解去噪算法研究
基于MATLAB的无线电信号功率谱仿真与分析
基于最大熵谱估计的某型飞行模拟器动态性能验证
应用背景噪声成像研究祁连山地区地壳S波速度结构
基于自适应块组割先验的噪声图像超分辨率重建
基于多窗谱估计的改进维纳滤波语音增强
康德审美判断的先验演绎与跨文化交流
基于平滑先验法的被动声信号趋势项消除
海上单道地震勘探中船舶等背景噪声的影响分析及压制