基于短时谱相估计改进型减谱法语音降噪研究

2013-07-20 09:40乔彬彬
微处理机 2013年2期
关键词:时域信噪比音频

乔彬彬,江 冰,马 胜

(1.河海大学计算机与信息学院,常州 213022;2.江苏乐众信息技术有限公司,常州 213022)

1 引言

语音数据的输入、输出以及音频数据处理质量是衡量手机等移动终端质量的重要因素。目前国内外对于手机音频部分都有严格的测试标准,如国际上的3GPP TS26.131、TS26.132 标准,我国CTA 测试中的YD/T1538 -2011 标准等[1]。以下以手机设计为例,由于手机自身结构和使用者所处环境因素的影响,通话会受到各种噪声干扰,如:环境噪声、会话回音等,从而导致语音质量严重下降,因此,降噪技术显得十分重要。

由于噪声种类的多样性,以及噪声与噪声之间特性的差异,针对不同的噪声需采用不同的降噪方法。目前对于可加性噪声的降噪处理算法可归纳为三大类:第一类是时域处理,如基于参数与模型的方法等;第二类是频域处理,典型的有减谱法和自适应滤波器算法等;其余的噪声处理方法归为第三类,这部分主要有小波变换法和听觉隐藏法等。非加性噪声的处理可以通过变换使其转换为可加性噪声来处理,如同态滤波法等[2-4]。

2 语音信号观测模型建立

语音信号是一种平稳的、时变的随机信号,语音在生成过程中与发音器官的运动密切相关。由于人类的发生器官在发声过程中的变化速度远小于语音信号的变化速度,因此可以假定语音信号是短时平稳的,即在10~30ms 内认为其某些物理特性和频谱特性保持不变。噪声可以分为可加性噪声和非可加性噪声,可加性噪声主要有:周期噪声、脉冲噪声、宽带噪声等。非可加性噪声主要有残响和传送网络的电路噪声等[5]。

通常所要处理的环境噪声可认为是一种可加性的宽带噪声,其特点是噪声频谱遍布于语音信号频谱中,处理起来难度较大。为此这里利用语音信号的短时平稳特性以及噪声信号相关性较弱的特点,建立含噪语音的观测模型,其形式如公式(1)所示:

其中s(t)为纯净的语音信号,n(t)认为是近似白噪声的干扰信号,y(t)为语音的噪声观察,即含噪语音。下文将基于此观测模型对含噪语音信号进行分析处理。

3 减谱法算法原理

基于短时谱相估计的减谱法是一种发展较早的语音增强方法,减谱法具有算法简单、运算量小的特点,便于信号的快速处理,同时获得较高的输出信噪比。

利用式(1)所示的语音信号观察模型,并对y(t)进行分帧加窗处理,可得语音信号的分帧观测模型:

其中:m∈(0,M -1);t∈(0,T -1),m为语音帧编号,t为每帧语音信号的采样点编号,M、T 分别是语音数据所分成的帧数以及每段语音帧的采样点数。

分别设ym(t)、sm(t)、nm(t)的傅里叶变换为Yk(w)、Sk(w)、Nk(w),则有:

由上式可得:

由于语音信号sm(t)和噪声信号nm(t)相互独立,所以Sk(w)、Nk(w)也相互独立,同时由于Nk(w)为0 均值的高斯分布,所以有:

代入上式得:

对于第m 帧的短时平稳过程,有:

这里的噪声通过MIC1 单独采样,所以nm(t)可认为是已知量,所以有:

分别设ym(t)、sm(t)、nm(t)的功率谱为Py(w)、Ps(w)、Pn(w),由此可得原始语音的估计值为:

在具体运算时,为防止出现负功率谱的情况,当Py(w)<Pn(w)时,令Ps(w)=0,则减谱法运算公式可归纳为:

减谱法语音增强技术的基本原理如图1 所示,当进行频域处理的过程中只考虑功率谱的变换,在最后IFFT 变换中借助相位谱来恢复降噪后的语音时域信号。

图1 基本减谱法原理图

由于人耳对相位变化不敏感的特点,可以利用源语音信号的相位谱来代替估计后的语音信号相位谱从而恢复降噪后的语音时域信号。

4 基本减谱法的算法改进

由于语音的能量通常集中在某些频段内,这些频段内的幅度相对较高,而基本减谱法是对整个语音段减去相同的噪声功率谱。同时由于随机噪声的帧功率谱是随机变化的,其大小值之间的比值可以达到几个数量级,因此,减谱后仍会有较大的残余噪声。这里引入减谱噪声系数α,在幅度较高的时域帧处减去αPn(w)(α >1),以更好的突出语音谱,提高系统的降噪处理能力。

其中α >1,b≪1。

此外,还需要对功率谱进行修正处理,以增加灵活性,通过引入功率谱系数β,由基本减谱法得到新的更具一般性的减谱法算法,其公式如(13)所示:

经功率谱修正处理后,适当的调节功率谱系数β的值可以取得更佳的语音增强效果,其灵活性得到进一步的提高。

基于以上的修改,基本减谱法的改进形式可表示为:

其中,在语音能量较高的区域令α >1,以多减去一个噪声分量,可起到突出语音频谱的作用。功率谱系数β的作用是提高信噪比,增大系数β 值时,系统信噪比可得到提高,反之则减小。

在减谱过程中,系数α、β 值需要在不同的语音帧处理中根据实际情况来动态调整。这样可以在减谱过程中提高信噪比的同时避免不必要的语音失真,以保证增强后语音信号的清晰度。

设P为信号帧功率谱,Pm为信号帧功率谱的最大值。

其中,M、N为根据语音数据实际情况来调整的系数。当P 与Pm的比较小时,此时噪声分量较小,α 值较小;当P 与Pm的比较大时,此时噪声分量较大,α 值较大。同理可得β 值的变化规律。

5 实验结果分析

实验语音是一段电话通话录音,干扰噪声是从SPB的噪声库下载的纯白噪声和工厂背景噪声,通过与语音信号的叠加得到含噪语音信号,数据采样频率为44100Hz,16bit的wav 文件。在程序设计中采用帧间重叠谱法进行语音处理,每帧采样点256个,重叠区域185个点,去前十帧为噪声帧。算法实现结合图1 减谱法基本原理,用C 语言对算法进行编程验证。

图2 白噪声环境下降噪效果对比

图3 工厂环境下降噪效果对比

图2、图3 分别给出了语音信号在纯白噪声干扰下和工厂背景噪声干扰下基本减谱法和改进减谱法的降噪结果。

通过主观试听以及对比处理前后的波形图可知,在纯白噪声环境,即噪声功率分布均匀的情况下,基本减谱法与改进减谱法降噪效果区别不大;在工厂环境,即噪声功率谱比较集中的情况下,改进减谱法的降噪效果明显优于基本减谱法的降噪效果。实验验证了改进减谱法的可行性以及对于噪声处理的灵活性。

6 结束语

通过对基本减谱法的降噪原理分析,以短时谱相估计为基础,通过引入减谱噪声系数α 和功率谱系数β 对基本减谱法进行改进,实验对比了纯白噪声环境和工厂环境下的降噪效果。通过主观试听和波形观察,得出改进的减谱法能有效降低噪声的干扰,大幅度提高带噪语音的输出信噪比。

[1]YD/T 1538 -2011.数字移动终端音频性能技术要求及测试方法[S].中国大陆:中国通信标准化协会,2011年5 月.

[2]王振力,张雄伟,杨吉斌,韩彦明.基于去相关NLMS 算法的自适应回波抵消[J].应用科学学报,2006,24(1):21 -24.

[3]朱俊敏,张潇,王旌阳,吴粤北.基于模极大值和尺度理论的音频降噪方法[J].振动与冲击,2002,28(11):168 -172.

[4]黄玫,李双田.改进的正弦模型在音频时域修正中的应用[J].语音技术,2008,32(3):49 -51.

[5]黄苏雨,梁声灼,黄苏园.语音增强方法综述[J].计算机与现代化,2006,46(10):1685 -1687.

猜你喜欢
时域信噪比音频
两种64排GE CT冠脉成像信噪比与剂量对比分析研究
基于深度学习的无人机数据链信噪比估计算法
基于复杂网络理论的作战计划时域协同方法研究
必须了解的音频基础知识 家庭影院入门攻略:音频认证与推荐标准篇
基于Daubechies(dbN)的飞行器音频特征提取
低信噪比下基于Hough变换的前视阵列SAR稀疏三维成像
山区钢桁梁斜拉桥施工期抖振时域分析
音频分析仪中低失真音频信号的发生方法
基于极大似然准则与滚动时域估计的自适应UKF算法
基于时域逆滤波的宽带脉冲声生成技术