刘郭杉++张小宇
摘 要:本文提出一种时域滤波中多频带语音增强的方法,通过将时域中的未处理语音过滤成各种等效的基于矩形带宽的子带,然后在每个频带中使用基于离散余弦变换(DCT)MMSE来估计清晰语音。该算法在0~10dB的SNR水平上优于用于汽车、餐厅、列车、白色和工厂噪声的现有技术。
关键词:MMSE 多频带 DCT
中图分类号:TN91 文献标识码:A 文章编号:1672-3791(2017)10(a)-0030-02
语音通信系统的性能特征在于语音质量和可懂度。然而,这些因素容易受到外部噪声源干扰而劣化。在这些源中,背景噪声是最常见的,并且以加法方式影响语音信号。
频域语音增强的噪声去除方法主要使用傅里叶变换(FT)衍生的频谱。这种方法不仅可以增强未处理语音的幅度频谱,同时可以保持未处理语音的相位不受干扰。虽然这些技术显著改善了语音质量,但是它们作为单个实体作用于整个频带,而语音和噪声分量并不是均匀地分布在所有的频带上。因此,提出了改进的多频带谱减法,将未处理语音频谱线性或非线性划分各个子带,并且独立地对每个子带执行噪声去除,即通过傅里叶变换给每个频带不同的权重,将信号分解成含有不同权重的频率分量。未处理语音由于噪声的不均匀分布,频域频带划分将导致子带具有不同的信噪比(SNR),当每个子帶中的语音分量被增强时,每个子带的SNR改变,即频率分量的分布也与之前的不同。所以,在使用导出原始未处理语音的权重就会导致纯净语音的不准确估计。为了克服这些问题,使用时域滤波可能会更合适。
1 全频带MMSE(DCT-C)
MMSE频谱幅度估计器使用从UP语音频谱分量估计的先验SNR和后验SNR来估计干净语音频谱。UP语音信号的DCT导出频谱的MMSE估计器收敛到Weiner滤波器用于实变换,并且其由下式给出:
其中,是由决策指导方法估计的先验SNR,并且是当前段是语音段的似然性。固定值表现出对特定情况(仅噪声/语音)的偏差。另一方面,对于基于多频段DCT的MMSE估计器,提出了一种基于全局和局部先验SNR来计算阈值的方法,并且在下面的部分中讨论。
2 时域滤波多频带MMSE(TMB-MMSE)
当前的工作中,使用频带特定的阈值来计算用于多频带MMSE的。在每个频带信号中,基于两个因素,即(i)全局先验SNR()和(ii)局部先验SNR()来计算用于固定的阈值,其中前者是为UP全带信号,后者是为子带信号估计的先验SNR。对全带UP语音段和第i个子带滤波段的第T段估计的全局1和局部2先验SNR由下式给出:
其中,是针对第T个语音段中的第n个样本估计的先验SNR,并且N是段中的样本的总数。
3 性能评价
语音增强算法使用从TIMIT语料库,NOISEX-92是一个噪声数据库,包括8种不同的非固定噪声、如工厂、机枪、白噪声、粉红噪声等。将来自NOISEX-92和AURORA数据库的噪声以不同的SNR水平被添加到TIMIT和NOIZEUS数据库中的干净的语音中,获得未处理语音信号。在这个系统中,以0~10dB的SNR水平,添加5个不同的噪声,即,餐厅噪声,白噪声,工厂噪声(选自NOISEX-92)、汽车噪声和火车噪声(选自AURORA)。UP语音信号是以25ms的帧大小和段之间50%重叠的汉明窗口。
TMB-MMSE与DFT-C和DCT-C的比较:TMB-MMSE,DFT-C和DCT-C算法的目标质量度量显示如下。
所提出的方法(TMB-MMSE)导致所考虑的所有噪声条件下PESQ评分的语音质量得到改善。对于汽车,工厂和白噪声,质量提高了0.3~0.8,而对于火车和汽车噪声,TMB-MMSE参考UP语音实现了0.2~0.4的改善(见表1)。
根据SD分数,TMB-MMSE与DCT-C和DFT-C相比较。
通过TMB-MMSE增强的语音中的残余噪声与DCT-C和DFT-C相比较,通过TMB-MMSE增强的语音中BD的减少对于汽车,白色和工厂噪声为0.3~0.5左右,而对于混音和列车噪声,分别减少了0.1和0.2(见表2)。
总而言之,TMB-MMSE通过DCT-C显着地提高了整体增强的语音质量,DCT-C提高了0.1~0.3,DFT-C提高了0.02~0.3。
4 结语
在这项工作中,使用DCT派生的频谱开发了时域滤波多频带(基于ERB)语音增强算法。通过时域滤波克服了存在于频域多频带方法中的相邻频带频率分量的影响。实验结果可以看出,本文提出的算法比传统的语音增强方法增强效果好。PESQ值验证了改进的算法具有更好的语音质量。使用改进的算法具有比传统算法低的SD量和BD量。
参考文献
[1] 于文慧.基于短时谱估计的MMSE语音增强算法研究[D].长春:吉林大学,2012.
[2] 宁矿凤,王景芳.DCT域维纳滤波语音增强[J].计算机工程与应用,2015,51(8):226-230.endprint