基于听觉掩蔽效应的小波包语音增强

2010-09-25 05:55冯流保

通信技术 2010年3期

冯流保

0 引言

随着时代的发展，各种语音处理系统的应用越来越广泛，例如车载声控设备的应用，有声语言学习等。为了增强各种系统的处理能力，提出了许多语音增强方法。由于小波有多分辨率的特点，利用小波进行语音增强的各种方法被人们关注。在时频域的小波信号处理方法，最初是由 Donoho等提出并应用于图像、语音等各种信号的去噪工作[1-2]。阈值函数的设计尤为重要，它决定整个增强系统的性能，学者们提出了各种方法，如 Yasser 和 Mohammad提出的非线性阈值函数[3]等。本文提出一种根据人耳掩蔽效应设计的阈值函数去噪方法，它在语音失真与减小噪声之间寻找最佳折中，对带噪小波系数进行处理得到增强语音。实验表明，该方法可以得到较好的语音质量。

1 小波包语音增强的方法

1.1 听觉小波包的分解及表示

使用小波包变换代替以往的傅立叶变换，能较好地模拟出人耳听觉特性。又由于语音高频处包含着大量语音信息，模拟人耳听觉模型进行语音信号分解的方法能较好的反映人耳特点，派生于bark听觉构架的听觉小波包分解把4 kHz的语音分解到 18个称为听觉临界带的小波子带中，通过五层小波包分解完成[4]，如下页图1所示。

带噪语音假设为干净语音和噪声时域上的相加，进行听觉小波包变换[4]后，可表示为：

图1 听觉小波包听觉分解模拟人耳听觉

1.2 传统的阈值函数去噪方法

早在1994年，Donoho等在研究小波原理时就提出了用于图像、声音等小波去噪方法，其中较为成功的是使用软阈值处理函数的方法[1-2]：

当听觉小波包分解提出之后，人们对阈值的估计方法与阈值函数的设计作了各种改进。对于阈值，不少学者提出动态阈值的概念，如Mohammed Bahoura等根据teager能量算子调整阈值[5]等。得到阈值后便可利用阈值函数对小波系数作处理。

1.3 基于听觉掩蔽效应的阈值函数

听觉掩蔽的原理是某频率里的能量根据一定的规则影响着附近频率上的听觉，使人耳感受不到小于某阈值的信号能量。根据此原理设计出可以根据掩蔽阈值调整处理参数的阈值函数：

听觉掩蔽阈值函数中，α是关键的参数，用来调整去除噪声的力度。当掩蔽阈值相对较大时，说明语音能量可以较好的掩蔽噪声，此时α取一个较小值，使信号根据噪声阈值仅进行一个小的收缩，减小语音失真；当掩蔽阈值相对较小时，说明语音能量已经不能掩蔽噪声的能量，此时α取一个较大值，使信号根据噪声阈值进行一个大的收缩，以达到去除噪声的目的。α的具体计算在函数aF中完成，函数aF根据当前帧的掩蔽阈值T与一段时间内同层次的阈值最大最小值作对比，掩蔽阈值T达到最大时α取最小值minα，而掩蔽阈值T达到最小值时，α取最大值maxα，掩蔽阈值T在最大与最小值间时，α也在最小与最大值间线性插值。

在小波域进行噪声掩蔽域值的计算，是根据Virag在频域的方法[6]发展来的。计算的过程可以分为如下三个步骤。

（1）语音能量的初步估计

4 kHz的语音通过听觉小波包分解获得18个子带的小波系数，各子带的语音能量(m)计算如下：

（2）刺激能量的估计

刺激能量 Bm(ξ) 是bark域上的一种分布，反应各个子带语音能量对其他子带的影响。通过用一个扩散函数 Fm(ξ)[6]与子带能量 Em(ξ)进行卷积计算获得，扩散函数表现各个临界带间的影响。刺激能量的计算公式为：

其中ξ表bark域上的坐标。

（3）噪声掩蔽阈值的计算

一个与语音属性相关的偏移量（负值） ()Oξ[6]，指示出当前掩蔽信号的自然属性，用来调整各层的刺激能量值，最终刺激能量 B˜m(ξ)表示为：

得到的值与完全听觉阈值（AHT）[6]进行比较，选取较大作为最终掩蔽阈值，表示如下：

2 仿真及分析

2.1 波形与语谱图

下页图 3为本文给出的语音增强方法的增强效果波形图，时间值都是在104数量级上。其中图3 (a)图为干净语音信号波形图及其语谱图；图3 (b)图为添加5 dB白噪声后的带噪语音信号波形图及其语谱图；图 3 (c)图为采用本文的语音增强方法后的语音信号波形图及其语谱图。根据波形图及语谱图比较结果可以发现，带噪语音采用本文方法增强后噪声得到了明显的抑制。

2.2 信噪比及PESQ评测

为了进一步评估提出方法的性能，使用输出信噪比与PESQ作为提出方法的客观评测，采用的语音选自IEEE语音库里的10条条语音，采样率8 kHz，长度均为3秒左右，噪声为取自NOISEX-92数据库的高斯白噪声和汽车噪声。

实验中，增强系统采用母函数db8的听觉小波包分解，语音分解到18个依据bark域划分的听觉小波时频域中。本文提出方法与普通的软阈值函数小波包增强方法[2]作对比，输出结果信噪比SNR与听觉评测（PESQ）比较如下页表1。

图3 语音波形与语谱图

表1 输出结果信噪比（SNR）与听觉评测（PESQ）比较

在输出信噪比上，虽然听觉掩蔽函数在某些局部对信号进行小的收缩处理，可能会稍微降低输出语音的信噪比，但其他方法由于不能区分噪声与语音，而作同样的收缩处理，会导致一些更大的语音失真，得到低的信噪比。在 PESQ评测上，由于本方法根据听觉掩蔽原理动态地调整阈值函数参数，对受到掩蔽的信号仅作小的处理，减小语音失真，提高了输出语音的自然度。

3 结语

在分析与总结前人在小波语音增强的工作基础上，提出基于听觉掩蔽效应的阈值函数的小波包语音增强系统。此系统在听觉小波域中根据 bark划分原则分解出小波系数，利用人耳听觉中不同频域间产生的掩蔽原理对阈值函数的参数进行调整，之后处理小波系数并反变换得到增强语音。实验表明，基于听觉掩蔽效应的阈值函数的小波语音增强系统在去除噪声与产生处理失真之间取得较好的折中，保存语音的自然度，提高了增强系统性能。

[1] Donoho D L, Johnstone J M. Ideal Spatial Adaptation by Wavelet Shrinkage. Biometrika, 1994, 81(03)：425-455.

[2] Donoho D L. De-noising by Soft-thresholding[J]. IEEE Trans.On Information Theory, 1995, 41(03)： 613-627.

[3] Yasser Ghanbaria, Mohammad Reza Karami-Mollaei. A New Approach for Speech Enhancement based on the Adaptive Thresholding of the Wavelet Packets[J]. Speech Communication, 2006, 48(08)：927-940.

[4]王炜,杨道淳.基于听觉模型的小波包变换的语音增强[J]. 南京大学学报, 2001,37(05)：630-636.

[5] Mohammed Bahoura, Jean Rouat. Wavelet Speech Enhancement Based on the Teager Energy Operator[J]. IEEE Signal Processing Letters, 2001,8(01)：10-12.

[6] Nathalie Virag. Single Channel Speech Enhancement Based on Masking Properties of the Human Auditory System[J]. IEEE Transactions on Speech and Audio Processing, 1999,7(02)：126-137.