基于TEO?DCT和缺失特征的瞬态声识别

2015-06-15 22:14李亚兵等

现代电子技术 2015年12期

李亚兵等

摘要：为解决噪声环境下瞬态声自动识别系统性能下降的问题，在自动识别系统前端采用Teager能量算子（TEO）和离散余弦变换（DCT）相结合的方法进行降噪处理，同时采取基于高斯混合模型（GMM）的缺失特征边缘化算法进行自动分类。实验结果表明，此方法可以显著地提高噪声环境下系统的识别性能。

关键字： Teager能量算子；离散余弦变换；缺失特征；高斯混合模型

中图分类号： TN911.7?34 文献标识码： A 文章编号： 1004?373X（2015）12?0012?04

0 引言

环境中存在这样一类特殊的声音：瞬态声，它具有持续时间短、短时平稳、能量集中、宽频带广等特点，如敲门声、汽车短促的喇叭声、舰船及其中设备的启动声等，这类声音很容易被环境噪声所污染。瞬态声识别在军事及民用领域有极其广泛的应用，如潜艇识别、道路脱空检测及医学上对新生儿的听力诊断等，因此，对其研究具有重要的实用价值[1]。

目前，对于瞬态声的自动识别在实验室环境中效果很好，但是在噪声环境下，其识别性能会明显降低。因此，如何减小噪声的影响，是构建自动目标识别（Automatic Target Recognition System，ATR）系统的关键环节之一。本文分别在ATR的前端和后端进行降噪和缺失特征处理，以进一步提高系统对噪声干扰的鲁棒性。

在ATR前端，需要通过一定的降噪处理以提高系统的抗噪性能，如谱减法[2]（Spectral Subtraction）、维纳滤波（Wiener Filtering）法、最小均方误差（Minimum Mean Square Error）法等，这些方法都是基于离散傅里叶变换方法。基于小波变换的降噪技术也可以达到很好的效果，如由Bahoura等提出的基于Teager能量算子（Teager Energy Operator，TEO）的小波去噪 [3]，其在不同阈值上的变化是自适应的，但它的计算量较大，且小波基和分解层数的选择不容易。基于Teager能量算子[4]的离散余弦变换（Discrete Cosine Transform，DCT）降噪相对于基于离散傅里叶变换（DFT）的降噪方法有以下优势：DCT相比于DFT有更好的能量压缩特性；在相同的窗条件下，DCT比DFT有更好的频率分辨率。

本文将DCT和TEO相结合实现瞬态声信号的降噪[5]，既克服了离散傅里叶变换的缺点，也降低了计算量，该方法被称为TEO?DCT方法。

在ATR后端，可以通过缺失特征（Missing Feature）方法，通过对不同时间或频率段的特征进行处理，进一步提高系统的识别性能。缺失特征技术[4]的主要原理是根据噪声对信号的不同时间、不同频带的影响不同，确定可靠特征和缺失特征，然后根据可靠特征进行识别或者通过其对缺失特征部分进行重构。

2 基于异常点的缺失特征检测

对于经过降噪处理的声信号，它并不能完全消除噪声的影响，其识别性能有待进一步提高，因此可以通过缺失特征的方法进一步降低噪声的影响，进而提高ATR的性能。

缺失特征技术主要由缺失特征检测和缺失特征处理两部分构成。

缺失特征检测[9?10]是缺失特征技术的重点和难点问题，恰当的缺失特征检测准则可以有效提高缺失特征技术的效果。环境声鲁棒性识别中，人们提出了大量缺失特征检测方法：

（1）根据每个时频域的SNR估计估计缺失特征的可靠性，如理想掩蔽和局部SNR掩蔽估计；

（2）对声目标特征进行建模，例如，提取声目标特征，然后据此训练分类器确定特征可靠性，如基于分类器的掩蔽估计及基于异常点的掩蔽估计方法。

缺失特征处理主要有2种方法：

（1）缺失特征边缘化方法，该方法主要通过舍弃缺失特征进行识别，其需要在识别段对分类器进行修改；

（2）缺失特征重构方法，该方法通过先验知识，根据可靠特征部分重构出完整特征进行识别，其不需要对分类器进行修改。

异常点的缺失特征检测：这里采用基于聚类的异常点算法检测出异常点数据并将之视为缺失特征，该方法首先对数据集进行聚类分析，然后根据一定的准则（距离、密度等）选择出一定数目的点，然后在对这些检测出的数据进行进一步的分析。

缺失特征边缘化：缺失特征边缘化方法主要考虑到缺失特征部分受到噪声的污染比较严重，如果直接使用，可能会对识别效果产生消极影响，所以仅仅依靠可靠特征，而舍弃缺失特征部分进行分类，这样可以排除受噪声污染比较严重的特征影响，在一定程度上提高识别性能。

本文将TEO?DCT降噪技术和缺失特征边缘化相结合[11]构造ATR系统，图3给出了所用算法流程。先用TEO?DCT对噪声信号进行降噪处理，利用降噪后的瞬态声信号提取Mel子带特征，然后根据缺失特征检测技术，确定可靠特征和缺失特征，根据可靠特征进行识别。

3 实验结果及分析

本文以矩形板冲击声为声样本，通过TEO?DCT降噪技术和缺失特征边缘化方法的结合，提高ATR系统的性能。另外，将本文算法和基准系统和理想边缘算法进行对比，验证该方法的有效性。

实验中，基准系统是指未经任何处理的ATR方法。TEO?DCT表示经过Teager能量算子和DCT相结合的降噪方法进行识别。边缘化表示直接进行边缘化识别的方法。本文算法是指将TEO?DCT和边缘化相结合的方法。

3.1 实验样本的获取

在消声室环境下分别录取不同尺寸（边长分别为42 cm，30 cm，22 cm），调节小球不同高度（分别距离敲击位置1 cm，2 cm），敲击不同位置（分别距边3 cm、对角线距角8 cm以及中心位置）的木板、玻璃板和铝板的敲击声，而噪声分别选取Noise?92噪声库中的高斯白噪声和粉红噪声，分别对消声室环境下的录音加载0 dB，5 dB，10 dB，15 dB，20 dB，25 dB，将之作为待识别的声样本。

3.2 理想掩蔽的估计

缺失特征理想掩蔽的阈值判决过程中，设置SNR阈值，把阈值之下的特征部分作为缺失特征，反之则为可靠特征。而阈值选取的不同会造成识别效果的差异，如果其设置过高，则会把特征可靠部分误判为缺失部分，从而对识别造成负面影响；阈值过低，又会把噪声部分视为可靠特征，同样对识别不利。此处通过设置不同的阈值验证在不同SNR条件下对识别性能的影响，实验结果如图4所示。

3.3 结果分析

表1和表2分别表示在高斯白噪声和粉红噪声条件下的识别率，高斯白噪声在无限频率宽度上具有均匀的连续谱，在时域上幅度分布为高斯分布，粉红噪声作为是自然界中最常见的噪声，其频率分量功率主要集中在中低频部分。

表1 高斯白噪声条件下的识别率 %

表2 粉红噪声条件下的识别率 %

由表1和表2可以看出，TEO?DCT降噪方法在高斯噪声和粉红噪声条件下可以有效地提高系统的识别率，但是在粉红噪声条件下且较低的SNR时，由于Teager能量算子对低频的保护作用，而粉红噪声的能量主要集中在低频区域，所以该噪声下的识别性能提高并不明显。边缘化算法在各种噪声条件下均可有效提高系统的识别效率。

而本文算法通过将两种算法相结合，在高斯白噪声条件下，其相比于单纯的降噪技术和边缘化算法可以显著地提高声目标识别系统的性能；而在粉红噪声条件下，本文算法在高SNR 条件下识别性能虽然比降噪方法好，但是却不如单纯的边缘化算法。造成这种现象的原因是：由于对粉红噪声的降噪处理在高SNR时造成的特征矢量失真情况比带噪信号特征矢量的失真现象更为严重。

4 结语

本文首先利用TEO与DCT相结合，设计出DCT的时间自适应阈值降噪技术，可以有效地提高系统的降噪性能，同时，该方法也不像谱减法那样需要对噪声进行估计且避免了基于DFT变换降噪技术的相位问题。在后端，又根据缺失特征边缘化算法，将受噪声污染严重的特征剔除出去，在一定程度上提高了系统的性能。实验结果表明，仅仅利用缺失特征边缘化算法可以提高瞬态声目标系统性能，但将之与TEO?DCT结合的方法可以有效地提高低信噪比下ATR的识别性能。

参考文献

[1] 陈克安.环境声的听觉感知与自动识别[M].北京：科学出版社，2014.

[2] 张雪英.数字语音处理及Matlab仿真[M].北京：电子工业出版社，2010.

[3] 高亚召，赵霞.基于Teager能量算子的自适应小波语音增强[J].电声技术，2009，33（1）：58?62.

[4] SANAM T F， IMTIAZ H. A DCT?based noisy speech enhancement method using Teager energy operator [C]// Proceedings of 5th International Conference on Knowledge and Smart technology. [S.l.]： Burapha University， 2013： 16?20.

[5] RAJ B， STERN R M. Missing?feature approaches in speech recognition [J]. IEEE Signal Processing Magazine， 2005， 22（5）： 101?116.

[6] 李雪耀，谢华，张汝波.基于离散余弦变换的语音增强[J].哈尔滨工程大学学报，2007（2）：198?202.

[7] 李潇，李宏.一种改进的基于DCT变换的语音增强算法[J].计算机仿真，2010（12）：376?380.

[8] DONOHO D L. De?noising by soft?thresholding [J]. IEEE Transactions on Information Theory， 1995， 41（3）： 613?627.

[9] SELTZER M L， RAJ B， STERN R M. A Bayesian classifier for spectrographic mask estimation for missing feature speech recognition [J]. Speech Communication， 2004， 43（4）： 379?393.

[10] PAWLITSCHKO J， SCHULTZE V. The identification of outliers in exponential samples [J]. Statistica Neerlandica， 2002， 56（1）： 41?57.

[11] 王宁，陆伟，戴蓓倩，等.结合谱减和缺失特征重建的鲁棒性话者识别[J].数据采集与处理，2009，24（2）：149?153.