刘勇 谢映海
【摘 要】利用语音信号和噪声分帧信号在频域上的小波框架分解后能量分布特征的明显差异性,本文提供了一种高性能的静音检测算法,算法引入了一种分段阈值和判决平滑机制,获得了较好的静音检测效果。仿真结果表明,在噪声功率时变和低信噪比的情况下,检测算法仍具备高准确率,性能明显优于一些传统算法。
【关键词】最小能量小波框架;分段阈值;判决平滑;静音检测
A High-performance Detection Algorithm Wavelet Frame Mute
LIU Yong XIE Ying-hai
(Guangzhou Haige Communications Group Co.Ltd, Guangzhou Guangdong 510663, China)
【Abstract】The energy distribution of the speech signal and noise sub-frame wavelet frame in the frequency domain decomposition characteristics of obvious differences,this article provides a high-performance detection algorithm silence,the algorithm introduces a fragmentation threshold and smoothing judgment mechanism to obtain better silence detection。Simulation results show that the situation has changed and under low signal to noise ratio at the time of the noise power detection algorithm still have a high degree of accuracy,the performance was better than some of the traditional algorithms.
【Key words】Minimum energy wavelet frame;Fragmentation threshold;Judgment smooth;Silence detection
0 引言
静音检测算法可以通过对语音信号某些参数的提取和分析来区分信号中的语音帧和静音帧,从而达到在发端降低编码速率或在收端进行降噪处理等目的[1-5]。而小波理论在信号处理领域有着广泛的应用,其中的最小能量小波框架可以弥补正交小波不能同时具备紧支性、光滑性和对称性的缺陷,在多种类型的信号处理和分析上获得了较好的应用效果[6-10]。
本文分析了语音信号和噪声信号在频域上的小波框架分解后能量分布特征,据此提出了一种基于小波框架的高性能静音检测算法,算法引入了分段阈值和判决平滑机制,获得了较好的检测效果。仿真结果表明,在噪声功率时变和低信噪比的情况下,检测算法将保持非常高的准确性,性能明显优于一些传统算法。
1 最小能量小波框架简介
下面介绍文献[6]给出的最小能量小波框架的一些基本性质。
2 小波框架静音检测算法
语音信号是一种短时平稳信号,考虑到语音信号静音检测的实时性要求,对信号进行帧长为64毫秒,含512个样点的分帧处理,对每个分帧时域信号都进行FFT变换后取绝对值得到分帧频域信号,然后基于式(2)的小波分解公式,利用文献[4]提供的一组由如下数列组成的最小能量框架对分帧频域信号进行分解:
图1和图2分别给出了一段时间长度3.2秒,含25600个样本点的纯净语音信号和噪声信号在时域、分帧频域信号以及该信号的3个小波分解子信号情况。式(4)表明了分解前后信号的能量保持不变,而比较这2张图可以清楚看出,对语音频域信号而言,3个分解子信号的数值呈现稀疏分布特性,即信号的能量集中至少量元素上,其余大量元素则趋于零;而对噪声频域信号,3个分解子信号的数值则呈现均匀分布特性,即信号能量比较均匀分布在大部分的元素上。
根据上述分布特性的差异性,给出如下的实时静音检测算法:
两个分段阈值是经过大量测试得到的最佳值,另外为避免频繁切换语音有无状态给听者带来的不适,算法中在判决平滑过程中存在约50帧的拖尾保护,时间长度为50*64ms=3.2秒左右。因此在信号的前50个子帧的判决过程中将假定前面已经有50个纯噪声帧。
整个算法的处理流程具体如下:
3 算法性能仿真结果
图4的两个子图分别给出了一段时间长度约360秒的纯净语音信号和功率时变的高斯白噪声信号,从图中可以看出在有语音活动区,噪声功率已经明显大于语音信号功率,因此信号平均信噪比是负值的;图5的两个子图则分别给出了两个信号加性混合后的时域情况,以及根据本文提供的静音检测算法得到的检测效果,其中红色线段的上凸部分表示语音活动区域,其余部分表示静默区域。
从仿真结果看出,在噪声功率时变和低信噪比的情况下,本文提供的静音检测算法的准确率仍保持高准确性,整体性能已经超过了目前已有的一些经典算法。
【参考文献】
[1]K.Srinivasan,A.Gersho.Voice Activity Detection for Cellular Networks.IEEE Trans.Information Theory,1993,19(5):85-86.Ke Li,M.N.S.Swamy.An Improved Voice Activity Detection Using Higher OrderStatistics[J].IEEE transactions on speech and audio processing,2005,13(5):965-974.
[2]K.Srinivasan,A.Gersho.Voice Activity Detection for Cellular Networks[J].IEEE Trans.Information Theory,1993,19(5):85-86.
[3]Ke Li,M.N.S.Swamy.An Improved Voice Activity Detection Using Higher OrderStatistics[J].IEEE transactions on speech and audio processing,2005,13(5):965-974.
[4]田野,王作英,陆大.基于子带能量线性映射的噪声中端点检测算法[D].清华大学学报(自然科学版),2002,42(2):953-956.
[5]黄炳刚,周志杰,郑翔.基于小波变换的语音激活检测[J].解放军理工大学学报(自然科学版),2006,7(3):200-213.
[6]CHUI C K,He W.Compactly supported tight frames associated with refinables functions[J].Appl.Comp.Harm.Anal,2000,8:293-319.
[7]SHEN L X,MANOS P,IOANNIS A K.Image denoising using a tight frame[J].IEEE Transactions on Image Processing,2006,15(5):309-319.
[8]谢映海,杨维,张玉.离散空间上的最小能量框架及其在矩阵脉冲信号去噪中的应用研究[J].物理学报,2010,59(11):722-731.
[9]谢映海,杨维,樊婷婷.离散信号空间上的最小能量框架在升余弦脉冲信号上的去噪算法[J].通信学报,2012,03:44-51.
[10]赵瑞珍,刘晓宇,LICC.基于稀疏表示的小波去噪[J].中国科学F辑,2010,40(1):33-40.