韩 芳,靳宗信
(黄河科技学院信息工程学院,河南郑州 450063)
低信噪比下的端点检测算法研究
韩芳,靳宗信
(黄河科技学院信息工程学院,河南郑州450063)
语音端点检测是语音处理分析过程中的一个重要组成部分,针对方差法在低信噪比下对语音信号端点检测准确率低的问题,本文提出一种子带频带方差法和谱减法相结合的检测算法,算法中采用多窗谱估计改进谱减法对河南方言语音进行降噪处理,并将得到的信号的子带频带方差进行端点检测.用Matlab进行仿真验证了此方法在端点检测中的准确性,该方法降低了河南方言语音处理的时间,为进一步提取河南方言语音识别特征参数提供了条件.
语音端点检测;多窗谱;频带方差;谱减法
语音端点检测中的语音信号处理非常重要,特别是在语音信号处理中精确的找出语音信号的起点和终点[1-2].端点检测的常用方法是将一段语音分成连续或交叠的帧,然后提取每个帧的对应参数,和预先设定的阀值作对比,从而判定语音的开始点和结束点[3-4].端点检测的有效性在某种程度上直接影响了语音识别的成败.
目前语音信号端点检测方法有两类:一类是基于模式识别的方法[5],但是该方法复杂度高,运算量大,在实时系统中很难使用;另一类是基于特征的检测方法[6-7],根据噪声和语音的不同特征来进行端点检测,本方法被广泛研究和使用.传统的端点检测方法有很多,但都有一定的局限性,例如,文献[8]提出了采用短时平均能量和短时过零率相结合的方法来检测语音的端点,此方法简单易行,处理没有噪声情况下的语音端点检测效果良好,但是实际处理中语音往往处于复杂的噪声环境中;为了提高抗噪性,文献[9]结合语音能量和倒谱特征进行端点检测,在稳定噪声环境中取得了较好效果,但是随着噪声的变化,倒谱特征提取也会受到干扰,在实际语音环境中,该方法也不能得到较好效果;文献[10]提出了用谱熵和谱能量结合的方法,提高了端点检测的正确率,但在低信噪比下效果仍不理想.
针对以上方法存在的问题,本文通过研究方差法的端点检测算法,分析其在低信噪比环境中检测准确率低的原因,提出了一种改进的谱减法和子带频带方差法相结合的语音端点检测算法.结合Matlab的仿真功能对河南方言进行端点检测验证,将Matlab实验仿真结果与子带频带方差法得到的结果进行对比分析,证明这种算法在较强噪声干扰的情况下也能较为准确的检测到语音的端点,此算法对河南方言语音端点检测具有一定意义.
语音增强的方法有很多种,包括谱减法[11,12],最小均方误差估计(MMSE)法[13]和信号子空间法[14]等语音增强方法.其中,谱减法语音增强方法因为算法简单、易于理解、便于计算,从而被广泛使用,是最有效的语音增强方法[15-16].基本谱减法的原理是假设语音信号为x(n),对x(n)进行加窗分帧处理,得到第i帧语音信号xi(m),对每一帧语音信号xi(m)进行离散傅里叶变换(Discrete Fourier Transform,DFT)后得到
(1)
其中xi(m)为语音信号x(n)加窗分帧后第i帧语音信号,每帧帧长为N.
谱减算法为
(2)
多窗谱估计是用多个正交的数据窗对同一数据序列分别求直接谱,然后取平均值,可以得到一个更小的估计方差[4,10].利用多窗谱估计实现谱减语音增强运算的步骤为:
1)带噪语音为x(n),加窗分帧后xi(m),相邻帧之间有重叠;
3)对分帧后的信号xi(m)进行多窗谱估计,得到多窗谱功率谱密度P(k,i)=PMTM[xi(m)];
6)利用谱减关系计算增益因子.公式为
(4)
语音和噪声在频谱域中的特性差异比较大,一般有话段的能量会随着频带有较大的变化,在共振峰处有较大的峰值,而噪声段能量数值相对较小,且在频带内较为均匀分布,频带方差基于这个特性进行端点检测.在频带方差中,每帧数据长N,FFT以后在正频率域内有(N/2+1)条谱线.基于均匀子带分离的频带方差算法将(N/2+1)条DFT后幅值谱线Xi={Xi(1),Xi(2),…,Xi(N/2+1)}分割成q个子带,即每个子带含有p=fix[(N/2+1)/q]条谱线,构成子带
(5)
其中XXi={XXi(1),XXi(2),…,XXi(q)},则
(6)
方差为
(7)
已知前导无话段的帧数,求出相应阈值,利用双门限判决的方法确定语音端点位置.
本文提出的算法思想是先对语音信号求频谱,用多窗谱的改进谱减法对语音信号进行减噪处理,然后计算处理后信号的子带频带方差,进行端点检测,算法流程见图1.
图1 算法原理框图
4.1仿真结果
在Matlab下对算法性能进行仿真实验.仿真中用到的纯净语音是在实验室安静环境下录制的,采样频率8 kHz,16比特量化编码wav语音格式,采用汉明窗进行分帧,取帧长200点,帧移80点.
实验语音源选取3组词汇,河南新乡和信阳2个地区,每个地区选取10人,每组词汇每人读2次,共120组数据,选取人员年龄均小于25岁,其中语音词汇组分别为“日头、蝉、蜻蜓、冻冰、天儿、懒蛤蟆”;“蓝天、白云、碧绿的大海”;“西屋、衣裳、碾场、堂屋、抽屉”共3组.
为了验证所提方法的抗噪能力,在实验中以一段纯净的男音(蓝天、白云、碧绿的大海)为例,分别加入信噪比为10,0,-5 dB,采用多窗谱估计改进谱减法对语音信号进行减噪处理,在不同信噪比(-5,0,10 dB)下,采用子带频带方差法与本文提出的算法进行比对实验.实验结果见图2~4.
图2为信噪比SNR=0 dB下,原始信号图、带噪波形图、子带频带方差波形图和本文提出算法波形图.由图可见用子带频带方差法进行端点检测,“海”字没有被检出,而用本文算法能准确提取;从图4也能明显看出在信噪比较高的情况下,针对河南方言,两种算法都能正常提取语音端点;从图3可以看出在信噪比SNR=-5 dB的情况下,本文算法仍能较好的提取语音端点.从图2~4也可以看出通过多窗口估计改进谱减法能明显提高信噪比,当初始信噪比为0 dB时,减噪后信噪比提高了9.47 dB,有利于语音信号端点的检测.
图2 波形对比图(SNR=0 dB)
4.2实验结果分析
语音样本,加入信噪比为0 dB的随机噪声,将本文提出的方法与子带频带方差法、文献[8]提出的双门限法、文献[9]提出的倒谱法和文献[10]提出的能熵比法对它们的检测性能和平均耗时进行对比分析.实验中检测性能的好坏用端点检测的准确率来衡量,首先对语音样本进行人工标注,以人工标注端点为标准,如果端点检测的前后端点和人工标准的前后端点差别都在10帧之内,则认为端点检测的结果是正确的,结果列于表1.准确率公式为:
图3 波形对比图(SNR=-5 dB)
图4 波形对比图(SNR=10 dB)
(8)
表1 检测准确率及平均耗时(SNR=0 dB)
从表1可以看出,当信噪比SNR=0 dB时,本文算法有较好的表现,准确率高于90%.由于采用多窗口估计改进谱减法有效地提高了信噪比,抑制了噪声对信号的影响,准确率明显高于子带频带方差法和文献[8~10]中所提到的算法,但是平均耗时也随之增大.
为了能更好的说明问题,统计了当信噪比分别为-5,0,5,10,15 dB时,上述5种语音端点检测方法的检测准确率的平均值,结果见图5.
图5 不同检测方法对比
从图5可以看出,在高信噪比条件下(SNR=15 dB以上),采用本文方法或者其他算法基本都可达到100%检测率;在低信噪比条件下(SNR=-5 dB),本文算法的准确率可达到84%,明显优于频带方差法和文献[10]提到的能熵比法,在此条件下文献[8]提到的双门限法基本失效;在0 dB条件下本文算法达到的准确率高于90%,而频带方差和文献[10]提到的算法在5 dB时才能达到检测率90%以上,本文算法对语音信号端点检测的准确率明显高于频带方差法及文献[8-10]提到的算法.
利用多窗谱方差小的特点,对功率谱进行估计,接着对语音信号进行谱减法语音增强,然后计算处理后信号的子带频带方差,进行端点检测.该方法在低信噪比环境下能很好地检测出河南方言语音的端点,在河南方言语音处理过程中,提高了语音处理质量,对河南方言语音识别中特征参数的提取提供了条件,但是本文算法提取端点时间增长,因此在端点检测方面需要一个良好的折中方案,这也是下一步研究的重点.
[1]聂惠娟,段世政.语音信号端点检测方法研究[J].新乡师范高等专科学校学报,2007,21(2):35.
[2]卓嘎,边巴旺堆.基于Matlab的藏语语音基音检测算法研究[J].现代电子技术,2015,38(10):20.
[3]周晓海,王民,毛力.一种低信噪比环境下的语音端点检测方法研究[J].现代电子技术,2009(10):119.
[4]刘悦,王晓婷.短时频域分形端点检测算法[J].微电子学与计算机,2015,32(9):81.
[5]SUH Y,KIM H.Multiple acoustic model-based discriminative likelihood ratio weigh-ting for voice activity detection[J].IEEESignalProcessingLetters,2012,19(8):507.
[6]YANG Xiao-ling,TAN Bao-hua.Comparative study on voice activity detection algorithm[C]//IEEEIntemationalConferenceonElectricalandControlEngineering,Wuhan:ZEEE Explor,2010.
[7]ZEDDELMANN D.A feature-based approach to noise robust speech detection[C]//ITG-Fachbericht236:Sprachkommunikation.Berlin:VDE Verlag Gmbh,2012:1.
[8]路青起,白燕燕.基于双门限两级判决的语音端点检测方法[J].电子科技,2012,25(1):13.
[9]BOU-GHAZALE S E,ASSALE H.A robust end-point detection of speech for noisy environments with application to automatic speech recognition[C]//IEEEInternationalConferenceonAcoustics,Speech,andSignalProcessing(ICASSP).Wiley:IEEE Press,2002:3808.
[10]李如玮,鲍长春.一种基于分带谱熵和谱能量的语音端点检测算法[J].北京工业大学学报,2007,33(9):920.
[11]BOLL S F.Suppression of acoustic noise in speech using spectral subtraction[J].IEEETransonAcoustics,Speech,andSignalProcessing,1979,27(2):113.
[12]BEROUTI M,SCHEARTZ R,MAKHOUL J.Enhancement of speech corrupted by acoustic noise[J].IEEETransonAcoustics,Speech,andSignalProcessing,1979,4:208.
[13]EPHRAIM Y,MALAN D.Speech enhancement using a mini-mum mean-square erro short-time spectral amplitude esti-mator[J].IEEETransonAcoustics,Speech,andSignalProcessing,1984,32:1109.
[14]EPHRAIM Y,VVAN TREES H L.A signal subspace approachfor speech enhancement[J].IEEETransSpeechAudioProcessing,1995,3:251.
[15]武鹏鹏,赵刚,邹明.基于多窗谱估计的改进谱减法[J].现代电子技术,2008(12):150.
[16]王路露,夏旭,冯璐等.基于频谱方差和谱减法的语音端点检测新算法[J].计算机工程与应用,2014,50(8):194.
(责任编辑孙对兄)
Study of endpoint detection algorithm in low SNR
HAN Fang,JIN Zong-xin
(School of Information Engineering,Huanghe Science and Technology College,Zhengzhou 450063,Henan,China)
Speech endpoint detection is important part of speech processing.In order to improve correctness of endpoint detection method based on spectrum variance in the case of low signal to noise ratio(SNR),this paper proposes a new speech endpoint detection algorithm based on combination subband variance with spectral subtraction,it reduces Henan dialect speech signal noise by using modified spectral subtraction for multi window spectral estimation and calculates its subband variance in endpoint detection.Matlab software is used to verify the accuracy of this method in the endpoint detection,the simulation results show that this algorithm can reduce the time of Henan dialect speech processing,and provide certain conditions for further extraction of Henan dialect speech recognition feature parameters.
speech endpoint detection;multitaper method;band variance;spectral subtraction
10.16783/j.cnki.nwnuz.2016.05.013
2015-12-09;修改稿收到日期:2016-01-07
国家自然科学基金资助项目(61101232);郑州市科技局科技发展计划项目(20140663);郑州市嵌入式系统应用技术重点实验室建设项目(121PYFZX177);郑州市教学质量工程资助项目(22LG201608)
韩芳(1981—),女,河南新乡人,副教授,硕士.主要研究方向为语音信号处理和计算机网络.
E-mail:58219506@qq.com
TN 912.3
A
1001-988Ⅹ(2016)05-0055-05