朱晓晶,侯旭初,崔慧娟,唐昆
(清华大学电子工程系清华信息科学与技术国家实验室,北京100084)
基于LPCC和能量熵的端点检测❋
朱晓晶,侯旭初,崔慧娟,唐昆
(清华大学电子工程系清华信息科学与技术国家实验室,北京100084)
为提高语音端点检测系统在低信噪比下检测的准确性,提出了一种基于倒谱特征和谱熵的端点检测算法。首先,根据分析得到待测语音帧的倒谱特征量,然后计算该特征量分别在通过训练得到的语音和噪声的高斯混合模型下的似然概率,通过两者概率的比较作出有声无声初判决;联合能量熵端点检测结果得到最终判决,最后通过Hangover机制最大限度的保护了语音。实验结果表明,此方法改善了能量熵端点检测法在babble噪声下的劣势,且在不同噪声环境下均优于G.729 Annex B的性能。
语音信号处理;话音端点检测;谱熵;线性预测系数;倒谱系数;高斯混合模型
端点检测算法的研究在语音信号处理领域中一直有着重要的意义。作为语音信号预处理技术的一部分,语音端点检测被广泛应用在语音增强、语音识别、语音编码等系统中。传统的门限比较法由于门限边界的更新规则难以确定,对噪声变化性能不好,从而导致判别准确率的降低。许多新的特征被提出,如基于多特征联合的方法[1]、基于频域能量的特征[2]、基于差分能量和差分过零率的特征[3]、基于高阶统计量的特征[4]等,然而以上特征在噪声很强的环境中,尤其在群口噪声背景下运用效果都不够理想。已有的能量谱熵法以能量弥补熵在babble下的不足,性能稍有改善。考虑到模型匹配方法[5]对时变噪声具有较好的适应能力,而且倒谱特征能很好地表征声道特性,本文提出了一种倒谱特征和能量熵的端点联合检测算法。大量的实验结果表明,在不同噪声环境和信噪比下,算法的性能均优于G. 7299 Annex B的性能,尤其群口噪声背景下性能改善显著。
2.1 LPCC参数的提取[6]
在提取特征参数之前,所采集的信号经过预处理(一般包括预加重、加窗、分帧)之后,通过线性预测(Linear Prediction Coefficient,LPC)分析得到声道模型的系统函数为
式中,p是LPC分析的阶数,ak为线性预测系数(k=1,2,3,…,p),A(z)称为逆滤波器,其冲激响应为h(n)。由式(1)可知,LPC的分析就是求解p阶线性预测系数ak(本文通过自相关Durbin法求解)。根据倒谱的定义,对式(1)两边取对数后两边关于z求导,有:
令式(2)左右的常数项和z-1各次幂的系数分别相等,得到^h(n)和ak之间的递推关系为
按式(3)直接从预测系数求得倒谱^h(n),令C(n)=^h(n),便得到倒谱特征的统一表示式。
2.2 能量熵特征计算[7]
语音抽样频率为8 kHz,帧长为25 ms,进行256点的FFT变换。将每帧信号分为13个子带,选取频谱分布在250~3 500 Hz并且能量不超过该帧总能量90%的子带,计算经过语音增强后的子带能量以及各子带信噪比,根据各子带信噪比的不同调整其在整个谱熵计算过程中的权重,然后平滑谱熵,以最终的谱熵作为端点检测的依据。
每一个频带的能量为
式中,Gk加权因子,Rk是对应子带的相应的Fourier变换第k个幅度值。
相应的概率密度函数为
为了消除一些集中在特殊频率的噪声,可以限定Pi<0.9,即采用下述约束关系:
第i帧的熵可以定义为
2.3 高斯混合模型的原理
用高斯混合模型(Gaussian Mixture Model,GMM)进行检测的原理[8]是对语音和噪声分别建立一个概率模型,该模型中的参数是由语音和噪声的特征参数分布决定的。我们采用EM算法来对模型中的参数进行估计,这样得到了GMM模型。
特征矢量x对不同状态的高斯概率密度函数可以写为
式中,μi是状态平均矢量,Σi是状态协方差矩阵,D是特征矢量的维数。平均矢量μi是特征矢量x的元素的期望值,而协方差矩阵Σi代表着特征矢量元素的互相关(非对角线项)和方差(对角线项)。模型的参数集合λ就包括了权重、均值和协方差,即:
对于某个特定的模型(用λ表示)而言,特征矢量在所有M(M为高斯混合模型中分量的个数)个状态中出现的总概率是由M个多维高斯分布加权叠加得到的,即:
2.4 GMM的参数估计——EM算法
EM(Expectation-Maximization)算法最初对模型参数初始化,然后利用最大似然估计原则,在迭代中改善模型的参数估计。在每次迭代中增加模型估计λ与观测特征矢量的匹配概率[9],最大似然地计算模型参数,并不断重复直到局部最大,即每次迭代时,有p(x|λk+1)>p(x|λk),其中k是迭代的次数。可以证明,每一次迭代都增大或不改变似然度(当得到局部最值时,似然度值将不会改变)。
EM算法在迭代中改善模型的参数估计,通过不断的迭代改进,从而能最好地匹配观测数据。假设训练特征矢量序列为X={x1,x2,x3,…,xT},最大期望下所得到的GMM重估公式为[9]
实现中,认为模型中每类矢量各维相互独立且服从正态分布,从而将原始协方差矩阵简化为对角矩阵,使运算得到简化。
GMM进行识别训练时,必须确定GMM模型的高斯混合分量个数,考虑到计算量和复杂度,算法中高斯混合分量个数设为6,且使用LBG法[10]进行参数初始化。
2.5 两种特征端点检测分析
能量熵特征是目前用来进行端点检测的单特征中最为普遍也是最好的,但是为了能够较快地跟踪背景噪声的变化,门限需要不断更新。在传统的端点检测算法中,只在噪声帧进行更新,如果噪声能量突然升高或者降低,则这种方法的检测结果会一直错下去;基于倒谱特征的模型匹配法为了解决训练环境和测试环境的不匹配,会动态调整模型的参数,即使在噪声发生剧烈变化时,仍能很快地适应,从而可以在一定程度上减少这种错误。并且,由于bab
ble的谱熵和语音的谱熵近似,能量谱熵法以能量弥补熵在babble下的不足,性能仍然不够理想;而倒谱特征取合适的阶数(8~12)后可较好地表征声道特性,是话音识别最有效的一个特征[6],用来进行端点
检测时能有效地将目标人声从一堆人声中鉴别出来。但是用LPCC作为分类特征,用来进行端点检测时会因为信号帧与噪声帧的信息特征相交区域较大,误剪率会较大。两者在单独运用时,各有其不足,联合运用时,可以优势互补。
2.6 算法流程描述
如图1所示,算法实现的流程为:
(1)用GMM模型对语音和背景噪声分别建立统计模型;
(2)根据分析得到待测语音帧的LPCC特征量,然后计算该特征量分别在通过训练得到的语音和噪声的高斯混合模型(GMM)下的似然概率,通过比较做出有声无声初判决;
假设基于LPCC特征矢量x,其为语音和噪声的后验概率分别为P(s|x)和P(n|x)。初判决的规则是,如果P(s|x)>P(n|x),判为语音,VAD=1;反之,为噪声,VAD=0。
由贝叶斯准则得到:
式中,P(s)和P(n)为语音和噪声的先验概率,预先设定为2/3和1/3(为了最大限度保护语音)。P(s|x)和P(n|x)的计算就转换成p(x|s)和p(x|n),即似然概率的计算;
(3)联合能量熵端点检测结果得到最终端点判决。其中为了尽可能最大限度地保护语音,采用Hangover机制以防止语音末尾部分因为能量偏低导致的误判(切音)。
实验语料:将标准语音库的语音材料与NOISEX-92噪声库的噪声采样材料(WHITE、PINK、babble噪声、f16噪声、m109噪声)根据SNR合成作为测试材料,信噪比从-5~15 dB,语音8 kHz采样、16 bit量化。
测试方法:将VAD函数判决结果以文件形式输出,观察输出语音何时是语音帧何时是非语音帧,并与源文件进行比较,将错误判决的帧数计算出来。其中,错误帧数=语音错判为噪声的帧数+噪声错判为语音的帧数,准确率=((总帧数-错误帧数)/总帧数)×100%
3.1 不同噪声不同信噪比下测试结果
在4种不同的噪声环境(白噪声、粉色噪声、群口噪声、战斗机噪声),在-5~15 dB的信噪比范围内,对本文所提出的算法进行了验证,算法的性能如图2所示。
3.2 不同噪声背景下与G.729 Annex B性能比较
从图3可以看到,在4种噪声背景下,不同的信噪比下,算法均显现了比G.729算法优越的性能。
3.3 不同噪声背景下与能量谱熵法性能比较
从图4可以看出,在white噪声、f16噪声和m109噪声下,算法与能量谱熵法性能相近。在babble噪声下,与G.729和能量谱熵法比较,算法性能最优。
群口噪声为众人说话噪声,端点检测时要从一堆人声中检测出特定人声,一直都是难点。从G.729的性能曲线看出,随着信噪比的降低,效果不佳;由于babble的谱熵和语音的谱熵近似,能量谱熵法以能量弥补熵在babble下的不足,性能稍好;本算法采用的倒谱特征是话音识别最有效的一个特征,表现出了比能量谱熵法更为优越的性能。
本文提出了一种基于LPCC和能量熵的端点联合检测算法,通过利用GMM性能好、复杂度小且方法简单的特点以及LPCC能够很好地表征声道特征且运算量不的优点,可以更好地将语音和噪声识别开来。实验结果表明,该算法性能优越,且有效改善了已有的能量熵法在babble噪声下的劣势,能够实时应用。但其在实现前需要积累很多先验知识,当训练数据有限时,它可能不能充分反映语音或噪声的特性,这是今后需要进一步研究的问题。
[1]徐大为,吴边,赵建伟,等.一种噪声环境下的实时语音端点检测算法[J].计算机工程与应用,2003,24(1):115-117.
XU Da-wei,WU Bian,ZHAO Jian-wei,et al.A real time algorithm for voice activity detection in noisy environment[J].Computer Engineering and Application,2003,24(1):115-117.(in Chinese)
[2]Junqua J C,Mak B,Reaves B.A robust algorithm for word boundary detection in the presence of noise[J].IEEE Transactions on Speech and Audio Processing,1994,2(3):406-412.
[3]Beritelli F,Casale S,Ruggeri G,et al.Performances evaluation and comparision of G.729/AMR/fuzzy voice activity detectors[J].IEEE Signal Processing Letters,2002,9(3):85-88.
[4]Pencak J,Neloson D.The NP speech activity detection algorithm[C]//Proceedings of 1995 International Conference on Acoustics,Speech and Signal Processing.Detroit,MI,USA:[s.n.],1995:381-384.
[5]Reynolds D,Rose R.Robust text-independent speaker identification using Gaussian mixture speaker models[J].IEEE Transactions on Speech and Audio Processing,1995,3(1):72-83.
[6]韩纪庆,张磊,郑轶然.语音信号处理[M].北京:清华大学出版社,2004:109-110.
HAN Ji-qing,ZHANG Lei,ZHENG Yi-ran.Speech Signal Processing[M].Beijing:Tsinghua University Publishing House,2004:109-110(in Chinese)
[7]李晔,张仁智,崔慧娟,等.低信噪比下基于谱熵的语音端点检测算法[J].清华大学学报(自然科学版),2005,45(10):1397-1400.
LI Ye,ZHANG Ren-zhi,CUI Hui-juan,et al.Voice activity detection algorithm with low signal-to-noise ratios based on the spectrum entropy[J].Tsinghua University(Sci&Teacj),2005,45(10):1397-1400.(in Chinese)
[8]Reynolds D A,Quatieri T F,Dunn R B.Speaker Verification Using Adapted Gaussian Mixture Models[J].Digital Signal Processing,2000,10(1):19-41.
[9]Dempster A D,Laird N M,Rubin D B.Maximum likelihood from incomplete data via the EM algorithm[J].Journal of the Royal Statistical Society,1977,39(2):1-37.
[10]Gish H,Schmid M.Text-Independent Speaker Identification[J].IEEE Signal Processing Magazine,1994,11(4):18-32.
ZHU Xiao-jing was born in Jiangsu Province,in 1979.She is now a graduate student.Her research interests include speech processing and speech encryption.
Email:qingtengdhx@126.com
侯旭初(1985-),女,河北人,清华大学电子工程系研究生,主要研究方向为语音信号处理;
HOU Xu-chu was born in Hebei Province,in 1985.She is now a graduate student.Her research direction is speech signal processing.
崔慧娟(1945-),女,辽宁人,清华大学电子工程系教授,主要研究方向为信源编码、语音编码、多媒体通信系统等;
CUI Hui-juan was born in Liaoning Province,in 1945.She is now a professor.Her research interests include signal source coding,speech coding and multimedia communication system.
唐昆(1945-),男,江苏人,清华大学电子工程系教授,主要研究方向为数字通信、语音编码、自适应信号处理等领域。
TANG Kun was born in Jiangsu Province,in 1945.He is now a professor.His research interests include communication,speech coding and adaptive signal processing.
Voice Activity Detection Based on LPCC and Spectrum Entropy
ZHU Xiao-jing,HOU Xu-chu,CUI Hui-juan,TANG Kun
(National Laboratory of Information Science and Technology,Department of Electronic Engineering,Tsinghua University,Beijing 100084,China)
In order to improve the accuracy of Voice Activity Detection(VAD)in low SNR noisy environments,an algorithm based on Linear Predictive Cepstral Coefficient(LPCC)and energy entropy is proposed.First,the LPCC extracted from the input speech is imported into speech model and noise model,both of which are Gaussian Mixture Model(GMM)separately,to calculate the likelihood ratio of speech to noise.The first-stage VAD decision is made based on the likelihood ratio.Then the spectrum entropy is applied to the second decisionmaking stage.Finally,a mechanism called Hangover is used to better protect the speech.Experiment results show that the new algorithm can compensate the drawbacks of spectrum entropy method in babble noisy environment.Furthermore,it outperforms the G.729 Annex B under various noisy environments.
speech signal processing;voice activity detection(VAD);spectrum entropy;linear prediction coefficient(LPC);linear predictive cepstral coefficient(LPCC);Gaussian mixture model(GMM)
The National Natural Science Foundation of China(No.60572081)
TN912.3
A
10.3969/j.issn.1001-893x.2010.06.009
朱晓晶(1979-),女,江苏人,硕士研究生,主要研究方向为语音处理、语音加密;
1001-893X(2010)06-0041-05
2010-03-04;
2010-04-23
国家自然科学基金资助项目(60572081)