基于多特征的语音端点检测技术研究

2010-09-13 03:44何彬柳平王琦程行甫韩林呈
通信技术 2010年11期
关键词:端点特征参数语音

何彬, 柳平, 王琦, 程行甫, 韩林呈

(装甲兵工程学院信息工程系,北京,100072)

0 引言

语音端点检测(VAD)是语音处理的一个重要环节,在自动语音识别、说话人认证、回声消除、语音编码等方面得到了广泛的应用。它是一个典型的分类问题[1],其基本思想是根据提取的语音信号特征,从一段带噪语音信号中分离出语音段和无语音段,并确定语音的开始点和结束点。传统的语音端点检测算法都是针对实验室安静环境,直到近年来,噪声环境下的语音端点检测才开始研究,许多算法被相继开发,如:基于能量和过零率检测方法,基于LPC倒谱距离的算法,基于自相关系数、基音检测等各种语音特征的算法,基于自适应模型的算法,基于倒谱分析的算法等。不同的算法有不同的延时、敏感度和运算量,这些在实验室环境下己经获得了很好的效果。但是当存在背景噪声的情况下,传统的检测算法都会因为受到污染而造成严重的误判和漏判。

1 语音信号的特征参数

语音信号是一种典型的非平稳信号,其特性是随时间变化的。但在 10~30ms内其频谱特性可近似看作不变[2],因此可采用短时平稳过程的分析处理方法。语音特征参数包括短时能量、短时过零率、频带方差、谱熵、MFCC[3]等,语音特征参数提取前通常进行信号的预处理,包括:防混叠滤波、模数转换、分帧、预加重和加窗。

(1)短时能量

短时能量是基于帧进行的,设 x(n)为输入的语音信号,则第 i帧的短时能量 Ei(N为帧长)为:

(2)短时过零率

短时过零率表示一帧语音信号中波形穿越横轴的次数,对于数字化的语音信号,就是表示样本改变符号的次数。第i帧语音信号的短时过零率 zi定义为(sgn x(n)是符号函数)。

(3)频带方差

语音噪声信号的频谱特性差异较大,语音段的能量及频带的变化一般较大,而噪声段能量相对较小,且频带变化较为平缓。频带方差即是基于这一特征定义的特征参数。设第 i帧语音信号为 xi(n),对xi(n)进行傅里叶变换可得频谱为:

这里的 E是每帧语音信号的语音谱幅度的平均值,D是每帧语音信号中每个点的语音谱幅度与均值之间的方差。

(4)谱熵

设有一帧语音信号,对其求解FFT,则每个频率分量的归一化谱概率密度函数为:

综上所述,作为一名高校数学教师,应不断提升自身数学文化素养,将传统的高职数学教育提升至数学文化教育层面,以提高学生数学素养,为学生可持续发展奠定良好基础。实践证明,在数学文化背景下学习数学,对学生情感态度、思维能力和价值观等都有积极而深远的影响,使培养的学生不局限于所学专业技能,充分发挥自身能力和智慧,主动适应环境,更好地融入经济社会的大潮中。

其中 pi是某频率分量 fi的概率密度。X(fi)表示频率 fi处的振幅,n是帧长。因此,第k帧的语音谱熵定义式(6)所示:

(5)MFCC

该参数利用了听觉原理和倒谱的解相关特性,从人耳对频率高低的非线性心理感觉角度,反映了语音短时幅度谱的特征。根据 Zwicker的结论[4],临界频率带宽随着频率的变化而变化,并与Mel频率增长一致。1 000 Hz以下呈线性分布,1 000Hz以上呈对数增长。具体关系为:

MFCC的计算过程如下:

①对每帧信号求 N点傅里叶变换,取模的平方得到离散功率谱 S(n)

②计算 S(n)通过 M个带通滤波器 Hm(n)后得到的功率 Pm,m=0,1,…,M-1:

③计算 Pm的自然对数,得到 Lm,m=0,1,…,M-1:

④计算 L0,L1,…,LM-1的离散余弦变换,将结果变换到倒谱域,得到 Ck,k=0,1,…,M-1:

⑤公式中M为 MFCC的阶数,舍去代表直流成分的C0,取 C1,C2,…,Ck作为 MFCC系数。

2 基于多特征融合的模糊判决二次搜索方法

2.1 汉语发音及其特点

人类的发声过程是由于肺部的收缩,压迫气流由支气管经过声门和声道引起音频振荡而产生,而汉语发音又具有自己独特的规律。汉语的音节由声母(清辅音,浊辅音,零声母),韵母(元音,鼻辅音)和声调组成。汉语浊辅音少,多是清辅音,元音全是浊音。所以汉语发音一般以辅音开头,以浊音结束。浊音具有明显的准周期性[5],而辅音与噪声的特性相近似,在低信噪比条件下,难以区分辅音与噪音。这里所提方法正是基于这种考虑。

2.2 方法的提出

现有提出的语音特征参数,在特定的条件下有其各自的优势。能量过零率检测算法实现简单,但混有噪音时不能准确检测;谱熵法在 Volvo噪声下效果很好,但在 babble噪声中效果最差;频带方差检测对于信噪比较大(如 SNR>10)的语音文件能够检测到准确的起止点,对安静环境下的语音文件却不能得到令人满意的结果;倒谱方法能很好反映语音信号的特征,但对信噪比比较敏感,受噪声影响大。因此,如果各特征参数能互补应用,选择合适的决策机制,则能得到更好的性能。结合汉语发音的特点,提出了多特征融合的模糊判决二次搜索语音端点检测方法。

端点检测流程如图 1所示。

图 1 端点检测流程

步骤如下:

①假定语音开始的前 10帧为无语音段帧,分别计算各帧的语音特征参数值 Ei、Zi、Di、Hi、Ci,得到前 10帧特征参数的平均值 E0、Z0、D0、H0、C作为初始值;

②端点初判。根据欧拉公式计算Mel倒谱距离d(i):

采用类似于短时能量检测法所使用的双门限判决准则,设定两个门限TH1和 TH2,且 TH1>TH2,(其值为经验值,TH1]0.25,TH2]0.15)并利用下面两个公式进行判决:

如果当前帧的 d(i)值大于 TH1,记录该帧的位置为start,然后计算后面各帧的 d(i),若后面有连续 3帧的值都大于 TH2,则认为start为语音的起点,否则继续搜索。终点的检测可类比起点的检测方法得到;

③加权模糊判决。将粗略判断的语音帧的起点、终点位置分别向前和向后移动15帧和 10帧,设定频带方差、谱熵、能量、过零率在二次判决中的权重分别为wi,(i=0,1,2,3),其值由实验得到,取值分别为 0.4、0.2、0.1、0.3。计算各帧特征参数,并计算出与初始特征参数值的归一化距离D,并依据隶属函数 μA(x)分别判定该帧信号属于语音帧的隶属度μ(i),i=0,1,2,3。

定义一个新的特征参数W_DEZH:

设定端点检测门限值 ThB、ThE,其值为经验值,由实验得到,这里取值分别为 0.75、0.85。若有连续 3帧特征参数值都大于门限值,如式(17)所示,则最初大于门限值的这帧确定为语音的起点:

从后向前搜索,若有连续 3帧特征值都小于门限值,如式(18)所示,则最初小于门限值的这帧确定为语音的起点:

④噪声自适应。若某帧信号被判断为噪声帧,则对各音频参数的初始值进行更新。设某个语音特征参数为Xn,对应的特征值为 xn,采用 5帧平滑的方式,找到它前四帧,其特征值分别为 xn-4、xn-3、xn-2、xn-1,则平滑后的特征参数值为:

3 基于多特征融合的模糊判决二次搜索算法性能测试

通常对语音端点检测的效果评价两种基本的方法:①以手工标识为标准来判断语音端点检测的准确性;②将语音端点检测方法应用于语音识别系统,以最后语音识别系统的识别准确率作为判断端点检测方法准确性的依据。采用手工标识端点的方法来评价端点检测方法的优越性。语音端点检测的准确率(R)定义为:R=准确的端点数/总的端点数。为了检测这里方法的准确率,与其他检测方法比较,表 1是在不同信噪比条件下各端点检测方法的实验结果。该实验数据采用 16 K采样,16 bit编码,帧长 256,帧移 128。语音样本取自 863语音数据库,噪声来源于 NOISE-92噪声数据库,带噪语音由纯净语音混合白噪声得到。实验结果表明,提出的端点检测方法即使在-5 dB的噪声环境下仍然有较高的端点检测正确率。

表 1 现在方法与其他方法在不同信噪比条件下检测正确率比较

4 结语

由于低信噪比条件下传统检测方法存在的局限性,根据噪声和辅音特性的相似性特点,结合语音信号的多个特征参数,引入模糊判决规则,提出了基于多特征融合的模糊判决二次搜索算法,经实验表明,即使在低信噪比条件下,该方法仍然具有较高的端点检出率。

[1]SAHAR E B G,KHALED A.A Robust EndPoint Detection of Speech for Noisy Environments with Application to Automatic Speech Recognition[J].IEEE,2002(04):3808-3811.

[2]易克初,田斌,付强.语音信号处理[M].北京:国防工业出版社,2006.

[3]GANG XU,BO TONG.Robust Endpoint Detection in Mandarin based on MFCC and Short-Time Correlation Coefficient[C].China:[s.n.],2009:113-115.

[4]周娜,赵振东,张莹.背景噪声下的端点检测算法研究[J].通信技术,2008,41(07):239-241.

[5]沈红丽,王鹏.一种改进的基于倒谱特征的带噪语音端点检测方法[J].通信技术,2009,42(02):156-189.

猜你喜欢
端点特征参数语音
非特征端点条件下PM函数的迭代根
冕洞特征参数与地磁暴强度及发生时间统计
不等式求解过程中端点的确定
魔力语音
基于MATLAB的语音信号处理
基于交通特征参数预测的高速公路新型车检器布设方案研究
基于MQ3与MP3的价廉物美的酒驾语音提醒器
对方正在输入……
基于PSO-VMD的齿轮特征参数提取方法研究
基于视频的车辆特征参数算法研究