基于LPC倒谱的语音特征参数提取

2012-09-06 01:20唐晓进
山西电子技术 2012年6期
关键词:汉明声道阶数

唐晓进

(国营大众机械厂,山西太原 030024)

语音信号按Niquest采样频率采样后,得到数字化表示的语音信号。由于采样率一般在8kHz以上,经数字化后的语音信号,数据量很大,不便于有效、实时地分析处理,故需从中提取对语音识别有用的信息。特征提取就是完成这项工作,它对语音信号进行分析处理,去除无关紧要的冗余信息,获得影响语音识别的重要信息。在特征提取的众多方法中,由于倒谱特征所包含的信息比其它参数多,能较好地表征语音信号,本文选用LPC倒谱系数(LPCC)作为特征参数提取。

1 语音识别基本原理

语音识别本质上是一种模式识别的过程,其基本结构原理框图如图1所示,主要包括语音信号预处理、特征提取、特征建模、相似性度量和后处理等几个功能模块[1]。

图1 语音识别基本原理图

2 特征参数的选择

语音识别系统常用的特征参数有幅度、能量、过零率、线性预测系数(LPC)、LPC倒谱系数(LPCC)、线谱对参数(LSP)、短时频谱、共振峰频率、反映人耳听觉特征的Mel频率倒谱系数(MFCC)等。语音识别一般是语音特征参数模式的识别和比较,因此特征参数的选择以及提取,对于语音识别系统至关重要,是系统构建的基础[2]。

在语音识别问题中,选择语音特征参数的主要依据是:

(1)该特征能够充分正确地反映语音声道谱,以便识别模型中利用其特征。

(2)语音特征维数达到有效地压缩,将语音帧信号维数降低至特征参数的维数,使后继处理方便、快捷。

(3)特征参数的计算方法简便、高效,能在各种实时系统中实现。

3 线性预测倒谱系数(LPCC)的提取

依据语音信号产生的生理和数学模型可知,语音信号是音源激励分量与声道冲激响应、辐射模型三者相乘的产物。因此通过语音信号的倒谱分析可有效地分离激励成分和声道成分。

3.1 LPC倒谱系数(LPCC)

计算语音信号的倒谱使用根据AR模型对LPC参数进行递推,形成LPC倒谱的方法。线性预测分析方法是一种谱估计的方法,而且其声道模型系统函数H(z)反映了声道的频率响应和原始信号的谱包络,因此用lgH(z)做反Z变换即可求出其LPC倒谱系数(LPCC)[3]。

通过线性预测分析得到的声道模型为全极点模型,假设其系统函数为:

其中p为LPC线性预测器的阶数。设其冲激响应为h(n),则:

将式(1)代入并将其两边对z-1求偏导数,经变换后,可得到和ak之间的递推关系,从而由ak求出(n):

需要求h(n)的复倒谱(n),根据复倒谱定义,有:

其中ak为LPC系数,而p为其阶数。

(n)将变得很小,实际上没有更大的作用,反而使得运算量增大。一般取8~32阶时就可以较好地表征声道特征。

3.2 LPCC特征提取的实现

本设计先对语音信号进行预加重处理,然后进行加窗、自相关分析,最后提取出LPC倒谱系数[4],具体流程图如下:

图2 LPC倒谱系数提取过程

(1)预加重

用于消除辐射的影响和声门效应,进行高频提升,使信号的频谱变得平坦,保持在低频到高频的整个频带中,能用同样的信噪比求频谱,以便于频谱分析或声道参数分析。使用语句“for(j=1;j< Framelen;j++)pre_data[j]=original[j]-0.95*original[j-1]”对信号进行预加重处理,Framelen为定义的帧长。

(2)分帧

把语音信号分成帧长为N的短时语音帧序列。本设计中录音采样率为8kHz,N对应的时间为25ms。程序中用“#define Framelen 256”语句表示。

(3)加窗

对语音信号数字化、分帧处理后,就要进行加窗处理。语音信号分析中最常用的窗函数是矩形窗、海宁窗和汉明窗。因为汉明窗旁瓣最低,可以有效地克服泄漏现象,具有更平滑的低通特性,故本设计采用汉明窗来消除由分帧引起的信号边缘蜕变,汉明窗定义如下:

汉明窗

其中L为窗长。

使用函数 MultiHamming(float*pre_date,float*data),pre_date为预处理后的信号,data为加窗处理后的数据。

(4)自相关及LPC分析

加窗处理后的各帧信号之间的自相关计算为:

P为LPC分析的阶数。

信号经过LPC分析得到P阶的LPC系数。

根据Durbin递推算法求解LPC系数:

公式中,上标(i)表示第i次迭代,每次迭代都要重新更新 α1,α2…αi,直到i=p时,结束迭代,p为预测系数的阶数。

定义 AutoCorrelate(int n,float*s1,int m,float*a,int mark)函数来计算LPC系数(包括自相关系数),其中,n为帧长,m为阶数,s1为输入的信号数据,a即为LPC系数;定义 CepCoeffient(int m,int n,float*a,float*cepp)函数来计算LPC倒谱系数。

(5)LPC系数转换

由P阶的LPC系数转换得到Q阶的Cepstral系数。

倒谱定义为:

其中K为倒谱的阶数。

3.3 特征提取结果

对语音信号通过HMM(隐马尔可夫)识别网络进行LPCC特征参数提取,得出其分别在各个信噪比下的语音信号识别率,见表1。

因为低阶倒谱参数对整个频谱参数斜率很敏感,而高阶的倒谱参数对噪声很敏感,所以在实际计算时,要对倒谱进行加权,或称为倒谱提升。

其定义为:其中wm定义如下:

表1 语音信号识别率(识别网络:HMM(隐马尔可夫)神经网络)

4 结论

本设计针对特征参数提取的各种方法,选用LPCC进行特征提取。通过对语音信号进行预加重、分帧、加窗、自相关分析,而后提取出的LPC倒谱系数,对语音信号的分析处理,去除对语音识别无关紧要的冗余信息,获得影响语音识别的重要信息有重要作用。

[1]张刚,张雪英,马建芬.语音处理与编码[M].北京:兵器工业出版社,2000.

[2]王让定,柴佩琪.语音倒谱特征的研究[J].计算机工程,2003(8):31-33.

[3]叶明,顾利民.LPC倒谱参数的说话人特征分析[J].南京航空航天大学学报,1994,6(12):797-804.

[4]赵力.语音信号处理[M].北京:机械工业出版社,2003.

[5]易克初.语音信号处理[M].北京:国防工业出版社,2000.

猜你喜欢
汉明声道阶数
9.7.8声道、造价250余万 James极品影院赏析
关于无穷小阶数的几点注记
确定有限级数解的阶数上界的一种n阶展开方法
为发烧需求打造的11声道后级 Orisun(傲力声)OA-S11
实现从7.2到11.2声道的飞跃 Onkyo(安桥)TX-RZ830
媳妇管钱
一种新的多址信道有效阶数估计算法*
汉明距离矩阵的研究
关于动态电路阶数的讨论
考虑覆盖率下时差式超声流量计的平面声道模型*