一种提高语音特征参数稳健性MLMCC算法的研究

2014-04-29 00:50杜文龙
智能计算机与应用 2014年4期

杜文龙

摘要:语音特征参数的提取是语音识别的前提和基础,特别是在噪声环境中,如何寻找对噪声不敏感的语音特征即是目前研究的一个难点和重点。本文在对LPCC和MFCC两种参数深入分析的基础上,分析一种MLMCC特征参数提取方法,实验证明具有良好的抗噪能力。

关键词:MFCC倒谱参数; LPCC倒谱参数; MLMCC倒谱参数

中图分类号:TP391 文献标识码:A文章编号:2095-2163(2014)04-0094-03

Abstract:Extraction of speech feature is the premise and basis of speech recognition, especially in noise environment, how to find the speech feature insensitive to noise is one of the research emphases and difficulty. Based on the analysis of two kinds of parameters such as LPCC and MFCC, the paper proposes extraction method for MLMCC characteristic parameters, and the experiment proves that the method has have good anti noise ability.

Key words:MFCC Parameter; LPCC Parameter; MLMCC Parameter

0引言

伴随计算机技术的快速发展,针对语音识别的技术研究已经取得了实质性的突破,大量成功的语音识别系统也相继问世。但其中多数类似系统都仅适合于“干净”的语音,而在实际应用中,语音却会受到各种环境因素[1],诸如背景噪声、信道畸变等的影响,这些都将大大降低识别系统的性能。语音识别系统的稳健性是指当语音的音素特性、分割特性或声学特性发生变化导致声音质量下降时,而在测试和训练环境中,语音识别系统却仍然保持较高识别率的性质。在其对应研究中,环境噪声对语音的声学特性影响较大,也是该领域研究的重点,有人将该研究称为“抗噪声语音识别”。随着语音识别技术进入实际应用,稳健语音识别系统,即能在复杂且动态时变的环境中保持较好识别率的语音识别系统的开发变得越来越重要。

1MFCC倒谱参数(MFCC Parameter)

人的听觉系统,在没有人的主观倾向影响的情况下,可以说是一个比较好的话者识别系统,具有很高的准确性。因此,模拟人的听觉,从而建立自动语音识别系统的思路,既是可行的,又是完全必要的。MFCC[2] (Mel Frequency Cepstrum Coefficient)即美尔频率倒谱参数正是基于人的听觉系统的一种参数。MFCC计算过程[2]如图1所示。

5实验结果

本实验利用HTK[5](HMM ToolKit)搭建基于LPCC和MFCC的HMM语音识别系统,然后利用此平台进行测试与比较。训练和识别主要使用了TiDigits数据库,由Texas Instruments公司设计, 有 326 人(111个成年男性,114个成年女性,50 个男孩,51个女孩)参与其中,每人77个数字串发音,本论文实验中训练使用TiDigits数据库15个说话人的500句话,识别测试使用库中与训练无关的4个人的100句话,语音数据的采样率为16KHz,采样比特为 16bit。同时也使用了Aurora2数据库,主要由TiDigits数据库演变而来,可用于抗噪语音算法的测试。主要特征是16阶MFCC_W_D参数,其中静态参数阶数为12,动态参数阶数为4, Mel滤波器的个数为26,其低频截止频率为 100Hz,高频截止频率为3 800Hz;16阶LPCC_W_D参数,其中静态参数阶数为12,动态参数阶数为4;语音帧长度16ms,帧间重叠为8ms;预加重系数为0.97。

基线系统使用了12个HMM全词模型, 每个HMM采用了状态从左至右无跳转的拓扑结构,其中第一个和最后一个状态分别为起始状态和终止状态,其余状态为特征输出状态,统计特性为由高斯分量叠加拟合而成的连续概率密度,每个高斯分量的协方差矩阵采用了对角化矩阵,即各维特征在高斯分量级上是互不相关的。在 TiDigits 数据库训练中,通过3次分段K平均算法来获得较好的模型参数初始值,最后通过6次EM(Expectation Maximization)最大期望算法迭代使模型收敛至初始值附近的局部最优点;Aurora2 数据库训练过程为:

第一步,是对所有的训练数据进行统计,获得整体均值和方差,并将上述参数作为原型模型的初始值进行3次EM重估迭代;

参考文献:

[1]何勇军,付茂国,孙广路.语音特征增强方法综述[J].哈尔滨理工大学学报,2014(2):19-21.

[2]庞程, 李晓飞,刘宏. 基于MFCC与基频特征贡献度识别说话人性别[J].华中科技大学学报(自然科学版), 2013(s1):108-110.

[3]王彪.基于LPCC参数的语音识别系统[J]. 电子设计工程,2012(7):18-20.

[4]田莎莎,唐菀,佘纬.改进MFCC参数在非特定人语音识别中的研究[J]. 科技通报, 2013(3):139-143.

[5]孙一鸣,刘葳.基于HTK的日语连续语音识别系统的建立与研究[J].计算机光盘软件与应用, 2013(21):86-88.