朱宇轩
(西华大学,四川 成都 610039)
基于Mel频率倒谱系数的说话人识别研究
朱宇轩
(西华大学,四川 成都 610039)
摘要:由于人耳对声音频率的感知不是线性的,通过短时傅里叶变化得到的语音信号短时谱是按实际语音频率分布的,但符合人耳听觉特性的频率分布是按照临界频带分布的。因此按实际频率分布的频谱作为语音特征时,由于它不符合人耳的听觉特性,将会降低说话人识别系统的识别性能。
关键词:频率倒谱;语音特征
1Mel频率倒谱系数(MFCC)
MFCC是在频谱上采用滤波器组的方法计算出来的,将语音频率划分成一系列的三角形滤波器序列,这组滤波器在频率的坐标上是等宽的。这是因为人类在对1000Hz以下的声音频率范围的感知遵循近似线性的关系;对1000Hz以上的语音频率范围的感知不遵循线性关系,而是遵循在对数频率坐标上的近似线性关系。
Mel频率倒谱系数(MFCC)是使用傅立叶分析提取的语音特征参数,是类似于指数的形式,Mel频率可以用如下公式表示:
Mel(f)=2595lg(1+f/700)
(1)
式中:f是以Hz为单位的实际频率。对频率轴的不均匀划分是MFCC特征区别于普通倒谱特征的最重要的特点。语音频率与Mel频率的对应关系如图1所示。
2频率倒谱系数计算
根据Zwicker的工作,Mel频率的增长是与临界带宽的变化保持一致的,以Mel为单位的频率刻度划分与临界带宽在细节上并不精确相等,但这个差别是很小的。
(1)将信号进行分帧,预加重和加汉明窗处理,然后进行短时傅里叶变换并得到其频谱。
(2)求出频谱平方,即能量谱,并用M个Mel带通滤波器进行滤波;由于每一个频带中分量的作用在人耳中是叠加的,因此将每个滤波器频带内的能量进行叠加,这时第k个滤波器的输出功率谱x′(k)。
(3)将每个滤波器的输出取对数,得到相应频带的对数功率谱;并进行反离散余弦变换,得到L个MFCC系数,一般L取12~16个左右。得到MFCC系数为
(2)
它将频谱转化为基于频率的非线性频谱,然而转换到频谱域上,由于充分考虑了人耳的听觉特性,在一定程度上模拟了人耳对语音的处理特点,而且没有任何提前假设,MFCC 参数具有良好的识别性能和抗噪能力,在信道噪声和频谱失真的情况下具有较好的稳健性。但是计算量和计算精度要求较高。
3MFCC中的能量信息和动态参数
短时能量是说话人识别中一个重要的参数,由于短时能量对系统的识别性别有一定的提升作用,因此可以在说话人语音特征中加入能量参数作为特征向量的一维分量。
假定语音段中长度为N的一帧{si(n),n=1,2,…,N},计算该帧的短时对数能量的公式如下:
(3)
为了减小不同语音段不同语音帧的能量差别,使其能够与前面的倒谱特征系数一起作为向量计算,需对其进行归一化处理。
(4)
前面计算得到的MFCC倒谱系数为语音信号的静态特征参数,它只表征了语音谱的即时信息。研究发现,语音倒谱的动态信息包含了与说话人有关的信息,可以将其用于提高说话人识别系统的识别率。
语音信号的倒谱动态信息表示了语音特征参数随时间变化的规律。语音倒谱特征随时间的变化规律可由下式表示:
(5)
4总结
在实际的应用中窗函数h(k)一般采用矩形窗,k为常数,一般取2,这样的动态参数就是当前帧的前两帧和后两帧的线性结合。用同样的方法对一阶动态参数进行计算就得到了二阶MFCC参数。在得到倒谱系数的动态信息后,一般的做法是将原始特征与动态特征参数结合,组成高维特征矢量作为训练和识别的一帧语音信号特征参数。实验表明,使用MFCC及其一阶和二阶差分参数作为特征可显著提高说话人识别系统的性能,它在一定程度上模拟了人耳对语音的处理特点,并具有一定的抗噪性能,进一步地表示了说话人语音背后的隐性个性差异。
参考文献:
[1]徐波.语音识别技术与应用的发展趋势.中国计算机学会,2008,2:54~57.
[2]李霄寒.基于概率统计模型的说话人确认的研究[D].中国科学技术大学,2003.
[3]韩纪庆,张磊,郑铁然.语音信号处理[M].北京:清华大学出版社,2004,10~50.
作者简介:朱宇轩,男,汉族,四川南充,工人,大学本科,西华大学,研究方向:电子、计算机。
中图分类号:TN912
文献标志码:A
文章编号:1671-1602(2016)10-0014-01