周春晖++卢荣++潘姿蓉
摘 要
提取特征参数在说话人识别系统内是非常重要的步骤,说话人语音的很多特有个性信息包含于特征参数内,例如发声特征或者语义特征,利用特征提取的方法一方面可以去掉声音里没用的冗余信息,剩下有用的体现说话人个性不同的特征信息,特别是可以有效减少计算量、模板数目以及存储空间。选用的特征参数的会直接关系到整个系统的工作性能,良好的特征参数需要拥有好的稳定性和好的独立性,一方面可以不受到外界情况的干扰,不容易为其他的声音所替代,另一方面,能够较好的辨别不同说话人,说明说话人之间的差异。
【关键词】特征参数 倒谱系数 LPCC MFCC
1 前言
当今说话人识别领域使用的特征参数有多种,它们各具特点,能够用于各种不一样的场合,其中应用较为广泛的具有代表性的特征参数是:基音频率、线性预测系数(LPC)、线性预测倒谱系数(LPCC)、梅尔倒谱系数(MFCC)。
2 MFCC的提取与分析
梅尔倒谱系数(MFCC),MFCC是利用人耳听觉模型建立的倒谱系数,人类的听觉系统可以看成一个非线性系统,它对于不同的频率信号的灵敏度是不一样的,一般是对数型关系。正是由于Mel倒谱系数基于人耳感知这种特殊的特性,Mel倒谱系数在抗噪声能力以及鲁棒性这些方面都比其它特征参数要优秀了很多。
对于不一样频率的语音,人耳有不一样的感知能力,声音的物理频率表示单位是梅尔(Mel)。频率和MFCC系数的关系如下式:
其中,f的单位为Hz。参照Zvick的研究所说,临界带宽按照频率不同而改变,在1000Hz以下时,维持线性分布,带宽在100Hz附近;在1000Hz以上时,表现为对数增长形式,如图1所示。
Mel参数的提取过程:
(1)把之前预处理过的语音信号,即时域信号做傅里叶变化(DFT)。计算得到线性频谱x(k),其转换公式为:
(2)把上面的频谱x(k)通过Mel滤波器组生成Mel频谱。
(3)接着对Mel频谱做对数能量处理,得到对数频谱S(m)。图2所列即为得到的线性能量谱,Mel能量谱和对数能量谱。
上述第2步骤中提及的Mel频率滤波器组是在语音的频谱范围内设置的若干个带通滤波器表示滤波器的个数。f(m)表示滤波器组中的每个滤波器的中心频率,其传递函数如下所示:
式中Fs表示采样频率,N表示窗宽,f1、fh分别代表滤波器的频率应用范围的最低频率和最高频率,N表示窗宽,,为促进结果对噪声和谱估计的误差有更佳的鲁棒性,把上面通过Mel滤波器组获取到的Mel频谱取对数。因此经过线性频谱X(k)到对数频谱,S(m)的总传递函数是:
最后,将S(m)通过离散余弦变换(DCT)获得倒谱频域,即Mel频谱倒谱系数(MFCC参数):
参考文献
[1]M.Chetouani,M.Faundez-Zanuy,B.Gas,and JL.Zarader.Investigation onLP-residual representation for speaker identification,Pattern Recognition.2009,3(42):487-494.
[2]林琳,王树勋,郭刚.短语音说话人识别新方法的研究.系统仿真学报, 2007,19(10):2272-2275.
[3]姚志强.说话人识别中提高GMM性能方法的研究[D].北京:中国科技大学,2006:9-12.
作者简介
周春晖,男,浙江省人。硕士研究生学历。现为广东科技学院讲师。
作者单位
广东科技学院 广东省东莞市 523083