云南机电职业技术学院 陈瑶玲
语音信号不仅可以传递语义信息,还可以传递语种信息,说明语音信号中包含了语种信息特征,语种识别的特征参数提取就是利用数字信号处理的方法,从语音信号中把这些特征参数提取出来,以实现语种识别。在语种识别中对特征参数的要求是:(l)能有效地代表各语种特征,具有很好的区分性;(2)各阶参数之间具有良好的独立性和鲁棒性;(3)特征参数的计算要简单方便,要可以拥有高效的计算方法,用以保证语种识别算法的快速实现。在本文中,主要介绍美尔频率倒谱系数(Mel Frequency Cepstral Coefficients,MFCC)、线性预测倒谱系数(LPCC)、第一共振峰(F1)、基音频率(F0)、短时能量(En)、韵律节奏等6种声学特征参数及其派生参数。
美尔频率倒谱系数(Mel Frequency Cepstral Coefficients,MFCC)[1]考虑了人耳的感知频率以及音强时具有的非线性特性,被认为具有良好的语音识别性能和抗噪声能力,现在已被广泛的应用于语种识别和说话人识别中。
线性预测倒谱参数(LPCC)已被广泛地应用在语音识别上[2]。由于倒频谱(Cepstrum)具有将频谱上的高低频分开的优点,所以只要取前面几项参数,就可以代表语音信号的特性,使得识别率提高,线性预测倒谱参数就是属于倒频域上的语音特征。
第一共振峰代表了发音信息的直接来源,是反映声道特性的重要参数,人在语音感知中也利用了共振峰信息。一般认为共振峰信息包含在语音频谱包络中,谱包络中的最大值就是共振峰。
线性预测分析可以导出声道滤波器,根据声道滤波器就可以找出共振峰。一般来说,共振峰采用基于线性预测的方法估计频谱包络。
用来反映语音激励源参数的叫基音频率,对于像汉语这样有声调的语言,基音频率是语音信号中非常重要的参数。发浊音时声带振动的周期性称为基音周期,基音频率就是基音周期的倒数。因为基音周期的准周期性,可以采用基音检测 (Pitch detection)的方法来计算基音周期,而实际上这就是一种进行短时平均的方法,基音频率就是这个参数的倒数。基音频率是重要的超音段特征。
要计算基音频率,基音检测是一个需要重点研究的课题。基音检测主要分为预处理、自相关基音检测、基音检测后处理等部分。然而迄今为止,虽然提出了许多种基音检测的方法,但这些方法都存在它们的局限性,至今尚未找到一个可以适用于不同语种、不同环境的基音检测方法。
短时能量首先可以用来区分清音和浊音,语音信号中浊音部分的能量要远远大于清音部分的能量,在语音信号中进行短时能量分析,主要是用来描述语音幅度及能量的变化。处理语音信号时,短时能量一般采用一维参数来描述语音信号能量的大小以及超音段的信息。
在自然语音中,人们利用重音,节奏和语调等方式来表达情感和意义,这些特征是自然语音的重要组成部分。
重音,节奏和语调这些特征是通过特征频率,音强,音高,音长的变化而表现出来的,因此韵律节奏参数的提取是把每个语种识别的语句音节数与语句发音时间的比值作为语速特征参数,统计每个语句中有声段和无声段的比例,得到2维的韵律特征参数集。
根据以往实验结果可以看出,基音频率应用在语种识别中的一个较优越的特征。这也和以往的很多相关的研究是吻合的[3][4],基音频率(F0)是语种识别中区分效果最好的一类特征,它在不同语种之间的差异性最好。实验结果也表明,MFCC参数的识别效果也不错,这也是因为MFCC参数表现的是语音的频谱信息,而频谱信息的变化对语种识别的贡献比较大。短时能量(En)和第一共振峰(F1)在实验中也有不错的表现,它们的识别效果相近,也可以选作进行语种识别的特征。韵律节奏的识别率最低,说明韵律节奏是所采用的特征中用于语种识别最不适合的特征参数。
[1]徐翔俊,毕福昆,杨鉴.基于支持向量机的民族语口音识别[J].计算机工程与应用,2008,44(13),pp.71-73.
[2]M Sugiyama. Automatic Language Recognition Using Acoustic Features. International Conference on Acousti[C].Speech and Signal Proeessing.Toronto,1991,pp.423-430.
[3]徐永华,杨鉴,陈江,陈瑶玲.一个面向少数民族语种识别的电话语音数据库[J].第十届全国人机语音通讯学术会议,兰州,2009,pp.54-57.
[4]S Yildirimeral,An acoustic study of emotions expressed in speech[C].ICSLP-2004,2004,pp.2193-2196.