基于能量变化率的汉语塞音检测算法

2014-10-15 01:52张连海李弼程
中文信息学报 2014年3期
关键词:韵母特征参数变化率

张连海,陈 斌,屈 丹,李弼程

(解放军信息工程大学 信息工程学院,河南 郑州450002)

1 引言

为了进一步提高语音识别的性能,近年来,不少学者主张,建立以语音与语言学知识为基础,结合统计模型的语音识别新框架[1],并得到广泛研究[2-3]。知识的准确提取,是实现该框架的前提。这里,知识主要是指声学单元边界和类别信息。汉语连续语音识别中,声韵母是常用的识别单元。目前,有关声韵母的分类和定位取得了一定的进展[4-5]。其中,基于Seneff听觉模型的检测系统较好地实现了声韵母边界的检测与阻塞音定位[6]。阻擦音(塞音、摩擦音、塞擦音)作为声母中重要的一类,其声学特征非常不稳定,对统计模型的建立带来了较大的困难。这主要是由于阻擦音中的塞音易受说话人和上下文的影响,持续时间短,变化速率快。因此,在得到阻塞音类别的基础上,进一步将阻擦音分为塞音和非塞音是十分有必要的。

目前,对塞音的检测主要基于爆发谱(Burst Spectrum)幅度[7]、谱峰位置[8]和形状[9]等发音位置特性和嗓音、爆发谱起始时间[10-11]等特征,这些特征参数的提取要求较高的信噪比,且易受噪声的影响,即使是在自然语音中,也无法准确地提取。

能量变化率是区别阻塞音类别的一个很重要特征,并且具有较好的鲁棒性和稳定性,因此本文从能量变化率进行汉语塞音的刻画。由于语音信号具有相当大的随机性,即便是同一个人在不同的时刻说相同的声韵母,时间长度等特性也可能会存在较大的差别,在较小的分析时长内声学性质可能会有较大的变化,因此对语音信号进行分帧处理,难以得到声韵母整体的声学性质,进而影响声韵母类别的检测性能。与传统基于帧的声韵母类别检测方法不同,本文首先对语音信号进行声韵母边界检测[6],得到声韵母音段,然后采用基于音段(segment based)的方法提取特征参数,描述声韵母整体的声学特性,实现阻塞音中塞音的检测,检测系统图1所示。

2 基于听觉谱的能量变化率特征参数选取

Seneff听觉模型[12-13]由40个临界频带滤波器组成,能较好地模拟人耳对语音的听觉处理过程,描述听觉神经饱和,自适应调适,掩蔽,对电流感应的单向性,易受低频周期信号激发等特性。Seneff听觉感知模型的输出称为Seneff听觉谱,它由两部分组成:包络响应(Envelope Detector)ED 和同步响应(Generalize Synchrony Detector)GSD,ED 凸显语音信号能量的变化情况,GSD 则突出共振峰结构。因此Seneff听觉谱能够较好地描述语音的能量分布特性和共振峰结构。由于GSD的计算是通过对每个通道的GSDi求平均得到的,因此会导致频域分辨率降低,同时出现伪峰值。为了避免GSD中的直接求平均,增强共振峰提取的可靠性,Ali[14-15]提出了平均局部同步输出(Average Localize Synchrony Detector)ALSD。

研究发现,阻塞音声学性质的差异主要是由其不同的发音过程造成的。本文利用这种差异性特征进行塞音的检测分类,这种特征是指能量变化率及其衍生特征,具体包括音段持续时间、能量最大变化位置、谱峰位置、相对谱幅度等。

塞音发音方法是声道某处先闭合,气压升高,然后再迅速放开,瞬间释放能量,一般来说这一发音过程会比非塞音短,这里采用归一化音段持续时间(Normalized Duration)NDura对塞音的这一特性进行刻画。NDura为音段持续时间与句子中最大音段持续时间MaxDura的比值,其中音段持续时间为边界检测结束点end与起始点start之差,即式(1):

塞音发音过程中具有气流瞬间释放的特点,因此能量变化率大,塞擦音虽然也会有类似的发音方式,但其后段能量缓慢释放,所以能量变化率相对会变小,而摩擦音的能量释放更加缓慢,因此能量变化率参数是依次减小的。本文采用全频带归一化ALSD变化率最大值MaxNARALSD(Maximum Normalized All-Band ALSD Change Rate),全频带归一化ED变化率最大值MaxNARED(Maximum Normalized All-Band ED Change Rate)突出这一特性。由于基于Seneff听觉模型ALSD和ED输出的特征有类似的表达式,以下只给出基于ALSD的特征求解式,如式(2)~(3)所示。

式中i=1,…,40为听觉模型通道值,n=1,…,N为每一通道的输出。

由于塞音的能量变化率较快,因此其最大谱斜率位置(Maximum Normalized Spectral Slope Place,MSP)一般来说会位于最前段,而塞擦音与摩擦音能量缓慢变化,故其最大变化率大都发生在中间段与最后段。在前面求得的全频带归一化ALSD、ED的基础上,确定出最大变化率位置MSPALSD、MSPED,即式(4):

由于塞音能量急剧释放,故其频谱峰值含有较多的高频成分,谱峰位置主要会位于高频,因此塞音音段谱峰位置平均值会较大。而非塞音段能量释放缓慢,因此频谱成分中含有较多的低频成分,有较多的谱峰位置会位于低频,在整个发音持续过程中谱峰位置平均值会比较小,采用音段ALSD、ED平均最大频谱峰位置(Average Largest Spectral Peak Location,AvLSPL)AvLSPLALSD、AvLSPLED特征可以区分出塞音与非塞音,计算方法见式(5)。

其中N为音段长度,LSPLALSD为ALSD的最大频谱峰值位置

相对谱幅度(Relative Amplitude)能够较好地区分发音位置和不同的阻塞音类别,并且具有较好的稳定性和可靠性。相对谱幅度结合描述谱平坦度的参数,能更好地实现阻塞音分类,这里采用上述ALSD、ED变化率最大值MaxNARALSD、MaxNARED描述平坦度。为了更好地描述发音过程,本文分0-4K和4K-8K两个子带求得相对谱幅度,对应高、低子带的ALSD和ED相对谱幅度值记为HRAALSD,LRAALSD和HRAED,LRAED,计算方法见式(7)~(8)。

式中SALSD,VALSD分别表示塞音音段ALSD值和相邻的韵母音段ALSD值。

3 基于特征变换的KNN塞音检测

为了尽可能地减少数据量,去除特征之间的冗余,增大类之间的区分性,常需要对特征进行变换。PCA和LDA是目前常用的两种特征变换方法,并且能取得较好的效果,PCA特征变换能尽可能的去除特征冗余性,LDA特征变换能增大类间的区分性。由于KNN分类器复杂度较低,要求的数据量较少,同时能得到较好的分类效果,因此本文将结合两种特征变换的优点,采用KNN分类器实现塞音的检测。

3.1 基于PCA的特征变换

主成分分析(PCA)是通过K-L变换将训练样本数据变换到彼此正交互不相关特征,本质是将高维空间的数据投影到低维空间的过程。主成分分析的最优投影矢量集等价于通过准则函数式(9)得到的最优投影矩阵:

其中,A表示PCA投影矩阵,St为总体散度矩阵(即总体协方差矩阵)。最优的PCA的投影矩阵APCA可以通过∂Jp(A)/∂A=0获得,即APCA的列向量为特征方程StA=λA的d个最大的特征值所对应的标准正交特征向量a1,a2,…,ad。其中特征向量满足条件:Staj=λjajj=1,…,d,λ1≥ … ≥λd

3.2 基于LDA的特征变换

线性鉴别分析(LDA)是从高维特征空间中提取出最具有分类能力的低维特征,希望投影后的特征数据,在变换空间里类间距离尽可能的大,同时类内距离尽可能的小。线性鉴别分析旨在通过最优化准则函数式(10)找到一个最优的投影矩阵:

事实上,线性鉴别分析的最优投影矩阵ALDA的列向量,一般取为广义特征方程SbU=λSwU的d个最大特征值所对应的特征向量u1,u2,…,ud。其中特征向量满足条件:Sbuj=λjSwujj=1,…,d;λ1≥…≥λd,Sw为类内散度矩阵,Sb为类间散度矩阵。

3.3 基于Fisherface的特征变换

PCA是保持样本总体离散度最大的一种特征变换方法,但是由于变换过程没有引入分类信息,当以最小距离为准则进行识别时,并不能保证分类错误最小。LDA能保证较大的类间距离和较小的类内距离,提供了一个增大类间特征区分性的有效方法,但在实际应用中需要较多的数据样本。当数据样本比较小时,会使得类内散度矩阵奇异,将不能直接应用相应的鉴别准则。为了结合两种变换的优点,同时解决因塞音检测数据样本比较小,而使类内散度矩阵不可求逆的情况,这里采用Fisherface[16]方法的PCA+LDA组合方法进行特征变换。该方法将Fisher最优鉴别特征的变换过程分为两步:第1步,作K-L变换Y=PTX 将高维的原始样本压缩,其中,P为通过K-L变换得到的主分量投影矩阵;第2步,在变换空间内,利用线性鉴别分析进行特征变换。类间散度矩阵、类内散度矩阵和总体散度矩阵分别表示为为正定阵,最优准则函数重新定义为基于新的准则函数可以得到最优的投影矩阵。

3.4 基于KNN的分类算法

为了减少对训练数据量的要求,本文采用KNN(K Nearest Neighbor)进行分类,采用欧氏距离度量样本间的距离,KNN的基本思想是在与测试样本x距离最小的K个样本中,按出现最多的样本类别来作为x的类别。判决准则为:如果gj(x)=则x∈wj,其中ki为样本中属于第i类的个数,wj为第j个类别。理论证明,K近邻分类错误率为P*e≤P≤2P*e。K近邻分类错误率P在贝叶斯错误率P*e和两倍贝叶斯错误率2P*e之间,加上K近邻法方法简单、算法较为稳定、鲁棒性较好,使它成为模式识别的重要方法之一。影响KNN算法性能的两个重要因素是最近样本的数目(K)和距离的测度。

4 实验及结果分析

4.1 实验语料

随机从863语料库中截取511段连续语流作为实验语料,摩擦音与塞擦音各2 170个,塞音4 340个,语音的采样频率为16KHz,量化精度16bit,人工进行语料的阻塞音类别和边界的标注。对检测结果的评估采用语音识别的评估方式进行。实际检测单元的总数记为N,正确检测单元的总数记为H,删除错误的总数记为D,插入错误的总数记为I。正确率和准确率定义如式(11)~(12)[17]

4.2 实验结果

将本文提出的11维特征参数{NDura,Max-NARALSD,MaxNARED,MSPALSD,MSPED,AvLSPLALSD,AvLSPLED,HRAALSD,HRAED,LRAALSD,LRAED}进行Fisherface变换,得到变换后的7维特征参数输入到KNN分类器。KNN分类器中K值的选取对分类准确率有较大的影响,不同的K值对数据量和计算量的要求也不同。为了选取合适的K值,本文对不同的K值对性能的影响进行讨论,摩擦音、塞擦音分别取100个数据,塞音取200个数据用来训练,其余的用来测试。

图2 分类准确率与K值的关系图

由图2可知准确率随着K值增大而提高,当K取值小于7时,分类准确率会有较大的提高,而当K大于7时,分类准确率提高得不明显,同时需要较多的数据量。因此本文K取值为7,下面讨论一下不同的特征变换方法与数据量的关系。测试数据为4 140个塞音,摩擦音、塞擦音数据为2 070个,训练数据分别为塞音60、70、80个,摩擦音与塞擦音为30、35、40个。

表1准确率和特征变换方法与数据量的关系

从表1中可以看出,随着训练样本数的增加,Fisherface和LDA算法的准确率有了显著增加,PCA算法的准确率较为稳定,没有明显的变化。在数据量充足的条件下Fisherface算法要优于PCA和LDA算法。由于PCA算法主要描述原始模式特征,因此训练样本数对其检测效果影响不大,而LDA算法主要反映不同类之间的差异,在很大程度上丢弃了与分类无关的信息,因此训练样本数对其检测效果有较大的影响。当训练样本数较少时,会导致模式类别信息不够,使得检测效果不佳。LDA算法中,模式类别信息随着每类样本数的增加而增加,检测准确率也会有显著的提高。当样本数为80时,Fisherface算法的准确率达到96.32%,表明PCA与LDA算法的结合可以得到较好的塞音检测效果。

为了验证所提参数的有效性和塞音的检测性能,对采用爆发谱特征[8]、MFCC特征和本文基于能量变化率特征(Energy Change Rate,ECR)的塞音检测准确率进行比较。其中文献[8]采用的是二维倒谱 系 数 (two-dimensional cepstral coefficient,TDCC)进行爆发谱特征的提取,即将相邻的几帧联合起来进行二维离散余弦变换(2D-DCT),可以得到图3所示的M×NTDCC参数矩阵,选取前L个系数,文中联合的相邻帧数M =10,频率最大值N=7 500 Hz,L=10,降维前TDCC维数为L(L+1)/2+1=65。MFCC是经典的塞音检测特征参数,MFCC参数包含一阶、二阶差分系数共39维,经过降维后TDCC和MFCC参数分别为33和57维。训练数据为200个,其余的用来测试,图3为采用不同特征塞音的检测性能,分别采用爆发谱特征(TDCC)、MFCC、本文特征参数ECR,以及特征参数的组合,采用KNN分类器。

图3 M×NTDCC矩阵

图4 不同方法的检测性能

由图4可知基于所提特征的塞音检测准确率高于基于爆发谱特征和MFCC特征的准确率,说明所提特征参数具有较好的区分性和稳定性,能较好地保证塞音检测准确率。其中基于MFCC特征的检测率较低,这主要是由于MFCC比较适合于描述声学性质较稳定的声韵母类别如元音韵母等,而难以描述变化较为剧烈的塞音,因此会使得塞音的检测性能不高。爆发谱特征结合MFCC特征塞音检测性能会略有提升,但此时特征参数的维数较高,搜索空间较大。塞音与塞擦音在发音过程中都存在气流爆发(burst)的发音行为,根据爆发谱特征会有较多的插入错误,并且爆发谱较不稳定,都会影响塞音检测的准确率。通过对本文塞音检测结果进行观察可知,本文算法中错误主要是摩擦音/h/引起的,这是由于/h/音发音能量微弱,声学性质很不稳定,持续时间变化范围很大,易受后接韵母的影响。与不送气塞音相比,送气塞音能量变化量大,有非常高的检测准确率。同时通过Fisherface方法的特征变换,可以有效地降低特征空间的维数,减小KNN在高维空间中搜索最近邻的复杂度,提高塞音检测的效率。

为了进一步验证塞音检测算法的抗噪声性能,对本文确立的塞音检测方法进行鲁棒性测试,表2为测试结果。

表2 塞音检测鲁棒性测试结果

由表2可知,在信噪比为10dB的环境下,本文算法的准确率仍能达到88.07%,说明本文塞音检测算法具有较好的鲁棒性。这是由于Seneff听觉谱本身具有较好的抗噪声性能,且基于能量变化率的发音特征参数具有较好的稳定性,因此能较好地保证检测性能。

4.3 模型的交叉验证

由于本文的测试和训练样本数相对较少,为了验证本文所选用参数和分类方法的有效性,基于上述实验语料,本文进一步采用留一法[18](Leave-One-Out)对分类性能和泛化性能进行测试。留一法的基本思想为对于一个样本总数为N的集合,每次选取一个样本作为测试集,其余N-1为训练集,重复N次。为了减小计算量,本文将塞音和非塞音各分为20份,每次选取1份作为测试集,其余19份作为训练集。根据交互验证均方根(RMSEVC)和预测均方根(RMSEP)进行分类性能的评价,RMSEVC和RMSEP数值越小,模型性能越好。

其中ci是实际值,i是测试值,n是训练集样本数,m是测试集样本数。本文将ci与i二值化取值为0或1,即将塞音标为0,非塞音标为1。表3为不同分类方法的交叉验证结果。

表3 不同的分类方法交叉验证结果

由表3可知,由于本文算法对特征变换中可能存在的问题进行了考虑和改进,模型具有较好的稳定性和泛化性能,因此本文所采用的分类器的交叉验证均方根和预测均方根均小于基于PCA和LDA变换的KNN分类器。经过PCA变换与LDA变换的分类器相比,有更小的RMSEVC和更大的RMSEP,说明经过PCA变换的分类器容易过训练,泛化性能较难保证,经过LDA变换的分类器模型结构不是很稳定,但具有较好的泛化性能。

5 小结

本文针对爆发谱特征的不稳定使得目前的塞音检测性能难以提升的问题,提出了一种基于能量变化率的汉语塞音检测方法。采用Fisherface方法对基于Seneff听觉谱提取的描述能量变化率的特征参数进行变换降维,增大了区分性,较好地缩小了搜索空间,提高了塞音的检测效率和准确率。通过采用留一法对该方法的性能进行了验证,得知本文塞音检测方法具有较好的泛化性能和稳定性。文中较多错误是由声学性质不稳定,受前后音影响较大的摩擦音/h/引起的,因此后续的研究可以针对/h/音给检测结果带来的影响予以去除,同时提高送气塞音的检测鲁棒性。

[1]Chin-Hui.Lee,From knowledge-ignorant to knowledge-rich modeling:A new speech research paradigm for next generation automatic speech recognition[C]//Proceedings of ICSLP Keynote Speech,2004:1137-1140.

[2]Jurgen T Geiger,Mohamed Anouar Lakhal,Bjorn Schuller,Gerhard Rigoll.Learning new acoustic events in an HMM-based system using MAP adaptation[C]//Proceedings of INTERSPEECH,2011:293-296.

[3]David Mejía-Navarrete,Ascensión Gallardo-Antolín,Carmen Peláez-Moreno.Feature Extraction Assessment for an Acoustic-Event ClassificationTask Using the Entropy Triangle[C]//Proceedings of INTERSPEECH,2011:309-312.

[4]张宝奇,张连海,屈丹.基于听觉事件检测的汉语语音声韵切分[J].声学学报,2010,35(6):701-707.

[5]Almpanidis G,Kotti M,Kotropoulos,and C.,Robust Detection of Phone Boundaries Using Model Selection Criteria With Few Observations[J],IEEE Transactions on Audio,Speech,and Language Processing,2009,17(2):287-298.

[6]陈斌,张连海,王波,屈丹.基于Seneff听觉谱特征的汉语连续语音声韵母边界检测[J].声学学报,2012,37(1):104-112.

[7]M F Dorman.Relative spectral change and formant transitions as cues to labial and alveolar place of articulation[J].J.Acoust.Soc.Am.1996,100(6):3825-3830.

[8]A R Jayan and P C Pandey,Detection of stop landmarks using gaussian mixture model of speech spectrum[C]//Proceedings of ICASSP,2009:4681 4684.

[9]Chi-Yueh Lin,Hsiao-Chuan Wang.Using Burst Onset Information To Improve Stop/Affricate Phone Recognition[C]//Proceedings of ICASSP[C],2010:4862-4865.

[10]Prem C Pandey,Milind S Shah,Estimation of Place of Articulation During Stop Closures of Vowel Consonant Vowel Utterances,IEEE Transactions on Audio,Speech,and Language Processing,2009,17(2):277-286.

[11]Chi-Yueh Lin,Hsiao-Chuan Wang.Mandarin Stops Classification Based On Random Forest Approach[C]//Proceedings of ISCSLP 2008:1-4.

[12]Stephanie Seneff,A joint synchrony/mean-rate model of auditory speech processing[J],Journal of Phonetics,1988,16:55-76.

[13]Stephanie Seneff,Pitch and Spectral Analysis of Speech Based on an Auditory Synchrony Model[M],Cambridge,Massachusetts Institute of Technology,1985.

[14]Ahmed M.Abdelatty Ali,Jan Van der Spiegel,Paul Mueller,Robust Auditory-Based Speech Processing Using the Average Localized Synchrony Detection[J],IEEE Transaction on Signal and Audio Processing,2001,10:279-292.

[15]Ahmed M.Abdelatty Ali,Jan Van der Spiegel,Paul MuellerAcoustic Phonetic Features for the Automatic Classification of Stop Consonants,IEEE Transactions on Audio,Speech,and Language Processing,2001,9(8):833-841.

[16]Yang J,Yang J Y.Why can LDA be performed in PCA transformed space[J].Pattern Recognition,2003,36(2):563-566.

[17]Steve Young.The HTK Book(for HTK Version 3.4).Cambridge University Engineering Department,2006:289.

[18]Richard O.Duda,Peter E.Hart David G.Stork著,李宏东,姚天翔等译.模式分类[M].北京:机械工业出版社,2009.

猜你喜欢
韵母特征参数变化率
声母韵母
基于电流变化率的交流滤波器失谐元件在线辨识方法
冕洞特征参数与地磁暴强度及发生时间统计
例谈中考题中的变化率问题
单韵母扛声调
基于交通特征参数预测的高速公路新型车检器布设方案研究
《湘水韵》及其编撰原理要点
基于PSO-VMD的齿轮特征参数提取方法研究
基于视频的车辆特征参数算法研究
相位差变化率的快速高精度测量及精度分析