基于区分性Model Pushing的语种识别方法*

2012-07-03 00:24:40刘伟伟吉立新李邵梅

电子技术应用 2012年4期

刘伟伟，吉立新，李邵梅，徐文

(1.国家数字交换系统工程技术研究中心,河南郑州450002；2.61906部队，江西鹰潭335000）

随着信息技术的不断发展，自动语种识别技术在信息服务、信息检索及安全领域的应用日益广泛。当前主流的语种识别方法，根据使用特征参数的不同，分为基于音素特征的模型方法和基于声学特征的模型方法。

目前应用最广泛的声学模型GSV-SVM进行识别时，每一段测试语音首先在GMM通用背景模型GMMUBM(GMM-Universal Background Model)上自适应生成GSV作为SVM的输入特征[1]。在测试长度小于1 min的短语音语种识别应用中，由于测试语音较短，自适应得到的GSV并不能准确反映测试语音的语种属性，性能下降较为严重。为了解决该问题，Campbell等人提出了Model Pushing[2]的概念，首先利用SVM训练得到支持向量，再利用支持向量反过来建立GMM模型。因为支持向量中包含了训练语音的区分性信息,所以反推得到的GMM模型包含了对最具区分性分类边界的描述。这样，反推的GMM模型就继承了SVM训练得到的区分性信息。但是，由于该方法只选取了分类边界上的支持向量，所以利用Model Pushing后推得到的GMM并不能充分描述各语种特征分布的区分性。

为进一步提高Model Pushing算法的识别性能，本文结合快速区分性训练[3]提出了一种区分性Model Pushing方法。由于进一步增大了不同语种间的区分性并能更充分地描述各语种的特征分布，同时利用了GMM在短时语音识别上的优势，该方法提高了在短语音条件下的应用效果。对实验室条件下采集的电话信道汉语普通话、英语和日语三种语音的测试实验表明，区分性Model Pushing方法获得了最低的等错误率 (EER),相对于GMM-UBM、GSV-SVM及 Model Pushing方法，EER分别降低了18.95%、8.55%和3.54%。

1 基于GSV-SVM的语种识别分析

基于GSV-SVM的语种识别系统包含训练和测试两个阶段。训练阶段在通用背景模型UBM(Universal Background Model)上通过最大后验概率MAP[4](Maximum A Posterior)自适应得到各训练语音的GSV训练SVM模型；识别阶段同样通过MAP自适应从UBM中得到各测试语音的GSV,然后输入训练好的SVM中进行分类识别，得到识别结果。

1.1 GSV

GMM用多个单高斯分布的线性组合来描述帧特征在特征空间的分布，即:

其中，x为语音帧声学特征向量，M为高斯混合数，wi为混合权重，μi和 Σi为第 i个高斯混合成分的均值向量和协方差矩阵。对于训练数据,通过期望最大化算法EM(Expectation Maximum)[5]得到一个UBM。每一个训练和测试的语句通过MAP准则从UBM中自适应得到各自对应的GMM模型。在MAP自适应过程中，由于考虑到计算量的原因，通常只对均值向量μi进行修正调整，而权重和协方差矩阵都保持与UBM模型一致。将自适应得到的各高斯混合成分的均值向量按顺序排列起来即构成超矢量（GSV）。

1.2 SVM

SVM是一种应用广泛的机器学习方法。在二分类问题中，给出样本{xi,yi}，i=1,2,…N,xi∈RD为 D 维的特征向量，yi∈{+1,-1}为类别标签，其分类判决函数表示为特征向量内积的形式：

对于非线性的问题，通常采用核函数将输入特征向量（即GSV）非线性地映射到高维空间，当作线性问题处理。核函数形式为K(xi,xj)=φ(xi)×φ(xj)，这样在高维空间只需要内积运算即可，判决函数转换为如下形式：

SVM的核函数采用度量GMM距离的Kullback-Leibler核函数(K-L核)[6]，其表达式为：

其中 μa和 μb代表两个语音段的 GSV，μia和 μib分别是各自 GMM第i个高斯混合成分的均值矢量，ωi是UBM第i个高斯混合成分的权重,Σi是UBM第个高斯混合成分的协方差矩阵，M为混合数，T为转置符号。由式 (4)可知,在SVM中采用K-L核函数相当于先利用UBM的权重和方差对GSV进行归一化，然后用SVM的线性核函数进行训练和识别。而对GSV的归一化可以理解为将GSV投影到另一个空间（K-L空间），然后利用 SVM的线性核函数在K-L空间进行训练和识别。

2 基于区分性Model Pushing的语种识别

GSV-SVM通常采用一对多的SVM分类模式，即在目标语种和非目标语种间寻找出最优分类面，如在汉语和非汉语(英语、日语等任意非汉语)间进行分类。SVM使用K-L核，对目标语种和非目标语种进行分类。

以简单的二维声学特征和2个高斯混元为例介绍区分性Model Pushing的过程，如图1所示。图1(a)表示为原始特征空间的分布，GMM-UBM有两个混元，目标语种和非目标语种的混元是从GMM-UBM中自适应得到的，能够描述其特征的分布，目标语种和非目标语种在特征域空间的分布存在严重的混叠，难以有效区分。

图1(c)所示为K-L空间 SVM训练后的结果，其中处于分类边界虚线上的即为支持向量。为了减少特征域空间目标语种和非目标语种分布的混叠，利用K-L空间训练得到的最优分类面对其进行适当处理，即在K-L空间沿着最优分类面法线的方向进行移动。假如目标语种训练得到n个支持向量，非目标语种有m个支持向量，则对其移动的结果为:

其中，xt,i和xn,i表示目标语种和非目标语种的第 i个支持向量 (GSV在K-L空间的投影)，λtk和 λnk表示目标语种和非目标语种的支持向量沿法向量移动的尺度，w表示目标语种和非目标语种最优分类面的法向标语种和非目标语种的第i个支持向量移动后的结果。

利用移动后的支持向量构建目标语种和非目标语种的GSV在K-L空间的投影，即得到:取 λt≥0、λn≤0。对支持向量的移动反映到特征域空间就使得重构的目标语种和非目标语种的GMM分布混叠减少，增大区分性，如图1(b)所示。显然，λt、λn不宜过大，否则移动过度将产生原本属于目标语种的测试语音对其自身GMM的似然度得分比对UBM的还要小的问题。因此，λt、λn至少要使目标语种的测试语音在其GMM的似然度得分比在UBM上的得分要大。

如图2所示，区分性Model Pushing与GSV-SVM相比在训练阶段多了一个对支持向量移动反推的过程，得到目标语种和非目标语种的GMM；测试阶段只需提取测试语音的特征参数然后对目标和非目标GMM的对数似然得分进行分类判决,分类判决的分数计算如下：

其中yi为语音帧特征向量，gtar(y)和 gnon-tar(y)为目标语种和非目标语种特征向量的GMM概率密度函数。

由于该方法在测试阶段避开了GSV的计算，同时利用了训练阶段得到的SVM区分性信息，因此能够提高短语音条件下语种识别的性能。

3 实验设置和结果分析

3.1 实验数据库及评测方法

语料库为实验室采集的电话信道通话语音，包括汉语普通话、英语和日语3个语种，共有4 600段30 s的语音以及300段5 min左右的长时语音。语音信号的采样频率为8 kHz，并经过 16 bit量化处理。30 s语料中，有汉语 1 800段(男女各 900段)、英语 1 250段(男600段，女 650段)、日语 1 550段(男 850段，女 700段)。5 min长时语料中，每个语种有100段话音 (男女各50段)。上述语音段中所含的说话人均不相同，且每段语音仅含一个说话人。实验采用30 s的语音进行训练和测试，从各语种挑选 600段(每个语种男女各 300段)用于训练高斯混合数为512的UBM模型。从30 s的语音中为每个语种挑选200段语音 (男女各100段)作为SVM的训练语料，剩余语料有汉语1 000段，英语450段及日语750段作为测试语音。

本文采用检测错误折中DET(Detection Error Tradeoff)曲线及等错误率EER(Equal Error Rate)来衡量语种确认系统的性能。

3.2 系统描述

本文的特征参数是 MFCC加 SDC（7-1-3-7），共 56维，前端预加重系数为 0.97，帧长 25 ms，帧移 10 ms。利用VAD算法[7]去除了静音帧，同时通过 CMS[4]去除了倒谱域的卷积噪声。GMM混合高斯数选择512，SVM算法采用台湾林智仁教授开发的LibSVM工具包[8]实现。

为了验证所提算法的有效性，以GMM-UBM 、GSVSVM和Model Pushing方法作为基线系统，与本文提出的区分性Model Pushing进行对比测试。

3.3 实验结果

为了寻求最优的移动系数λt和λn，实验中选取了多组值进行对比测试，识别结果如表1所示。

其中，λt=0，λn=0表示最原始的没有进行任何移动操作的Model Pushing。从表1可以看出在λt=0.6，λn=-0.4的情况下系统性能是最好的，此时的EER为7.91%。而λt=1.4、λn=-1.4时系统性能最差,即出现了移动过度的现象。

图3给出了各系统的DET曲线图。其中MP代表Model Pushing方法，Dis MP代表本文所提的区分性Model Pushing方法。表2给出了各系统对应的EER。

从图3和表2可以看出,在测试集内，本文所提的区分性Model Pushing方法获得了最低的 EER，即性能最优，相对于 GMM-UBM、GSV-SVM及Model Pushing方法，EER分别相对降低了18.95%、8.55%和3.54%。这也证明了本文所提方法的有效性。

针对 GSV-SVM在短语音条件下应用的不足,本文提出了一种区分性Model Pushing方法。该方法在保留了SVM的区分性信息的同时，充分利用了GMM在短时语音上的优势。在最能区分目标语种和非目标语种的方向上对支持向量进行适当移动，减少了目标语种与非目标语种语音特征间的混叠，增加了区分性，提高了识别性能。实验结果证实了该方法的有效性。

表2 各系统EER(%)

[1]CAMPBELL W M,STURIM D E,REYNOLDS D A,et al.SVM based speaker verification ssing a GMM supervector kernel and NAP variability compensation[C].in Proc.ICASSP 2006.

[2]CAMPBELL W M.A covariance kernel for SVM language recognition[C].in Proc.ICASSP 2008.

[3]CASTALDO F,COLIBRO D,DALMASSO E,et al.Acoustic language identification using fast discriminative training[C].in Proc.Interspeech,2007.

[4]REYNOLDS D A,QUATIERI T F,DUNN R B.Speaker verification using adapted Gaussian mixture models[J].Digital Signal Processing,2000,10(1):19-41.

[5]REYNOLDS D A,ROSE R C.Robust text-independent speaker identification using gaussian mixture speaker models[C].IEEE Trans.Speech Audio Process 1995.

[6]MORENO P J,HO P P,VASCONCELOS N.A kullbackleibler divergence based kernel for SVM classification in multimedia applications[M].in Adv.in Neural Inf.Proc.Systems 16,MIT Press,Cambridge,MA,2004.

[7]LAMEL L F,RABINER L R.An improved endpoint detector for isolated word recognition[C].IEEE Transactions on Acoustics，Speech，and Signal Processing.1981.

[8]LIN C.LIBSVM:A library for support vector machines[EB/OL.](2010-12-14).http://www.csic.ntu.tw/cjlin/libsvm/index.html.2010.