基于分类特征映射的SVM话者确认

2010-09-25 05:55贺庆玮许敏强

通信技术 2010年3期

贺庆玮，李辉，许敏强

0 引言

话者确认技术通过提取语音信号中所包含的话者特征信息, 对其所声明的身份做出判决, 接受或是拒绝。话者确认技术具有终端设备简单、对用户配合要求较低等特点，可以应用于金融、商贸、公安司法等诸多领域, 具有广泛的发展前景。

支持向量机[1]是建立在统计学习理论基础上的机器学习方法。通过学习算法，SVM 可以自动寻找出那些对分类有较好区分能力的支持向量，由此构造出的分类器可以最大化类与类之间的间隔，因而有较好的适应能力和较高的分类性能。它作为一种区分性模型具有非常好的分类能力，适合于解决话者确认这样的二分类问题[2]。然而，在与文本无关的话者确认中，大量的话者语音倒谱特征参数使得直接使用它们训练SVM话者模型变得非常的困难，无论是运算的时间复杂度和空间复杂度都无法满足实际应用的需要。同时，不同话者的特征参数在特征空间的混叠十分严重，使得难以寻找区分性较好的分类界面。

高斯混合模型GMM（Gaussian Mixture Model）是一种概率统计模型，通常使用由全局背景模型 UBM（Universal Background Model）MAP自适应得到的GMM作为语音统计模型来描述语音参数在特征空间中的分布,较传统的VQ分类描述[3]有着很大精度优势。通过对描述话者语音的GMM中的均值、方差、权重参数进行合适的组合，便能够将大量的语音数据映射到一个高维特征空间，作为话者特征矢量。GMM全统计参数超矢量[4]就是利用方差和权重对均值进行修正，并将修正后均值串联得到的特征超矢量，已经被证明能够较好地表示话者信息。本文将采用和其性能相似而计算复杂度更低的加权均值超矢量作为话者特征。

在使用SVM作为话者模型的话者确认系统中，模型的训练着重于寻找目标话者特征和冒认话者特征之间的分类界面。如果待分类样本数据量较大，将增加寻找分类界面的难度。为了优化分类界面的区分性，本文在系统前端根据基音周期的大小对语音特征参数进行分类。基音周期是语音激励源的重要参数，能够对语音倒谱特征参数进行较好的特征子空间划分。分类之后，每个特征子空间建立独立的话者确认系统，并在后端进行评分融合，得到系统最终评分。在NIST’06数据库上的实验表明，本文提出的方法具有较好的话者确认性能。

1 基于特征映射和SVM话者确认

支持向量机是建立在统计学习理论基础上的机器学习方法，它可以表示为：

其中 K (x,xi)为核函数，需要满足 Merce条件。对于线性核函数 K (x,xi) = x⋅xi。通过学习算法，SVM可以自动寻找出那些对分类有较好区分能力的支持向量，由此构造出的分类器可以最大化类与类之间的间隔，因而有较好的适应能力和较高的分类能力[5]。

在本文无关的话者确认系统中，由于确认所需的语音数据量较大，直接使用语音特征参数训练话者SVM模型面临着模型训练效率低下和特征混叠严重等困难。目前流行的解决方法是对话者的语音参数做合适的特征映射，使大量的语音参数映射到一个高维超矢量，以适合于使用SVM进行分类。

作为概率统计模型，GMM通过高斯概率密度函数的线性加权组合刻画语音特征参数的统计分布，可以表示为：

其中M为GMM的混合度， N (x;mi; ∑i)表示均值为 mi，协方差矩阵为∑i的高斯分布。三种参数权重、均值、方差以不同的方式组合可以得到不同的GMM统计特征超矢量。本文中采用的加权均值超矢量可以表示为：

由于每条话者语音经过特征映射之后只有一个加权均值超矢量，训练样本数较少，且特征空间上的混叠较少，使用简单的线性核函数即能取得较好的效果，故本文中的SVM话者模型均采用线性核函数训练。

2 基于基音分类和SVM的话者确认

2.1 基于基音周期的分类

一般而言，语音信号主要由清音和浊音两部分组成（静音除外）。清音发音时没有声带振动，是一种伪随机噪声；浊音的激励源为声带周期性地振动，其振动周期就是基音周期，它是随着时间和发音高低而不断变化的。因此，我们可以很容易地根据清音和浊音将语音倒谱特征参数划分为两个特征子空间。另外，语音当中浊音蕴含的说话人特征信息往往相对较多，我们可以将浊音进一步划分为若干个子空间。基音周期描述了浊音信号的准周期特性，非常适合用于为语音倒谱特征参数分类。本文根据每帧语音的基音周期的大小（令清音的基音周期为0），对语音倒谱特征参数进行特征空间上的分类。在对语音经过分帧、加窗预处理之后，同时提取 MFCC参数和基音周期，根据预先确定的基音周期的范围，将 MFCC参数分为若干个子类。分类之后，我们将在每个特征子空间上建立GMM-UBM-SVM话者确认子系统，得到测试语音在每个子空间上的评分，最后在后端进行评分融合。

2.2 子类评分融合

分类系统在对各特征子空间描述更加精细的同时，也带了的子系统评分融合的问题。各子类系统运行在不同的特征空间，故其评分具有一定的互补性。本文的系统评分融合采用算法复杂度低、易于实现的线性加权融合，其表达式如下所示：

其中totals为总系统评分，is为子系统i评分，iω为子系统i评分所占权重。权重的设定较为灵活。可以令各系统权重相同，即等权重融合；也可以考虑UBM语音分类时各子类的特征数目设定权重；还可以根据测试语音在各类中的比重综合考虑权重取值。本文实验采用的语音较长，在各类分布较为均匀，加上各类的互补性较好，本文主要采用等权重融合方式。

3 实验结果及其分析

3.1 实验数据

实验数据选自NIST’06 SRE数据库1side语音数据集中的100个男性话者，共计100条训练语音，406条测试语音，每条语音去除静音后长度约为2分钟。对于每条语音，以20 ms帧长，10 ms帧移用Hamming窗分帧提取参数。特征参数采用 32维 MFCC（Mel-Frequency Cepstral Coefficient）参数，其中包含无0阶的16维静态参数和一阶动态。为了降低信道的影响，减小数据之间的不匹配，参数经过了 RASTA(Relative Spectra)，CMS(Cepstral Mean Subtraction)处理。SVM话者模型训练中，采用1个话者超矢量做”＋1”类，其余 99个话者超矢量做”－1”类，用线性核函数进行训练。

3.2 评估标准

实验中用EER和DET（Detection Error Trade-off）曲线来评价话者确认系统性能。DET曲线的横坐标为对数刻度下的目标话者错误拒绝率 FR（False Rejection Rate），纵坐标为对数刻度下的冒认者错误接受率 FA (False Acceptance Rate)，它反映了取不同确认阈值时，识别系统的FA和FR。曲线越靠近坐标轴说明系统性能越好。EER识FA与FR相等时的错误率。EER越小也一定程度上说明话者确认系统的性能越好。

3.3 分类子系统性能实验

对于相同的实验数据，本文进行了分类数目N=2 、N=3的实验，并且根据分类数目的大小，各子类系统进行了采用不同混合度的实验，分两类时，根据即基音周期是否为 0，清音和浊音各为一类，份三类时，清音一类，基频小于 120的为第二类，大于120的为第三类。表1显示了分类系统中各个子系统的EER。

表1 分类子系统性能比较

根据实验结果我们可以看出：

① 各分类子系统的确认性能均较差，其EER均在9%以上，而且随着类数的增加，各子类的性能也有下降的趋势。这是因为每个子类只蕴含了话者一部分的信息，类数的增加使得子类蕴含的信息减少；

② 在各个子类中蕴含的话者信息有限，如果用来描述子类的GMM混合度过大，使得GMM出现欠训练情况，即训练数据不足使得训练统计模型性能较差。

3.4 评分融合系统实验

本文对分类数目N=2、N=3、N=4和N=5时的分类系统均进行了后端线性等权重评分融合，得到总系统的评分，各系统的EER如表2所示、相对于各个子系统，评分融合后的总系统性能有了较大的提高，这充分说明了各个子系统蕴含的话者信息不同，具有较强的互补性。例如类数N=3，各类混合度均为128时，三类的平均EER为11.44%，而等权重融合后EER为5.94%，性能明显提高。

表2 分类子系统融合实验性能比较

从话者确认性能上看，N=3分类变换系统的EER大大优于GMM-UBM和GMM-UBM-SVM。正是前端的分类变换，使得对话者信息的描述更加精细，才带来整体性能上的提升。

4 结语

SVM是一种区分性模型，非常适合于话者确认这种二分类问题。直接使用语音特征参数建立SVM话者模型面临着数据混叠严重，计算复杂度高等问题。本文通过分类特征映射的方法，首先将语音根据基音周期的大小在特征空间上分类，再在各特征子空间的系统中，用描述话者子类的GMM的加权均值超矢量作为描述话者特征的超矢量，使用线性核函数建立SVM话者模型，在每个子系统中进行独立测试评分。经过后端线性加权融合之后的系统，其话者确认性能有了较大的提高。本文的方法在 NIST’06 1side数据库上得到了验证。

[1] Vapnik V N. An Overview of Statistical Learning Theory[J].IEEE Transactions on Neural Networks,1999,10(05)：988-999.

[2] Campbell W M, Sturim D E, Reynolds D A. Support Vector Machines Using GMM Supervectors for Speaker Verification[J].Signal Processing Letters,IEEE,2006,13(05)：308-311.

[3] 赵鸿滨,卢潇,马丽华.基于加权VQ的说话人识别中权值产生方法的研究[J].通信技术,2008,41(02)：73-75.

[4] 姚亮亮,戴蓓蒨.基于GMM全统计参数和SVM的文本无关话者确认[J].中国科学技术大学学报, 2008, 38(12)：1386-1391.

[5] 万鸣华,刘中华,金忠.一种基于2DPCA和SVM的人脸识别方法[J].通信技术,2009,42(05)：100-102.