基于共同向量的非常态语音说话人识别算法*

2014-09-13 12:43:26贺前华张清华孙国玺左敬龙

计算机工程与科学 2014年8期

关键词：非常态识别率特征向量

何俊,贺前华,张清华,孙国玺,肖明,左敬龙

(1.广东石油化工学院,广东茂名 525000;2.华南理工大学电子与信息学院,广东广州 510641)

基于共同向量的非常态语音说话人识别算法*

何俊1,贺前华2,张清华1,孙国玺1,肖明1,左敬龙1

(1.广东石油化工学院,广东茂名 525000;2.华南理工大学电子与信息学院,广东广州 510641)

针对预先给定参数求解共同向量所存在的不足，提出了一种基于共同向量的非常态语音说话人识别算法，首先，通过系统识别率自适应调整求解共同向量的参数；然后，将系统识别率最高的参数视为最优参数，为测试语音提取共同向量，并用SVM分类器进行非常态语音说话人分类。实验结果表明：该算法所提取的共同向量，对轻微感冒语音说话人识别率为85.4%，比对特征不进行处理的GMM算法、SVM和结合共同向量的GMM算法的识别率分别提高了16.9%、15.2%和3.2%。

非常态语音; 说话人识别；共同向量；支持向量机

1 引言

目前，各种说话人识别和认证系统的性能受语音质量的影响较大，面临非常态语音时，识别率徘徊在30%～40%[1]。如何提高系统应对非常态语音的能力，是近年来语音处理中发展起来的热点问题之一，开始受到广大学者的关注[2,3]。非常态语音种类繁多，力求研究所有类型的非常态语音事实是不可行的，生活中常见的因发音器官功能性病变引起的非常态语音在生物医学工程得到广泛的研究[4,5]，如感冒、咽喉炎、淋巴炎、反胃酸。这类非常态语音的持续时间相对较长，其产生不需要特定时间和环境，并且其对语音的影响来自于生理层，对它们的研究更有利于对变异的本质进行理解。但是，目前在非常态语音数据相对缺少、而语音变异种类又较繁多的情况下，使用统计分析法难以获得不同变异对语音特征层产生的影响。寻求一种能表征每个说话人共同特性的特征向量是广大研究者努力的方向，基于子空间映射的共同向量方法最早用于识别孤立词[6]，通过对每一类的差分子空间进行Gram-Schimidt正交变换得到与样本空间维数相同的共同向量CV(Common Vector)。CV表示每一类特征的共同性质[7]，广泛应用于模式识别领域的人脸图像识别中[8～10],并能取得较好的识别率。但是，在选取共同向量参数时，人们常采用给定一个经验值的方法，使得系统的识别率随实验数据的变化而严重地下降。文献[11]将共同向量方法引入到说话人识别，采用结合共同向量和高斯混合模型GMM(Gaussian Mixture Model)策略进行文本无关的正常语音说话人识别。从文献[11]中的实验结果得知，在保证GMM训练数据时其识别率并不比GMM好，在训练语音不足的情况下其识别率较GMM算法有所提高。

本文以非常态语音中的感冒语音CU(Cold Utterance)为研究对象，重点讨论最优说话人的共同向量提取和SVM(Support Vector Machine)的感冒语音说话人识别。在寻求每个说话人的共有特征属性的情况下，以最低限度减小感冒对其说话人识别率影响为基础，结合共同向量和SVM多对多的分类器，提出一种基于CV和SVM的非常态语音说话人识别算法。通过自适应调整类散度矩阵的特征值和和其共同正交特征向量的特征值和的比值，来解决系统的性能依赖人为参数的设定，根据说话人共同正交特征向量矩阵将待测语音分解成共同向量和差分向量，然后利用SVM对待测语音的共同向量进行说话人识别分类。

2 算法描述

从共同向量的角度出发，特征向量可分为两个主要部分：(1)残差分量，即来自于共同成分的所有变化；(2)共有成分，即展示一个类里所有样本的共同特性的成分或包含类不变的属性。

2.1 共同向量CV

常用Gram-Schimidt正交化和类内协方差矩阵变换法构建共同向量。其中，把线性无关的向量x1,x2,…,xn转换为标准正交向量组{μ1,μ2,…,μn}的方法，称为Gram-Schimidt正交化[12]。

(1)

然后对Bj进行Gram-Schimidt变换，得到正交向量集Vj，Vj可以表示如下：

(2)

(3)

其中，Bj和(Bj)⊥是一对互补子空间，其满足如下两个条件：

(4)

则有两种途径计算第j类样本的共同向量：(1)通过类内任意样本特征向量本身减去其投影到差分子空间的正交向量的差，如式(5)所示；(2)类内任意样本特征向量投影到共性子空间的和，如式(6)所示：

(5)

(6)

(7)

每个说话人的散度矩阵可以定义如下：

(8)

其中，μi表示第i个说话人的所有语音样本特征的均值。其定义如下：

(9)

在共同向量的训练方法中，训练集中的每个样本的特征可以用如下等式表示：

(10)

(11)

(12)

(13)

其中，(P⊥)i表示第i个说话人其特征散度矩阵Φi中零特征值所对应的正交特征向量(较小特征值对应的正交特征向量)所张成的共量子空间，Pi表示第i个说话人其特征散度矩阵Φi中非零特征值所对应的正交特征向量所张成的差分子空间。

2.2 最优CV参数

在共同向量的构建中，有一个关键的步骤就是如何有效地求解特征散度矩阵Φi中零特征值的正交特征向量。准确地说，特征散度矩阵Φi没有真正意义上的零特征值，只有非常接近零的特征值。在构成共量子空间中，将第i个说话人特征散度矩阵Φi的特征值进行升序排列，设其前z个特征值所对应的正交特征向量构成(P⊥)i，文献[11]讨论使用式(14)共同向量构建:

(14)

(15)

式(15)中，μi表示Pj中那些特征向量的偏差小于其差异子空间特征向量

根据经验设定δ，而实际应用中δ的取值依赖具体应用的数据。为了获得最优CV，本文通过调整δ，搜索使病变语音说话人的整体识别率ASRR(All Speaker Recognition Ratio)达到最大的CV，则整体识别率函数可定义为：

(16)

其中，Ti表示第i个说话人语音被正确识别为第i个说话人的数目，Ni表示第i个说话人的语音总数。

最优CV参数δopt可表示为：

(17)

2.3 支持向量机SVM

SVM的出现及广泛应用于各种模式分类引起机器学习和模式识别领域的一场研究风暴，近年来SVM广泛应用于语音识别领域[13～15]并取得一定成果。SVM是结构化风险最小的一种统计学习方法，它通过寻找一个最优超平面来训练一个分类器，使得核内诱导特征空间中两类数据的边缘尽可能最大化。假设有m个训练样本，每个样本由(xk,yk)对组成，其中，xk∈RN是第k个样本的特征向量，yk∈{+1,-1}是样本的类标签。SVM的目标就是在两类数据之间找到一个最优超平面w·x+b=0，对于一个测试样本x，其决策函数可表述如下：

(18)

然后通过判定fd(x)的符号来决定测试样本x所属类别，即使用sgn(fd(x))。

SVM通过解决二次规划问题来获得最优超平面，其二次规划问题可以描述如下：

(19)

其中满足：

(20)

3 实验设置与结果分析

3.1 实验设置

从PANSD[16,17]中选取8个说话人，平均每个说话人12条正常语音和15条非常态语音，每条语音时长约15 s，作为提取说话人最优共同向量时正交特征向量的训练数据。选用8个说话人的500条非常态语音和300条正常语音为提取最优CV参数的训练语音。选取8个说话人的706非常态语音和408条正常语音，每条语音在去掉静音后时长13 s～15 s作为测试数据。为了便于本文算法的实验结果与GMM模型的结果相比较，使用每个说话人时长为1 min～2 min的正常语音训练16个高斯的GMM说话人模型，文中所提及的SVM算法中采用径向基核函数。所有的数据都是单声道的WAV格式，用Cooledit Pro 2.0将采样调整为16 kHz，量化精度为16 bits。32 ms帧长，16 ms帧移，提取24阶Mel频率倒谱系数MFCC(Mel Frequency Cepstrum Coefficient)特征。

根据语音的变异程度，将706条非常态语音分三类：轻微变异、稍重变异、较重变异。详细分类标准请参见文献[17]。

3.2 实验结果与分析

本文先实验分析各种说话人识别算法对三类非常态变异语音的识别情况，为便于比较实验结果，把本文的算法简称为CV+SVM，具体识别情况可参见表1。

Table 1 Speaker recognition ratio of various algorithmsfor varying degrees abnormal speech表1 各类算法的不同程度非常态语音说话人识别

从表1可知，本文提出的算法对轻微非常态语音有较好的效果，相对文献[11]算法识别率提高3.2%，但文献[11]算法和本文算法对较重变异非常态语音基本不能识别。

整体识别即对所有的病变异常语音不分类的识别情况。使用整体识别率为各类说话人识别算法的性能评价指标时，得到如表2所示的结果。

Table 2 Speaker recognition ratio ofabnormal utterance for methods mentioned表2 各类算法的非常态语音说话人识别情况

从表2可知，简单的GMM和SVM说话人识别算法，其性能在面对病变语音时急剧下降。同样使用CV方法，文献[11]算法的整体识别相对本文提出的算法要低2%，主要原因是文献[11]中根据经验设定最优CV参数，而本文依据数据的本身特点主动调整最优CV参数，自适应地使病变语音说话人识别能达到最优。

从表1和表2可知，结合CV和SVM方法具有一定的非常态语音应对能力。为说明本文算法对正常语音说话人识别的影响，本文采用正常语音进行了说话人识别实验，具体实验结果参见表3。

Table 3 Speaker recognition ratio ofvarious algorithms for normal speech表3 各类算法的正常语音说话人识别结果

从表3可知，本文所提算法和文献[11]算法对正常语音说话人识别的性能有点影响，主要是因为正常语音情况下，提取共同向量会使语音失去能表征其个性特征的更细节成分。但是，当语音发生非常态时，提取共同向量保留其大部分表征说话人特性的特征，舍弃语音中的一些发生变化的成分。

4 结束语

本文提出一种基于共同向量的非常态语音说话人识别算法，语音发生非常态现象时，其各阶特征发生何种变化及变化程度如何与引起语音非常态因素有关，而能引起语音非常态因素种类繁多，定性统计分析特征层的变化不现实。本文使用共同向量方法，建立每个说话人的特征的共同向量，然后对测试语音按最优共同向量提取原则提取其共同向量并送进SVM分类器。实验结果表明，采用本文所提算法对轻微异常语音说话人的识别率为85.4%，分别比GMM、SVM和文献[11]识别率提高了16.9%、15.2%和3.1%。在轻微变异语音的说话人识别方面取得一点可喜结果，但在稍重变异和较重变异方面还需要继续努力。

[1] Zhang Lei,Han Jin-qing,Wang Cheng-fa.Research progress of stressed speech processing[J].Acta Electronica Sinica,2003,31(3):411-418.(in Chinese)

[2] Furui S. 50 years of progress in speech and speaker recognition research[J]. ECTI Transactions on Computer and Information Technology, 2005, 1(2):1.

[3] Togneri R,Pullella D.An overview of speaker identification:Accuracy and robustness issues[J]. Circuits and Systems Magazine, IEEE, 2011, 11(2):23-61.

[4] Vaziri G,Almasganj F,Behroozmand R.Pathological assessment of patients’ speech signals using nonlinear dynamical analysis[J]. Computers in Biology and Medicine, 2010, 40(1):54-63.

[5] Baken R J. Clinical measures of speech and voice[M]. Baltimore:Singular, 1996.

[6] Gulmezoglu M B, Dzhafarov V, Keskin M, et al. A novel approach to isolated word recognition[J]. IEEE Transactions on Speech and Audio Processing, 1999, 7(6):620-628.

[7] Gulmezoglu M B, Dzhafarov V, Barkana A. The common vector approach and its relation to principal component analysis[J]. IEEE Transactions on Speech and Audio Processing, 2001, 9(6):655-662.

[8] Cevikalp H, Neamtu M, Wilkes M, et al. Discriminative common vectors for face recognition[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2005, 27(1):4-13.

[9] Cevikalp H, Neamtu M, Barkana A. The kernel common vector method:A novel nonlinear subspace classifier for pattern recognition[J]. IEEE Transactions on Systems, Man, and Cybernetics, Part B:Cybernetics, 2007, 37(4):937-951.

[10] Wen Ying,Shi Peng-fei.An approach to face recognition based on common vector and 2DPCA[J]. ACTA Automatica Sinica,2009,35(2):202-205.(in Chinese)

[11] Sadiç S, Gülmezoglu M B. Common vector approach and its combination with GMM for text-independent speaker recognition[J]. Expert Systems with Applications, 2011, 38(9):11394-11400.

[12] Zhang Xian-da. Matrix analysis and applications[M]. Beijing:Tsinghua University Press,2004.(in Chinese)

[13] You Chang-huai, Lee Kong Aik, Li Hai-zhou. GMM-SVM kernel with a bhattacharyya-based distance for speaker recognition[J]. IEEE Transactions on Audio, Speech, and Language Processing, 2010, 18(6):1300-1312.

[14] Ferras M,Leung Cheung-Chi,Barras C,et al.Comparison of

speaker adaptation methods as feature extraction for SVM-based speaker recognition[J]. IEEE Transactions on Audio, Speech, and Language Processing, 2010, 18(6):1366-1378.

[15] Lin Keng-pei, Chen Ming-syan. On the design and analysis of the privacy-preserving SVM classifier[J]. IEEE Transactions on Knowledge and Data Engineering, 2011, 23(11):1704-1717.

[16] He Jun,Li Yan-xiong,He Qian-hua,et al.Speaker recognition algorithm for abnormal speech based on abnormal feature weighting[J].Journal of South China University of Technology,2012(3):106-111.(in Chinese)

[17] He Jun.Research on stragegies against abnormal speech in voiceprint recognition system[D]:Guangzhou:South China University of Technology,2012.(in Chinese)

附中文参考文献：

[1] 张磊, 韩纪庆, 王承发. 变异语音处理的研究进展[J]. 电子学报, 2003，31(3):411-418.

[10] 文颖, 施鹏飞. 一种基于共同向量结合2DPCA的人脸识别方法[J]. 自动化学报, 2009, 35(2):202-205.

[12] 张贤达. 矩阵分析与应用[M]. 北京：清华大学出版社, 2004.

[16] 何俊, 李艳雄, 贺前华, 等. 变异特征加权的异常语音说话人识别算法[J]. 华南理工大学学报(自然科学版), 2012(3):106-111.

[17] 何俊. 声纹身份识别中非常态语音应对方法研究[D]. 广州：华南理工大学, 2012.

HEJun,born in 1978,PhD,lecturer,his research interests include speech signal processing, speaker recognition, and information security.

Speakerrecognitionofabnormalvoicebasedoncommonvector

HE Jun1,HE Qian-hua2,ZHANG Qing-hua1,SUN Guo-xi1，XIAO Ming1,ZUO Jing-long1

(1.Guangdong University of Petrochemical Technology,Maoming 525000;2.School of Electronic and Information Engineering,South China University of Technology,Guangzhuo 510641,China)

A speaker recognition algorithm of abnormal voice based on common vector is proposed to overcome the drawback that exists when the traditional common vector is calculated by using the predefined parameters. The proposed algorithm uses the system recognition ratio to adaptively adjust the parameters of calculating the common vector, takes the parameter with the highest system recognition ratio as the optimal parameter so as to extract the common vector, and uses the SVM Classifier to categorize the speakers of abnormal voice. Experimental results show that, by using the common vector extracted by the proposed algorithm, the speaker recognition ratio of slight cold is 85.4%, which has the improvement of 16.9%,15.2% and 3.2% respectively in comparison to the methods of GMM,SVM and ref[6].

abnormal voice;speaker recognition;common vector;SVM

1007-130X(2014)08-1599-05

2012-11-01;

：2013-03-14

国家自然科学基金资助项目(60972132，61174113,61101160);广东省自然科学基金资助项目(8152500002000011)

TP391.4

：A

10.3969/j.issn.1007-130X.2014.08.031

何俊(1978-),男,湖南邵阳人，博士，讲师，研究方向为语音信号处理、说话人识别和信息安全。E-mail:hejun_723@126.com

通信地址：525000 广东省茂名市广东石油化工学院石化装备故障诊断检测省重点实验室

Address:Guangdong Province Key Laboratory of Petrochemical Equipment Fault Diagnosis,Guangdong University of Petrochemical Technology,Maoming 525000,Guangdong,P.R.China