基于CFCC-PCA的说话人辨识方法

2015-09-21 07:02:16刘雪燕袁宝玲

成都工业学院学报 2015年2期

关键词：实时性特征参数鲁棒性

刘雪燕*，李明，袁宝玲

(1.中山火炬职业技术学院信息工程系，广东中山528436;2.兰州理工大学计算机与通信学院，兰州 730050)

基于CFCC-PCA的说话人辨识方法

刘雪燕1*，李明2，袁宝玲1

(1.中山火炬职业技术学院信息工程系，广东中山528436;2.兰州理工大学计算机与通信学院，兰州 730050)

针对说话人训练和识别时间长、噪音环境下识别率低的问题，提出一种CFCC-PCA特征参数的说话人辨识方法。首先提取具有听觉特性的CFCC特征参数，然后对其进行PCA变换，找出具有分辨能力的参数，最后再用这些参数在云服务器中训练和识别说话人。实验表明:该方法可以提高说话人辨识的鲁棒性和识别率，云服务可提高系统实时性。

CFCC-PCA;说话人辨识;支持向量机;云服务器

说话人辨识技术因其不容易模仿、随身携带等生物特证优点，在身份识别领域中具有广泛的应用［1］。现有的说话人辨识技术在安静环境下识别率很高，但在噪音环境中识别率低、识别实时性不强，因此不能得到广泛的应用［2-3］。很多学者做了大量的研究来提高实时性和鲁棒性，文献［4］提出耳蜗倒谱系数(Cochlear Filter Cepstral Coefficients，CFCC)的特征参数以提高在噪音环境下的识别率;文献［5］提出将软件能力成熟度模型(Capability Maturity Model，CMM)说话人模型的距离定义为相似度，即将声音类似的说话人聚集为同一类。CFCC特征参数具有很好的抗噪声能力，其性能优于Mel倒谱系数(Mel Cepstrum Coefficients，MFCC)，但是其分类能力不强。文献［6］提出高斯混合模型(Gaussian Mixture Model，GMM)是一种概率统计说话人模型，随着注册用户的增多，语音特征参数之间重叠比较严重，系统识别率降低很快。文献［7］指出主成分分析(Principal Component Analysis，PCA)是不需要训练的分类器，直接可由语音特征参数得到，实现比较快速、简单。文献［8］指出支持向量机(Support Vector Machine，SVM)是一种基于结构风险最小化原则的模式识别方法，在处理非线性、高维数样本时具有很大的优势，在基于语音样本的说话人辨识上有良好的效果。本文提出一种融合PCA分类和CFCC特征参数的辨识方法，以提高鲁棒性，并用云服务器训练SVM模型，提高系统实时性。

1 算法

说话人辨识的前期工作有语音信号的录入、语音特征参数的提取、说话人模型的训练等。当进行说话人身份识别时，录入待测语音，系统根据待测语音提取语音特征参数，然后与已经训练好的说话人模型进行匹配，从而确定身份，完成说话人辨识。语音特征参数的提取、说话人模型的训练及匹配都是通过算法来完成，因数据比较大，处理这些数据会花费较多的时间，影响系统的实时性，为减少运算时间，本研究将这些算法搬移到搭建的云服务器中进行。

1.1 耳蜗倒谱系数CFCC

CFCC参数是人耳听觉感知特征，PCA具有很好的分类能力，本实验先提取注册说话人语音的CFCC特征参数，得到分类能力比较好的重构信号。将n个需要注册的说话人描述为s∈(1，n)，每一个注册说话人的语音用M段需要训练的语音段)组成，这些语音段反映了注册说话人的不同发音以及语音韵律等特征。根据文献［4］提出的基于听觉变换的CFCC语音特征参数算法，将录入的语音信号，代入CFCC变换公式，得到经过听觉变换的T(a，b):

其中:耳蜗滤波函数为:

耳蜗滤波函数满足的条件:

其中:α＞0;β＞0;θ为初始相位，取值满足式(3);u(t)为单位步进函数;b为随时间可变的参数;a=fL/fc为尺度变量，且0＜a≤1;fc为最低滤波器组的中心频率;fL为当前要实现滤波器的最低中心频率。

人耳能够听到的声音的频率范围为20 Hz～20 kHz，且对于频率的分辨能力是非均匀的。α和β的取值会影响降噪效果，经多次实验证明:当α=3，β=0.2时，降噪效果良好。由此得到的T(a，b)的频谱变换平滑，没有噪音。下面对T(a，b)进行变换，以得到基于人耳耳蜗的语音。

其中:d=max{3.5τi，20 ms};τj=1/fi;L=1/fc=10 ms。

最后将 y(i，j)进行离散余弦变换，从而得到CFCC特征参数:

1.2 CFCC-PCA语音特征参数

1)计算语音特征参数矢量的均值向量:

2)计算中心化的语音特征矢量:m＇(i)=m(i)-u。

3)计算协方差矩阵:

4)计算协方差矩阵的特征值λ1≥λ2≥…≥λ24和对应的特征矢量w1，w2，…，w32，取最具有分辨力的特征向量(特征值最大的前q个)组成变换矩阵W=(w1，w2，…，wq)，再由 KL 变换公式得到主成分:Y(i)=WTX＇(i)，同时保存变换矩阵W，在二次判决中使用。

5)重构语音信号X^(i)=WY(i)，得到降低维数和去除噪音后的语音。

1.3 计算平台

云计算平台具有运算能力强、服务虚拟化、安全性好、可靠性高等优点，正被应用于不同的领域［9-10］。Hadoop是一个基于云计算平台框架，可以把大量廉价硬件设备组成云计算集群，并进行大规模的计算。本实验利用Hadoop技术将现有的8台普通计算机和1台普通服务器组合在一起，普通计算机配置2.30 GHz，内存32.0 GB，64位操作系统，服务器配置为Intel Celeron(R)CPU 2.7 GHz。采用MapReduce并行数据处理模型，将语音特征参数的提取、说话人模型的训练及匹配等计算复杂度比较大的3个算法植入Hadoop MapReduce框架。

说话人模型训练:语音数据通过客户端的麦克风输入，然后客户端将语音发送到云服务器，因语音数据参数比较多，参数提取算法、说话人模型的训练算法等计算复杂度比较大，服务器将语音数据分块，存储在各个节点上。然后调用MapReduce编程框架中的CFCC倒谱系数、CFCC-PCA语音特征参数算法，对语音特征参数进行提取，并将提取之后的语音特征参数储存在各个节点，再调用SVM说话人模型训练算法程序，并行训练SVM子模型，从而完成说话人模型的训练。此方法可以节省大量的训练时间。

说话人辨识:将待测语音通过客户端输入，客户端将语音发送到云服务器，在云服务器和各节点提取CFCC-PCA语音特征参数，并与各节点储存SVM说话人子模型进行匹配，完成模式识别后，将识别结果返回客户端。

图1 云服务器说话人辨识模型

2 结果与讨论

2.1 系统的实时性

为检测实验的实时性，分别利用云服务器和普通PC机进行模型训练和识别。第1组:在1.3中描述的计算平台中进行，8台普通计算机和1台普通服务器;第2组:普通客户终端配置为2.30 GHz，内存32.0 GB，64位操作系统。第1组实验时，从客户端录入语音，传送至云服务器，由云服务器将语音数据分到各节点提取参数并训练模型。第2组:语音录入、参数提取、模型的训练和说话人识别都在普通PC机中进行。通过对比可以发现:云计算平台占有绝对优势，如图2、图3所示。

图2 训练时间对比

图3 识别时间对比

2.2 系统的鲁棒性

为检测基于CFCC-PCA特征参数的系统鲁棒性，抽取实验中的100人，分别提取32维的MFCC、LPCC、CFCC-PCA等不同的特征参数，测试在不同高斯白噪音下的正确识别率，测试结果如图4所示。由图4可知:基于CFCC-PCA特征参数的说话人辨识具有较好的鲁棒性。

图4 特征参数在噪音环境下的比较

3 结语

本研究提出基于PCA分类和CFCC听觉特性的特征参数提取方法，用CFCC-PCA特征参数训练说话人模型，并训练和识别说话人都在云服务器中进行，实验表明:CFCC-PCA特征参数具有很好的鲁棒性，而云服务器具有高效的处理能力，提高了识别效率，保证了系统的实时性。

［1］JAIN A K，HONG L，KULKARNI Y A.Multimodal biometric sys-tem using fingerprints，face and speech［C］//2nd Int＇l Conferenceon Audio-and Video-based Biometric Person Authentication，Washington D.C.，1999:182-187.

［2］曹洁，余丽珍.改进的说话人聚类初始化和GMM的多说话人识别［J］.计算机应用研究，2012，29(2):590-593.

［3］GARAU G，DIELMANN A，BOURLARD H.Audio-visual synchronisation for speaker diarisation［C］//Proc of International Conference on Speech and Language Processing.Makuhari，Chiba:［s n.］，2010:2654-2657.

［4］LI Q，HUANG Y.An Auditory-based feature extraction algorithm for robust speaker identification under mismatched conditions［J］.Audio，Speech，and Language Processing，IEEE Transactions on，2010，19(6):1791-1801.

［5］TSAIW H，CHHEN S S，WANG H M.Automatic speaker clutering using a voice characteristic reference space and maximum purity estination［J］.IEEE Transactions on Audio Speech and Languager Processing，2013，15(4):1461-1471.

［6］LIUM H，XIEY L，YAO Z Q，et al.A new hybrid GMM/SVM for speaker verification［C］//The 18th International Conference on Pattern Recognition，Hong Kong:IEEE Press，2006:314-317.

［7］ZHANG W F，YANG Y C，WU Z H，Exploition PCA classifiers to speaker recognition［C］//Proceddings of the International Joint Conference on the Neural Networks Portland IEEE Press，2003(1):820-823.

［8］BURGES C L C.A tutorial on support vector machines for pattern recognition［J］.Data Mining and Knowledge Discovery，1998，2(2):121-167.

［9］GAO Y，JIN L W，HE C，et al.Handwriting character recognition as a service:a new handwriting recognition system based on cloud Computing［C］//Document Analysis and Recognition(ICDAR)，2011 International Conference on，2011:885-889.

［10］罗希，刘锦高.基于NIOS的ANN语音识别系统［J］.计算机系统应用，2009(12):144-146.

Speaker Identification Based on CFCC-PCA

LIU Xueyan1* ，LI Ming2，YUAN Baoling1

(1.Department of Information Engineering，Zhongshan Torch Polytechnic，Zhongshan 528436，China;2.College of Computer＆Communication，Lanzhou University Of Technology，Lanzhou 730050，China)

Training speaker system and speaker identification need a long time，and in the noise environment，the recognition rate is very low，A CFCC-PCA characteristic parameter method is proposed.Firstly，the acoustic characteristics of CFCC characteristic parameters are extracted.Then，

CFCC-PCA parameters are extracted by PCA transformation of CFCC characteristic parameters.Finally the speaker models are trained and recognized in cloud.Experiments show that the CFCC-PCA characteristic parameters can improve the robustness and recognition rate of the speaker，the cloud services with efficient processing ability to improve system real-time performance.

CFCC-PCA;speaker identification;Support Vector Machine(SVM);cloud server

TP391.4

2095-5383(2015)02-0032-03

10.13542/j.cnki.51-1747/tn.2015.02.010

2015-03-17

中山市科技发展专项基金项目“基于云计算的生物身份认证技术研究及应用”(2013A3FC0350);中山市科技发展专项基金项目“基于中山地貌的最优化无线网络模型研究”(2013A3FC0318)

刘雪燕(1980— )，女(汉族)，河南周口人，讲师，硕士，研究方向:生物身份识别、模式识别，通信作者邮箱:hnqiaolu@163.com。

李明(1959— )，男(汉族)，河北辛集人，教授，硕士，研究方向:智能信息处理。