Logistic核函数及其在语音识别中的应用

2015-12-23 09:30刘晓峰,张雪英,ZizhongJohnWang
关键词:语音识别支持向量机

Foundation item: Supported by the National Natural Science Foundation of China(61072087)

† 通信作者: 张雪英(1964-),女,教授,博士生导师,主要从事语音信号处理研究.E-mail: tyzhangxy@163.com

Logistic核函数及其在语音识别中的应用*

刘晓峰1张雪英2†Zizhong John Wang3

(1.太原理工大学 数学学院, 山西 太原 030024; 2.太原理工大学 信息工程学院, 山西 太原 030024;

3.Departmentof Mathematics and Computer Science, Virginia Wesleyan College, Norfolk 23502, Virginia, USA)

摘要:核函数是支持向量机(SVM)的核心,直接决定着SVM的性能.为提高SVM在语音识别问题中的学习能力和泛化能力,文中提出了一种Logistic核函数,并给出了该Logistic核函数是Mercer核的理论证明.在双螺旋、语音识别问题上的实验结果表明,该Logistic核函数是有效的,其性能优于线性、多项式、径向基、指数径向基的核函数,尤其是在语音识别中,该Logistic核函数具有更好的识别性能.

关键词:Logistic核函数; 语音识别; 支持向量机; Mercer核

基金项目:* 国家自然科学基金资助项目(61072087)

作者简介:刘晓峰(1979-),男,讲师,博士生,主要从事智能计算研究.E-mail: liuxinyu1206@163.com

文章编号:1000-565X(2015)05-0100-07

中图分类号:TN912.3; TP181

doi:10.3969/j.issn.1000-565X.2015.05.016

语言是人类交流的工具,语音是语言的物理载体.语音识别的目的是使计算机能够听懂人类语言,实现人机间自然交互,使操作计算机更方便.目前,主要的语音识别方法有4种:基于声道模型和语音知识的方法、模板匹配方法、人工神经网络方法以及基于统计分析的方法.只有当训练样本集充分大时,前3种方法的识别性能才能得到保证,但实际的语音样本有限,因而应用中往往难以达到理想的识别效果.支持向量机(SVM)是20世纪90年代兴起的一种统计分析方法,其理论依据是结构风险最小化原则和VC维理论,该方法能较好地解决小样本、非线性、高维数、局部极小点等分类和回归问题.语音识别问题本质上是一种分类问题,因此理论上SVM可应用于语音识别.目前,SVM已广泛应用于不同的词汇量、语种、抗噪、情感等领域的语音识别中[1-5],与传统的识别方法如隐马尔可夫、人工神经网络相比,支持向量机能获得更好的识别结果[6].在SVM中,核函数扮演着重要的角色,它先将原低维空间上的线性不可分问题转化为一个高维特征空间上的线性可分或几乎线性可分问题,然后求解最优超平面.实际应用中常见的核函数有:线性核函数、多项式核函数、径向基高斯核函数、Sigmoid核函数等.此外,还有一些新的核函数:小波核函数、柯西核函数、切比雪夫核函数、UKF核函数等[7-10].但目前主要研究核函数自身的理论性质,这些核函数并不完全适用于语音识别系统,故需要提出新的用于语音识别系统的核函数.根据Mercer定理,只有满足Mercer条件的函数才是核函数,文中提出了一个新的满足Mercer定理的核函数:Logistic核函数,并在双螺旋问题、Vowel及TIDigits语音库上对该函数进行了测试.

1支持向量机

近几年SVM是机器学习领域的热门课题,它已经成功地应用于解决实际问题,尤其是分类问题.其理论基础是统计学习理论,主要思想是使用结构风险最小化原则代替经验风险最小化原则以避免数据过拟合问题.

SVM在小样本的分类问题中能得到最优分类超平面.为了得到最优分类超平面,有必要找到训练子集(即支持向量).SVM将问题转化为下面的凸二次规划问题[11].

给定数据集{(xi,yi),xi∈Rn,yi∈{-1,+1},i=1,2,…,N},yi是类别标签.二分类的原始问题为

(1)

式中:w和b在特征空间中定义了一个线性分类器;C(C>0)是惩罚参数;φ(x)是非线性映射函数;ξ1,ξ2,…,ξN是允许误分类的松弛变量.其对偶问题为

(2)

式中:e是单位向量;Q是N×N的正定矩阵,Qij≡yiyjK(xi,xj),K(xi,xj)=[φ(xi)]Tφ(xj)是核函数(i,j=1,2,…,N);α是拉格朗日乘子,α>0对应的样本称为支持向量;输入向量x被φ(x)映射在高维特征空间中.决策函数为

f(x)=sgn((wT·x)+b)=

(3)

SVM最初是用于解决二分类问题的[11],而语音识别系统本质上是一种多类分类系统.处理多类分类问题的方法有一对一、一对多、有向无环图、纠错输出编码等[12-13],文中采用一对一的方法.

2核函数的理论分析

2.1核函数理论

一般原始空间映射到特征空间的函数是未知的,其存在性是由Mercer定理保证的[14].

Mercer定理[15]函数K(x,y)是有效核函数的条件是:对任意的有界函数g(x),满足

∫∫K(x,y)g(x)g(y)dxdy≥0

(4)

满足Mercer定理的函数K(x,y)在特征空间中是一个内积,称为Mercer核.核函数还可以通过Gram矩阵表示,其定义为

(5)

式中:k(xi,xj)表示xi与xj的内积;K为核函数在训练样本上的Gram矩阵,该矩阵反映了在核函数导出的变换下训练样本之间的近似关系.满足Mercer定理的任意核函数必须是连续、对称的,核矩阵是(半)正定的、没有非负特征值.正定核保证优化的问题是凸的,解是唯一的[8].Mercer核本质上可以反映两个输入数据之间的相似性,其形式和参数的变化会隐式地改变从原始输入空间到特征空间的映射,进而对特征空间的性质产生影响.因此,通过选择适当的核函数,可使目标算法达到更好的效果.表1列出了一些经典的核函数.

表1 SVM经典的核函数

目前已有众多学者在研究核函数的构造理论[16-18],但构造理论还是很不成熟.其构造方法主要分为两大类:

(1)根据现有的两大类核函数(平移不变核函数、旋转不变核函数),利用核函数的封闭性和其他定理、性质来组合、构造混合(复合、超)核函数,这种方法思路简单,证明、编程和调整参数容易实现.该类方法构建的核函数常见的形式有

K(x,x′)=aK1(x,x′)+zK2(x,x′)

(6)

K(x,x′)=K1(x,x′)·K2(x,x′)

(7)

K(x,x′)=p(K1(x,x′))

(8)

K(x,x′)=exp(K1(x,x′))

(9)

式中,K1(·)和K2(·)是满足Mercer条件的核函数,a和z是正常数,p(·)是系数均为正数的多项式函数,K(x,x′)为Mercer核函数.

(2)根据核函数的Mercer条件,借助其他领域的知识构造出全新的函数解析形式作为新的核函数,例如协方差函数和核函数都可以看作是样本间相似程度的度量,文献[19]中采用样本的协方差函数来定义核函数;借鉴地质统计学中估计变异函数的方法,也可以实现核函数的构造,文献[20]中证明了基于此种核函数的SVM等价于地质统计学中的Kriging方法.该类方法思路广泛,但实现较难.

2.2Logistic核函数的构造

Logistic模型是研究有限空间内生物种群增长规律的重要数学模型,其他多种生态模型都是由Logistic模型演变而来.该模型形式简单,主要应用于生物生长和产业成长等过程的描述,随着研究的不断深入,该模型在生物、工程、经济、农业、环境科学等领域有着越来越广泛的应用,特别是对人口数量预测、耐用消费品销售量预测等问题有着重要的应用[21-22].

Logistic模型也被称为S形生长曲线模型,其原因是,该模型的函数曲线从某个固定点出发,斜率单调增加,达到一个拐点后斜率单调下降,渐渐地趋于某个固定值,如图1所示.

图1Logistic函数曲线

Fig.1Logistic function curve

Logistic模型中的Logistic函数解析形式有如下两种:

(10)

(11)

其中,常数A、B、T、s、c均大于0.式(10)等价于式(11),文中取式(11)作为Logistic核函数的解析形式.

根据式(11),文中提出了平移不变核Logistic核函数,其解析形式如下:

(12)

令r=‖x-y‖2,式(12)可化为

(13)

式中:s控制核函数的宽度;c控制原点附近的下降速度;x,y∈Rn.该Logistic核函数的解析形式和Logistic模型中的Logistic函数的解析形式在分母的指数位置相差一个负号.这是因为在原始输入空间中密集分布的样本点,经过核函数的映射计算后在高维特征空间的分布会变得非常稀疏.为了达到这一特性,在样本点附近的核函数值必须很快减小.因此,为了改变图1中Logistic函数曲线的变化趋势,文中Logistic核函数的解析形式作了变动,图2给出了文中Logistic核函数曲线的变化趋势,其中D为当前样本点与未知样本点的距离,K为两个样本点的核函数值.

图2Logistic核函数曲线

Fig.2Logistic kernel function curve

2.3Logistic核函数的证明

核函数的作用局限于构造的核,它在内积空间中必须是内积的形式.另外,核函数只能是点积函数形式K(x,y)=K(x·y),或者是距离函数形式K(x,y)=K(‖x-y‖).对于距离函数形式的核函数,很容易检验其连续性和对称性.下面给出一种用于判断距离函数形式核函数正定性的方法.

引理1X⊂Rn,f:(0,∞)→R,K:X×X→R,核函数有如下形式:K(x,y)=f(‖x-y‖2).若f是严格单调的,则K是正定的.

推论1式(13)中定义在紧区域(x,y∈Rn)上的Logistic核函数(A,s,c>0)是一个Mercer核.

证明显然,当A,s,c>0时,Logistic核函数是连续、对称的.假设0

(14)

由式(14)可知,L(r)是严格单调的,根据引理1,推论1得证.

3实验结果和分析

3.1双螺旋测试问题

双螺旋问题是一个经典的模式识别问题,其目标是将高度相关的双螺旋分开,分开的间隔越大越好.双螺旋数据集共有两类(正类和负类),每类有97个数据,输入数据是由数据点的横、纵坐标组成,输出为1(代表正类)或-1(代表负类),所有数据归一化在[-1,1]区间上,在二维平面上绘制出曲线后,即可成为两条相互缠绕的螺旋线.为了验证核函数的抗噪性能,本实验还对原始数据加了均值为0、均方差为0.03的高斯白噪声.

为测试Logistic核函数的分类性能,文中使用Matlab的Support Vector Machine Toolbox工具箱[23-24]进行实验,其中多项式核函数的参数d在(2,10)之间寻优取值,其余参数均在(2-10,213)的范围内进行10折交叉验证来寻优取值.表2列出了不同核函数的最大间隔值Dmax、最优参数、支持向量个数Ns及其与训练样本数的比值r.

表2不同核函数在双螺旋问题上的测试结果

Table 2Experimental results of different kernel functions on bispiral problem

核函数数据DmaxNsr/%最优参数Linear原始数据带噪数据1.7693811.81629618618695.995.9C=2ERBF原始数据带噪数据0.1436830.143704194194100.0100.0C=128,σ=0.05RBF原始数据带噪数据0.1525420.15695417418189.793.3C=128,σ=0.1Polynomial原始数据带噪数据2.5022831.96387318618695.995.9C=1,d=2Logistic原始数据带噪数据9.58768010.715163194194100.0100.0C=1,A=1,s=213,c=26

从表2可以看出:不管是原始数据还是带噪数据,Logistic核函数的最大间隔比其他核函数大,大约是RBF和ERBF核函数最大间隔的70倍,说明Logistic核函数具有很强的分类能力和抗噪能力;Logistic核函数训练得到的支持向量与训练样本数的比值为100.0%,说明Logistic核函数训练依赖所有的训练样本.

图3给出了4种核函数在双螺旋原始数据(无噪声)和带噪数据上的分类边界,白色区域代表正类,黑色区域代表负类,方框中的数据点代表支持向量.从图中可以看出:线性和多项式核函数均不能对双螺旋数据进行有效的划分,得到的最优超平面几乎都是线性平面,说明线性和多项式核函数几乎不具有非线性分类能力;RBF核函数基本上可以将双螺旋数据正确地分类,但划分的正负两类区域区分不均匀,区域边界存在锯齿现象,不光滑的边界说明该核函数对训练数据依赖性强,拟合性差,并且抗噪能力有限;Logistic核函数可以对双螺旋数据进行正确的划分,光滑的边界表明Logistic核函数不仅能够进行正确的分类,还具有很强的泛化能力和抗噪能力.

3.2语音识别实验

3.2.1元音识别

本实验使用UCI中的Vowel语音数据库,该库中的11个元音及其发音单词见表3,15个说话人(8个男性,7个女性)每人发音6次,4个男性和4个女性的发音数据用作训练样本(样本数为528),其余数据用作测试样本(样本数为462).预处理时,语音信号采样率为10kHz[25].在Matlab平台上使用LIBSVM工具箱[26]进行实验,选择线性、多项式、RBF、ERBF和Logistic核函数作对比,参数的寻优方法和3.1节的实验相同,最优参数和识别结果见表4.

图34种核函数的分类边界

Fig.3Boundaries of four kernel functions

表3 Vowel数据库中的元音及其发音单词

表4不同核函数在Vowel数据库上的识别结果

Table 4Recognition results of different kernel functions on Vowel database

核函数最优参数识别率/%支持向量个数LinearC=253.8961327PolynomialC=32,d=761.4719270ERBFC=32,σ=168.6147514RBFC=32,σ=169.6970364LogisticC=2,s=0.35,c=0.870.3463378

从表4可以看出:线性、多项式核函数的识别率是最差的,说明其非线性分类能力、泛化能力较差;RBF、ERBF核函数的识别率居中;Logistic核函数的识别率是最高的,说明其具有很强的非线性分类能力和泛化能力.从支持向量个数来看,只有ERBF核函数最多,比值r接近100%,其余均相对较少.

3.2.2孤立词识别

本实验是在TIDigits语音库[27]上进行,TIDigits语音库有326个说话人(111个男性、114个女性、50个男孩和51个女孩),每人发音77个字符串,每个发音群都有训练集和测试集,语音数据在静音环境下采集.实验提取11个孤立的数字发音(“zero”,“one”,“two”,…,“nine”,“oh” ),每人发音两次,男性、女性、男孩、女孩的训练集分别有1210、1254、

550、572个样本,测试集分别有1232、1254、550、550个样本.预处理时语音信号采样率为20kHz,帧长为512,帧移为256,语音提取特征为Mel频率倒谱系数(MFCC),提取的特征参数经动态时间归整(DTW)归一化成1024维.为了验证核函数的抗噪性能,将取自Noise-x92噪声数据库中的汽车内部噪声混入到纯净语音,形成0~30dB不同信噪比的带噪语音[28].

本实验的实验平台环境和3.2.1节的实验相同,选择RBF、ERBF和Logistic核函数作对比,参数的寻优方法和3.1节的实验相同,最优参数和识别结果如表5所示,3种核函数在每类发音人的不同信噪比下的平均识别率见表6.从表5和6可以看出,在各种信噪比下和各类发音人中,Logistic核函数的平均识别率都是最高的.

表6不同核函数在TIDigits语音库上的平均识别率

Table 6Average recognition accuracy of different kernel functions on TIDigits voice database

%

3.2.1和3.2.2节的实验结果表明,Logistic核函数具有一定的学习、泛化和抗噪能力,适用于语音识别系统.

表5 不同核函数在TIDigits语音库上的识别结果

4结论

为提高SVM在语音识别问题中的学习能力和泛化能力,文中提出了一种Logistic核函数,并证明了该Logistic核函数满足Mercer定理.在双螺旋问题上的实验结果表明,该Logistic核函数有很强的分类能力和抗噪能力.在Vowel和TIDigits数据库上的实验结果表明,与RBF、ERBF核函数相比,Logistic核函数能获得更高的识别率.故文中提出的Logistic核函数适用于语音识别系统.今后拟在更大词汇量和更低信噪比的语音库上进行实验,进一步研究Logistic核函数参数的优化算法,以提高参数寻优的速度.此外,还将其与语音识别当前热门技术——深度学习理论相结合进行研究.

参考文献:

[1]林琳,陈虹,陈建,等.基于多核SVM-GMM的短语音说话人识别 [J].吉林大学学报:工学版,2013,43(2):504-509.

Lin Lin,Chen Hong,Chen Jian,et al.Speaker recognition with short utterances based on multiple kernel SVM-GMM [J].Journal of Jilin University:Engineering and Techno-logy Edition,2013,43(2):504-509.

[2]王宪亮,吴志刚,杨金超,等.基于SVM一对一分类的语种识别方法 [J].清华大学学报:自然科学版,2013,53(6):808-812.

Wang Xian-liang,Wu Zhi-gang,Yang Jin-chao,et al.Language recognition based on SVM 1 vs.1 classification [J].Journal of Tsinghua University:Science and Techno-logy,2013,53(6):808-812.

[3]白静,杨利红,张雪英.一种面向语音识别的抗噪SVM参数优化方法 [J].中南大学学报:自然科学版,2013,44(2):604-611.

Bai Jing,Yang Li-hong,Zhang Xue-ying.An anti-noise SVM parameter optimization method for speech recognition [J].Journal of Central South University:Science and Technology,2013,44(2):604-611.

[4]Campbell W M.A covariance kernel for SVM language re-cognition [C]∥Proceedings of 2008 IEEE International Conference on Acoustics,Speech and Signal Processing.Las Vegas:IEEE,2008:4141-4144.

[5]李书玲,刘蓉,张鎏钦,等.基于改进型SVM算法的语音情感识别 [J].计算机应用,2013,33(7):1938-1941.

Li Shu-ling,Liu Rong,Zhang Liu-qin,et al.Speech emotion recognition algorithm based on modified SVM [J].Journal of Computer Applications,2013,33(7):1938-1941.

[6]邓乃扬,田英杰.支持向量机:理论、算法与拓展 [M].北京:科学出版社,2009.

[7]Du Pei-jun,Tan Kun,Xing Xiao-shi.Wavelet SVM in reproducing kernel Hilbert space for hyperspectral remote sensing image classification [J].Optics Communications,2010,283(24):4978-4984.

[8]Rakse Surendra Kumar,Shukla Sanyam.Spam classification using new kernel function in support vector machine [J].International Journal on Computer Science and Enginee-ring,2010,2(5):1819-1823.

[9]Ozer Sedat,Chen Chi H,Cirpan Hakan A.A set of new Chebyshev kernel functions for support vector machine pattern classification [J].Pattern Recognition,2011,44(7):1435-1447.

[10]Zhang Rui,Wang Wen-jian.Facilitating the applications of support vector machine by using a new kernel [J].Expert Systems with Applications,2011,38(11):14225-14230.

[11]Cortes C,Vapni k V.Support vector network [J].Machine Learning,1995,20(3):273-297.

[12]朱波,刘飞,李顺江.基于优化有向无环图支持向量机的多变量过程均值异常识别 [J].计算机集成制造系统,2013,19(3):559-568.

Zhu Bo,Liu Fei,Li Shun-jiang.Mean abnormality identification in multivariate process based on optimized directed acyclic graph support vector machine [J].Computer Integrated Manufacturing Systems,2013,19(3):559-568.

[13]Dietterich T G,Bakiri G.Solving multiclass learning pro-blems via error-correcting output codes [J].Journal of Artificial Intelligence Research,1995,2:263-286.

[14]Courant R,Hilbert D.Methods of mathematical physics[M].New York:Wiley,2008.

[15]Vapnik V.Statistical learning theory [M].New York:Wiley,1998.

[16]王国胜.核函数的性质及其构造方法 [J].计算机科学,2006,33(6):172-174.

Wang Guo-sheng.Properties and construction methods of kernel in support vector machine [J].Computer Science,2006,33(6):172-174.

[17]贾磊,廖士中.超核函数支持向量机 [J].计算机科学,2008,35(12):148-150.

Jia Lei,Liao Shi-zhong.Support vector machine with hyperkernel functions [J].Computer Science,2008,35(12):148-150.

[18]白静.支持向量机算法在语音识别中的应用研究 [D].太原:太原理工大学信息工程学院,2010.

[19]Seeger M.Bayes method for support vector machine and Gaussian processes [D].Edinburgh:Division of Informatics,University of Edinburgh,1999.

[20]阎辉,张学工,马云潜,等.基于变异函数的径向基核函数的参数估计 [J].自动化学报,2002,28(3):450-455.

Yan Hui,Zhang Xue-gong,Ma Yun-qian,et al.The parameter estimation of RBF kernel function based on variogram [J].Acta Automatica Sinica,2002,28(3):450-455.

[21]阎慧臻.Logistic模型在人口预测中的应用 [J].大连工业大学学报,2008,27(4):333-335.

Yan Hui-zhen.Application of logistic model in population prediction [J].Journal of Dalian Polytechnic University,2008,27(4):333-335.

[22]徐星,李元香,吴昱,等.基于粒子群优化算法的Logistic模型参数估计 [J].电子学报,2010,38(2A):55-59.

Xu Xing,Li Yuan-xiang,Wu Yu,et al.Parameter estimation for logistic model by particle swarm optimization algorithm [J].Acta Electronica Sinica,2010,38(2A):55-59.

[23]Matlab.Mathworks [EB/OL].[2014-10-01].http:∥www.mathworks.com.

[24]Steve Gunn.Matlab support vector machine toolbox [EB/OL].(2001-10-12)[2014-10-01].http:∥www.isis.ecs.soton.ac.uk/resources/svminfo.

[25]UCI.Vowel recognition [EB/OL].(1989-06-01)[2014-10-01].http:∥archive.ics.uci.edu/ml/machine-lear-ning-databases/undocumented/connectionist-bench/vowel/vowel.names.

[26]Chang Chih-Chung,Lin Chih-Jen.LIBSVM:a library for support vector machines [CP/OL].[2014-10-01].http:∥www.csie.ntu.edu.tw/~cjlin/libsvm.

[27]Leonard R Gary,Doddington George.TIDIGITS [DB].Philadelphia:Linguistic Data Consortium,1993.

[28]TNO,Soesterberg.Noise-x92 [EB/OL].(1996-08-13)[2014-10-01].http:∥www.speech.cs.cmu.edu/comp.speech/Section1/Data/noisex.html.

Logistic Kernel Function and its Application to Speech Recognition

LiuXiao-feng1ZhangXue-ying2ZizhongJohnWang3

(1.College of Mathematics,Taiyuan University of Technology,Taiyuan 030024,Shanxi,China;

2.College of Information Engineering,Taiyuan University of Technology,Taiyuan 030024,Shanxi,China;

3.Department of Mathematics and Computer Science,Virginia Wesleyan College,Norfolk 23502,Virginia,USA)

Abstract:Kernel function is the core of support vector machine(SVM) and directly affects the performance of SVM. In order to improve the learning ability and generalization ability of SVM for speech recognition, a Logistic kernel function, which is proved to be a Mercer kernel function, is presented. Experimental results on bi-spiral and speech recognition problems show that the presented Logistic kernel function is effective and performs better than linear, polynomial, radial basis and exponential radial basis kernel functions, especially in the case of speech recognition.

Key words: Logistic kernel function;speech recognition;support vector machines;Mercer kernel

猜你喜欢
语音识别支持向量机
通话中的语音识别技术
基于改进支持向量机的船舶纵摇预报模型
基于SVM的烟草销售量预测
动态场景中的视觉目标识别方法分析
论提高装备故障预测准确度的方法途径
基于熵技术的公共事业费最优组合预测
基于支持向量机的金融数据分析研究
面向移动终端的语音签到系统
农业物联网平台手机秘书功能分析与实现
基于LD3320的非特定人识别声控灯系统设计