组合核支持向量机的模式分析新方法

2013-07-20 02:34徐立祥李旭吕皖丽罗斌
计算机工程与应用 2013年24期
关键词:测试点合肥全局

徐立祥,李旭,吕皖丽,罗斌

1.安徽大学计算机科学与技术学院,计算智能与信号处理教育部重点实验室,合肥 230039

2.安徽省工业图像处理与分析重点实验室,合肥 230601

3.合肥学院数学与物理系,合肥 230601

组合核支持向量机的模式分析新方法

徐立祥1,2,3,李旭3,吕皖丽1,2,罗斌1

1.安徽大学计算机科学与技术学院,计算智能与信号处理教育部重点实验室,合肥 230039

2.安徽省工业图像处理与分析重点实验室,合肥 230601

3.合肥学院数学与物理系,合肥 230601

1 引言

由V.Vapnik等人提出的支持向量机(SVM)因具有良好的推广性,已成功地得到了广泛的应用。SVM是用于解决从样本进行学习的一种基于核的新技术[1-3],核函数的选择以及核参数优化决定了支持向量机的学习能力和推广能力的好坏,所以很多研究者对常用核的性质以及对各种参数求解方法作了大量研究[4-5]。单一的核函数性能可能会有一些不足,于是组合核函数成为众多研究者的关注点[6-7]。支持向量机的性能主要体现在学习能力和推广能力上,所以为了提高支持向量机的模式分析能力,需要在学习能力和推广能力两方面取得一个良好的折衷,尽量避免欠学习和过学习,同时也要获得良好的推广能力。组合核支持向量机可以结合各个核的优点,通过选择全局核和局部核的组合,组合成性能更好的核函数。文献[8]中提到一些多项式组合核或其他组合核的应用;文献[9]提出多核核成分的新组合核支持向量机;文献[10]使用遗传算法与支持向量机结合;文献[11]提出一种特征提取多核支持向量机。不管如何组合新核,一般认为,组合核性能更优于单核支持向量机[12-13]。组合核的优势主要在于弥补单核的缺陷。

2 Sobolev Hilbert空间上的再生核函数

一个函数只要满足Mercer条件,这个函数就是一个可容许的支持向量机核函数。[14]

3 基于再生核的组合核函数

支持向量机使用的核函数类型有许多,然而归纳起来有两种主要类型,即:全局性核函数(Global核函数)和局部性核函数(Local核函数),全局核函数具有全局特性,允许相距很远的数据点都可以对核函数的值有影响,泛化性能强、学习能力较弱;而局部核函数具有局部性,只允许相距很近的数据点对核函数的值有影响,学习能力强、泛化性能较弱。本文中Sobolev Hilbert空间H1(R;a,b)上的再生核函数(G核函数):

图1 G核函数曲线

图1显示了当核参数分别取a·b=1,b=1.25,2,3,4时的G核函数曲线图,取xi=0.2为测试输入。从图1可得,距离测试点xi越近的输入数据,对核函数值产生的作用越大;距离测试点xi越远的输入数据,对核函数值产生的作用越小。

多项式核函数(Poly核函数)是典型的全局核函数,表达式为:Kpoly(x,x′)=(x·x′+1)d,图2显示了当核参数分别取d=1,2,3,4时的Poly核函数曲线图,同样,取xi=0.2为测试输入,从图2可以得出,距离测试点xi越远的输入数据,对核函数值产生的作用越大;距离测试点xi越近的输入数据,对核函数值产生的作用越小。

图2 多项式核函数曲线

由于局部核与全局核的内推能力和外推能力的差异,因而在学习性能和泛化性能上也各具优势。基于以上分析,可以将两种核函数组合构成新的核函数,这样能够扬长避短,兼顾其构成中的普通核函数的优势,从而得到性能更加优越的SVM。

引理3.1设K1和K2是在X×X上的核函数,X∈Rn,常数a≥0。则下面的函数仍是核函数:

根据引理3.1,将全局核函数与局部核函数线性组合,构造如下形式的组合核函数:

式中,KGlobal为全局再生核函数,KLocal为局部线性核函数,权系数m(0≤m≤1)为调节两种核函数作用大小的常数。分析此组合核函数,可以发现当m=0时,组合核函数即变为局部核函数;m=1时,组合核函数即变为全局核函数。实际应用时,可根据采集样本的数据分布以及已有的经验调节m,使得到的组合核函数成为更适合研究的对象。

图3为m分别取0.6,0.7,0.8,0.9时的组合核函数曲线图,其中测试点xi=0.2,a·b=1,b=2,d=2。可以看出:组合核函数同时具有局部Poly核函数和全局G核函数的特性,远离以及靠近测试点xi数据都对核函数的值产生了很大的影响。

图4给出了组合核函数SVM建模的流程。

图3 组合核函数曲线

图4 组合核函数SVM模式分析流程

4 仿真结果与分析

4.1 二元函数回归实验及结果分析

下面用本文中的组合核函数支持向量机回归拟合二元函数:

仿真实验结果如图5和图6所示。

图5 原始曲线和基于组合核的逼近曲线(view([-40 30]))

图5和图6是二元函数从不同的视角角度所得的图像,在两个图像中,可以清楚看到原始曲面和逼近曲面的接近程度,通过参数选优,可以使得组合核的逼近误差小于单核Poly核和G核的逼近误差。

4.2 酒品鉴别实验及结果分析

图6 原始曲线和基于组合核的逼近曲线(view([55 10]))

葡萄酒作为一种越来越流行的健康饮品,其品质好坏的鉴别分类日益受到关注,葡萄酒复杂的成分是划分葡萄酒品质的重要依据。本实验对源自UCI数据库的葡萄酒数据进行预处理,通过对178个葡萄酒样品的化学分析数据进行分析,建立基于本文中的组合核支持向量机的葡萄酒品质的评判模型,并利用LIBSVM对高维复杂的葡萄酒属性数据进行分析、处理、优化,并进行分类识别,准确率高达99%,因此,该模型对葡萄酒品质快速有效的评判提供了新的理论依据。

在wine数据中,将第一类的1~40,第二类的60~105,第三类的131~163做为训练集,将第一类的41~59,第二类的106~130,第三类的164~178做为测试集。基于再生核的组合核函数支持向量机分类识别实验结果如图7所示。

图7 基于再生核的组合核函数支持向量机分类识别

5 结束语

本文基于再生核理论和支持向量机方法,提出了一种称为基于再生核的组合核函数支持向量机的新的机器学习方法,利用Sobolev Hilbert空间H1(R;a,b)上的再生核给出了SVM的一个新的组合核函数,从而得到了一种新的组合核支持向量的模式分析模型。回归分析和模式识别的实验表明,基于再生核的组合核支持向量机具有其独特的性能,在工程实践和理论研究中,均具有良好的理论价值和应用价值。

[1]Vapnik V N.The nature of statistical learning theory[M].2nd ed.New York:Springer-Verlag,2000:156-287.

[2]Shahlaei M,Fassihi A,Saghaiea L.Application of PC-ANN and PC-LS-SVM in QSAR of CCR1 antagonist compounds:a comparative study[J].European Journal of Medicinal Chemistry,2010,45(4):1572-1582.

[3]Ying L,Bendu B,Yanning Z.Improved particle swarm optimization algorithm for fuzzy multi-class SVM[J].Journal of Systems Engineering and Electronics,2010,21(3):509-513.

[4]Luss R,Aspremont A.Support vector machine classification with indefinite kernels[J].Mathematical Programming Computation,2009,1(2/3):97-118.

[5]Dioşan L,Rogozan A,Pecuchet J.Improving classification performance of Support Vector Machine by genetically optimising kernel shape and hyper-parameters[J].Applied Intelligence,2012,36(2):280-294.

[6]Ibrikci T,Ustun D,Kaya I E.Diagnosis of several diseases by using combined kernels with Support Vector Machine[J]. Journal of Medical Systems,2012,36(3):1831-1840.

[7]Nguyen H N,Ohn S Y,Park J,et al.Combined kernel function approach in SVM for diagnosis of cancer[C]//Lecture Notes in Computer Science:Advances in Natural Computation,2005,36:1017-1026.

[8]Dioian L,Rogozan A,Pécuchet J P.Evolutionary optimisation of kernel and hyper-parameters for SVM[C]//Modelling,Computation and Optimization in Information System and Management Science,2008:107-116.

[9]Zhou Yonghua.Fuzzy indirect adaptive control using SVM-based multiple models for a class of nonlinear systems[J]. Neural Computing and Applications,2013,22(3/4):825-833.

[10]Li Zhanchao,Zhou Xuan,Dai Zong,et al.Classification of G-protein coupled receptors based on support vector machine with maximum relevance minimum redundancy and genetic algorithm[J].BMC Bioinformatics,2010,11.

[11]Chen Zhen,Li Jianping,Wei Liwei.A multiple kernel support vector machine scheme for feature selection and rule extraction from gene expression data of cancer tissue[J].Artificial Intelligence in Medicine,2007,41(2):161-175.

[12]Ohn S Y,Nguyen H N,Chi S D.Evolutionary parameter estimation algorithm for combined kernel function in support vector machine[C]//LNCS 3309:Content Computing,2004:481-486.

[13]Nguyen H N,Ohn S Y,Choi W J.Combined kernel function for support vector machine and learning method based on evolutionary algorithm[C]//LNCS 3316:Neural Information Processing,2004:1273-1278.

[14]Mercer J.Function of positive and negative type and their connection with the theory of integral equations[J].Philosophical Transactions of the Royal Society of London,1909,209:415-446.

[15]Smola A J,Scholkopf B,Muller K R.The connection between regularization operators and support vector kernels[J]. Neural Networks,1998,11(4):637-649.

XU Lixiang1,2,3,LI Xu3,LV Wanli1,2,LUO Bin1

1.Key Lab of Intelligent Computing&Signal Processing of Ministry of Education,School of Computer Science and Technology, Anhui University,Hefei 230039,China
2.Anhui Province Key Lab of Industrial Image Processing and Analysis,Hefei 230601,China
3.Department of Mathematics&Physics,Hefei University,Hefei 230601,China

Based on the conditions of kernel function of Support Vector Machine(SVM),the reproducing kernel function on the Sobolev Hilbert space and polynomial kernel function are combined efficiently.A new combined kernel function is given,and a model analysis method of combined kernel SVM based on reproducing kernel is proposed,which has the advantages of global kernel function and local kernel function,and the complexity of the algorithm is reduced.The simulation results show that the kernel function of SVM adopts combined kernel function which is based on the reproducing kernel is feasible.The kernel function not only has the nonlinear mapping characteristics,but also inherits good approximation of reproducing kernel function on the nonlinear characteristics step by step.The model analysis results are more delicate than individual kernels function.

Support Vector Machine(SVM);reproducing kernel;combined kernel function;model analysis

基于支持向量机核函数的条件,将Sobolev Hilbert空间的再生核函数和多项式核函数进行有效的线性组合,给出一种新的支持向量机的组合核函数,提出一种基于再生核的组合核函数支持向量机的模式分析方法,该方法兼具了全局核函数与局部核函数的优点,且算法的复杂度被降低。仿真实验结果表明:支持向量机的核函数采用基于再生核的组合核函数是可行的,且此核函数不仅具有核函数的非线性映射特征,而且也继承了核函数对非线性逐级精细逼近的特征,模式分析的效果比单核函数可以更加细腻。

支持向量机;再生核;组合核函数;模式分析

A

TP391.4

10.3778/j.issn.1002-8331.1302-0105

XU Lixiang,LI Xu,LV Wanli,et al.New model analysis method of combined kernel Support Vector Machine.Computer Engineering and Applications,2013,49(24):112-115.

安徽高校省级自然科学研究重大项目(No.KJ2010ZD10);安徽省高校优秀青年人才基金项目(No.2012SQRL174);合肥学院自然科学研究一般项目(No.13KY04ZR)。

徐立祥(1981—),男,在读博士,讲师,主要研究领域:图像处理与模式识别;罗斌(1963—),男,博士,教授,博导,主要研究领域:图像处理与模式识别。E-mail:xulixianghf@163.com

2013-02-20

2013-09-24

1002-8331(2013)24-0112-04

猜你喜欢
测试点合肥全局
Cahn-Hilliard-Brinkman系统的全局吸引子
合肥的春节
基于信息熵可信度的测试点选择方法研究
合肥的春节
量子Navier-Stokes方程弱解的全局存在性
逻辑内建自测试双重过滤测试点选取策略
落子山东,意在全局
合肥:打造『中国IC之都』
新思路:牵一发动全局
生态合肥