姜鹏飞
(山东科技大学 山东 青岛 266590)
两种减少噪声对双支持向量机影响的方法
姜鹏飞
(山东科技大学 山东 青岛 266590)
双支持向量机是Jayadeva等人在2007年提出的一种新的支持向量机。在处理模式分类问题时,双支持向量机的训练速度远远超过传统的支持向量机,计算效率大约是传统支持向量机的四倍。但双支持向量机没有考虑到不同样本点对最优超平面所产生的影响,而是同等对待所有的训练数据样本来构造最优超平面,从而无法降低噪声对分类面的影响。为了克服这个缺点,总结提出了两种方法,一是将模糊技术应用于双支持向量机中,对不同的样本采用不同的惩罚权系数,找到适合的隶属度函数来提高双支持向量机的分类准确率;二是将超球体技术与双支持向量机相结合,清除数据样本中的噪声,减小系统结构误差。实验证明这两种方法能有效的减少噪声的影响。
双支持向量机;模糊隶属度;超球体
支持向量机(SVM)是在统计学习理论的基础上发展起来的学习算法,是Vapnik等人提出的一种针对分类和回归问题的机器学习技术。作为一种新的数据挖掘技术,由于其基于结构风险最小化原则,能有效地解决过学习问题,具有良好的推广性能。这些优良特性使支持向量机成为了继人工神经网络(ANN)、模式识别之后的又一研究热点。但SVM的训练时间非常高,探寻关于SVM优化问题合理且高效的算法已成为SVM研究领域的一个重要研究课题。双支持向量机(TWSVM)把SVM中的一个二次规划问题转化为两个规模较小的二次规划问题,使得训练时间大大减少,计算效率大约是SVM的四倍。鉴于其优秀的学习性能,目前,TWSVM已成为机器学习和数据挖掘领域的研究热点。但它没有考虑到不同样本点对最优超平面所产生的影响,所以其应用存在一定的局限性。
为解决上述问题,本文总结提出两种方法,一是对每个样本都赋予一个模糊隶属度值,使不同的样本对判别函数的学习有不同的贡献。二是选择适当的超球体以尽可能小的半径包含尽可能多的样本,计算出包含样本的最小超球体的球心和半径,权衡超球体半径和他所覆盖的样本数,达到清除噪声的目的。实验证明,改进的TWSVM分类性能明显优于TWSVM。
2007年Jayadeva等人在二分类问题中提出双支持向量机(Twin Support Vector Machincs简称TWSVM)方法。它的基本思想是对两类训练点中的每一类训练样本点分别构造一个超平面,使得每一超平面与其中一类训练点尽可能近,而远离另一类训练点。新来的训练点离哪个超平面的距离近,就被归为哪一类。假设属于1类和-1类的样本点分别由矩阵A和矩阵B来表示,那么TWSVM分类器可由以下的二次规划问题得到:
TWSVM1
s.t.-(Bω1+e2b1)T+ξ≥e2ξ≥0
TWSVM2
s.t.-(Bω2+e1b2)T+ξ≥e1ξ≥0
其中c1和c2是惩罚参数;e1和e2是全为1组成的列向量,ξ是松弛因子。目标函数用平方距离来度量本类样本到本类超平面的距离,因此最小化可以保证本类样本离本类超平面可能的近。不等式约束可以理解为它类样本离超平面至少为1.
TWSVM1
s.t.-(Bω1+e2b1)T+ξ≥e2ξ≥0
TWSVM2
s.t.-(Bω2+e1b2)T+ξ≥e1ξ≥0
其中qA和qB是样本集A和B中每个样本的模糊隶属度,qi越小,相应的输入样本xi在双支持向量机中的作用就越低,这样就减少了噪声的影响。
引入核函数,此方法同样适用于非线性可分的双支持向量机。构造隶属度函数的方法有很多,可根据具体的问题采取适当的隶属度函数。
本文首先引入超球体支持向量机,它的思想是寻找一个超球体,使其在高维空间中以尽可能小的半径包含尽可能多的样本,其目标函数为:
s.t.Φ(xi)-a2≤R2+ξiξi≥0
其中R为球体半径,a为球心,ξ为松弛变量,l为训练样本个数,C为正则化参数,控制错分样本惩罚程度。计算出包含样本的最小超球体的球心和半径,权衡超球体半径和他所覆盖的样本数,去除超球体以外的数据样本,形成新的数据样本集,达到去除噪声的目的。
通过计算机的仿真实验,本文总结的这两种方法在精度上都高于普通的双支持向量机。但这两种方法也都存在小的缺点,第一种方法,隶属度函数的运用增加了训练时间,相比于普通的双支持向量机训练时间会有所延长,但还是远远少于传统支持向量机的。第二种方法,超球体的应用在去除噪声的同时也可能去除了一些有价值的训练点,会对最优超平面产生不良的影响。所以需根据训练样本的特点来选择合适的方法,这样超平面才可能达到最优。
[1]C.Cortes,V.Vapnik.Support一vector networks.Machine Learning,1995,20(3):273-297.
[2]R.K.Jayadeva,R.Khemchandani and S.Chandra.Twin support vector machine for pattern classification.IEEE Transactions on Pattern Analysis and Machine Intelligence,2007,29:905-910.
[3]邓乃扬,田英杰.支持向量机一理论、算法与拓展[M].北京:科学出版社.2009
[4]丁胜峰.一种改进的双支持向量机[J].辽宁石油化工大学学报.2012
[5]李秋林.孪生二叉树支持向量机分类机[J].2013.
姜鹏飞,男,汉族,山东潍坊,硕士研究生,山东科技大学,计算理论与数据处理。