基于样本空间分布距离的支持向量机

2016-11-19 06:10于波李海峰马琳
智能计算机与应用 2016年5期

于波 李海峰 马琳

(1 哈尔滨工业大学 计算机科学与技术学院, 哈尔滨 150080;2 哈尔滨理工大学 软件学院,哈尔滨 150040)

摘要:由于支持向量机(Support Vector Machine,SVM)在处理样本不平衡分布时会有偏向性,使少数类别的分类错误率的上界高于多数样本类别。分析总结了针对该问题当前的研究方法,并指出存在问题。研究分析针对不平衡样本SVM分类识别率的倾向性问题。考虑全局样本信息,提出了三种针对所有样本空间分布距离信息的方法。在UCI数据集上进行实验,结果证明MSEDR-SVM(Mean Sample Euclidean Distance Ratio-SVM)能够有效增加少数样本类别的F-值。从而改善标准的SVM只依靠支持向量样本构建分类超平面的局限性。

关键词:SVM; 不平衡样本分布;MSEDR-SVM

中图分类号:TP309 文献标识码:A

Support Vector Machine based on the sample spatial distance

YU Bo1,2 , LI Haifeng1 , MA Lin1

(1 School of Computer Science and Technology, Harbin Institute of Technology, Harbin 150080, China;2 Software College, Harbin University of Science and Technology, Harbin 150040, China)

Abstract: As the support vector machine deals with imbalanced sample distribution, there is some tendency,

making the upper boundary of the misclassification rate of the minority above the majority. The research solutions to the problem are analyzed and summarized, and the problems existing in the current research are pointed out.

Accordingly, the paper analyzes the tendency problem of the imbalanced sample distribution on the Classification accuracy. Considering the whole sample information, the three methods based on sample spatial distribution distance information are proposed. The experiment on UCI data sets verifies that the new classier MSEDR-SVM (Mean Sample Euclidean Distance Ratio-SVM) can effectively increase the F-value of the minority.

The method improves the limitation of standard support vector machine only relying Support Vectors to construct classification hyperplane.

Key words: Support Vector Machine; imbalanced sample distribution; MSEDR-SVM

0 引言

1995年,Vpnik首次于研究中引入了支持向量机(Support Vector Machine,SVM)[1]。SVM是基于统计学习理论VC维度和结构风险最小化原则构建提出的,并具有良好的泛化性能,因而能够解决小样本、非线性和维数灾难等问题。SVM有着广泛的应用,如:语音识别[2]、脑电识别[3]、疾病检测[4- 5]、故障检测[6- 7]等。综合如上应用领域,当各类样本分布数量几乎相等时,SVM通常表现出优良的性能。但在实际进程中,样本的分类信息多数情况下都是不对称的,对于少数类别(如:疾病、故障等)的识别机会显得尤为重要。可见例证就是:若将一个癌症患者错误识别为健康患者的代价则将高过对于健康患者的误诊。基于此,针对少数类别样本识别准确率的应用,不平衡分布样本的识别问题研究显然具备了现实重要意义。但是,对于不平衡样本分布,标准SVM的分类识别带有偏向性,导致少数类别将出现更高的分类错误。相关研究已经提出SVM针对不平衡样本分布的解决方法。具体分析论述如下:

第一类解决偏向性问题的方法是对于训练样本进行了重采样。这种方法的主要思想就是使不平衡分布的样本转变为平衡分布的样本。此时,有两种策略可供选取,主要内容为:

1)增采样(Over Sampling):增加合成样本到少数类别。Chawla等人提出SMOTE(Synthetic Minority Over-sampling Technique)方法[8]。该方法在少数类的每个样本以及离其最近的样本之间插入合成的样本,从而增加少数类样本的数量。Wu等人提出通过遗传交叉运算生成新的样本,弥补不平衡样本引起的不利影响[9]。只是,利用增采样添加的合成样本却难以保证和原有样本保持一致的分布信息。因此,这些方法只是增加一些重复的样本,可能会产生过拟合的情况。

2)降采样(Under Sampling):减少多数类样本的数量。Kubat等人提出减少多数类的噪声和冗余样本的单边选择方法[10],从而弥补2类样本的差异。通过降采样的方法失去了样本随机性和原来有价值的信息。由于没有充分利用原有样本信息,分类超平面的方向可能发生变化。

第二类解决偏向性问题的方法是修改标准的支持向量机。Veropoulos等人改进了标准的SVM,主要体现在给出了2类不同的惩罚因子[11]。针对标准SVM的样本分布不平衡的问题,Chew等人提出两类的惩罚因子反比于样本的数量,从而减少样本不平衡分布对于分类器的影响[12]。文献[12]提出一种新方法,通过联合加权平衡和采样平衡来设置标准SVM的参数C[10]。在只有少数类的极端情况下,这个方法获得了较好的性能。研究可知,前述这些改进方法主要是对分类参数施加影响,但是未能从根本上解决SVM的偏侧性问题。Liu提出平均距离比的方法(MDR: Method of Average Distance Ratio)[13]。虽然MDR进一步完善了SVM,但是该方法的主要缺点局限却是仅考虑了支持向量到超平面的空间距离,而未考虑内点(非支持向量)。

综上分析可得,以上方法均未充分融合利用所有样本的分布信息,仅是依据支持向量来构造分类超平面。对于不平衡样本分布的问题,有必要改进SVM,从而亟需提出更有效的方法。针对这一问题,本文提出了基于样本空间分布信息的支持向量机,在欧氏空间考虑所有样本到超平面的分布距离信息。基于平均样本欧式距离比(MSEDR:Mean Sample Euclidean Distance Ratio),给出新分类器MSEDR-SVM。最后,通过几种分类器的实验对比证明了MSEDR-SVM的客观可行和现实有效性。

4 结束语

本文提出基于样本空间分布信息的SVM分类识别方法。该方法主要是使少数类样本点到超平面的距离大于多数类,降低少数类的错分类的上界,充分利用样本的空间分布距离信息,没有增加或减少样本点。实验结果显示了提出的3种方法中,MSEDR-SVM在处理不平衡样本分布时,得到了最佳有效性。不平衡样本分布的信息还包括,样本分布的离散程度、分布趋势等,下一步工作将针对这些情况展开后续研究。

参考文献

[1] VAPNIK V N. The nature of statistical learning theory[M]. New York: Springer, 1995.

[2] GEORGOULAS G, GEORGOPOULOS V C , STYLIOS C D. Speech sound classification and detection of articulation disorders with support vector machines and wavelets[C]//Conf Proc IEEE in Medicine and Biology Society. New York, USA:IEEE, 2006: 2199-2202.

[3] LI S, ZHOU W, YUAN Q, et al. Feature extraction and recognition of ictal EEG using EMD and SVM[J]. Computers in Biology and Medicine, 2013,43(7): 807-816.

[4] LIU Y, ZHOU W, YUAN Q, et al. Automatic seizure detection using wavelet transform and SVM in long-term intracranial EEG[J].IEEE Trans Neural Syst Rehabil Eng, 2012, 20(6):749-755.

[5] LI B, MENG M Q. Tumor recognition in wireless capsule endoscopy images using textural features and SVM-based feature selection[J].IEEE Trans Inf Technol Biomed,2012,16(3):323-329.

[6] ZHANG Y X, CHENG Z F, XU Z P, et al. Application of optimized parameters SVM based on photoacoustic spectroscopy method in fault diagnosis of power transformer[J]. Spectroscopy & Spectral Analysis, 2015,35(1):10-13.

[7] SANTOS, PRDRO, VILLA, et al. An SVM-based solution for fault detection in wind turbines Sensors[J].Sensors (Basel), 2015,15(3): 5627-5648.

[8] CHAWLA N V, BOWYER K W, HALL L O, et al.SMOTE: Synthetic minority over-sampling technique[J]. Journal of Articial Intelligence Research, 2002,16:321-357.

[9] WU H X, PENG Y, PENG X Y. A new support vector machine method for unbalanced data treatment[J].Chinese Journal of Electronics, 2006,34: 2395-2398.

[10] KUBAT M, MATWIN S. Addressing the course of imbalanced training sets: One-sided Selection[C]//Proc. 14th International Conference on Machine Learning. Nashville, TN, USA:ICML, 1997: 179-186.

[11] VEROPOULOS K , CAMPBELL C, CRISTIANINI N. Controlling the Sensitivity of Support Vector Machine[C]//International Joint Conference on AI. Stockholm, Swede:IJCAI, 1999: 55-60.

[12] CHEW H G, CRISP D J, BOGNER R Er,et al. Target detection in radar imagery using Support Vector Machines with training size biasing[J].Southern Medical Journal, 2000, 90(10):959–963.

[13] LIU W H. Study of Support Vector Machine algorithms on unbalanced dataset[D].Qingdao:Shandong University of Science and Technology, 2010.

[14] A Frank, A Asuncion. UCI Machine Learning Repository[EB/OL].[2010-06-13] .http://archive.ics.uci.edu/ml.

[15] CHANG C C, LIN C J. LIBSVM: A library for support vector machines[J]. ACM Transactions on Intelligent Systems and Technology, 2011, 2(3):389-396 .