刘梦绮
摘要:统计学习理论建立在结构风险最小化原则基础上,专门针对小样本下的机器学习问题而建立的一套新的学习理论体系。基于统计学习理论的算法具有理论完整、全局优化、适应性强、推广能力好等优点,是机器学习研究的新热点。本文首先研究了支持向量机的基本理论,接着对支持向量机算法和神经网络算法进行了全面性能比较。最后对文章整体做出总结,并写出了自己的感悟。
引言
分类一直是数据挖掘、机器学习[1] 和模式识别中一个重要的研究领域。随着计算能力、存储、网络的高速发展,更需要发现更深层次的规律,对决策,商务应用提供更加有效的支持。为了满足这种需求,数据挖掘技术得到了长足的发展,而分类在数据挖掘中是一项非常重要的任务。分类算法历来受到许多领域研究者的关注。
传统的机器学习分类算法,如支持向量机等,慢慢不像十多年前那么火热。但在进行小数据样本处理时,支持向量机算法展现出基于大数据样本的深度学习无法取代的优势。因此对支持向量机和用于深度学习的神经网络算法的对比分析就显得尤为重要。
1 概述
1.1背景
统计模式识别、线性或非线性回归以及人工神经网络等方法是数据挖掘的有效工具,但多年来我们也受制于一个难题:作为深度学习的燃料,在实际的问题中并非一定会有海量级别、带有标注的数据。传统的模式识别或人工神经网络方法都需要较多的训练样本,而许多实际课题中,已知样本较少,对于小样本集,训练结果最好不一定是预报能力最好的模型。[3] 而SVM 只需要很小的数据就能找到数据之间分类的超平面,得到很不错的分類结果。
1.2现状
数据是机器学习的燃料,包括模式识别、神经网络等在内的现有机器学习方法重要的基础是传统的统计学,基于传统统计学研究的是样本数目趋于无穷大事的渐进理论,当样本有限的时候,难以达到想要的效果。统计学习理论(Statistical Learning Theory,SLT)则着重提出了小样本情况下的统计规律和学习方法性质,发展出一种新的通用学习方法--支持向量机(Support vector machine,SVM)。当前关于支持向量机研究的热点主要是对支持向量机中算法的优化,包括解决SVM中二次规划求解问题,对大规模SVM的求解问题;另外就是如何提高SVM的归纳能力和分类速度以及根据具体问题确定核函数等。
2 支持向量机
支持向量机是一种基于统计学习理论的模式识别方法,主要应用于模式识别领域。20世纪末,由于研究不够完善,在解决模式识别问题中往往趋于保守,且数学知识匮乏,导致这些研究没有得到充分重视。直至统计学习理论(Statistical Learning Theory,SLT)的实现以及新兴机器学习方法如神经网络等研究遇到瓶颈,使得SVM迅速发展。
2.1 SVM基于统计学理论的基础
(1)对实际输入的结果输出标签时,风险可以用错误率进行表示。
(2)VC维理论:一个假设空间的VC维,是该假设空间中可以解决分类问题的方程数目的度量。
(3)SVM算法要求的样本相对比较少。
2.2 支持向量机算法的基本原理
SVM以结构风险最小化为理论基础,以寻找最优分割超平面进行建模,引入松弛变量和错误代价系数处理数据不可分和存在噪声的情况。这使其在训练样本有限的情况下能够有效避免过拟合问题,从而提高算法的泛化性能。
2.3 最优分类超平面
支持向量机中最简单也是最早提出的模型是最大间隔分类器。最初仅用于处理两类分类问题,核函数的引入使其具有构建非线性分类边界的能力。通过寻找一个分类超平面,能够使支持向量和超平面最小距离的最大。支持向量机通过对分类间隔最大化来控制泛化能力,将二维空间推广到高维空间,最优分割线就成为最优分类面,即最优超平面。
2.4 核函数及其特征空间
支持向量机中研究的两个关键因素分别是数学规划及核函数问题。通过引用核函数,将当前维度下线性不可分的训练数据映射到更高维度的特征空间,将问题转化为高维空间中线性可分问题,然后构建相应的分类超平面。
核函数的选择一般考虑使用径向基函数。其关系到支持向量机的性能,只要参数选择合适,支持向量机可以对任意具有这一性质的数据集进行分类。
3 SVM和神经网络对比分析
3.1 非线性学习能力
随着理论的逐步发展,由于核函数的引入,支持向量机通过变换将非线性输入映射到高维特征空间,然后再进行最优化求解,使其有效的处理非线性学习问题。
神经网络由大量神经元组成,自身是非线性的。并且非线性是一种分布于整个网络中的特殊性质。正是由于神经网络的这种非线性性质,使得它表现出复杂的智能处理能力和非线性处理能力,并成功应用于多个领域。
3.2 模型结构
神经网络是一种层次网络结构,可分为输入层、卷积层、池化层、全连接层及输出层等部分。
支持向量机的模型结构与神经网络的模型结构相类似,它相当于一个隐层的三层BP网络,在支持向量机中的支持向量对应于神经网络中的隐含层。
3.3 神经网络的特点
神经网络在生物神经学研究基础上提出,是对人脑神经组织结构和行为的模拟。神经网络通过使用计算单元间的相互连接来获得好的学习结果。其计算能力有以下特点:大规模并行分布式结构;具有自适应性和容错能力,可以实现联想记忆以及聚类等自组织学习;理论上神经网络可以逼近任何的连续函数,若神经元足够多,还可以逼近任何具有有限断点的非连续函数;一般在小样本情况下,经验风险与实际风险的差异比较明显,学习效果不佳。
3.4 支持向量机的特点
系统结构简单,无需过多的先验知识;SVM以统计学中结构风险最小化为理论基础,以寻找最优分割面进行建模,通过引入松弛变量和的撒四家系数避免出现过拟合的问题;支持向量机通过最优超平面进行学习,具有全局最优性。
4 总结
本文的主要内容包括:关于深度学习的神经网络以及传统机器学习算法支持向量机的发展现状;对支持向量机中的发展、算法理论以及重要部分作出分析研究;分析比较支持向量机以及神经网络这两种应用广泛的学习机器进行全面的性能比较,并深入分析了支持向量机的良好学习性能和具有的诸多优势。
参考文献:
[1] 张学工译.统计学理论的本质.北京:清华大学出版社,2000,1-226
[2] 曾志华,张银奎译.机器学习.北京:计协工业出版社,2003,1-13
[3] 范胜龙,茹凯丽,陈巧燕.清华大学资源与环境学院,基于BP神经网络和支持向量机的农用地分等方法研究
[4] 郭月,基于SVM的高分图像自动分类算法研究与系统实现
[5] VAPNIK V N. 统计学习理论的本质[M],张学工,译. 北 京:清华大学出版社,2000:2 -6.
[6] 宋杰,唐焕文. 基于线性规划的支持向量机分类器,大连理工大学学报,2005,45
[7] 阎威武,支持向量机理论、方法与应用研究[上海交通大学博士学位论文],上海:上海交通大学电子信息与电气工程学院,2003,89,106
[8] 张小云,刘允才,高斯核支撑向量机的性能分析,计算机工程,2010,29(8)22-25
(作者单位:郑州大学软件与应用科技学院)