王永庆 刘华
摘 要:近年来机器学习方法在诸多领域得到成功的应用与发展,已成为计算机科学的研究热点之一。本文介绍了机器学习的定义、发展历史与学习策略分类,并对目前存在的问题与挑战进行了分析与展望。
关键词:机器学习;计算机科学;学习机理;策略研究
随着计算机技术的飞速发展,人们尝试着使计算机具有和我们一样或类似的学习能力,从而产生了一个新的研究学科-机器学习。总体而言,机器学习是指令计算机通过对目标的识别,利用人类提供的现有知识来获取新知识和新技能,不断改善性能,实现自我完善。
1 机器学习发展史
统计学习理论创始人之一的Vapnik将机器学习归结为如下四个阶段。
1.1 学习机器的产生
第一个学习机器的模型是F.Rosenblatt在1962年提出的感知器。它借鉴了神经生理学领域中感知器的思想,将其模型表示为一个计算程序,并通过简单的实验说明了这个模型的结果可以进行推广和泛化。感知器通过给定的样本构造一条判断准则来区分不同类别的数据,因此可以用来解决模式识别问题。
1.2 学习理论基础的创立
1968年,Vapnik和Chervonenkis提出VC维和VC熵来解决模式识别问题。利用这些概念学者发现了大数定律和关于收敛速率的非渐近界。1989年,Vapnik和Chervonenkis提出的经验风险最小化原则、正则化理论、解决密度估计问题的非参数方法,以及算法复杂度思想,都对学习理论的发展产生了深远的影响。
1.3 神经网络的产生
1986年,LeCun和Rumelhart各自独立地提出了后向传播方法。该方法采用连续的Sigmoid逼近函数代替了感知器神经元中的不连续符号函数,使人们可用任何基于梯度的方法来逼近预期函数。它的出现标志着学习机器历史进入了一个新纪元。
1.4 统计学习理论的创立
为了根本解决传统统计学理论中过学习等弊端,Vapnik于20世纪60-70年代创立了统计学习理论。与传统统计学相比,它是一种专门研究有限样本下机器学习规律的理论,不仅考虑了对渐近性能的要求,并且追求在有限信息下获得最优结果,在理论研究和实际应用中都取得了良好效果。
2 机器学习策略分类
在众多机器学习策略中,可从不同角度,根据不同原则对其进行分类。本文按照分类原则提出的先后顺序以及所用推理策略的繁简程度将其分为以下两大类。
2.1 传统策略
⑴机械式学习。该方法是一种最简单、原始,也最基本的学习策略。它通过记忆和评价外部环境所提供的信息达到学习的目的。学习系统要做的工作就是把经过评价所获取的知识存储到知识库中,求解问题时就从知识库中检索出相应的知识直接用来求解问题。
⑵指导式学习。该方法通过由外部环境向系统提供一般性的指示或建议,把它们具体地转换为细节知识并送入知识库。在学习过程中要反复对形成的知识进行评价,使系统的知识库不断完善。
⑶归纳学习。该方法应用归纳推理进行学习。归纳推理指从足够多的事例中归纳出一般性的知识,是一种从个别到一般的推理。常用的方法有枚举归纳、联想归纳、类比归纳、逆推理归纳和消除归纳等。
⑷类比学习。类比是人类认识世界的一种重要方法,也是诱导人们学习新事物、进行创造性思维的重要手段。类比学习就是通过对相似事物进行比较所进行的一种学习。
⑸基于解释的学习。该方法通过运用相关领域知识,对当前提供的实例进行分析,从而构造解释并产生相应知识。
2.2 现代策略
⑴基于神经网络的学习。神经网络由神经元单元及其间带权重的连接组成,每个单元的状态由与其相连接其他单元的输入共同决定。该方法使用样本来训练网络,产生网络的内部表示,并用来识别新样本。
⑵基于统计学习理论的学习。Vapnik创立的统计学习理论针对有限样本统计问题建立了一套新的理论体系,不仅考虑了对渐近性能的要求,并且追求在有限的信息条件下获得最优的结果。其典型代表SVM,具有许多传统统计学方法不具备的优点。
⑶强化学习。该理论是在上世纪80年代,基于试错方法、动态规划和瞬时误差方法形成的。
⑷集成学习。该方法集成若干单分类器的分类结果来综合决定最终分类,可取得比单分类器更好的性能。其主要方法有Bagging、Boosting、Stacking、朴素贝叶斯集成、决策树集成、人工神经网络集成、K-近邻集成、在线集成等等。
⑸主动学习。该方法模拟人的学习过程,选择标记部分样例加入训练集,迭代提高分类器的泛化性能。
[参考文献]
[1]闫友彪,陈元琰.机器学习的主要策略综述[J].计算机应用研究,21(7):4-13,2004.
[2]王文.浅析机器学习的研究与应用[J].计算机与信息技术,Z2:7-9,2010.