甄盼好
(华北电力大学控制与计算机工程学院 河北 071003)
机器学习是研究怎样使用计算机模拟或实现人类学习活动的科学。机器学习是机器获得知识的根本途径,是机器具有智能的重要标志。
机器学习的核心是学习。学习是人类特有的一项能力,如何让机器像人类一样,能够通过外界环境的影响来改善自己的性能,是机器学习研究领域的重点。机器学习的过程是一个从未知到已知的过程。如果一台机器拥有这样的程序,随着机器解决问题的增多,在该程序的作用下,机器的性能或解决问题的能力增强,我们就说这台机器拥有学习的能力。
从20世纪50年代中叶到60年代中叶。在这个时期,所研究“没有知识”的学习,它的主要研究目标是研制各类自组织和自适应系统。
从20世纪60年代中叶到70年代中叶。这一阶段主要研究是模拟人类的概念学习过程,即符号学习。使用的工具是语义网络和谓词逻辑。
从20世纪70年代中叶到80年代中叶。这一时期的研究的目标仍然是概念学习,但是从学习单个概念扩展到学习多个概念,探索不同的学习策略和各种学习方法。
从20世纪80年代到现在是机器学习的新阶段。神经网络的复苏,带动着各种非符号学习方法和符号学习方法并驾齐驱;学习方法、学习系统开始走出实验室,进入实际应用领域。
正如人类有各种各样的学习策略,机器学习也有很多的策略。按照学习中使用推理的多少,机器学习策略大体上可以分为五类:机械学习、传授学习、演绎学习、归纳学习和类比学习。
机械学习是一种最基本的学习策略,把环境提供的信息简单存储起来,不经过任何推理,“死记硬背”式的学习。适合于一些环境相对稳定,输入输出模式相对固定的系统中,例如医生给病人看病。
传授学习又叫做指导式学习或示教学习。传授学习的学习过程可以简单地描述如下:(1)请求:先向指导者请求提出建议;(2)解释:接受建议并将其转化为内部表示形式;(3)操作化:将解释后的建议转化为具体的知识;(4)归并:将得到的新知识归并到知识库中;(5)评价:对新知识进行评价,常用方法有,检查新知识与知识库里的知识是否矛盾,或者使用新知识执行某些任务,观察其执行情况。
演绎学习以演绎推理为基础。演绎推理是一种有一般到个别的推理方法,其核心是三段论。例如,1动物都会死亡;2狗是一种动物;3狗会死亡。只要对给定的知识进行演绎的保真推理,就能得出一个正确的新结论,然后把有价值的结论存储起来。
归纳学习以归纳推理为基础。从某个概念的一系列正例和反例中归纳出一个一般的概念描述。归纳学习可分为有导师学习和无导师学习。有导师学习,又称示例学习。给学习系统提供正例和反例,学习系统通过归纳算法求解出一个总的概念描述。
无导师学习,又称观察与发现学习。通过由环境提供的观察来进行学习,而且这些观察是未经过知道者分类的例子。
类比学习是一种利用相似性来认识新事物的学习方式,其基础是类比推理。可以看作是演绎学习和归纳学习的组合学习形式。
学习过程:
(1)联想搜索匹配:提取特征值,搜索和它相似的已知事物;
(2)检验相似程度:判断相似程度,相似程度达到一定阈值,则说明匹配成功;
(3)修正变换求解:即类比映射,把对已知事物的有关知识进行适当的调整或变换,以求出新事物的解;
(4)更新知识库:求出新事物的解以后,将新事物及其解并入知识库。
现实世界中的数据,例如语音信号、数字图像或功能性磁共振图像等,通常都是高维数据,为了正确地了解这些数据,我们就需要对其进行降维,降维的目的就是要找出隐藏在高维数据中的低维结构。
流形学习是一种新的数据降维方法,能揭示数据的内在变化规律,其目标是发现嵌入在高维数据空间中的低维流形结构,并给出一个有效的低维表示。2000年以来,流形学习在包括数据挖掘、机器学习、计算机视觉等多个研究领域得到了广泛的应用。
李群机器学习(Lie Group Machine Learning,LML)作为机器学习领域的一种新的学习方法,一方面继承流形学习的优点,另一方面借用李群的思想,形成了具有创新特色的学习范式.自2004年提出至今,已引起加拿大、爱尔兰、芬兰、意大利、美国等国内外同行的广泛关注。
李群结构是目前学术界公认的对学习问题研究很有用的一套理论工具。从数据分析的角度来说,用机器学习进行数据分析(数据挖掘),其目的就是揭示这些数据具有的规律,从而帮助用户提供解释的依据。李群一方面具有好的数学结构,另一方面物理学家广泛使用李群方法来处理物理学中复杂数据的启发。因此,引进李群理论对机器学习是一种可以探索的新思路。
20世纪90年代初随着统计学习理论的完善和线性超平面函数集容量控制方法的发现,提出了著名的支撑矢量机方法(SVMs)。随后,以支撑矢量机为核心算法的核机器(KM)方法和Fisher判断分析(FDA)方法得到了机器学习、模式识别、网络搜索引擎技术、计算机视觉等等领域的广泛关注。
核机器方法以统计学习理论为基础,巧妙利用了Mercer核技巧,使其获得了良好的推广能力、强大的非线性处理能力、灵活的相似性测度定义和简洁的模型表示,是目前在特征提取、模式识别、数据发掘领域公认的具有最佳性能的方法之一。
本文对机器学习进行了一次较全面的介绍,同时指出了一些机器学习方法的研究热点。机器学习与其他学科都有着密切的联系,因此机器学习的研究可以从其他领域中新的学习算法、学习体制,来提高机器的学习效果。从而促进人工智能的长足进步,乃至推动人类社会文明的进步。