浅谈中高年级本科生机器学习知识传授与科研素养培育的三大主线

2020-04-01 15:08邵文泽刘媛媛许艳丽陈龙陈杰

教育教学论坛 2020年10期

邵文泽刘媛媛许艳丽陈龙陈杰

摘要：在新一轮人工智能大潮中，机器学习担当着人工智能核心算法引擎的作用。文章介绍了适于中高年级本科生吸收消化的三大主流机器学习思想及其代表性方法，旨在为学生后续进行扩展性和创新性的机器学习方法学习与研究打下良好基础。

关键词：连接主义;统计学习;符号学习;人工智能

中图分类号：G642.0 文献标志码：A 文章编号：1674-9324（2020）10-0312-02

在當下算法、计算、场景驱动的新一轮人工智能大潮中，机器学习这门学科已当仁不让地成为人工智能算法驱动力的核心引擎。人工智能历经60年的坎坷发展历史，很大程度上也正是机器学习所经历的风雨洗礼。为此，本文梳理介绍了适于中高年级本科生吸收消化的三大主流机器学习思想及其代表性方法，从而为学生进行扩展性和创新性的机器学习方法学习与研究打下良好基础。

一、符号机器学习

在20世纪80年代，“样本集学习”的第一大主流就是符号机器学习，代表性工作包括决策树学习和基于逻辑的学习。决策树是一种树型结构，其中每个内部节结点表示在一个属性上的测试，每一个分支代表一个测试输出，每个叶结点代表一种类别。决策树学习算法主要由三部分构成：一是特征选择;二是决策树生成;三是决策树剪枝。根据不同的目标函数，决策树生成代表性方法主要包括以下三种算法：Quinlan的ID3（1979，1986）、Breiman等人的CART（1984）以及Quinlan的C4.5（1993）。主要区别在于选择的目标函数不同。简单地说，决策树学习具有以下优点：一是决策树易于理解和解释;二是可同时处理标称型和数值型数据;三是比较适合处理有缺失属性的样本;四是能处理不相关的特征;五是测试阶段效率较高。而决策树学习的缺点也有几点：一是容易过拟合，基于集成学习的随机森林正是减少这种过拟合的一剂良药;二是容易忽略属性的相互关联;三是对于各个类别样本数量不一致的数据。基于逻辑的学习以规则学习（rule learning）为基础，代表性工作是归纳逻辑程序设计（Inductive Logic Programming）。ILP在一阶规则学习中引入了函数和逻辑表达式嵌套。一方面，机器学习系统具备了更为强大的表达能力;另一方面，ILP可看作用机器学习技术解决基于背景知识的逻辑程序归纳。因此，ILP不仅可以利用领域知识辅助学习，还可通过学习对领域知识进行精华和增强。然而，由于ILP的表示能力太强，直接导致学习过程面临的假设空间太大、复杂度极高，因此在20世纪90年代中期后这方面的研究相对陷入低潮。

二、统计机器学习

统计学习在20世纪90年代中期逐渐成为机器学习研究的主流，代表性方法是1995年Cortes和Vapnik提出的SVM。事实上，Vapnik在20世纪60年代就已提出“支持向量”的概念，SVM只是从这个统计理论派生的自然结果。根据统计学中的大数定律，对于一个学习模型f，当样本点的个数趋于无穷大时，经验风险将依概率收敛于期望风险。对于线性可分问题，如划分两个不相交的凸闭集，统计机器学习的算法设计就转化为有效地计算两个闭凸集之间的最大边缘间隔问题（样本集的结构），即SVM的算法思想之源。对于线性不可分问题，进一步根据泛函分析中的Mercer定理，SVM把样本空间映射到一个高维乃至无穷维的特征空间中（Hilbert空间），使得在原来的样本空间中非线性可分的问题转化为在特征空间中的线性可分的问题。然而，由于大多数情况下样本集在统计上不能满足一致性假设（同分布），基于集成的多分类机器学习成为SVM的一种有效补充。其核心思想是，集成多个弱分类器，则其分类能力可以成为一个强分类器。之后，Kearns和Valliant提出了强PAC学习和弱PAC学习的概念。1998年，Schapire等人从边缘出发证明了关于Boosting方法的泛化不等式，其中存在一个类似于前文统计机器学习理论的边缘变量。1997年Freund和Schapire提出的AdaBoost才具有现实价值。此外，集成学习的另一类重要方法是Bagging。随机森林（random forest）就是Bagging的一个扩展变体，它是在以决策树为基学习器构建Bagging集成的基础上，进一步在决策树的训练过程中引入了随机属性选择。但Bagging的工作机理和理论性质与Boosting有着明显区别。例如，从偏差-方差分解的角度看，Boosting主要关注降低偏差，而Bagging主要关注降低方差。自然地，也有Multi Boosting等方法尝试将二者的优点加以结合。

三、连接机器学习

以Perceptron为源头的连接机器学习在经历两次兴起和低谷后，终于在2006年以深度学习之名再次兴起。深度学习之所以被称为“深度”，是相对支持向量机SVM、提升方法Boosting、最大熵方法等“浅层学习”方法而言的。深度学习模型和传统浅层学习模型的区别为：（1）深度学习模型结构含有更多的层次，包含隐层节点的层数通常在5层以上，有时甚至包含多达10层甚至100层以上的隐藏节点。（2）明确强调了特征学习对于深度模型的重要性，通过逐层特征提取，将数据样本在原空间变换到一个新特征空间来表示初始数据，使得分类或预测更容易实现。2011年微软通过采用深度学习技术，大大降低了语音识别的错误率。2012年时任谷歌核心人工智能专家的吴恩达联手Jeff Dean一起完成了谷歌大脑系统;微软的首席工程师Rick Rashid展示了一个基于深度学习的自动同声传译系统，得到好评。2013年，中国百度公司宣布成立百度研究院，成立深度学习研究所。2017年，AlphaGo在中国乌镇围棋峰会上，与排名世界第一的柯洁对战，以3∶0的比分大获全胜。目前，深度学习方法根据其具体使用的方法结构不同，分为生成式模型、判别式模型和混合式模型三种。随着深度学习研究的热潮持续高涨，各种开源的深度学习框架也开始涌现出来，其中包括最常用的Torch、Keras、Theano、PyTorch、Tensorflow等。与其他机器学习方法相比，深度学习往往不需要特征工程，也更容易适应不同的领域和应用;但其明显的缺点是，在实际问题中，为了实现高性能，往往需要依赖大量标注数据。总体来说，目前深度学习领域还缺乏严格的理论基础，工程实践超前，理论进展严重滞后，还存在非常广阔的学术研究和工程实践空间。

四、總结

本文梳理了适于中高年级本科生吸收消化的三大主流机器学习思想及其代表性方法，期望为学生进行扩展性和创新性的机器学习方法学习与研究打下良好基础。注意到，机器学习领域还有三种经典技术路线本文没做具体介绍，包括贝叶斯机器学习、进化机器学习以及强化机器学习。在教学时间充足或学生学有余力的情况下，我们也会以补充材料的形式向学生做相关推介。可以肯定的是，当学生在大学提前进入课题组做具体的科研创新项目时，我们会进一步向他们系统介绍关于符号、统计、连接、贝叶斯、进化以及强化机器学习的相关知识、前沿研究与实践经验。尤其在机器学习方法本身的创新性方面，我们将着重引导学生进行符号学习、连接学习、贝叶斯学习的大融合发展。这是因为，我们深信真正的人工智能一定是联合人类自身的推理能力（显性或隐性）和数据驱动的机器学习能力才将得以实现。

参考文献：

[1]周志华.机器学习[M].北京：清华大学出版社，2016.

[2]王珏，石纯一.机器学习研究[J].广西师范大学学报（自然科学版），2003，21（2）：1-15.

[3]中国电子技术标准化研究院.人工智能标准化白皮书[R].2018.

[4]何清，李宁，罗文娟，史忠植.大数据下的机器学习算法综述[J].模式识别与人工智能，2014，27（4）：327-336.

[5]孙正雅，陶卿.统计机器学习综述：损失函数与优化求解[J].中国计算机学会通讯，2009，5（8）：7-14.

[6]李航.统计学习方法[M].北京：清华大学出版社，2012.

On the Three Main Lines of Machine Learning Knowledge Imparting and Scientific Research Literacy Cultivation for Middle and Senior Grade Undergraduates

SHAO Wen-ze，LIU Yuan-yuan，XU Yan-li，CHEN Long，CHEN Jie

（College of Communication and Information Engineering，Nanjing University of Posts and Telecommunications，Nanjing，Jiangsu 210003，China）

Abstract：In the new wave of artificial intelligence，machine learning acts as the engine of the core of artificial intelligence.This paper introduces three main machine learning ideas and representative methods suitable for the absorption and digestion of middle-class undergraduates，and aims to lay a good foundation for the follow-up of the students and the learning and research of the innovative machine learning methods.

Key words：connectionism;statistical learning;symbolic learning;artificial intelligence