周捷 朱建文
摘 要: 机器学习是一门综合性较强的学科,对该学科的研究多集中在分类问题和算法方面。基于此点,文章从机器学习的内涵及发展历程介绍入手,分析了机器学习中的分类问题及学习步骤,在此基础上对机器学习的算法分类进行论述。
关键词: 机器学习;分类;算法
中图分类号: TP181 文献标识码: A DOI:10.3969/j.issn.1003-6970.2019.07.040
【Abstract】: Machine learning is a comprehensive subject, and research of the subject mostly focuses on classification and algorithms. Based on the point, the paper introduces connotation and development of machine learning, analyses classification issues and learning steps in machine learning, and discusses algorithms classification on above basis.
【Key words】: Machine learning; Classification; Algorithm
0 引言
近年来,随着科技的不断进步,使得人工智能技术得到快速发展,作为人工智能核心的机器学习也获得业内专家学者的广泛关注,研究范围进一步扩大,研究的重点以分类问题及相关的算法为主[1]。机器学习的分类精度、学习速度以及解答的正确性和质量等方面,是评价其学习能力的关键指标[2]。鉴于此,下面重点对机器学习分类问题及算法展开探讨。
1 机器学习的内涵及发展历程
1.1 内涵
机器学习是人工智能的核心,是实现计算机智能化的重要途径。近年来,随着计算机网络技术的快速发展,使得机器学习的内涵变得越来越丰富,尤其是在人工智能的数据挖掘和知识发现中,涉及了海量数据,其中的数据形式呈现为多样化的特点,如文本类、图形图像以及语音视频等等,既有结构化数据,也有半结构化数据,多种学习方法并存,如分类、聚类、贝叶斯、决策树以及遗传算法等等。机器学习最为主要的任务就是获得对输入数据分类的能力,主要包括对不同概念的区分以及对文字信息的识别等等,同时,还需要获得解决实际问题和行为控制的能力[3]。
1.2 发展历程
机器学习是人工智能领域研究的重点,其发展经历了四个阶段,上个世纪50年代中期到60年代中期,是机器学习的第一階段,在该阶段,业内的专家学者对机器学习的研究热情异常高涨,为机器学习的后续发展奠定了基础;上个世纪60年代中期到70年代中期,是机器学习的第二个阶段,在该阶段机器学习的研究趋于平缓;从上个世纪70年代中期到80年代中期,机器学习进入了第三阶段,这个阶段是机器学习的复兴时期;从1986年至今是机器学习发展的最新阶段,进入该阶段后机器学习正式成为边缘学科,很多高校都开设了机器学习课程,与人工智能基础问题的统一性观点也在该阶段逐步形成,如学习与问题求解的有机结合等。同时机器学习方法的应用领域逐步拓宽,有些成为可以流通的商品[4]。
2 机器学习中的分类问题及学习步骤分析
2.1 分类问题
对于机器学习而言,分类问题是基础,很多应用均是从分类问题演变而来。机器学习能够借助计算机在海量的数据当中,对数据的规律和模式进行学习,并在学习的过程中,对数据内部潜在的、有利用价值的信息进行深入挖掘。机器学习的数据处理主要有两种,一种是监督学习,另一种是无监督学习。
2.1.1 监督学习问题
所谓的监督学习具体是指借助带有标签的数据地学习过程进行辅助,从而达到学习目标,通过实践证明这种机器学习方式的效果较好。然而,由于学习中需要使用标签数据,致使学习成本较高。在该学习方式下,初始数据是不可或缺的要素,必须在学习前进行收集[5]。监督学习最为突出的优势是可以使机器本身所具备的泛化能力得以充分发挥,由此便可使分类及回归等问题得到有效解决。在该学习方式中,较为常用的算法有以下几种:多层感知、神经网络以及逻辑回归等等,整个训练过程是以标注特征为核心展开的。通过监督学习能够使机器获得合理划分不同事物的能力,并且还能对规则以及规律数据等进行预测。该学习方式中的包含两类问题,一类是分类问题,其特征是输出变量处于离散状态;另一类是回归问题,其特征为是输出变量处于连续状态。
2.1.2 无监督学习问题
无监督学习是一种更加先进的学习方式,它是利用计算机本身所具备的自动化功能来完成学习过程,依托各种数据,对知识的吸收过程进行完善,由于该学习方式的成本具有可控性的特点[6]。因此,学习中无需投入较大的资金,经济性较高。但从实践情况上,这种机器学习方式的效率并不是很高。在该学习方式下,当样本数据尚未进行标记时,机器通常不会进入训练状态,其最为突出的优势在于机器能够与人一样,学习所需的知识,对于不需要的知识则会自动忽略,通过有选择性的学习,可以使知识的获取更具针对性。无监督学习方式中较为常用的算法有以下几种:深度置信网络、自动编码器等等,该学习方式在聚类问题的解决中应用较为广泛。在无监督学习问题中,数据本身并没有标签,学习过程主要是对数据中隐藏的结构进行分析,据此来发现是否有能够被区分的群组。
2.2 基本学习步骤