乔麟婷
【摘要】决策树作为一种解决分类问题的模型,由于算法简单易解释,而受到了普遍的应用。本文研究了如何使用决策树进行分类,分别介绍了模型训练、模型评估和预测过程。针对模型训练,详细阐述了决策树算法原理,运用信息增益进行属性选择,并明确了决策树停止条件。最后,通过一个简单的例子将决策树算法应用到实际问题中。
【关键词】分类 决策树 信息增益
【中图分类号】G63 【文献标识码】A 【文章编号】2095-3089(2018)48-0224-02
1.引言
随着现代生活的进步与发展,机器学习逐渐进入大众视野。机器学习实际上是以数据为驱动,从海量数据中提取整合出有价值的信息,用机器代替人工来解决问题的一个学科。机器学习分为监督学习和非监督学习。分类问题是监督学习的一个重要组成部分。它是指人们基于生活中所遇到的、需要将大数据进行分析并作出筛选与划分的问题。如生活中的垃圾分类就是一个典型的分类问题,将垃圾进行细致分类而运送到不同的地方进行处理,已知部分垃圾其物理性质、化学成分、利用价值,并且知道其对应的类别标签,即训练集,我们需要对未知的垃圾来根据它的属性判定其所属类别。
在生活中较为常见的解决分类问题的模型有决策树、logistic回归、SVM等,它们的出现可以更加便捷地解决分类问题。其中决策树以其清晰的图示,较为简便的运算法则,快速地对数据进行了全面分析,作出了较为准确的分类,而在如今普遍得到使用[1]。
2.决策树算法原理
2.1决策树算法的简单流程
作为一种常见的解决分类问题的模型,决策树的形状类似于一个树,包含根节点、中间节点和叶子节点。叶子节点对应着类别标签,不同节点是根据不同的分类属性进行分裂。当我们使用该模型时,需要将数据从其根节点放入,数据会依次经过中间节点进行连续划分,最终进入叶节点,其代表了最终的所属类别。每一条从根节点到叶节点的分支都代表了对样本数据进行的划分运算得到的不同类别。例如上文所提到的对用户信用度的测试,我们事先会收集用户的信息,如,贷款经历、开户时间、存款金额等等作为信息数据;然后将用户的所有信息数据放入根节点,依次往下过渡到中间节点,在每个节点对信息数据进行运算后,会在叶节点得到最终的分类结果。
2.2决策树的停止与选择划分
决策树实际上是一种递归的算法[2],这些分支会不断地生长。决策树停止分支的生长主要受以下两点的制约:一是属性已经全部计算完毕,没有其他数据形成分支了;二是训练的数據已经是属于同一类别,不用再进行划分了。
信息增益越大,那么纯度的提升就越大,属性的选择也就更加简洁与准确。因此,我们就可以通过信息增益为准则来划分属性,以此达到用决策树来解决分类问题的目的。
3.决策树应用案例
下面我们就举一个实际的例子来说明决策树算法流程[3-4]。我们以银行对客户进行的能否贷款的测试为例,表2是客户数据集,包含了7个样本,四个属性。
经过对比,收入,存款,违约三者均取得了最大的信息增益,以选择收入作为划分属性为例,这样就可以得到三个分支。要进行进一步的划分,分别对得到的三个分支,将其看成根节点,以此类推最终可以得到决策树。
4.总结
决策树算法是基于规则的分类算法,算法简单、可解释性强,能够直接从数据中进行归纳,根据数据特征提取分类的有效信息。决策树算法得到的分类树便于人们理解,并且它能够较为准确地对分类问题作出判断,划分出最终结果。因此,它在实际生活中得到了非常广泛和普遍的应用。随着时代的发展,决策树算法还在不断地优化与更新,以便于更加准确地解决分类问题。
参考文献:
[1]何迪.面向大数据分析的决策树算法[J].信息系统工程, 2017(7):161.
[2]胡金涛.基于C4.5决策树的学生成绩预测教学系统的研究与实现[D]. 西南交通大学, 2017.
[3]杨静, 张楠男, 李建,等. 决策树算法的研究与应用[J].计算机技术与发展, 2010(2):114-116.
[4]张宇,张之明.一种基于C5.0决策树的客户流失预测模型研究[J].统计与信息论坛, 2015(1):89-94.