分析数据挖掘中决策树算法及其应用

2015-08-18 10:25戴艳丽江苏省宿迁高等师范学校江苏宿迁223800
科技传播 2015年23期
关键词:决策树增益数据挖掘

戴艳丽江苏省宿迁高等师范学校,江苏宿迁 223800

分析数据挖掘中决策树算法及其应用

戴艳丽
江苏省宿迁高等师范学校,江苏宿迁223800

数据分析中一种比较新的形式就是数据挖掘,数据挖掘的应用非常广泛,在金融保险业、政府部门、运输领域等都有广泛的应用。本文通过分析决策树的算法研究,阐述了ID3、C4.5、CART等算法的优劣势以及在数据挖掘中的运用,在实际的科研活动中,要进行综合考虑和科学总结,为未来相关方面的发展提供更加科学和合理的依据。

数据挖掘;决策树算法;应用

数据分析中一种比较新的形式就是数据挖掘,数据挖掘就是指挖掘具有价值的但有相当隐蔽性的信息。现在,数据挖掘的应用非常广泛,在金融保险业、政府部门、运输领域等都有广泛的应用。决策树算法在数据挖掘中可以起到很好的作用,本文将通过分析决策树的算法研究和在数据挖掘中的改进,希望对决策树在数据挖掘中的应用提供帮助。

1 决策树算法的概述

决策树算法是一种数学归纳方法,强调从复杂无序的事例中,推导出最终结果的方法,在分类器、预测模型和数据挖掘中应用比较广泛。决策树算法要首先建立一个决策树模型,然后通过所建立的模型对复杂无序的数据进行逐项测试,从根节点一直到最终的叶节点。

2 数据挖掘中常见的决策树算法研究

决策树经过长时间的发展,现在常见的算法主要包括ID3算法、C4.5算法以及CART算法。下面我们对相关的算法做一个简单的介绍。

2.1ID3算法

ID3算法在决策树算法中,是一种比较主流的算法。它的属性选择的标准是信息增益方法,通过在各级结点上运用信息增益方法,来确定结点生成时的属性。这样做可以使取得相关信息最小[1]。ID3算法的流程图如图1所示。

主要公式为:假设U是整个集合,{X1,……,Xn}是整个集合的一个部分,它的概率分布可以表示为Pi=P(Xi),则称:

为信息源的信息熵。里面的对数取2为底,当Pi为零的时候,则

通过上面的分析,我们对ID3算法已经有了一个简单的了解,下面对ID3算法的优劣势进行相应的研究。ID3算法具有的优势是:1)由于ID3算法对所有可能出现的决策树都有所涉及,所以具有完整性;2)信息增益减少了训练样例不够准确的敏感性;3)算法在所用时间上比较少,同时分类效率较高;4)ID3算法的结点数量在所有算法中最小。ID3算法的劣势是:1)由于ID3算法的假设前提比较单一,所以不具有对所有假设进行表示的特点;2)ID3算法在进行测试之后,不会选择在对这个点进行测试,所以相对来说得到的结果只是个体最优的;3)ID3算法对于属性值数目比较依赖,但属性值本身并不能保证是最优的;4)ID3算法的开销较大;5)ID3算法主要基于属性选择,而属性选择是否对决策树有很大影响,在学术界缺乏确定的结论。通过对ID3算法的优劣势分析,可以认为ID3算法的理论明白,方法也并不复杂,在数据挖掘中,可以得到一个很好的应用。

2.2C4.5算法

C4.5算法是昆兰在1993年创立的,它创立的主要依据是ID3算法,但更加完整。相比于ID3算法,C4.5算法对于属性的不间断性和属性值不完整的情况进行了改变,在决策树剪枝阶段也有了比较成熟的算法。C4.5算法采用的是信息增益率为基准进行属性测试。信息增益率的英文名称是:information gain ratio。基本公式为:

假设整个集合为S,离散属性A的不同取值用n表示,子集划分为S1,……,Sn,用A表示的信息增益率为:

其中:

C4.5算法的优点是对于离散和连续属性都可以很好地进行处理,信息增益率相比信息增益属性来说,对于整个决策树保持稳定也更加有利。但同时C4.5算法也暴露出了一些问题:1)C4.5算法的结果在准确性上有很大提高,但对于全局最优效果还有待加强;2)决策树的整体性能在决策树构造完成后不易改变;3)C4.5算法在分组时的效率有待提高;4)C4.5算法的核心信息增益率也有着局限性,如果信息熵的值选择较小的话,那么信息增率的牢固性则很可能达不到要求[2]。

2.3CART算法

CART属于挖掘算法,最早在统计学中开始广泛应用,相对来说比较灵活。CART算法的一个特点就是是一种监督学习法,即在使用时,要首先建立一个可以对CART进行评价的样本集。一般情况下CART的学习样本集为:

其中X为属性向量,Y为标签向量,其中,回归树的Y的数量值是有序的,分类树的Y的数值是无序的。

CART算法是基于统计理论建立的,它的解析能力比较强大,对非参数的识别具有一定作用,对于相关的数据要求也不是特别的严格,可以是无序或者离散的,最终获得的数据结果的规则也比较简单。当然,CART算法也存在着一定缺陷。相对来说CART算法在稳定性方面的表现不尽如人意,所建立的模型之间的差异也比较明显,对于样本较小的处理结果能力有待提高。

3 数据挖掘中决策树算法的改进

3.1决策树算法的优化

在数据挖掘中,决策树的算法要有所优化。首先应该明确加权简化熵的理念,所谓的加权简化熵指的是决策树的权值取决于属性A的值的具体数量,然后根据子集Vi计算相应的简化熵值,再和权值进行相乘,所得结果就是加权简化熵。最后在对结果进行比较得出最优选择,主要公式为:

其中P为A对应的概率。

3.2新算法的优劣势分析

通过与传统的ID3算法进行比较,发现新算法具有下面的优点:1)权值的引入是一个比较新的观念,对于决策属性的取值有很大的帮助;2)由于新算法解决了决策树“空枝”的问题,所以算法的可靠性和易读性得到了提升;3)新算法相比传统算法在时间上的节省比较多,提升了运行效率。

3.3挖掘流程阐述

数据挖掘的过程比较复杂,首先要通过对数据进行分析,分出不同的数据类型和格式,在经过清理筛选等工作,存入SQL SERVER。然后选择ID3、C4.5、CART或者改进算法,生成对应的决策树,并对其进行检测[3]。

4 结论

随着社会经济的发展,数据挖掘的作用越来越重要,决策树算法在数据挖掘中的作用也越来越广泛,各种决策树算法的各有其自己的优劣势。在数据挖掘中,要根据实际情况,进行综合考虑和科学总结,为未来相关方面的研究提供更加科学和合理的依据。

[1]张悦,杨学全.决策树算法在学生选课系统中的应用[J].科技经济市场,2014(7):185.

[2]张莉.数据挖掘研究现状及发展趋势[J].赤峰学院学报(自然科学版),2014(18):14-15.

[3]胡常伟,钱程.基于决策树的模具制造企业订单履约数据挖掘[J].模具工业,2014(11):4-7.

TP3

A

1674-6708(2015)152-0033-02

猜你喜欢
决策树增益数据挖掘
基于增益调度与光滑切换的倾转旋翼机最优控制
探讨人工智能与数据挖掘发展趋势
基于单片机的程控增益放大器设计
一种针对不均衡数据集的SVM决策树算法
基于Multisim10和AD603的程控增益放大器仿真研究
决策树和随机森林方法在管理决策中的应用
基于并行计算的大数据挖掘在电网中的应用
基于决策树的出租车乘客出行目的识别
一种基于Hadoop的大数据挖掘云服务及应用
基于肺癌CT的决策树模型在肺癌诊断中的应用