吴朝霞 常庆丽 王 伟
(安阳工学院,河南 安阳 455000)
在习近平总书记提出坚决打赢脱贫攻坚战后,为响应国家的号召,各个地区开始投入资源,推进扶贫工作的实行。而传统的扶贫工作存在一些问题,如信息查询不够方便、人工采集容易出错等。因此需要一款针对精准扶贫工作的系统来进行辅助,使扶贫信息管理更加细化,提升扶贫信息管理的效率,满足扶贫机构的相关工作需求。[1]
为了使系统能够进行精准识别,可以在高校精准扶贫系统中添加决策树算法,利用决策树算法实现趋势分析、提供辅助决策等功能,并建立相应的信息化支撑体系。
决策树就是数据结构中的树,每一个叶子节点都是一种选择的结果,而每个分叉路代表该特征的具体内容。决策树算法是根据离散函数值进行分析的方法,是一种分类算法。[2]对数据进行预处理,然后归纳总结出一个可读的规则和决策树,根据总结的决策树对新的数据进行预测分析,推测新数据的决策结果。本质上决策树就是通过数据特征归纳出的规则对数据进行分类的过程。
预测模型分类结果是决策树其中一个用途。决策树中的每个非叶子节点都是根据不同的分类算法在所有的特征中相互比较得出的,从根节点到叶子节点,其中的每一条路径都是一条分类规则,决策树就是把这些规则都统计组合在一起,用来进行预测。[3]
本研究采用的是以某高校经济困难学生数据为模型构建的数据训练集。训练集共包含计算机科学与技术400人,获得补助的有50人,涉及的分类属性分别是“是否建档立卡”、“是否最低生活保障学生”、“是否特困救助学生”、“是否孤儿”、“是否事实抚养儿童”、“是否烈士子女”、“是否残疾学生”、“是否残疾人子女”(如表1家庭情况调查表所示)。
表1 家庭情况调查表
常用的决策树实现算法有下述三种。
2.2.1 ID3算法
ID3算法是选出信息增益最小的属性作为最佳划分属性进行划分,信息增益是用来度量两种概率分布的差异,其计算公式是g(D,A)=H(D)-H(D|A),其实H(D)是集合D的熵,H(D|A)是给定条件下D的条件熵。[4]熵表示某种结果可能出现的程度:设Y是有限离散随机变量,其概率为:P(Y=xi)=pi,i=1,2,3…则随机变量Y的熵例如:一个硬币抛10次,其中6次正面朝上,4次反面朝上,则硬币朝上的熵为:[5]
2.2.2 C4.5算法
C4.5算法是对ID3算法进行了改进,如果X是一个连续型随机变量,此时采用ID3算法就无法计算了,而C4.5
算法把连续型随机变量用区间表示,这样就可以使用ID3算法的计算过程进行计算,并在此基础上计算出信息增益比来进行比较,信息增益比的计算公式:
2.2.3 CART算法
CART算法是选出基尼指数选出最大的属性作为最佳分裂属性进行划分,假设有K种分类,样本点属于第k类的概率为pk,基尼指数为如果样本集合D根据特征被划分为D1和D2两部分,此时集合D的基尼指数
由于本研究的数据不存在连续性,因此采用ID3算法进行模型的构建。首先计算集合整体的熵[8]然后计算各个分类的条件熵和信息增益,计算结果如表2特征信息增益表所示。
表2 特征信息增益表
然后选出信息增益最大的作为根节点,根据根节点的特征取值,继续选出下一节点。[9]直到特征值取完为止,最后生成决策树,结果如图1所示。决策者可以利用图1生成的决策信息对学生进行精准资助。
图1 生成的决策树结果图
本文通过对高校资助学生的基础数据进行研究,结合机器学习的决策树算法,经过大量的样本训练,最后基于ID3的决策树算法生成了基于高校精准扶贫的决策树模型。[10]为高校的扶贫资助工作提供参考,为扶贫工作的量化估计提供了解决方案。