基于决策树的精准帮扶模型研究

2021-12-19 11:39吴朝霞常庆丽王伟
科海故事博览·下旬刊 2021年11期
关键词:决策树

吴朝霞 常庆丽 王伟

摘 要 目前,部分企业与政府部门已经针对扶贫工作开发了对应的系统,这些系统提供了对贫困用户的精准识别、精确帮扶、精确管理以及数据分析决策功能。但是常用的精准扶贫很难进行量化评估,为了解决该问题,本文通过大量的数据样本,结合数据本身的特点选择了决策树算法对扶贫数据进行研究。最后通过大量的样本数据和ID3算法得出了基于高校学生的精准扶贫模型,可以很好的评价度量学生的资助政策。

关键词 帮扶模型 决策树 ID3

中图分类号:O1 文献标识码:A 文章编号:1007-0745(2021)11-0056-03

在习近平总书记提出坚决打赢脱贫攻坚战后,为响应国家的号召,各个地区开始投入资源,推进扶贫工作的实行。而传统的扶贫工作存在一些问题,如信息查询不够方便、人工采集容易出错等。因此需要一款针对精准扶贫工作的系统来进行辅助,使扶贫信息管理更加细化,提升扶贫信息管理的效率,满足扶贫机构的相关工作需求。[1]

为了使系统能够进行精准识别,可以在高校精准扶贫系统中添加决策树算法,利用决策树算法实现趋势分析、提供辅助决策等功能,并建立相应的信息化支撑体系。

1 决策树算法

决策树就是数据结构中的树,每一个叶子节点都是一种选择的结果,而每个分叉路代表该特征的具体内容。决策树算法是根据离散函数值进行分析的方法,是一种分类算法。[2]对数据进行预处理,然后归纳总结出一个可读的规则和决策树,根据总结的决策树对新的数据进行预测分析,推测新数据的决策结果。本质上决策树就是通过数据特征归纳出的规则对数据进行分类的过程。

预测模型分类结果是决策树其中一个用途。决策树中的每个非叶子节点都是根据不同的分类算法在所有的特征中相互比较得出的,从根节点到叶子节点,其中的每一条路径都是一条分类规则,决策树就是把这些规则都统计组合在一起,用来进行预测。[3]

2 决策精准扶贫模型

2.1 数据的预处理

本研究采用的是以某高校经济困难学生数据为模型构建的数据训练集。训练集共包含计算机科学与技术400人,获得补助的有50人,涉及的分类属性分别是“是否建档立卡”、“是否最低生活保障学生”、“是否特困救助学生”、“是否孤儿”、“是否事实抚养儿童”、“是否烈士子女”、“是否残疾学生”、“是否残疾人子女”(如表1家庭情况调查表所示)。

2.2 数据模型的构建

常用的决策树实现算法有下述三种。

2.2.1 ID3算法

2.2.2 C4.5算法

C4.5算法是对ID3算法进行了改进,如果X是一个连续型随机变量,此时采用ID3算法就无法计算了,而C4.5算法把连续型随机变量用区间表示,这样就可以使用ID3算法的计算过程进行计算,并在此基础上计算出信息增益比来进行比较,信息增益比的计算公式:

2.2.3 CART算法

CART算法是选出基尼指数选出最大的属性作为最佳分裂属性进行划分,假设有K种分类,样本点属于第k类的概率为pk,基尼指数为Gini(p)=∑Kk=11-pk2,如果样本集合D根据特征被划分为D1和D2两部分,此时集合D的基尼指数Gini(D,A)=Gini(D1)+Gini(D21)。[7]

由于本研究的数据不存在连续性,因此采用ID3算法进行模型的构建。首先计算集合整体的熵-(log2+log2),[8]然后计算各个分类的条件熵和信息增益,计算结果如表2特征信息增益表所示。

然后选出信息增益最大的作为根节点,根据根节点的特征取值,继续选出下一节点。[9]直到特征值取完为止,最后生成决策树,结果如图1所示。决策者可以利用图1生成的决策信息对学生进行精准资助。

3 结论

本文通过对高校资助学生的基础数据进行研究,结合机器学习的决策树算法,经过大量的样本训练,最后基于ID3的决策树算法生成了基于高校精准扶贫的决策树模型。[10]为高校的扶贫资助工作提供参考,为扶贫工作的量化估计提供了解决方案。

参考文献:

[1] 刘鸣,许钟元,齐云鹤.基于决策树算法的高校学生精准资助策略[J].黑河学院学报,2019,10(10):118-120,140.

[2] 刘筱曼.基于决策树算法的5M1E在GS公司外贸服装产品质量控制中的应用[D].上海外国语大学,2021.

[3] 宋歌.基于模糊神经网络的勘探资源数据挖掘方法研究与实现[D].中国石油大学(北京) ,2018.

[4] 曹琦.基于数据挖掘的录井剖面归位解釋处理方法研究[D].东北石油大学,2019.

[5] 赖国鸿.面向数据挖掘的招生迎新信息系统的设计与实现[D].华南农业大学,2018.

[6] 李云.大数据分析技术及其在贫困生帮扶工作中的应用研究[D].贵州大学,2018.

[7] 田昆.基于Logistic回归分析的返贫预测模型研究[D].西北师范大学,2018.

[8] 唐业喜. 基于AHP和CM模型的贫困生精准认定与实证分析[J].教育财会研究,2017(05):47-53.

[9] 唐雪.大数据时代高校精准资助体系构建与发展策略[J].高等建筑教育,2017(04):132-135.

[10] 白华,徐英.扶贫攻坚视角下高校建档立卡生精准资助探析[J].国家教育行政学院学报,2017(03):16-21.

猜你喜欢
决策树
简述一种基于C4.5的随机决策树集成分类算法设计
一种改进的MEP决策树剪枝算法
决策树学习的剪枝方法
改进的ID3算法在个人贷款信用风险评估中的应用
ID3分类及其剪枝算法研究
不同年龄段关于养老问题认知的差异
森林资源动态监测系统与ENVI决策树分类技术的应用
基于遥感技术的植被信息提取方法研究
决策树在成绩分析中的应用
决策树在成绩分析中的应用