基于实证分析的数据挖掘在家庭经济困难学生精准识别过程中的应用探索

2016-11-24 17:42李书翔张沂红
2016年32期
关键词:家庭经济困难学生决策树

李书翔张沂红

摘 要:通过建立基于家庭经济困难学生数据库的数据挖掘模型对困难生精准识别进行实证角度的探索,通过数据预处理后的数据选取决策树模型进行学生识别,评估模型显示,该数据挖掘模型预测具有较高的准确率,能够从一定程度上解决家庭经济困难学生认定过程中存在的主观性、片面性等问题。

关键词:数据挖掘模型;家庭经济困难学生;精准识别;决策树

数据挖掘(Data Mining,DM)又称数据库中的知识发现(Knowledge Discover in Database,KDD),是指从数据库的大量数据中揭示出隐含的、先前未知的并有潜在价值的信息的过程[1]。数据挖掘在很多领域都是一个很时髦的词,尤其是在如银行、电信、保险、交通、零售等商业领域。但是,数据挖掘在教育领域的应用尚处于理论探索阶段,其他研究中已经证明,数据挖掘在高校家庭经济困难学生精准识别的过程中具有理论上的可行性,本文通过建立基于家庭经济困难学生数据库的数据挖掘模型对困难生精准识别进行实证角度的探索,以期能够解决家庭经济困难学生认定过程中存在的主观性、片面性等问题。

本研究通过运用数据挖掘技术,对家庭经济困难学生的数据进行量化分析、建模评价、以及结果分析。本文的主要设计思路为:针对学生的一系列评价家庭经济困难程度的指标划分学生困难等级,有利于简化家庭经济困难学生的认定程序,降低错误率。一个完整的数据挖掘过程主要包括数据准备、建立模型进行挖掘、模型的评价与修正三个阶段。借助数据库中已有学生信息,使用数据挖掘方法开发出困难等级评分模型从已有数据中分析归纳出困难生识别的规则和标准。然后,将这些规则或标准应用于困难生认定过程。本文所采用的数据挖掘软件为SPSS Clementine 12.0。该软件操作简单、无需编程、界面人性化,是一款十分适用的数据挖掘软件。图1展示了基于数据挖掘的困难生精准识别所构建的模型。

一、数据预处理

数据预处理主要包括原始数据整理与数据分割两部分。

本研究采用原始数据来自2015年度某高校某学院家庭经济困难学生数据库,该数据库共有数据496条。从学生《家庭情况调查表》以及家庭经济困难申请表中原因陈述结果可以看到,涉及到学生的特征指标包括户籍性质(HJ)(农村、城镇),户口所在地(HK)(东部、西部、中部),家庭人口数(RK),是否孤残(GC),是否单亲(DQ),家庭人均年收入(SR),家庭健康情况(JK),家庭负债情况(FJ)等一系列指标。数据经整理后能够满足Clementine对数据挖掘的要求。

数据分割的目的主要是为了验证数据挖掘模型,根据一般原则,数据分割的比例配比为训练集(40%),测试集(30%),验证集(30%)。分割方法为简单随机抽样,利用Clementine 12.0的Partition节点完成。分割后的三个数据集用新增变量Partition的取值标识,但仍合并在同一个数据文件里。

二、建立模型

家庭经济困难的等级与困难学生本身的特性是紧密相关的,经由这些特性能够细分学生困难等级,常用的特征识别方法是分类树。分类树着眼于从一组无次序、无规则的事例中推理出分类树表示的分类规则。现在比较常见的算法是基于信息论的方法的决策树。本文选取决策树模型来分析处于不同困难等级的学生所共有的一些个人信息,并对困难生认定提出相应的一些建议。

符合以下几条规则之一的,可以认定为家庭经济条件特殊困难:(1)人均年收入少于2250元,家庭人口少于3.5;(2)家庭人口多于3.5,人均年收入少于950元;(3)人均年收入高于2250元,家中有负债,人口数少于5人,家庭存在不健康因素。

符合以下几条规则之一的,可以认定为家庭经济条件困难:(1)人均年收入大于1250元,家中有负债,农村户口;(2)人均年收入大于1250元,户籍所在地为中西部地区;(3)人均年收入大于1250,家中人口多于5人,且有负债;(4)收入多于2250,人口数多于6人且家中不健康因素的。

符合以下几条规则之一的,可以认定为家庭经济条件一般困难:(1)收入多于1250,家住农村,无负债;(2)收入在2250到2450之间,家住中东部,人口少于6人;(3)收入大于2450元。

三、模型评估

完成模型的制定以后,下一步就是对模型进行评估,检验其预测能力的强弱。一般来说,模型的检验有两种方式:样本内检验和样本外检验。在Clementine中,模型评估主要采用图形展示,例如Gain图、Lift图等。另外,也常用分类矩阵来比较预测结果与实际结果的吻合程度,分析结果如图2。

首先,从收益图可以明显的看出,利用决策树得到预测模型准确率非常高,几乎与理想模型重合,而基于客户特征的细分变量的准确率也比较高。

为了更好的评判预测效果,利用Clementine 12.0中的Analysis节点,可以得到如下关于决策树模型在三个部分的数据集中的预测准确率。在大小为40%的训练数据集中,模型的预测准确率达到86.03%;在大小为30%的检验数据集中预测准确率为86.1%;在大小为30%的验证数据集中,其预测准确率达到86.18%。可见,利用决策树模型已经达到了相当好的估计效果。

四、结论

数据挖掘模型的运行结果在理论与实践层面都得出了有益的结论。

首先,数据挖掘的运行结果给出了困难生认定的一些普遍规则,这些规则基于困难生认定的原始数据所表现出来的困难生的特性,反映学生的方方面面。这些规则在困难生认定过程中将会是非常好的参考条件,甚至对困难生认定的准确度起决定作用。

其次,数据挖掘应用于家庭经济困难学生精准识别,对于数据挖掘在教育领域尤其是在学生管理与服务工作中的应用提供了有益的借鉴,这种借鉴也不应止步于此,应当进行更加深入的研究与应用,一遍提高高等学校学生工作的科学化水平。(作者单位:1.济南大学外国语学院;2.济南大学党委学生工作部)

参考文献:

[1] 谢邦昌等. 数据挖掘基础与应用(SQL Server 2008)[M]. 机械工业出版社, 2012, (1).

[2] 吕红胤等. 大数据引领教育未来—从成绩预测谈起[J]. 电子科技大学, 2015, (4).

猜你喜欢
家庭经济困难学生决策树
一种针对不均衡数据集的SVM决策树算法
决策树和随机森林方法在管理决策中的应用
基于改进决策树的故障诊断方法研究
家庭经济困难学生心理现状及应对方式研究
家庭经济困难学生职业价值观特征与职业指导研究
浅析高校家庭经济困难学生认定存在的问题及对策研究
浅析新常态下高职院校家庭经济困难学生的人文素质教育
基于决策树的出租车乘客出行目的识别
基于决策树的复杂电网多谐波源监管
基于肺癌CT的决策树模型在肺癌诊断中的应用