数据挖掘在高校学生学业预警中的应用

2017-03-27 10:49宫锋
电子技术与软件工程 2017年4期
关键词:决策树数据挖掘

摘 要 使用ID3算法对高校学生的学籍信息数据和学生日常表现数据进行数据挖掘,分析学生的学籍信息中的属性、学生日常表现对于学生预警的影响,并以数据挖掘结果建立学生学业预警的决策树,为教学管理、学生管理提供数据支持。

【关键词】决策树 学业预警 数据挖掘 ID3

“学业预警”作为一种预防学生学业成绩下滑的管理制度源自于江西理工大学2006年在校内实施的“学业预警”制度。当今许多高校在校内实施“学业预警”制,并建有符合各自高校的学业预警标准。但在实际实施过程中由于都是在学年结束后人工统计学生的学分获得情况或通过计算机汇总统计学生的学分情况,所以一般情况下,学生都是在学业问题比较严重的时候才被发现,才被预警。

造成学生“学业预警”滞后的主要原因是高校没有有效利用学校在教学与管理过程中积累的大量原始数据。这些沉睡的数据背后可能隐藏着不为我们所知的但又对我们的各种管理工作十分有用的规律或知识。数据挖掘技术可以通过科学的分析、挖掘从数据中发现隐藏的规律或模式。将数据挖掘技术与学生的学籍信息和学生日常表现数据结合,寻找“学业预警”学生的发展变化规律,尽可能体现发现学生可能被预警的苗头,降低学生预警率,提高高校的教育教学水平和学生管理水平。

1 决策树技术概述

决策树技术是数据挖掘的一个重要的研究分支,是采用树结构算法将数据划分成离散类的方法,其主要作用和目的是揭示大量数据中的类别信息。

Quinlan提出的基于信息熵的ID3(Induction Decision-tree 3)算法是决策树技术中的经典算法。ID3算法以信息论为理论基础,在执行过程中要计算属性的信息熵与信息增益,然后在每次分类判断是以信息增益为标准,通过选择信息增益高的属性进行分类。

2 决策树技术在学生学业预警中应用

学生的学业成绩变化受到各个方面因素的影响,学生的主观努力程度是决定性因素,但也会受到诸如入学成绩、家庭经济状况等客观因素的影响,同时学生的学业成绩变动必然会在其日常学习生活中有所体现。所以,将ID3算法应用于学生的学籍基本信息和学生日常表现的历史数据中,可以构建一个预测学生是否被预警的决策树。

2.1 数据处理

从学校教务系统导出学生的学籍基本信息,从学生管理系统中导出学生的日常表现数据信息,根据数据挖掘目的和需要,保留家庭经济状况、高考成绩、单亲或孤儿、作业情况、出勤情况、是否被预警共计6列属性,通过绘制直方图分析,将高考成绩、作业情况、出勤情况属性数据离散化,整理出包含160名被预警学生在内的共计500条样本数据如表1所示。

2.2 决策树构建

根据样本数据,以“预警与否”为目标类属性构建决策树。

2.2.1 计算样本数据“预警与否”分类的信息熵

2.2.2 计算各属性信息熵与信息增益

由样本数据可知决策树存在5种分裂可能,分别计算“家庭经济状况”、“高考成绩”、“单亲或孤儿”、“作业情况”、“出勤情况”的信息熵与信息增益。

根据信息增益计算的结果可知“作业情况”是最大的增益属性,应按“作业情况”的属性进行分类并创建3个分支。

2.2.3 重复以上计算过程即可构建一个决策树

2.2.4 决策树剪枝

为防止经上述运算构建的决策树的训练过度,对决策树进行剪枝,可提高决策树对新数据运用的准确度。常用先剪枝、后剪枝和两者结合三种剪枝方法,本文采用后剪枝法。经过多次分析测试,设学生“预警与否”的比例为35%,剪枝后的决策树如图1所示。

2.3 分类规则及分析

根据决策树,可以提取相应分类规则

(1)IF 作业情况=C AND 出勤情况=C AND 高考成绩=C THEN 学生被预警的比率=73.3%。

(2)IF 作业情况=C AND 出勤情况=C AND 高考成绩=B AND 家庭经济状况=B AND 单亲孤儿=T THEN 学生被预警的比率=57.14%。

(3)IF 作业情况=C AND 出勤情况=C AND 高考成绩=B 家庭经济状况=B THEN 学生被预警的比率=36.1%。

分析决策树得出的规则,并结合学生情况有如下结论:

(1)学生的日常表现中作业情况、出勤情况非常重要和关键,是学生学习态度、水平变化的明显标志。

(2)学生的高考成绩不是大学生在校学业成绩的关键因素,但作为学生学习的基础,对于学生的学习有一定的影响。结合学生具体数据,并经了解学生情况可知,高考成绩低的学生不仅仅是学业基础差,往往是因为缺少良好的学习方法与学习习惯,造成学业成绩不良。

(3)学生家庭经济状况、是否是单亲或孤儿也是影响学生学业的一个因素。部分学生由于承受学业与经济两个方面的压力,必然影响学生的时间与精力,容易造成学业问题。

根据挖掘结果和对规则分析,建议在教学和管理中要注意以下几个方面:

(1)学工部门要加强对学生的基础管理管理,严把学生请假关,并与任课教师共同做好课堂考勤工作。任课教师要重视学生的平日作业完成情况与完成质量,特别要重视学生在作业、课堂出勤方面的苗头性倾向。对于学生的苗头性问题早发现、早了解、早解决。

(2)可以通过大学生导师制、班主任工作、新生研讨等多种方法做好学生指导,增强高考成绩较低学生的信心,做好学生的学习方法、学习习惯的养成工作。同时,任课教师在授课时要了解学生学业基础,因材施教。

(3)学校各相关部门、班主任、辅导员、任课教师要备加关心和爱护单亲、孤儿学生和来自贫困家庭的学生,充分利用高校的各种奖、助、助等政策,减轻学生经济压力,切实将学生的主要精力转到专业学习上来。

(4)专业教师在授课时要特别注意学生学期基础,查缺补漏,分类施教,因材施教,深入浅出。

(5)教学管理部门、专业教师要做好学生的导师,指导学生的学习与选课,学生在选择专业选修课时要充分考虑课程的先修课程,结合自己的学习兴趣与今后的发展方向,量力而行,不能跟着别人的选课思路走,避免造成课程不及格。

3 结束语

将数据挖掘技术应用于学生“学业预警”不仅能提高该项工作的针对性,也能够对高校的学生管理、教学管理决策提供数据支持,也是对高校保存的大量历史数据的科学使用。同样地,数据挖掘技术也可以对高校保存的教师科研数据、学生评价数据、教师业绩数据等深入的挖掘分析,挖掘数据背后的有用的规律来服务高校的人才培养、教学管理等工作。

参考文献

[1]杨士同,马香丽.高校学业预警机制运作中对象监测方式研究——以西北農林科技大学X学院为例[J].中国农业教育,2014(05):47-49.

[2]郑刚,岑汉彬.数据挖掘在电力负荷预测中的应用[J].水利电力机械,2006,(01):44-47.

[3]丁保忠.数据挖掘技术在学生综合信息管理系统中的应用研究[D].河北:河北科技大学硕士论文,2013(04).

作者简介

宫锋(1975-),男,汉族,山东省莱阳市人。现为滨州学院信息工程学院讲师,主要从事数据挖掘方面研究。

作者单位

滨州学院信息工程学院 山东省滨州市 256600

猜你喜欢
决策树数据挖掘
一种针对不均衡数据集的SVM决策树算法
决策树和随机森林方法在管理决策中的应用
基于改进决策树的故障诊断方法研究
基于并行计算的大数据挖掘在电网中的应用
基于决策树的出租车乘客出行目的识别
基于决策树的复杂电网多谐波源监管
一种基于Hadoop的大数据挖掘云服务及应用
基于肺癌CT的决策树模型在肺癌诊断中的应用
数据挖掘的分析与探索
基于GPGPU的离散数据挖掘研究