学生成绩的动态预警模型

2015-05-12 11:18白金刘琳婧周江辉
科教导刊 2015年4期
关键词:预警模型关联规则决策树

白金 刘琳婧 周江辉

摘 要 通过利用高校教务管理信息储存的教务信息,开发设计基于数据挖掘的学生成绩动态预警模型;引入数据挖掘关联规则方法和决策树方法,利用Apriori算法和ID3算法分别对学生成绩进行数据挖掘,以期找出课程间的内在联系,并将它们分别作为关联规则用于学生成绩预警,最后比较两种算法,选择较优算法模型作为最后成绩预警模型。该预警模型有利于对学生做出提前预警,对提高学生成绩具有良好效果。

关键词 数据挖掘 预警模型 关联规则 决策树

中图分类号:TP315 文献标识码:A DOI:10.16400/j.cnki.kjdks.2015.02.074

Dynamic Warning Model of Students' Achievement

BAI Jin, LIU Linjing, ZHOU Jianghui

(Business Information College, Shanghai University of International Business and Economics, Shanghai 201600)

Abstract Through the use of the Senate Higher Educational Administration Management Information storage, development and design based on student achievement data mining dynamic warning model; the introduction of data mining association rules and decision tree method using Apriori algorithm and ID3 algorithm separately on student achievement data mining in order to find the intrinsic link between the course and they were used as association rules for student achievement warning, final comparison of the two algorithms, selecting optimum algorithm model as the final score early warning models. The warning model is beneficial for students to make early warning, to improve student achievement with good results.

Key words data mining; warning model; association rules; decision tree

0 引言

随着高校教务管理信息系统的广泛应用,高校拥有大量学生的考试成绩和教务数据,国内已有一些研究者以数据挖掘技术为基础面向这些信息展开了数据挖掘工作,如魏顺平在《学习分析技术:挖掘大数据时代下教育数据的价值》一文中介绍了教育数据挖掘在我国的发展历程及相关的概念,并提到了5类教育数据挖掘方法;①叶福兰则利用数据挖掘技术在高校已有的教育数据上给出了学生成绩预警的分析,寻找不及格课程间内在联系、可能联系和关键因素;②刘斌、陈依潼则利用K-均值聚类方法分析学生评价方式;③以及王璇利用Apriori算法分析大学生心理状况。④

1 基于数据挖掘技术的成绩预警模型

预警主要分为两个部分:规则产生和规则匹配。规则产生部分,预警模型接收学生成绩训练集,从中依靠内部算法获取符合要求的成绩预警规则。规则匹配部分,预警模型接受待处理学生成绩和课程,而后根据规则产生部分产生的规则,进行逐一匹配、筛选,最后输出预警信息。

如图1所示,基于数据挖掘的成绩预警模型由数据输入/输出接口,数据预处理模块、预警规则挖掘模块、成绩预警规则库和预警模块5部分组成。其中,预警规则挖掘模块是该模型的核心部分,它负责从输入的训练集中挖掘预警规则,并将符合条件的规则储存到预警规则库中。预警模块式将从数据预处理模块里的学生成绩和课程信息,与成绩预警规则库中的规则匹配,再根据已设定的预警条件比较,继而决定是否生成预警信息。数据输入/输出接口、预警模块可以实现实时的学生成绩预警信息,到达动态预警的目的。

图1 基于数据挖掘的成绩预警模型

2 基于关联规则的成绩预警模型

2.1 关联规则和 Apriori算法

设 = {,,……,}是项(Item)的集合。记为事务的集合,事务是项的集合,并且 。对应每一个事务有唯一的标识,如事务号,记作。设是一个中项的集合,如果 ,那么称事务包含。项的集合称为项集。包含个项的项集称为项集。项集的出现频率是指包含该项集的事务数,简称为项集的频率或支持度计数。

定义1  一个关联规则是形如 的蕴涵式,这里 , ,并且∩= 。

定义2  规则 在事务数据中具有支持度,表示支持度S(support)是事务集中同时包含 和的事务数与所有事务数之比,记为support( ),即:

support( ) = ∣{:∪ ,}∣/∣∣?00% =  %

定义3  规则 在事务集中的置信度(confidence)是指包含和的事务数与包含的事务数之比,记为confidence( ),即:

confidence( ) =∣{:∪ ,}∣/∣: ,∣?00% =  %

定义4  同时满足最小支持度(min_sup)和最小可信度(min_conf)的规则称为关联规则,即S( )>min_sup且C( )>min_conf成立时,规则 称为强关联规则。

Apriori算法是关联规则的重要方法,是挖掘布尔型频繁项目集的算法。它使用一种称为逐层搜索的迭代方法,“K-项集”用于探索“K+1-项集”。这是一个基于两阶段频繁集思想的方法,将关联规则算法的设计分为两个子问题:①找到所有支持度大于min_sup的项集,即频繁项集。②使用第一步找到的频繁项集找到置信度大于或 最小置信度min_conf的关联规则。

2.2 基于关联规则的发现

2.2.1 数据预处理

由于目前高校成绩数据库中存贮的成绩信息主要是百分制的成绩和五分制成绩为主,所以需将实验数据进行处理、变换。本文基于关联规则的成绩预警模型方法是将学生成绩变为离散的布尔类型数据(0,1)。具体为:将学生成绩大于该科平均分的,记为0;小于该科平均分的,记为1。再添加辅助列“预警”,如果学生成绩存在不及格科目,记为“Y”;不存在不及格科目的,记为“N”。一般而言,数据变换的过程需要经历数据选择、数据清洗(多次成绩处理和缺失成绩处理)、数据集成和变换等步骤。

2.2.2 基于关联规则挖掘结果分析

实现本模型的软件环境为操作系统为Windows XP,采用Oracle 数据库管理系统提取学生成绩,并使用SPSS Clementine软件进行数据挖掘工作。根据Clementine软件的特点,本实验选择处理时将低于平均成绩记为“1”,高于平均成绩的记为“0”。这样的目的是使本次分析出的关联规则方向为:对于学生成绩不及格情况下,各个课程之间的关联性。

表1 挖掘出的规则数和类规则平均预测准确率

以教务管理系统中导出信息管理与信息系统2010级和2011级部分学生3年的成绩为训练集,以其余学生3年成绩为测试集Dtest,用以挖掘课程和学生成绩之间的关联关系。并最终,选择信息管理与信息系统的10门必修课程成绩作为最后实验数据。10门课程为:数据结构,数据仓库与数据挖掘,数据库原理与应用,操作系统,C++面向对象程序设计,程序设计基础(英),微积分(I),微积分(II),概率论,线性代数。

设={,,… }为类关联规则的规则集。将已经产生的关联规则 ,记为(,),得到类关联规则:(,) ,为类别。记为类别为“Y”的数据集合。定义类规则:(,)的预警准确率为(),类规则集的预测准确率为()。

(公式1)P()=

(公式2)()=

经过反复试验、验证,分别设置最小支持度分别为0.40、0.37、0.34,最小置信度为0.90、0.87和0.84,在此参数条件设置下挖掘类规则集预警准确率。

上文所提出的模型从上述实验结果看,准确性在60%~70%之间。实验结果表明,该模型及其方法在实践上是有效的。

3 基于决策树算法的成绩预警模型

3.1 决策树算法

决策树算法是一种典型的分类和预测方法,也是一种逼近离散函数值的方法。它具有算法思想简单,识别样本效率高,对噪声数据有很好的健壮性等优点。决策树使用样本的自身属性作为节点,用属性取值作为分支的树型结构。它的根节点是所有样本中信息量最大的属性。ID3算法是机器学习领域中最具有影响力的决策树方法之一,采用自顶向下的递归方法C4.5是ID3算法的改进算法,它增加了:能够对连续属性离散化处理等变化。而C5.0是C4.5应用于大数据集上的分类算法,主要在执行效率和内存使用方面进行了改进。本文采用C5.0算法进行挖掘分析。

3.2 基于C5.0算法的发现

(1)数据预处理。将如表1所示的原始数据,将成绩分为3种:“0<成绩<60”记为“差”;将“60<=成绩<80”记为“一般”;将“成绩=>80”记为“好”。并增加一列“预警”,将学生成绩存在挂科的记为“Y”;不存在挂科的记为“N”。

(2)基于C5.0算法挖掘结果分析。使用SPSS Clementine软件进行分析,选择将决策树进行剪枝,将科目:数据仓库与数据挖掘和C++面向对象程序设计和操作系统从决策树中剪去。

最后,从决策树中抽取的规则为(表2):

通过表2可以分析出,微积分A(I)和微积分A(II)对学生影响较大,当该科为“一般”或者“好”时,学生不属于预警生的概率较大。当学生数据结构不及格时情况时,学生有很大可能成为预警生。因此学校在日常教学活动中,应特别关注学生这几门课程的学习。

(3)准确性测试。设={,,… }为从决策树中抽取的规则的规则集。设,,…,为课程名,有个取值:{,,…,}。={,,…}为类别的集合。定义规则:    = ,…,  = ,then 的预警准确率为,类规则集的预测准确率为。

(公式3)=

(公式4)()=

通过训练集Dtest,本模型通过上述数据可达到60%的预警准确率。实验结果也表明,基于决策树技术的学生动态成绩预警模型在实践上是有效的。但据历史经验来看,C5.0算法优势在与准确性高,而本次试验准确率却为60%,初步分析是由于试验数据有限,对准确性测试过程产生了一些影响。

4 结论

在将两种方法的输出转化为统一输出后,即两种方法输出都为:预警类别,因此,可直接进行准确性比较。通过比较上述两种模型和方法,发现选用Apriori算法,模型预警率较高。而且C5.0算法预警率较低。对数据的噪声较为敏感,训练集中的一些错误会对实验结果产生较大影响。当C5.0算法训练集增加时,C5.0的决策树也会变化,所以当学生成绩训练集变化时,成绩决策树变化,从而使预警规则库发生不断变化,这对于成绩预警过程来说,是不方便的。

通过设计基于关联规则的成绩动态预警模型,初步证明了基于数据挖掘的预警技术是有效的。随着对应用领域的不断深入开发,对基于数据挖掘的预警技术的深入研究,相信该模型、机制具有更广阔的前景。

注释

① 魏顺平.学习分析技术:挖掘大数据时代下教育数据的价值.现在教育技术,2013(2).

② 叶福兰.基于数据挖掘的高校学生成绩预警状况分析.长春师范学院学报(自然科学版),2013(5).

③ 刘斌,陈依潼.数据挖掘技术在学生成绩分析中的应用.电脑编程技巧与维护,2014(16).

④ 王璇.改进的Apriori算法在大学生心理数据分析中的应用.中原工学院院报,2011(22).

猜你喜欢
预警模型关联规则决策树
一种针对不均衡数据集的SVM决策树算法
决策树和随机森林方法在管理决策中的应用
基于RS—ANN的大学生心理危机预警模型构建与应用
关联规则,数据分析的一把利器
基于模糊分析法的高校专利初级预警模型的研究
关联规则挖掘Apriori算法的一种改进
基于关联规则的计算机入侵检测方法
农村消失的影响因素及建模研究
财务风险预警研究综述
基于决策树的出租车乘客出行目的识别