数据挖掘在高校学生成绩预警中的应用研究

2017-04-10 07:37陈苗马燕
电脑知识与技术 2017年4期
关键词:学生成绩Apriori算法关联规则

陈苗++马燕

摘要:随着高校教务系统数据库中大量数据的积累,教师却难以从中获取有价值的信息。针对此现状,利用数据挖掘中的Apriori算法,挖掘出频繁项集的特点,通过Apriori算法对学生成绩进行分析处理,预设支持度与置信度找出数据库中具有联系和不同可信度的课程成绩作为关联规则,将关联规则用于学生成绩预警,对处于危险区的学生提前作出预警通知。

关键词:数据挖掘;关联规则 ;Apriori算法;学生成绩;预警

中图分类号:TP391 文献标识码:A 文章编号:1009-3044(2017)04-0204-03

伴随着信息时代的飞速发展,数据大量积累,数据挖掘应运而生,并得到了广泛关注。数据挖掘技术之所以能取得极大的关注,主要是可以处理的大量数据,将这些数据转换成有用的信息和知识。随着高校的不断扩招,各校的生源量明显增多,但就特别容易出现学生层次不均、成绩参差不齐的现象。目前大部分高校教务处都是利用教务管理系统对学生的信息及成绩进行管理,但都存在没有对学生的数据进行统计和分析的问题。本文将通过导出学生的专业主干课程的成绩,并对其进行统计和分析,对部分不及格课程门数较多,即将面临毕不了业或拿不到学位证的学生提出预警,对他们的学习过程进行监督。众所周知,同一专业不同的课程之间必然存在着一定的联系,本文通过利用数据挖掘技术对学生成绩进行统计、处理和全面的分析,挖掘出学生在各个课程成绩之间存在的内在联系,找出其中的关系,全面掌握学生的学习情况,从而对这些成绩不及格门数较多的学生提出预警,在今后的学习中,辅导员可根据分析结果加强对这些学生的学习过程的监督和管理,提升学生的及格率,更进一步的保证学校的毕业率。

1关联规则算法:Apriori算法

1.1关联规则

设[II1,I2,…Im]为项的集合,与任务相关的数据[D]是数据库事务的集合,其中每个任务T是项的集合,其中每个任务T是项的集合,使得[T?TID]为每个事务的标识符。设[A]是一个项集,事务T包含[A]当且仅当[A?T]。关联规则形如[如A?B的蕴涵式],其中[A?I,B?I],并且满足[A?B=?]。规则[A?B]在事务集[D]中成立,具有支持度[s],其中[s]是[D]中事务包含[A?B](即集合[A和B]的并或者[A和B]二者)的百分比,即是概率[P(A?B)],规则[A?B]在事务集[D]中具有置信度,其中[c是D]中包含[A]的事务,同时也包含[B]的百分比。这是条件概率。即[supportA?B=P(A∪B)]

[confidenceA?B=P(B|A)]

同时满足最小支持度阈值([min_sup])和最小置信阈值[(min_conf)]的规则称作强规则【5】。

1.2 Apriori算法

Apriori算法发现关联规则挖掘过程分解步骤:

1)通过采用迭代的方法检索出事务数据库中所有频繁项集。即找出事务數据库D中所有大于等于指定最小支持度阈值的项目集。

2)利用频繁项目集挖掘出满足用户需要的强关联规则。即找出支持度和置信度大于等用户给定的支持度和置信度阈值的关联规则。

寻找频繁项集是挖掘关联的最核心的一步,对挖掘关联规则的总体性能起到了决定性的作用。第二步是在第一步找到的频繁项集的基础上列出所有可能的关联规则,同时,找出满足支持度和置信度要求的强关联规则即可【5】。

2 Apriori算法在学生成绩分析中的应用

2.1数据预处理

以某大学2013级计算机科学与技术专业学生的专业课程成绩为例,如表1所示,从教务管理系统中导出该班级的成绩,利用关联规则算法挖掘课程和学生成绩之间关系。原始数据表分学年进行存储,其中包括本学年的班级所有学生的专业必修课和专业选修课的成绩。

2.1.1课程选择

相比而言,学生公选课程范围比较广,甚至会出现一个班级只有一名学生选择同一门课程的现象,即仅有一个事务包含此项目,不满足关联规则的最小支持度的要求。根据2013级计算机专业的成绩单显示,同班学生选择同一门公选课的较少,所以公选课的成绩不作为数据来源,不对此进行分析。因此,数据库的数据包含学生的专业必修课成绩和专业选修课成绩。

2.1.2成绩离散化处理

学生的原始成绩由百分制或等级制表现出来的,我们需要将这些成绩进行统一化处理,将成绩分为4个类别。百分制成绩划分如下:成绩大于或等于90分,等级为1;成绩大于等于80且小于90分,等级为2;成绩大于等于60且小于80分的等级为3;成绩小于60,成绩等级为4。根据本专业的人才培养方案,选取15门课程进行研究,分别对这些课程用字母A~O进行标识。

2.2数据处理

2.2.1数据转化

根据成绩等级划分规则和课程标识码,将该班级学生的课程成绩做成事务表,转化后的数据如表2所示。

2.2.2数据统计

从教务处系统中导出来的成绩可能出现重复或者学生缺考导致成绩空缺的现象。对于重复的数据,选择学生初修成绩,将缺考的成绩修改为0。统计离散化后全部成绩,得到的部分统计结果如下:

[等级 课程\&高等数学1\&电工技术基础\&计算机导论\&C语言程序设计\&高等数学2\&线性代数\&数字逻辑电路\&数据结构\&离散数学\&汇编语言程序设计\&网站建设与

网页制作\&…\&等级1\&1\&2\&1\&1\&1\&2\&3\&4\&2\&3\&1\&…\&等级2\&2\&6\&6\&7\&4\&8\&4\&7\&3\&3\&15\&…\&等级3\&16\&13\&15\&15\&14\&12\&16\&10\&14\&14\&7\&…\&等级4\&4\&2\&0\&0\&4\&1\&0\&2\&4\&3\&0\&…\&]

由表3可以看出,部分课程集中于某一个等级,如”高等数学”课程,16人等级为4,其他等级人数7人,该班级的人数为23,其余7名同学所占比例7/23,即关联规则的最小支持度不到1/3。设定关联规则的最小支持度为1/3,当某门课程等级学生不足7名时,将其排除在待数据挖掘数据库中。通过统计,得到如下以0.33作为最小支持度筛选的数据。

[等级 课程\&高等数学1\&电工技术基础\&计算机导论\&C语言程序设计\&高等数学2\&线性代数\&数字逻辑电路\&数据结构\&离散数学\&汇编语言程序设计\&网站建设与

网页制作\&…\&等级1\&1\&2\&1\&1\&1\&2\&3\&4\&2\&3\&1\&…\&等级2\&2\&6\&6\&7\&4\&8\&4\&7\&3\&3\&15\&…\&等级3\&16\&13\&15\&15\&14\&12\&16\&10\&14\&14\&7\&…\&等级4\&4\&2\&0\&0\&4\&1\&0\&2\&4\&3\&0\&…\&]

2.3算法实现

通过对数据的预处理,我们采用关联规则Apriori算法对数据进行挖掘。本文的实现环境为Window 7 系统,MATLAB2014a下进行编程。设置最小支持度为0.33,最小置信度为0.5。得到了352个频繁项集,540条关联规则。对部分结果进行分析可知课程A、课程E、课程F存在着两两相关、相互制约的关系,学生的成绩普遍较低,课程C与课程G、课程D与课程H也存在着两两相关、互相影响的关系。通过对数据表的检索,可找出符合此关联规则的学生,由辅导员对这些学生发出预警通知。本文通過对学生实际成绩数据进行检验,对以上规则进行验证。通过提出预警,加强对学生的学习过程的监督和管理,有效避免学生出现不能毕业或拿不到学位证的情况。

3 结束语

总之,以关联规则算法为基础,通过对学生成绩的处理、统计、分析和挖掘,,得到了关联规则作为学生成绩的预警因子,对成绩不理想的学生提出预警通知,一方面加强了对学生成绩的管理,另一方面也有效的提升教学管理水平和学生的毕业率。但Apriori算法过于繁杂,可通过改进Apriori算法来提高检索效率,从而不断完善成绩预警,更好地为教育事业服务。

参考文献:

[1] 李红林,孔德剑.基于Apriori算法的高教教学评价数据挖掘[J].中国科技信息,2010,22(21):241-242.

[2] 袁汉宁,王树良.数据仓库与数据挖掘[M].北京:人民邮电出版社,2015:126-127.

[3] 张皓.数据挖掘技术在构建学生成绩预警系统的应用[J].电脑知识与技术,2011,19(7):4529-4530

[4] 张玮.基于数据挖掘的高校学生成绩预警系统设计[J].科技资讯,2013(6):23.

[5] Jiawei Han, Micheline Kamber.Data Mining Concepts and Techniques[M].北京:机械工业出版社,2011.

[6] 梁啸.基于数据挖掘的高校学生成绩预警技术的研究[D].武汉:武汉理工大学,2014:33-35.

猜你喜欢
学生成绩Apriori算法关联规则
浅析数据挖掘技术在学生管理系统中的应用
基于Hadoop平台的并行DHP数据分析方法