数据挖掘的Apriori算法在高校学生成绩分析中的应用

2014-04-29 00:44:03卞欢平
电脑知识与技术 2014年21期
关键词:关联规则数据挖掘算法

卞欢平

摘要:该文基于数据挖掘中的关联规则理论,以某高职院校教务学生成绩系统数据为依据, 应用Apriori 算法,探寻某专业的专业课程之间的内在关联关系,为教学提供相应的指导。

关键词: 数据挖掘;关联规则;Apriori 算法

中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2014)21-4945-03

随着高职院校的扩招,高职院校的教务管理系统中的学生成绩数据也日益庞大,而目前这些的数据只是停留在对数据做一些简单的备份、统计学生的课程及格率等应用,而这些应用也只是对数据的初步应用,不能从这些庞大的数据中发掘出一些对引导教学比较有用的信息,以供学校的教学管理者、任课教师有启示性的信息。故此,该文将利用数据挖掘的关联规则中的Apriori 算法,以某高职院校某专业学生成绩系统数据为基础,挖掘出此专业的专业课程之间的存在的关联关系,找出它们之间的内在规律。

1 基本原理

1.1 关联规则

1.2 Apriori算法

关联规则挖掘的核心问题是频繁项集的取得,Apriori算法用于发现数据集中的频繁项集。该算法:

1) 先遍历计算每个项集的支持度,找出支持度大于或等于最小支持度阈值min_sup的项集,丢弃小于最小支持度阈值min_sup的项集,得出频繁项集L1。

2) 利用频繁项集L1,进行自然连接产生新的候选集C2,并利用1) 步的方法,找出满足最小支持度的频繁项集L2。以此类推,重复上述过程,直到没有频繁项集产生为止。

2 Apriori算法在学生成绩中的应用

2.1 数据选择

研究的数据选自某高职院校计算机应用专业专业课成绩的数据。随机抽取310名学生的专业课程的成绩数据进行数据挖掘。

2.2 数据清理

数据清理的目的是去除数据中存在的噪声。如:将成绩中某些考生缺考的记录直接删除。对于有参加补考的学生成绩,取其平均值进行填充。经过数据清理后,总的记录数为300条。

2.3 数据转换

数据转换的目的是将原来的数据转换为统一的类型,以利于更好的挖掘。故此: 将第一列的“学号”更名为:“XH”, 从第二列开始,将各个科目的课程名称表示为N1,N2,N3..... 。将上表中的成绩数据转换为布尔型表示;为了挖掘各专业课之间“良好”成绩之间的关系,将成绩表中成绩80分以上的, 转换为布尔型的"1",80以下的,转换为"0"。转换后的表如下表:

2.4 Apriori算法的实现

以上表的数据为例,事务数据库D中的事务数为300,假设最小支持度(minsup)为20%,最低置信度(minconf)为50%,

上表数据选取有300个事物,即|D|=300。已知最小支持度(minsup)为20%,则通过min_sup=60/300=20%, 计算出最小事务支持计数为60。

利用Apriori算法的原理,具体挖掘过程如图1所示。

3 结束语

通过对某高职院校计算机应用专业的专业课程成绩运用Apriori 算法进行数据挖掘,就能发现隐藏在其中,哪些课程之间的重要制约关系。故此,在课程的教学中,要注重先导课程在基础知识上的预备,同时也注重相似课程之间的相互衍接,以使得学生对专业知识能达到较好地融汇贯通。

参考文献:

[1] 李娟.数据挖掘技术在高校教学模型中的应用研究[D].南京:南京理工大学,2009:15-20.

[2] 狄浩林.基于成绩信息管理系统的高校教务管理研究[D].北京:北京邮电大学, 2006.

[3] 李昊,周振华.基于数据挖掘的高校学生成绩预警系统[J].大庆石油学院学报,2011,8(4):1-3.

猜你喜欢
关联规则数据挖掘算法
探讨人工智能与数据挖掘发展趋势
基于MapReduce的改进Eclat算法
Travellng thg World Full—time for Rree
进位加法的两种算法
基于并行计算的大数据挖掘在电网中的应用
电力与能源(2017年6期)2017-05-14 06:19:37
关联规则,数据分析的一把利器
数据挖掘在高校课堂教学质量评价体系中的应用
关联规则挖掘Apriori算法的一种改进
中国市场(2016年36期)2016-10-19 04:10:44
基于关联规则的计算机入侵检测方法
一种改进的整周模糊度去相关算法