基于关联规则的学生成绩影响因素分析

2019-10-21 05:42刘道君王常颖
西部论丛 2019年25期
关键词:Apriori算法数据挖掘

刘道君 王常颖

摘 要:关联规则挖掘是近年来数据挖掘领域的重要手段。针对不同因素对学生成绩的影响,应用关联规则Apriori算法对学生成绩的影响因素进行分析。首先收集了与学生成绩及学习习惯相关的数据,并对其进行了离散化处理;然后采用关联规则Apriori算法对离散后的学生数据信息进行挖掘,得到了12条强相关规则;通过分析这些规则发现,家长和老师的督促可以很好的改善学生上课走神现象,而走神对学生的成绩影响是特别大的,且通过分析发现学生的书写格式,学习持久力,记笔记的习惯等因素之间相互影响。研究成果表明,要想提升学生的学业成绩,不能单一的做题和补课,而是应该找到学生成绩不好的成因,进而提高成绩。

关键词:数据挖掘; Apriori算法;成绩分析;离散化

引 言

学生的学业成绩是国家和社会选拔人才的一个重要的结果性变量,也是评价一个学生基本素质的重要标准。学生成绩的优劣甚至能影响个人的发展。因此学生本人,家长和老师等都非常重视学生的学业成绩,都想法提高学业成绩。那么究竟是哪些因素影响学生的学业成绩,又当如何去提高呢?我们可以依靠数据挖掘从海量的数据中挖掘出自身感兴趣的信息。关联规则挖掘就是一种从历史数据集中发现隐藏信息,从海量数据中发现潜在的有价值的技术方法。本文采用关联规则Apriori算法[1,2,3,4]挖掘学生成绩数据,可以从中挖掘出不同因素对成绩的影响和不同因素之间的影响。力图通过关联规则分析[5,6,7,8,9],得到一些有意义的信息。以此帮助学生找到提高学业成绩的方法。

一、关联规则的概念

关联规则就是指两个或两个以上的变量之间存在的某种规则。关联规则挖掘即是从已知事务数据库中找到支持度和置信度分别大于给定的阈值的所有关联规则。支持度就是在事务数据库中某个项目集出现的次数占总事务数的比值,最小支持度就是用户设置的符合实际要求的最低阈值,把符合最小支持度要求的项目集称为频繁项目集。置信度是指包含频繁项目集A和B的事务数与频繁项目集A的事务数之比。最小置信度就是用户设置的符合实际要求的最低阈值。很显然,把同时符合最小支持度与最小置信度的关联规则称为强相关规则。

这里采用了Apriori算法来寻找所有的频繁项目集。它使用了一种被称为逐层搜索的迭代算。其核心步骤如下:

①连接步:为了寻找LK,在k次扫描数据库时,通过Lk-1与自身连接产生候选k-项集CK。

②剪枝步:由于Ck是Lk的超集,即Ck的成员可能是也可能不是频繁的。需要扫描数据库,确定是否大于最小支持度。为了压缩Ck,可以运用Apriori性质:任何一个频繁集的全部非空子集一定是频繁集,所以如果某个候选集的一个非空子集不是频繁的,则该候选集可以删除。

二、利用关联规则分析学生成绩

(一)数据的采集与处理

关联规则分析需要丰富的数据信息作为基础。本文采用初一学生的成績作为研究对象,研究与学生成绩相关的12个属性[10,11,12,13]。选取了100名学生的成绩和相关属性值。其中属性值对成绩的影响分为三个方面,分别为学生,家长,学习环境。

首先将学生成绩进行离散化。将100名学生按照成绩进行排名,然后按照人数百分比进行离散。排名前10%的学生,即第1名到第10名(包括第10名)的学生记作A1 ;排名在10%到30%的学生,即第11名到第30名(包括第30名)的学生记作A2;排名在30%到60%的学生,即第30名到第60名(包括第60名)的学生记作A3;排名在60%之后的学生,即第61名到第100名(包括第100名)的学生记作A4。

再将相关属性值进行离散。

学生学习持久力,定义为学生连续作业的时间:低于0.5h的记作B1,0.5-1h的记作B2,高于1h的记作B3。

笔记错题本每周使用次数,定义使用20分钟以上为一次:少于2次的记作C1,2到4次的记作C2,4次以上的记作C3。

书写格式:书写潦草的记作D1,书写清晰的记作D2

每周使用与学习无关的电子类产品次数,定义使用15分钟以上为一次:4次以上的记作E1,2到4次的记作E2,少于2次的记作E3。

家长每周督促学生学习次数,定义在家长督促下,学生在有效学习的为有效督促,记作1次。而在家长口头督促下学生并没有有效学习的不记作次数:少于2次的记作F1,2到4次的记作F2,4次以上的记作F3。

学生与老师每周交流次数,定义为学生主动与老师交流学习相关问题记作1次:少于2次的记作G1,2到4次的记作G2,4次以上的记作G3。

每周课堂听课走神次数,定义为学生在课堂上因走神而导致课程重点知识没听到的记作1次):4次以上的记作H1,2到4次的记作H2,少于2次的记作H3。

每周家庭学习走神次数,定义为学生在作业时走神5分钟以上的记作1次:4次以上的记作I1,2到4次的记作I2,少于2次的记作I3。

(二)挖掘关联规则

本文主要是挖掘不同因素对学生成绩的影响,以及不同因素之间的影响。这一步的关键在于选择恰当的关联规则算法对数据进行处理,这里主要采用关联规则Aprior算法对离散后的学生数据信息进行挖掘。设定最小支持度为0.3,最小置信度为0.8。运行关联规则Aprior算法程序后,得到的部分实验结果如表1所示。

2.3 挖掘结果分析

规则1说明:成绩差的学生,一般都很少与老师交流。该规则支持度0.33,置信度0.82。说明成绩差的学生,在学习过程中遇到的问题得不到及时有效的解决,从而导致问题积累,恶性循环,所以老师更应该多关心,多与这类学生交流。

规则2说明:学习持久力低的学生,一般在学习过程中很少有记笔记和用笔记的习惯。该规则支持度0.32,置信度0.86。说明要想改善学生的学习持久力,可从科学使用笔记开始。

规则3说明:上课走神次数较少的学生,一般书写都比较清晰。该规则支持度0.32,置信度0.81。

规则4说明:每周能经常使用笔记的学生,书写一般都较清晰,该规则支持度0.25,置信度0.97。说明学生要想使用笔记,应先注意平时的书写习惯,只有书写清晰,才会有看笔记的欲望。

规则5说明:书写潦草的学生,一般都极少使用笔记。该规则支持度0.34,置信度0.94.该规则与规则4正好对应。说明良好的书写习惯对一个学生相当重要。

规则6、7说明:学习成绩差和上课走神这两个属性相关度很高。该规则支持度0.36,置信度0.90和0.82。說明上课走神可能是导致学生成绩差的一个主要原因。

本文挖掘出的规则从一定程度上说明了,良好的学习习惯的重要性以及家长、老师对于学生学习的重要性。所以要想提高学生的学业成绩,首先要加强学生的自我修养,其次需要家长、老师对学生进行正确的引导。

三、规则应用

学生Z1在利用规则进行分析时,问题主要体现在书写潦草,上课走神,家长督促较少,成绩档次在A4。发现问题后,经过与家长沟通,加强了对学生的督促。首先规划好了学生每天的学习时间,其次每天对学生的书写着重检查。经过一个学期的改变,学生上课走神现象明显有所改善,学习积极性也提高了,学习持久力也加强了,成绩档次上升至A3,并且有上升至A2的趋势。

学生Z2在利用规则分析时,问题主要体现在家长工作很忙,很少督促学生学习,学生与老师交流很少,成绩档次在A3。发现问题后,经过与家长沟通,首先加强了对学生的督促,其次老师与学生通过多次交流。经过一个学期的改变,发现学生的可塑性很强,只是性格上相对敏感,需要老师和家长的时常关心。成绩档次也上升至A2。

以上两个事例说明,只要能对学生进行正确科学的引导,不仅能提高学生的学业成绩,还能提升学生的整体素质,从而在学习和生活上能顺利发展。

四、结语

关联规则挖掘技术是一种非常有用的技术工具,可以广泛的应用到不同的领域当中。而应用关联规则挖掘技术,提高学生的学业成绩,是一个非常有意义的研究方向,在实际应用中应该注意的是:由于最小支持度和最小置信度是主观设定的,这会出现两种情况,可能是取值太小,会生成很多规则,产生很多意义不大的规则;也可能取值过大,导致错失很多有价值的信息。因此,在应用中应该反复试验,以确定一个最佳的阈值。相信正确和准确的应用关联挖掘算法一定能科学有效的提出改善学生学习的策略方法,为国家和社会的人才培养起到积极的促进作用。

【参考文献】

[1] 刘以安,羊斌. 关联规则挖掘中对Apriori算法的一种改进研究[J]. 计算机应用,2007(02):418-420.

[2] 刘丽娟. 改进的Apriori算法的研究及应用[J]. 计算机工程与设计,2017,38(12):3324-3328.

[3] 周发超,王志坚,叶枫,邓玲玲. 关联规则挖掘算法Apriori的研究改进[J]. 计算机科学与探索,2015,9(09):1075-1083.

[4] 詹芹,张幼明. 一种改进的动态遗传Apriori挖掘算法[J]. 计算机应用研究,2010,27(08):2929-2930+2935.

[5] 何军,刘红岩,杜小勇. 挖掘多关系关联规则[J]. 软件学报,2007(11):2752-2765.

[6] 崔妍,包志强. 关联规则挖掘综述[J]. 计算机应用研究,2016,33(02):330-334.

[7] 王华,刘萍. 改进的关联规则算法在学生成绩预警中的应用[J]. 计算机工程与设计,2015,36(03):679-682+752.

[8] 谢芳,王波. 基于关联规则个性化推荐的改进算法[J]. 计算机应用,2006(S2):149-151.

[9] 何小东,刘卫国. 数据挖掘中关联规则挖掘算法比较研究[J]. 计算机工程与设计,2005(05):1265-1268.

[10] 李飒. 基于关联规则的学习行为关联度分析方法研究[J]. 微电子学与计算机,2018,35(06):65-68.

[11] 顾辉,杨青,蒋成功,张茜. 关联规则在成绩分析中的研究及应用[J]. 计算机应用,2015,35(S1):149-151+198.

[12] 何楚,宋健,卓桐. 基于频繁模式谱聚类的课程关联分类模型和学生成绩预测算法研究[J]. 计算机应用研究,2015,32(10):2930-2933.

[13] 刘美玲,李熹,李永胜. 数据挖掘技术在高校教学与管理中的应用[J]. 计算机工程与设计,2010,31(05):1130-1133.

猜你喜欢
Apriori算法数据挖掘
数据挖掘技术在内河航道维护管理中的应用研究
数据挖掘综述
软件工程领域中的异常数据挖掘算法
基于Hadoop平台的并行DHP数据分析方法
基于Apriori算法的高校学生成绩数据关联规则挖掘分析
基于云平台MapReduce的Apriori算法研究
关联规则挖掘Apriori算法的一种改进
基于R的医学大数据挖掘系统研究
基于RFID的汽车零件销售策略支持模型
关联规则在高校评教系统中的应用