基于Apriori算法的学生成绩与洗浴时间关联性分析

2020-06-08 10:47李海洋李忠李莹孙可可
中国教育技术装备 2020年4期
关键词:学生成绩Apriori算法数据挖掘

李海洋 李忠 李莹 孙可可

摘  要 为了有效地指导学生的日常生活行为,帮助学生提高学习成绩,采集某高校学生洗浴数据和成绩数据,利用Apriori算法建立关联分析挖掘模型,通过SPSS Clementine软件计算得到若干条关联规则。分析结果说明,当学生在白天洗澡次数多于晚上洗澡次数时,该生的成绩明显表现得不太理想;而当学生在晚上洗澡次数多于白天时,该生在成绩方面的表现也是比较优异的。这种关联关系对高校学生管理工作具有指导意义。

关键词 数据挖掘;Apriori算法;大学生;洗浴时间;学生成绩

中图分类号:G645    文献标识码:B

文章编号:1671-489X(2020)04-0038-03

1 引言

随着我国高校推行信息化,各种各样的学生信息被记录下来[1],如上网信息、就餐数据、洗浴数据、进出图书馆时间等,这为深入挖掘学生的生活规律和学习习惯等日常行为特征提供了丰富的数据基础[2-5]。数据挖掘技术的出现,为从海量数据中找出数据之间的联系和规律性知识,提供了很好的思路[6]。很多研究者在这方面的研究多集中在图书馆的学习行为[7]、上网行为习惯[8]、日常的体育锻炼行为[9-10]分析上,很少将洗浴时间与成绩进行关联分析。

本文以防灾科技学院学生为例,以2011~2014级学生四年的洗浴数据与教务成绩数据为样本,分析学生成绩与洗浴时间之间的关系,试图发现大学生日常生活行为与学习成绩之间的关联性,给高校学生管理、教学等工作提供参考,指导学生更加合理有效地利用时间,提高学习成绩[1]。

2 数据源与预处理

数据来源  本文收集了防灾科技学院2011~2014级的四届学生的日常洗浴相关数据和各科考试成绩数据,其中洗浴数据达到1596万条,记录了大学生在校期间每次洗浴的开始时间、结束时间,据此可以计算出每次的洗浴时间长度。

数据预处理  数据预处理就是在数据挖掘前,对原始数据进行必要的清洗、集成和转换等一系列的处理工作。大量的实践表明,在数据挖掘工作中,数据预处理所占的工作量达到整个工作量的60%~80%,所以数据预处理在数据挖掘整个工作中的地位是极其重要的。

数據清洗  数据清洗的目的是将原始数据中的“脏数据”消除,其中包括填补缺失值、消除噪声数据和删除重复数据等[4-5]。在洗浴数据中,需要计算有效时间内的数据,因此无效时间如寒暑假、小长假等时间段内的数据需要剔去;有些数据严重偏离正常值,对计算结果容易产生偏差,需要删除。在学生成绩数据中,因留级导致当年成绩缺失或者为0,这些数据对结果的分析意义不大,也要删除[6]。

本文结合浴室开放时间以及上课作息时间,决定选用12—18点的下午时间段以及18—22点的晚上时间段这两个区间的洗浴数据信息作为研究对象,分析洗浴时间与成绩的关系。这两区间数据统计如图1所示。从图1中可以看出,在区间0~100这个范围内,18—22点的分布少于12—18点;而在100~200这个范围内,18—22点的洗澡次数明显多于12—18点的次数,而且18—22点的最大值要远远大于12—18点的最大值。这表明大部分学生还是在选择在晚上洗澡。

数据集成  对清洗后的洗浴区间对应的洗浴次数表和成绩数据,按照学生序号合并为一个数据表,如表1所示。从表1中可以看出,学生晚上洗浴次数普遍多于下午的洗浴次数,且不同的学生洗浴次数差距也比较明显,如表中18—22点的数据中最大值为151,最小值为7。

数据转换  关联分析挖掘算法Apriori的输入参数为类别数值,因此需要对成绩数据和洗浴数据进行类别划分。

本文结合本实验实际需求将成绩数据分为三个档次:将成绩由大到小排列,成绩前20%的数据段为A档,可以理解为学习成绩优秀;最后20%的数据段为C档,可以理解为学习成绩较差;中间的数据段为B档,学习成绩中等。

本文经过多次实验检验发现,将洗浴次数按照从小到大的顺序排列后,取前25%的数据段为Ⅰ类,25%~50%的数据段为Ⅱ类,50%~75%的数据段为Ⅲ类,剩余数据段为Ⅳ类,这样的划分规则实验效果最佳。由于数据源采用的是除去小长假、寒暑假时间的数据,因此有效时间为九个月,将对应的洗澡次数区间转化为“周/次”数据。洗澡区间12—18点的Ⅰ、Ⅱ、Ⅲ和Ⅳ对应的“周/次”数据分别为1.11、2.05、3.2和14.2;区间18—22点对应的“周/次”数据分别为1.5、2.6、4和17.6。变换后的洗浴数据类与成绩数据类的对应关系如表2所示。

3 关联分析挖掘模型构建

Apriori算法原理  Apriori算法是一种挖掘布尔关联规则的频繁项集的数据挖掘算法,使用逐层搜索的迭代策略,K-1项集用于搜索“K项集”,逐步搜索出高可信度的规则。算法的核心思想是连接步和剪枝步。连接步是自连接,原则是保证前K-2项相同,并按照字典顺序连接。剪枝步是使任一频繁项集的所有非空子集也必须是频繁的。反之,如果某个候选的非空子集不是频繁的,那么该候选肯定不是频繁的,从而可以将其从CK中删除。

利用Apriori算法建立关联挖掘模型  Apriori算法通过多次扫描数据库来寻找所有的频繁项集。对经过处理的学生的洗浴数据来说,每个事务包含有Ⅰ、Ⅱ、Ⅲ和Ⅳ这四个项;对于处理好的成绩而言,每个事务包含有A、B和C这三个项,设置最小支持度为min_sup。具体操作如下。

输入:数据集合D,支持度阈值,最小置信度值。

输出:强关联规则。

1)扫描整个数据集,得到所有出现过的数据,作为候选频繁1项集。K=1,频繁0项集为空集。

2)挖掘频繁K项集。

①扫描数据计算候选频繁K项集的支持度。

②去除候选频繁K项集中支持度低于阈值的数据集,得到频繁K项集。如果得到的频繁K项集为空,则直接返回频繁K-1项集的集合作为算法结果,算法结束。如果得到的频繁K项集只有一项,则直接返回频繁K项集的集合作为算法结果,算法结束。

③基于频繁K项集,连接生成候选频繁K+1项集。

3)令K=K+1,转入步骤2。

4)以此类推,得到频繁K-项集。

4 关联规则生成与结果分析

利用Clementine软件的Apriori算法,将分类数据文件导入软件。经过反复实验,确定最小支持度为15%,最小置信度为65%。计算结果如表3所示。从表3中可以看出,学生在下午洗浴次数越多,其成绩普遍不理想;在晚上洗浴次数较多时,成绩普遍优秀:当学生在晚上洗浴次数为Ⅰ和在下午洗浴次数为Ⅳ时,成绩为C;与之相对的是当学生在下午洗浴的次数多,在晚上洗浴次数较少时,成绩更好,为A档;当学生在下午洗浴次数=Ⅰ,在晚上洗浴次数=Ⅱ,和在下午洗浴次数=Ⅰ,在晚上洗浴次数=Ⅲ时,成绩都为B,但是后者的支持度和置信度都高于前者,从另一方面也说明了在晚上洗浴多时成绩更偏优;从下午和晚上洗浴的次数都特别少、成绩为C的这条规则中可以看出,不注重个人卫生的学生可能对学习也不太上心。

5 结语

本次实验以防灾科技学院2011~2014级四届学生为例,探讨大学生洗浴次数和学习成绩之间的关联性,得到结论:一周的洗浴次数低于2.6时,那么学生的成绩一般不太理想;每周晚上的洗浴次数大于2.6时,学生的成绩普遍表现优;下午洗浴次数明显多于晚上洗浴次数时,学生的成绩往往不太理想。

参考文献

[1]郭鹏,蔡骋.基于聚类和关联算法的学生成绩挖掘与分析[J].计算机工程与应用2019(17):169-179.

[2]邹梦君.高校学生行为大数据的分析与应用研究[D].浙江:浙江师范大学,2018.

[3]范仲翔.数据挖掘技術在高校学生行为分析中的研究与应用[D].北京:北京邮电大学,2017.

[4]孙杨博.基于大数据挖掘的高校学生行为数据分析系统的研究与开发[D].北京:华北电力大学,2017.

[5]石静.基于数据挖掘的学生行为对学业成绩影响的研究[D].武汉:华中师范大学,2017.

[6]周梅.数据挖掘技术在教学管理中的应用[J].软件导刊,2017,16(5):213-215.

[7]郭亨艺.基于图书馆门禁数据的学生读者到馆行为分析:以电子科技大学清水河校区图书馆为例[J].四川图书馆学报,2018(3):61-64.

[8]胡祖辉.施佺.高校学生上网行为分析与数据挖掘研究[J].中国远程教育,2017(2):26-32.

[9]钱辉煌.朱国华,吴芬,等.关联分析及神经网络算法在学生考研成功影响因素分析中的应用[J].软件导刊,2017,16(5):143-145.

[10]汤羽,林迪,范爱华,等.大数据分析与计算[M].北京:清华大学出版社,2018.

基金项目:中央高校基本科研业务费专项“基于大数据技术的高校大学生行为特征分”(ZY20180121);教育部2018年产学合作协同育人项目“应急大数据智能分析科研平台”(201801023008)。

作者:李海洋,防灾科技学院应急管理学院,主要研究方向为灾害信息处理;李忠,防灾科技学院应急管理学院,教授,硕导,博士,主要研究方向为灾害监测、信息处理;李莹、孙可可,防灾科技学院应急管理学院(065201)。

猜你喜欢
学生成绩Apriori算法数据挖掘
探讨人工智能与数据挖掘发展趋势
基于并行计算的大数据挖掘在电网中的应用
浅析数据挖掘技术在学生管理系统中的应用
基于Hadoop平台的并行DHP数据分析方法
基于Apriori算法的高校学生成绩数据关联规则挖掘分析
基于云平台MapReduce的Apriori算法研究
高职数学分层教学学生成绩评价的数学模型
关联规则挖掘Apriori算法的一种改进
Excel+VBA开发之《学生成绩管理系统》的设计与实现
基于MATLAB转置矩阵的学生学习成绩预警快速算法