张琳 吴军 欧阳艾嘉
摘要:学生在学习课程中的各种学习活动都产生了大量的数据信息,本文以《数据库应用技术》课程中学生学习情况作为研究对象,对学习行为进行数据分析,采用数据挖掘技术中的关联规则方法进行实际分析,找出学习行为中的联系,以调整教学方法,从而实现良好的教学效果。
关键词:数据挖掘;关联规则;学习
中图分类号: TP391 文獻标识码:A
文章编号:1009-3044(2021)04-0215-02
1 数据挖掘技术
随着大数据产业的全面发展与普及,数据挖掘技术的作用日益突出,目前在各个领域都会应用到数据挖掘的相关技术进行数据分析。比如,在超市日常营业的活动中,顾客购物时会产生大量的消费数据,通过关联规则方法、聚类分析方法等可以设计出合理的营销方案;比如,在银行业务中产生了大量的交易数据,通过对这些数据进行挖掘,可以对客户行为进行深入研究,从而设计出更具特色的理财产品等。
数据挖掘(DM)是指从海量的数据中,采用专业的挖掘技术进行数据分析,将内在的、未知的以及具有实际价值的信息进行发现、分析、提取的过程。
数据挖掘的主要特点有:
1)需进行处理的数据规模和数量比较庞大、杂乱,仅用简单的统计方法无法进行处理,需要采用专业的数据处理方法;
2)数据挖掘采用的是预测的方法,挖掘出来的知识(即知识发现)是不能实现预知的,并不能进行精确查询。
3)在进行数据挖掘的过程中,规则的发现需要事先设置阈值,当置信度达到要求时,即认为规则成立,否则就视为不成立。
4)挖掘的实际过程中,除了完成潜在的任务,还要进行管理和维护规则。
总之,数据挖掘技术主要有两种功能,一是预测/验证功能,二是描述功能。其中,预测/验证功能主要是对已知的属性进行预测或验证;描述功能主要是根据实际需要找出描述数据的可理解模式。
2 关联规则
关联规则挖掘的目的是找出数据库中不同数据项集之间隐藏的关联关系。关联规则挖掘技术已经被广泛应用在各个行业,其中最典型的是在一些超市里面,通过从超市购买的信息中挖掘出潜在的、有用的、有价值的信息,从而更加合理的、有针对性地去对商品销售的情况进行调整和管理,以便提高超市销售额。
最为出名的就是数据挖掘历史上的“尿布与啤酒”的故事,利用这个故事来阐述几个会使用到的概念。
现有购买食品的一个简单数据库,如下图所示:
关联规则就是有关联的规则,比如上图中买了啤酒的同时也买尿布,{啤酒}->{尿布}(X->Y)就是一条关联规则。那么这条规则的强度如何呢?比如说如果买啤酒的人里面只有1%的人同时买了尿布,这样的话似乎这个规则就不算准确了。那么如果买啤酒的人100%都会买尿布,是不是就算很强的规则呢?也不尽然,比如在这10000次购买中,只有一个人买了啤酒,虽然买啤酒的人100%买了尿布,但是毕竟就一次购买,所以也算不得多么有效。这两项指标便是confidence和support。
confidence指的是这两项在同一条记录中同时出现的次数/集合中X(啤酒)出现的次数,如上例中 3/4 = 75%
confidence(A==>B)=P(A|B)可信度是准确性的衡量,够买啤酒的用户有多少购买了尿布。
support指的是这两项在同一条记录中同时出现的次数/记录的总个数 ,如上例中 3/5 = 60%
support(A=>B)=P(A n B)
支持度是重要性的衡量,在所有的事物中占多大的代表性。
关联规则方法的主要步骤是:先找出频繁集,在从频繁集中找出强关联规则。
频繁集,是指满足最小支持度或置信度的集合,支持度或置信度是事先预定义的。
强关联规则,是指既满足最小支持度又满足最小置信度的规则,也是进行数据挖掘的最终目的。
3 Apriori算法
关联规则方法中最常用的是Apriori 算法。
本文中,用到的Apriori 算法主要步骤是:根据给定的数据,形成一个数据库。首先,第一次通过扫描数据库形成C1(1阶候选项集),从C1中找出所有支持度[≥]最小支持度的项集组成L1(1阶大项集);然后,再进行第二次扫描数据库形成C2(2阶候选项集),从C2中找出所有支持度≥最小支持度的项集组成L2(2阶大项集);然后,再进行第三次扫描数据库形成C3(3阶候选项集),从C2中找出所有支持度≥最小支持度的项集组成L3(3阶大项集);最后,合并所有的大项集形成最大项频繁项集。本文只运算到3阶大项集,若数据库比较庞大,有N阶项集,需要进行第N次扫描数据库时,每次都与最小支持度比较,从而得到相对性的N阶候选项集。
4 具体应用
以学生参加《数据库应用技术》课程的学习情况为例,进行深入分析与研究。 通过获取学生作业统计情况,进行初步的数据清洗,取出需要的数据项进行处理,本文只截取一小部分为例进行说明。
使用数值型关联规则将数据转化为二值型,将每个用户的事务进行处理,比如每一项完成80%以上就处理为“1”,否则处理为“0”。
进一步规范,将完成的学习行为作为数据挖掘的商品,进行编号,生成数据库D。
使用Apriori算法基本思想,进行关联规则运算,预定义min support=5/10,具体运算步骤如下:
产生的关联规则如下表所示:
Apriori算法最终的输出结果是:L=L1UL2UL3
通过L1、L2、L3进一步生成学习行为之间的关联规则,则可挖掘出存在的强关联规则(即发现那些置信度和支持度都大于或等于阈值的规则)
例如:
规则1[?]2:
Support=support({1,2})=50%
Confidence=support({1,2})/support({1})=83.3%
规则2[?]1:
Support=support({1,2})=50%
Confidence=support({1,2})/support({2})=62.5%
规则1,2?[5]
Support=support({1,2,5})=50%
Confidence=support({1,2,5})/support({1,2})=100%
同理,可以计算出每个规则。
假定min confidence=3/4=75%,通过分析,发现满足X.Confidence>min Confidence条件的关联规则有:1[?]2,{1,2}[?5,]1[?]5,2 ?5,5 ?2,这些规则都成为强关联规则。
总之,从以上分析中可见,在学生学习《数据库应用技术》行为中,章节测验、讨论和签到这三者学习行为之间是息息相关的,互相影响的。通过有针对性的调整学习任务,可以较好地实现教学效果,从而为教师的备课、授课指引明确的方向。
参考文献:
[1] 崔妍,包志强.关联规则挖掘综述[J].计算机应用研究,2016,33(2):330-334.
[2] 吴青,罗儒国,王权于.基于关联规则的网络学习行为实证研究[J].现代教育技术,2015,25(7):88-94.
[3] 田娜,陈明选.网络教学平台学生学习行为聚类分析[J].中国远程教育,2014(11):38-41.
【通联编辑:唐一东】