喻 越
(汉中中学,陕西 汉中723000)
数据挖掘技术的研究在国外已经有很多年的历史,而且已经取得了丰硕的成果。在国外学校的教学和管理中,数据挖掘已经成为提高教学管理水平和教学质量的重要工具。但是在国内数据挖掘在各行业的运用并不普遍。许多的企业和公司仍处于观望之中,在高校的教学管理中数据挖掘更是没有被注意,有待于进行深入地研究。
哈尔滨师范大学的呼兰学院采用了自己研发的教务系统为教务决策提供数据支持,自从建立以来收集了大量数据,包括10000余条缴费数据记录,10000余条教师课堂工作量记录,6000余条学生四级成绩数据记录,4000余条学生毕业情况记录,30余万条历史成绩数据记录。这类数据因缺乏挖掘被埋没在数据库里,而这些数据间蕴藏的关系完全可以被加以利用,因此,我们非常有必要应用数据挖掘对各高校的海量数据进行科学分析,依据可靠结论,提高学校的教育管理水平,达到理想的管理效果。对学生而言则着重体现在成绩的变化,尤其是要求毕业生通过的英语四六级。
数据挖掘是从大规模的数据中挖掘出有价值、用户感兴趣的并对决策有指导的知识和规则。数据挖掘需要经过数据采集、预处理、分析、结果评价等过程。采用的算法主要有关联规则、人工神经网络、决策树方法、模糊论方法、遗传算法、粗糙集方法贝叶斯模型等。
关联规则是数据挖掘中运用最广泛的研究方法之一,可以用来发现事物之间的潜在联系。关联规则数据挖掘过程主要包含两个阶段:第一阶段是必须先从原数据中找出高频项目组,第二阶段是由这些高频项目组产生关联规则。
根据关联规则定义可以知道,规则A=>B的支持度定义为P(AUB),表示A、B同时出现的可能性。规则A=>B的置信度定义为包含A的事务的同时也包含B的可能性,计算方法为P(B|A)。
Apriori算法是数据挖掘算法中被广泛应用到工程中的一种基于先验知识的,布尔型的关联算法。它利用频繁项集的所有子集是非空项集的性质,降低搜索次数,采用逐层迭代的搜索方法,首先产生产生频繁一项集L1,根据L1产生频繁二项集L2,依次根据前一次的频繁项集生成本次的频繁项集,循环处理至没有最大项目集产生。其中,从L1引出L2的过程有两个步骤是连接和剪枝。连接指的是为找出Lk,通过将Lk-1与自身连接产生候选k项集的集合Ck。剪枝指为了压缩Ck,即Lk的超集,利用Apriori算法任一频繁项集的所有非空子集也必须是频繁的性质,判断某个候选的非空子集是否频繁,如否,则该候选肯定也不是频繁的,便将其从Ck中删除。其中算法中min_sup代表最小置信度。
虽然在理论和工程应用中Apriori算法比较成熟,但是仍有缺陷。在计算项集支持度时,对全部记录进行了扫描比较,如果是一个大规模数据库,这种扫描比较会加重计算机系统的I/O负载。因此,非常有必要设计一种能够减少这种系统I/O开销的算法。
对某一个元素成为K维项目集中的一个元素,该元素一定得在k-1阶频繁项目集中的计数次数大于K-1个,否则不能生成K维项目集,将计数个数不到k-1的,就事先删除这个元素,从而排除由这个元素引起的大规格的所有组合。
改进算法的具体步骤是:
(1)统计所有的含一个元素的项目集出现的频率;
(2)找到支持度da b于置信度的项目集,即找到频繁1-项集,同时产生C′1;
(3)开始从第二幕循环处理一直到没有频繁项目集产生截止。其中,循环的过程实在地k步分两个阶段:
①一个阶段是产生一个函数Apriori_gen,通过k-1不中长生的频繁项目集Lk-1,来生成候选项目集Ck,并产生C′k;
②第二阶段,通过遍历C′k,计算候选项目集Ck的支持度。该算法中C′k是一个集合,Xk代表在事务中表示为TID,潜在的频繁k-项集。当K=1,C′1和数据库是一致的;当k>1时,C′k由算法得到,这时集合C′k中的元素和事务T是一致的。如果,某个事务不包含其他候选k项集,那么C′k中没有这个事务的目录。所以,C′k的数据一定不大于数据库中事物的数据。
本文的数据源来自哈尔滨师范大学的呼兰学院计算机专业的学生的英语入学成绩、大一、大二、大三、大四英语成绩。利用改进的Apriori算法分析入学英语成绩和在校英语成绩,对入校英语成绩和在校英语成绩对英语四级成绩的影响程度作了进一步分析,得到相应的结论。
已知数据来源于哈师大呼兰学院官网,具体内容如下:
(1)入学成绩及支持度情况:入学成绩=优的支持度为14.81,入学成绩=良的支持度为33.33,入学成绩=中的支持度为40.74,入学成绩=差的支持度为11.11。
(2)英语四级成绩及支持度情况:英语四级通过成绩通过的支持度为62.96,没有通过的支持度为37.04
(3)入学英语成绩及四级成绩项集情况:入学成绩=优&&英语四级通过的支持度为7.41,入学成绩=优&&英语四级不通过的支持度为7.41,入学成绩=良&&英语四级通过的支持度为29.63,入学成绩=良&&英语四级不通过支持度为3.66。入学成绩=中&&英语四级通过的支持度为18.52,入学成绩=中&&英语四级不通过的支持度为22.22,入学成绩=差&&英语四级通过的支持度为7.41,入学成绩=差&&英语四级不通过的支持度为3.65。其中假设置信度设置为50%,则可以得到如下规则。
运用关联规则得到如下结论:
(1)入学英语成绩和四级成绩的置信度情况:
a)入学成绩=优=>英语四级通过的置信度为50%
b)入学成绩=优=>英语四级不通过的置信度为50%
c)入学成绩=良=>英语四级通过的置信度为89%
d)入学成绩=中=>英语四级不通过的置信度为55%
e)入学成绩=差=>英语四级通过的置信度为67%
(2)在校英语成绩和英语四级置信度情况:
a)在校成绩=优=>英语四级通过的置信度为98%
b)在校成绩=良=>英语四级通过的置信度为68%
c)在校成绩=中=>英语四级通过的置信度为64%
d)在校成绩=差=>英语四级不通过的置信度为99%
由以上关联规则我们发现:
(1)入校英语成绩为优的学生,英语四级考试通过的置信度为0.5,而入校英语成绩为差的学生,英语四级考试通过置信度为0.67;入校英语成绩为良的学生,英语四级考试通过的置信度为0.89;
(2)在校英语成绩差的学生,英语四级考试不通过的置信度为0.99,而在校英语成绩为优的学生英语四级通过的置信度也为0.98。
由(1)、(2)我们可以得出如下结论:一个学生入校的英语成绩对学生的英语四级成绩有一定的影响,但并不是决定因素,然而在校的英语成绩对四级考试的通过与否起着决定性的作用,因此应教育学生入学后努力学学习英语,而教学管理部门应注意加强学生在校的英语教学,以使得学生顺利的通过英语四级考试。
根据2.4中Apriori算法对呼兰学院学生的入学、在校、四级英语成绩进行数据挖掘,得到置信度大于0.5的结果为:{入学英语=良,在校英语=优,四级成绩=通过}的置信度为87%。
通过改进的Apriori算法可以看出入学英语良、在校英语优、四级成绩通过的同学可以到达的置信度为87%,足以相信入学英语良并且在校英语成绩优的同学通过四级的可能性非常大,不用担心这部分同学的四级通过情况。
本文利用当今非常流行的数据挖掘技术对学校教育工作进行支持指导,对学校教育决策给予了非常有利的帮助。文中主要利用的是关联规则及Apriori算法,对入学英语成绩、在校英语成绩对四级英语成绩的影响关系进行关联分析,并运用Apriori算法进行分析,得到非常有指导意义的指导方向。本文最后给出指导意见:教学管理部门应针对入学英语成绩好而容易骄傲的学生多加注意和管理,针对入学英语成绩不好的同学多加鼓励,并让同学们也明白在校英语成绩才是对英语四级成绩起着决定性的作用。
[1]陈莉,焦李成.Internet/Web数据挖掘研究现状及最新进展[J].西安电子科技大学学报(自然科学版),2011,28(1):3.
[2]员巧云,程刚.近年来我国数据挖掘研究综述[J].情报学报,2015,24(2):250-256.
[3]于立红,张建伟.基于数据挖掘的高职生成绩分析与预测[J].郑州轻工学院学报,2006,21(3):77-79.
[4]章芬芬.关联规则挖掘在个性化学习系统设计中的应用[J].韶关学院学报(自然科学版),2010,26(9):36-40.
[5]颜雪松,蔡之华.一种基于Apriori的高效关联规则挖掘算法的研究[J].计算机工程与应用,2012,38(10):209-211.
[6]丁元明.数据挖掘技术在高校教学质量评估中的应用研究[D].上海:华东师范大学,2005:15.