白雪峰
(重庆三峡医药高等专科学校,万州 404120)
关联规则挖掘在教学质量保障方面的应用研究
白雪峰
(重庆三峡医药高等专科学校,万州 404120)
利用关联规则挖掘Apriori算法对学生高考成绩及高考志愿与入学后课程成绩之间存在的关系进行数据挖掘,通过分析挖掘结果,期望找出其中存在的关联,得到一些对提高教学质量或水平有用的信息。
数据挖掘;关联规则;教学质量
教学质量是人才培养质量的关键,是整个教学活动的出发点和立足点,如何保证教学质量的不断提高是一个学校永恒的追求。由于学校不断扩大招生规模,使得学生的入学基础存在较大的差异,本文通过分析学生的入学基础以及这种入学基础对大学课程学习的影响,提出了分层次教学等建议,以保证专业教学质量的稳步提高。关联规则挖掘是数据挖掘中最活跃的研究方向之一,能从大量的数据中挖掘出数据项间隐藏的相互关系。采用关联规则挖掘算法,能够发现学生高考志愿及入学前高考成绩与入学后各门课程成绩之间的关系,而分析这种关系有助于我们寻找提高专业教学质量的途径和方法。
关联规则挖掘是研究人员于1993年研究市场购物篮问题时提出的[1],用来发现数据中数据项间隐藏的相互依赖的关系。
先介绍关联规则的几个基本概念,具体描述如下[2]:
定义1假设关联规则挖掘的事务数据集记为D,其中,D={t1,t2,…,tk,…,tn},tk={i1,i2,…,im,…,ip},那么tk(k=1,2,…,n)称为事务(Transaction),im(m=1,2,…,p)称为项目(Item)。
定义2假设I={i1,i2,…,im}是由D中所有项目组成的集合,则I的每一个子集X就称为D的项目集(Itemset)。假设X、Y都是项目集,且X∩Y=Ø,则蕴含式X⇒Y称为关联规则。
定义3若关联规则X⇒Y在事务集D中成立,那么,关联规则XY的支持度就是事务集D中包含X⇒Y的百分比,关联规则XY的置信度就是D中包含X的事务同时也包含Y的百分比。(即support(X⇒Y)=P(X⇒Y);confidence(X∪Y)=P(Y|X))
定义4如果项目集X的支持度大于等于事先设定的最小支持度minsupport,那么就称X为频繁项目集。
关联规则的挖掘过程是先查找符合既定条件的频繁项集,然后利用频繁项集生成关联规则。通过对数据库使用关联规则挖掘,可以得到一些潜在有用的挖掘结果。将这些结果同事先设定的最小支持度minsupport和最小置信度minconfidence进行比较,如果其值不小于事先设定的值,那么就是有趣的规则。
购物篮分析是关联规则挖掘最初研究的一个典型例子。它有助于分析顾客的购物习惯,发现顾客放入购物篮中的不同商品之间的关联性,帮助商家了解哪些商品频繁地被顾客同时购买,从而有助于商家灵活地调整销售策略,更加合理地安排商品的摆放位置,增加商品销售量。
随着社会的发展,人们越来越发现数据的重要性及其隐藏的价值,使得关联规则挖掘的应用越来越广泛。其中,在教育教学方面,关联规则挖掘也取得了很好的效果[3-5]。
2.1 数据准备
数据准备阶段主要是对学生的入学成绩及入学后的成绩进行收集处理。以我校中药专业2014级、2015级329名学生的成绩为例,成绩主要来源于两个部门。其中,学生的高考成绩来源于学校招生处,主要包括考生号、专业志愿、考试科目及考试成绩等;学生入学后的课程成绩来源于教务处,选择的大学课程主要包括中医学概要、中药学、大学英语、化学基础、医学基础、药理学、药用植物学、中药鉴定技术等。
由于成绩属性是连续值,不利于进行数据处理,所以,在进行数据挖掘前,必须先对学生的入学成绩及入学后的成绩进行转换处理。
因专科生入学时单科成绩几乎全部介于满分成绩的20%到满分成绩的80%之间,因此,我们在对入学前单科成绩处理时,剔除了极个别不合适的数据,只对满足该成绩段的数据进行研究。在此基础上,对入学前单一科目成绩的具体处理方法是:将成绩由高到低排序,每20%为一个成绩段,即处于前20%的成绩记为A,处于前20%-40%的成绩记为B,以此类推。
因学生入学后单科成绩几乎全部介于40分到100分之间,因此,我们在对入学后单科成绩处理时,剔除了极个别不合适的数据,只对满足该成绩段的数据进行研究。在此基础上,对入学后单一科目成绩的具体处理方法是:将成绩由高到低排序,每20%为一个成绩段,即处于前20%的成绩记为A,处于前20%-40%的成绩记为B,以此类推。对于分多个学期授课的课程,取多个学期的平均成绩。
对于考生的高考志愿,第一志愿记为I,非第一志愿记为J。
进行数据处理后的数据格式如表1所示。
2.2 关联规则挖掘
Apriori算法是关联规则挖掘的经典算法,本文使用Apriori算法进行数据挖掘,希望找出高考单科成绩及高考志愿类别与入学后课程成绩之间存在的普遍性关系。在本次研究中,我们将最小支持度设为5%,最小置信度设为60%。
我们使用Apriori算法对学生高考单科成绩与入学后课程成绩之间存在的关联关系进行数据挖掘,最终产生了7条关联规则,具体结果见表2。
表2 高考成绩与入学后课程成绩之间的关联规则
分析表2可知,学生中学时的英语水平对入学后英语成绩影响很大,高考数学成绩对化学基础的学习也有较大影响,但没有像英语影响大。学生各科的高考成绩对中药学、中医学概要等药学专业基础课程影响较小。针对上述结果,建议学校在进行英语和化学基础课程教学时,可按照学生对应科目的高考成绩进行分层教学。
使用Apriori算法对学生高考志愿与入学后课程成绩之间存在的关联关系进行数据挖掘,最终产生了11条关联规则,具体结果见表3。
分析表3可知,学生的高考志愿对学生入学后的英语、化学基础等课程的成绩影响不大,但对中药学、中医学概要等专业基础课程有较大的影响。针对这一现象,建议学校在对非第一志愿考生进行教育时,加强对学生关于专业价值和专业发展前景的说服性教育,提高学生的专业认同度,从而促进学生在专业学习时的积极性和主动性。
表1 学生所有成绩进行数据处理后的数据格式
表3 高考志愿与入学后课程成绩之间的关联规则
笔者介绍了关联规则挖掘的一些概念,采用关联规则挖掘Apriori算法对学生高考单科成绩及高考志愿与入学后课程成绩之间存在的关联关系进行数据挖掘,最终得到了多条关联规则。研究结果表明,高考单科成绩与大学部分基础课程成绩之间有一定联系,而高考志愿则与学生专业课成绩之间存在一定关联。根据上述研究结果,学校在对大学英语、化学基础等课程进行教学时,可以根据相关单科成绩对学生进行分层次教学;而对非第一志愿考生,则要注意加强教育,提高学生的专业认同度。
[1]Agrawal R,Imielinski T,Wami A S.Mining Association Rules Between Sets of Items in Large Databases.In:Proc.of the ACM SIGMOD Conference on Management of Data,Washington,D.C.,1993.207-216.
[2]邵峰晶,于忠清.数据挖掘原理与算法[M].北京:中国水利水电出版社,2003.
[3]刘英,高锁军.数据挖掘技术在高校教学管理中的应用.价值工程,2012,31(34):200-201.
[4]路川,王静静,胡欣杰等.数据挖掘在高校教学管理中的应用研究[J].电脑开发与应用,2010,17(2):40-41.
[5]李绍中.数据挖掘改进算法在学生成绩分析中的应用[J].科技通报,2012,28(8):208-209,212.
Research on the Application of Association Rules Mining in Teaching Quality Assurance
BAI Xue-feng
(Chongqing Three Gorges College of Medicine,Wanzhou 404120)
Uses the association rules mining Apriori to mine the relationships between students'college entrance examination scores and college course examination scores,and the relationships between different choices and college course examination scores.Through the analysis of mining results,hopes to find out the relationship between them,and gets some information that is useful for improving teaching quantity or level.
Date Mining;Association Rule;Teaching Quality
重庆三峡医药高等专科学校2014年科研苗圃工程基金资助项目(No.2014mpxj17)
1007-1423(2016)33-0022-03
10.3969/j.issn.1007-1423.2016.33.005
白雪峰(1980-),男,山西大同人,硕士研究生,讲师,研究方向为数据库、数据挖掘
2016-09-06
2016-11-10