李高菊(宿迁开放大学,江苏 宿迁 223800)
数据挖掘在职业院校“学评教”体系中的应用
李高菊
(宿迁开放大学,江苏 宿迁 223800)
在传统的教学评价过程中,每个学校都积累了大量的评价数据,而学校只是对这些数据进行简单的统计和查询,在海量数据中存在的更有价值的信息并没有得到真正利用。利用数据挖掘技术中的挖掘算法对评价数据和教师的个人信息进行梳理与分析,发现教师的性别、学历等不会影响教学效果,而职称、年龄则会影响教学效果。如何能在教学安排中做到统筹兼顾,是学校管理者在协调教学过程中的一个参照。
数据挖掘;关联规则;Apriori算法和FP-Growth算法;学评教
随着信息的快速增长,数据挖掘技术在信息资源开发方面的优越性越来越明显,目前已经在电子商务、金融、商业等领域发挥着巨大的作用,它结合了信息化、统计等方面的技术支持着企业的快速发展。而在教育领域中目前其应用还只停留在萌芽阶段。高校要想提高学校的教学管理水平,必须构建好自己的教学质量监控体系,这是提高教学质量的重要保障和有效途径。
目前,在各高校对于现有数据信息中教师个人信息、最终教学评价信息与学生学习效果及未来就业方面的信息之间的关联很少有人研究,高校管理者也没有试图去发现他们之间存在的关联,或者说,现在仅仅是对数据作了最简单、最原始的基本操作,如查询、修改等,数据之间所蕴藏的联系并没有被发现,而数据表层的信息根本无法给教育行政管理人员提供决策参考。借助数据挖掘技术从海量数据中提取出有效信息,一方面完善了教学监控体系,另一方面可以从评教数据中挖掘出有用的规则,进而推进教师队伍的建设。因此,数据挖掘将成为今后教学评价体系研究的热点,也会是今后一段时间教育界研究的一大重点。
本文首先对评教的数据(或信息)进行处理,然后通过对比分析选择合适的数据挖掘算法,最终找出数据间的关联规则,从中挖掘出教师个人条件与教学最终效果之间的潜在联系,总结出教学一般规律并发现影响教学效果的相关因素。经过综合分析最终找出可以提高学校教学质量的思路和办法,进而有效地指导教师改进教学。
数据挖掘,是指从庞大的数据集中寻找出有价值的知识的过程,通过挖掘操作能发现潜伏在数据内部、而用直观方法或经验根本看不出但非常有价值的信息,通常也称为知识发现过程[1]。这类信息一般是用户比较期待的,结论也是可以理解并易接受的。
2.1数据挖掘的方法与技术
数据挖掘的每种方法都有其适用的特定领域,主要包括关联规则挖掘技术、决策树方法、神经网络方法、遗传算法、粗糙集算法等[2]。而在现实生活的应用中,在一个复杂的数据挖掘系统中往往不是使用某种单一的挖掘算法,而是将多种数据挖掘方法结合起来,并且利用可视化技术最终实现。下面主要介绍一下关联规则挖掘算法。
关联规则的分析方法相对比较简单,在生活中应用也非常广泛。该算法是在1993年由R.A-grawal、Imielinski、Swam几人最先提出的。它最主要的目的是找出被挖掘数据之间隐藏的不易被觉察的潜在联系,即找出某一事件中潜在的规律和模式。就目前来看,关联规则挖掘技术已较成熟,大部分用于对数据的关联分析。Apriori和FP-growth算法都是常见的算法。Apriori算法的基本过程为:首先通过对数据的分析找出所有频繁出现的项集,然后根据得到的频繁项集总结出有用的关联规则。许多演变的关联规则频繁项集的挖掘算法都是由它演变而来的。随着数据量的逐渐加大以及人们在生活中对数据挖掘的有效利用,采用关联规则挖掘算法找出数据间的关联知识已成为人们非常关注的内容。关联分析常被用来分析顾客的购买模式、产品生产模式等,最典型的例子就是购物篮分析。
2.2数据挖掘的过程
数据挖掘的过程其实就是知识发现的完整过程,它是由很多个步骤相互连接起来的[3]。一般情况下,它包括三个主要阶段:第一是数据准备,第二是进行数据挖掘,第三是得出结论和解释的阶段。其实,知识的发现过程也是在这三个阶段反复进行人机交互的过程。数据挖掘的知识发现过程(KDD)如图1所示。
图1 KDD的挖掘全部过程
3.1数据的准备
将评教获得的数据作为训练样本集,并且把教学评价表Evaluation和教师信息表Teacher进行整合,整合后的数据表很大,但是有些字段比如教师姓名、班级编号、课程编号等与我们要挖掘的问题联系不大,所以人为地将它们删除。
3.2数据预处理
在评教的过程中,由于各种原因,很容易产生一些不符合要求的数据,若是不能及时地进行处理,势必会对挖掘结果产生影响。所以必须对数据进行清理,数据清理就是消除原始数据集中存在的错误、包含的噪声或有缺损的对象,只有这样才能保证数据挖掘结果的准确性与合理性。比如对数据中填写不完整的或有一属性值为空的某一项记录人为地将数据补填上,或者直接将该条记录忽略等办法。
对数据进行转换的主要目的就是将数据转换成能适合数据挖掘的描述形式,以便进行高效的数据分析[4]。在本系统中主要采用数据泛化的办法,即将一个属性取值范围投射到一个特定区间之内,进行聚集和统一,防止给挖掘的结果带来误差。
首先,将教师的职称进行泛化处理后得到表1的转换值。
表1 教师职称进行转换的规则
其次,将教师的年龄进行离散化处理,得到五个阶段,如表2所示。
表2 教师年龄进行转换的规则
最后,再将教师所得评教分数按表3的转换规则进行转换。
表3 评教分数转换规则
3.3关联规则挖掘结果分析
(1)教师年龄与教学评价结果之间的关联规则
利用FP-Growth算法对数据进行处理后,统计得到年龄与教学效果项集的支持度和置信度,如表4所示。
表4 统计年龄与教学效果项集得到支持度和置信度
如果设置最小支持度为5%,最小置信度为45%,那么从上面的项集中最终可以得到2个频繁项集,如表5所示。
表5 满足教师年龄与教学效果筛选条件的频繁项集
从上面得到的结果可以看到,40~50岁之间(包括50岁)和50~60岁之间(包括60岁)的教师最终教学效果优秀,这也说明了随着时间的推移,教师积累了丰富的教学经验。
(2)教师学历与教学评价结果之间的关联规则
利用FP-Growth算法对数据进行处理,统计后得到学历与教学效果项集的支持度和置信度,如表6所示。
表6 统计教师学历与教学效果项集得到支持度和置信度
如果设置最小支持度为5%,最小置信度为45%,那么从上面的项集中最终可以得到3个频繁项集,如表7所示。
表7 满足教师学历与教学效果筛选条件的频繁项集
从上述所得的频繁项集来看,学历为博士和硕士的教师教学效果都为良好,本科学历的教师教学效果为优秀。
(3)教师职称与教学评价结果之间的关联规则
利用FP-Growth算法对数据进行处理后,得出职称与教学效果项集的支持度和置信度,如表8所示。
表8 统计教师职称与教学效果项集得到支持度和置信度
如果设置最小支持度为5%,最小置信度为45%,那么从上面的项集中最终可以得到3个频繁项集,如表9所示。
表9 满足教师职称与教学效果筛选条件的频繁项集
从上面得到的结果可以看到,职称的高低与教学效果也有直接的关系,正高、副高的教师教学评价都为优秀,中级职称的评价为良好。
(4)教师性别与评价结果之间的关联规则
利用FP-Growth算法对数据进行统计和处理后,得到性别与教学效果项集的支持度和置信度,如表10所示。
表10 教师性别与教学效果项集的支持度和置信度统计
假设设置最小支持度为5%,最小置信度为45%,那么从上面的项集中就找不到满足要求的频繁项集,也就是说教学效果与教师性别无必然联系。
3.4结论
根据以上对学生评教的数据进行分析得出如下几条结论:
(1)40~50岁之间的教师和50~60岁之间的教师最终教学效果都为优秀,这充分说明了时间的沉淀能够使教师积累丰富的教学经验。
(2)硕士或更高学历的教师教学效果良好,本科学历的教师教学效果为优秀。这说明在本校教师自身的学历和所授课的内容与总评成绩之间的联系不大,经过分析判断,可能是本科学历的教师比较注重学生的实践指导以及其他环节(如作业批改和辅导答疑)的原因。另外结合本校学生培养的要求,要想提高整体教学质量,就应更加注重实践环节的教学。
(3)职称的高低与教学效果也有直接的关系,正高、副高的教师教学评价都为优秀,中级职称的教师评价也为良好。拥有高级职称的教师,教学效果好,能够得到学生的认可。因此,学校应加大高级职称教师的引进力度,以优化师资结构,此外,学校有关部门应采取相应措施,以尽快提高教师的学历层次,改善教师的职称结构。
(4)从性别方面的项集中找不到满足要求的频繁项集,也就是说,教学效果与教师性别无必然联系。
教学质量是学校的生命线,本文通过对评教系统中大量数据进行梳理,利用关联规则挖掘算法,找出数据之间的关联,即找出影响教学效果的多方面因素,可以为管理者提供决策指导。但也存在一定的不足,在今后的工作中还要进一步研究挖掘算法,使它在执行效率上有所提高,以进一步完善“学评教”系统,让其成为促进教学工作的一大利器。
[1]孟卫平.数据挖掘在移动电子商务中的应用研究[J].现代商业,2010(24).
[2]王瑄.多最小支持度下的关联规则研究[D].长春:长春理工大学,2008.
[3]宫辉力,赵文吉,李京.多源遥感数据挖掘系统技术框架[J].中国图象图形学报,2005(5).
[4]林建勤.基于Web的数据挖掘应用模式研究[J].贵州师范大学学报(自然科学版),2004(3).
The Application of Data mining In the “Student rating of teaching”system of Occupation colleges
LI Gao-ju
(Suqian Open University,Jiangsu Suqian 223800,China)
In the traditional teaching evaluation process,each school have accumulated large amounts of data,and the school is on these data were simple statistic and query. However,in vast amounts of data in the presence of more valuable information has not been really use.We use data mining technology in mining algorithm on the evaluation data and teacher's personal information were sorted out and analyzed and found that the teacher's gender,educational background will not affect the teaching effect,and the title,age will influence the teaching effect.How can the teaching arrangements so balanced,school managers in a reference to the coordination of the teaching process.
Data mining;Association rules;Apriori algorithm;FP-Growth algorithm;School teaching assessment
TP274
A
1673-2022(2016)03-0047-04
2016-06-20
李高菊(1980-),女,江苏宿迁人,讲师,硕士,主要从事计算机方面的教育教学研究。