郭 鑫
(哈尔滨广厦学院,黑龙江 哈尔滨 150025)
在高校的教学管理工作中,教学质量评价是较为重要的环节。而如何科学又合理地对教师教学质量进行总结,一直是高校教学管理者研讨的热门课题。笔者所在的哈尔滨广厦学院是一所民办三表本科院校,学生的基础较薄弱,学习的主动性相对较差,因而本校教师在日常教学工作中均要付出更大的努力才能激起学生的学习兴趣。广厦学院每学期期中教学检查都要进行教学质量评估,如果利用数据挖掘技术中的相关规则对其进行挖掘,便能清晰地发现教学质量的好坏与教师的年龄、职称、学历以及其采用的教学方法之间的关系,从而合理地配置不同班级的上课教师,更大程度地激发学生的学习热情[1]。
(一)数据挖掘产生的背景。随着通信和网络技术的飞速发展,计算机技术在各行各业的应用更加广泛,日常生活中产生的数据,以前所未有的速度积累。与客户创造交易或互动而产生的一些大量的公司记录,如通讯记录,银行记录,交通运输记录,和零售商记录等。这些数据对于企业是非常重要的,并且许多公司已经开始利用这些数据记录并识别客户最终为公司获得收益。然而,从大量的数据和复杂的信息中要提取有用的内容,可能是我们正面临着的一个重大的挑战。在迎接这一挑战中,数据挖掘技术的出现,给我们提供了很大的技术支持。
(二)数据挖掘的基本概念。在计算机技术的飞速发展中,先进的数据库技术,使得数据存储容量超出想象,在大量的数据中,有一些数据也非常重要,但是这些数据是隐藏在大量的数据库中,如果能从数据库中将需要的信息提取出来,从中找出一定规律和规则,这些规律和规则将会给管理者提供重要帮助,最大限度的降低决策风险,潜在的创造了一定价值,而这种从海量数据库中进行挖掘信息的技术,俗称为数据挖掘。数据挖掘是一个基于多学科领域的交集,拥有强大的生命力和发展前景[2]。数据挖掘(Data Mining)就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,挖掘隐含在内的、事先不知道的、但是内在有用的信息和知识的过程。数据挖掘的主要特点是对数据仓库中的大量业务数据进行抽取、转换、分析和建模工作以获取决策的关键信息。
(三)数据挖掘的方法
(1)Apriori算法。在关联规则的挖掘算法中,Apriori算法(包含AprioriTid和AprioriHybrid算法)由R.Agrawal等人提出的最为著名,Apriori算法是一种最具影响力的关联规则频繁项集的算法。逐层搜索迭代是Apriori算法的核心方法,将关联规则的挖掘分为如下两个步骤:第一步,寻找频繁项目集;第二步,产生关联规则。
(2)决策树算法。 最早在 CLS(Concept Learning System)[3]中出现了决策树的概念。决策树分类是用属性值对样本集逐级划分,直到一个节点仅含有同一类的样本为止。分类的最终目的是生成一个分类器,此模型采用映射思想,数据项为映射原点,给定类别为映射目的地。作为分类算法的一种,决策树算法归纳是其中较为经典的之一。
(3)粗糙集算法。在21世纪70年代,波兰著名学者、数学家Z.Paw lak提出了粗糙集理论,该理论定义了模糊性和不确定性的概念,是一种分析数据的数学理论。粗糙集所能处理的数据包括确定性的、非确定性的、数值的、非数值的、不精确的、不完整的、多变量的、部分数据矛盾的等,其典型特点是仅依赖数据本身,而一些先验或主观数据对粗糙集没有任何影响。
(4)遗传算法。该算法是一类借鉴自然界的进化规律演化而来的随机化搜索方法称为遗传算法(GeneticAlgorithm)[4],遗传算法是一种基于仿生学的计算方法。通过选择与染色体之间的交叉和变异的方式模仿生物进化的过程,1969年美国Michigan(密西根)大学Holland教授提出遗传算法的概念。
(5)贝叶斯分类算法。贝叶斯分类算法是一种基于数学领域中概率统计知识的算法,该算法是一种统计学分类方法。通常,贝叶斯算法分为两大类:朴素贝叶斯算法和TAN算法。贝叶斯分类算法的优势在于其可应用到大型数据库中且简单易行。
(一)关联规则。关联规则的一个经典的例子就是在超市对顾客购买物品的分析。通过顾客购买各种商品总结发现物品与物品之间的关系,分析顾客在购买过程中的习惯与心理。什么样的商品被购买者频繁地同时购买,商家可以根据购买情况制定营销策略。关联规则问题是R.Agrawal等人在1993年提出的,随后关联规则的挖掘问题被研究人员进行了大量的研究与讨论。关联规则的计算依赖于发现相关数据中频繁出现的数据项,寻找数据子集间的关联关系。
(1)Apriori算法。 1994 年,Agrawal等提出了 Apriori算法用于发现数据库中的频繁项集,主要使用逐层搜索的迭代算法,通过扫描数据库得出频繁项集,一般来说,约定第n次扫描得频繁k-项集,记为Lk,首先对事务数据库进行第一次扫描,找出候选频繁1-项集,记为L1,然后调用Apriori-Gen(L1)来产生候选项集C2,对C2中的项进行挖掘出L2,即频繁2-项集,一直重复循环,直到无法发现更多的频繁k-项集为止。Apriori算法每挖掘一层Lk就需要对整个数据库进行扫描。如果在求解过程中某次计算Lk为空时,那么整个算法的求解过程自然结束。
(2)基于矩阵的改进算法。通过对Apriori算法的分析,我们能够得出结论,Apriori算法存在着两个弊端,一是每次找到频繁项集和候选项集时都要扫描数据库。二是事务数据库D事务量较大时,产生的频繁项集和候选项集数量也会很庞大。本文是基于矩阵的改进算法的基础上,提出了一种新的基于矩阵的改进算法我们暂叫为Apriori-X,在关联规则中有些规则能够产生规则,频繁项目集和候选项目集并不需要全部生成,而是在保证不丢失频繁项目集和规则的基础上生成最小的关联规则集。Apriori-X算法是在利用基于矩阵的改进算法生成最小的关联规则集,并且不丢失任一个关联规则。Apriori-X算法基本思想是事务数据库中的每一个事务作为初始矩阵的行,具体事务值作为初始矩阵的列,某一事务的事务值存在则矩阵表中相应行列处的值为1,否则为0。
(二)关联规则在教学质量评价系统中的应用
(1)数据采集。本文是将哈尔滨广厦学院2012年度的评教表作为原始数据表进行数据挖掘,数据源中的数据由广厦学院教务处提供,在教学管理系统中导出教师表和学生评教表2个Excel文件合并形成教师评估表,教师达189人次,学生评教记录数3080条。
(2)数据转换。本例中采用对每个字段进行离散型数据,对年龄字段小于35岁的置1,否则为0,对于职称字段为讲师置1,否则为0,学历/学位字段本科以上(不含本科)置1,否则为0,根据评教表教学方法多样的置1,否则置,评教分数大于90分置1,否则为0。
(3)结果分析。利用关联规则改进算法进行挖掘,本例将最低条件支持度设置为50%,最小规则置信度设置为70%。根据关联结果不难看出,在本院上课的老师,(教学方法多样的,职称=讲师)=>评教分数=优,支持度为64.319%,置信度89.836%,(年龄35岁以下,职称=讲师)=>评教分数=优,支持度为59.624%,置信度86.614%,评教分数=优=>(职称=讲师,学历/学位=研究生或硕士),支持度为59.624%,置信度85.827%,教学方法多样=>(职称为讲师,评教分数为优)支持度为69.674%,置信度81.548%,(教学方法多样的,职称=讲师,评教分数=优)=>年龄为35岁以下,支持度为71.596%,置信度77.976%,从结果中看到,由于本院建校刚刚十几年,广厦学院大部分骨干教师都是35岁以下且职称为讲师为主,根据评教分数为优的结果来看,教师的教学效果得到了本系大部分学生的认可,可以断定,计算机是一个高速发展的学科,当今的学生喜欢的教师也具有一定的方向性,在培养应用型本科人才的院校中学生不一定会喜欢学者型的、研究型的教师,特别是在民办普通高等学校,此类学校中学生的基础不好,但思维非常活跃,大部分学生主动学习意识比较薄弱,而年轻的青年教师,缩短与学生之间的代沟和差距,更容易受到学生的认可与欢迎。
随着高等教育规模的扩大,各大高校的常规教学管理及学生就业管理中越来越多地积累了大量数据,而这些数据的有效分析将对学院的长远发展起到一定的推动作用。数据挖掘技术还在不断成长之中。相信随着社会的进步,科技的发展,数据挖掘技术将对社会的各个领域产生卓越的影响,在新世纪的科技创新中扮演重要的角色。
[1]吴瑕.数据挖掘及在教学管理中的应用研究.哈尔滨工程大学硕士论文,2007:27~29
[2]张峰.基于数据挖掘技术的教学管理应用研究.合肥工业大学硕士论文,2010:5~8
[3]宋春景,邓志文.基于关联规则算法的教务管理数据挖掘.科技信息,2012:432
[4]贺爱香.决策树在应用型本科高校就业管理中应用研究.安徽大学硕士论文,2011:24~29