朱丽丽ZHU Li-li
(金陵科技学院,南京 211169)
(Jinling Institute of Technology,Nanjing 211169,China)
随着高等教育在我国的快速发展,学校在校人数的迅猛增加,但是大量的信息只是简单地存储在数据库中,隐藏在这些数据中的潜在信息被闲置,不能被充分利用。而现有的学生数据库也仅作为事务管理和信息检索(增加、删除、修改、查询等等),利用信息化管理这种先进的技术手段来实现学生、教师、管理人员的紧密结合,大大提高综合教育质量,这些恰恰是数据挖掘所能帮助解决的问题。
整合系统中不同的数据,形成统一的模式以方便处理。利用现代化信息管理工具处理这些信息,从中挖掘出一些规律和方法,为决策者提供有力的支持,让这些长期积累下来的信息变成知识,这些将是研究解决的关键问题。对学生信息数据库中的一系列数据挖掘操作必将对教师的教学环节提出有针对性的建议和意见,对学校的学生管理工作提供更多有用的知识,以使学校的学生管理工作有的放矢,从而帮助学校决策或调整策略。
各学校也在不断改进教学管理体制如学分制、学年学分制、完全学分制等等,同时不断更新培养方案、调整课程设置努力做到因材施教,努力使学生在校期间受到良好的教育。所有这些政策的出台都要以事实和数据为依据。而这些依据是在普通的教务管理系统所无法实现的,本文以高校教学管理为例,结合高校管理的具体要求,提出将数据挖掘技术应用到高校管理中的设想。通过对数据挖掘的关键技术的研究,寻找并设计合适的数据挖掘算法,在教学过程中通过对在校学生相关课程成绩的数据挖掘,对课程的设置做适当的调整,不断激发学生的学习兴趣,凝练具有学校自身特点的教学管理模式和方法。
到目前为止,相关学者已经提出了:①利用OLAP 分析和数据挖掘进行知识发现。②决策树算法在高校教学管理的应用研究。③分类规则在高校管理决策中的应用研究。④传统关联规则在高校教学管理中的应用研究。⑤聚类规则挖掘高校教学质量中的应用研究。
聚类:与分类分析不同,聚类分析输入的是一组未分类记录,并且这些记录应分成几类事先也不知道。聚类分析就是通过分析数据库中的记录数据,根据一定的分类规则,合理地划分记录集合,确定每个记录所在类别。它所采用的分类规则是由聚类分析工具决定的。聚类分析的方法很多,其中包括系统聚类法、分解法、加入法、动态聚类法、模糊聚类法、运筹方法等。采用不同的聚类方法,对于相同的记录集合可能有不同的划分结果。
Apriori 是关联规则中最经典的布尔关联挖掘算法,为了使提出的挖掘算法不失一般性,选择Apriori 作为混合关联挖掘中关联规则部分的基本算法。Apriori 性质为:“频繁项集的所有非空子集都必须也是频繁的”。该性质属于一种特殊的分类,称作反单调,意指如果一个集合不能通过测试,则它的所有超集也都不能通过相同的测试。Apriori 算法的执行过程分为两个步骤:首先是连接步,即为了寻找Lk,通过Lk-1与自己连接产生候选k-项集的集合,记为Ck;其次是剪枝步,即由于Ck是Lk的超集,扫描数据库,确定Ck中每个候选的计数,删除不满足计数要求的项集,从而确定Lk。
对于数据问题,目前采用高校的实际信息,确保数据真实可靠,有进一步研究的价值。对于数据挖掘技术的特点与高校学生成绩信息相结合,建立了适用于高校管理的数据挖掘模型。目前采用Fayyad 过程模型,它偏向于技术方面。根据Fayyad 的数据挖掘过程模型,数据挖掘可以理解为一个循环迭代过程,该模型从数据入手,到知识结束。对于算法,目前采用关联规则挖掘,用Apriori 算法来实现。对离散数据采用泛化,以保证系统对挖掘的精度,分析大学阶段各科目学习成绩之间的关联关系。
3.1 数据准备 数据挖掘进行之前对数据进行选择的必要性,数据选择和预处理的步骤、方法。数据选择操作一般包括3 步:数据源中数据表的选择、数据表中的各属性间进行选择、多个数据表中相同属性的整理和统一。数据预处理一般包括3 个步骤:①数据清理;②数据集成;③数据规约。
3.2 挖掘系统的设计 包括:系统的设计思想、数据的准备、系统采用的挖掘过程模型以及主要的算法。界面显示前,必须对最小支持度和最小置信度进行参数设置。不同的最小支持度和最小置信度得到的挖掘结果也不一样。
3.3 系统结果分析 包括:学生信息管理结果、数据预处理结果、关联规则挖掘的频繁项集、关联规则并对挖掘的结果进行说明与分析,见图1 和图2。
图1 显示2 频繁项目
图2 显示规则集
规则1 看出:部分课程之间存在紧密的关系,它们相互制约相互影响。一门课程的学习直接影响另一门课程的学习。高等数学成绩为优良的学生中,有60%的学生C 语言与数据结构成绩也优良,这说明了高等数学成绩优良,C 语言与数据结构成绩优良的可能性达到60%。
规则2 看出:计算机软件基础成绩为优良,面向对象程序设计成绩为优良的学生中,有60%的学生计算机软件工程成绩也优良。这说明计算机软件基础成绩为优良,面向对象程序设计成绩为优良,计算机软件工程成绩为优良的可能性达到60%。
课程间的先序和后继关系决定了学生学习效果,好的课程间先后关系能够让学生学有动力,学有兴趣,事半功倍。不好的课程间先后关系能让学生不及格率增加,学得费劲,不想学,甚至厌学。
数据库挖掘技术全面应用于高校教育教学管理中,将高校教学管理信息化提升至更高层次。通过对教学管理数据进行微观、中观直至宏观的统计分析、综合和推理,发现各类教学活动数据间的关联性、变化趋势以及一般性的概括知识,以这些信息再开发所得的知识来指导高校教学管理和决策活动,可以更科学、更合理地进行管理和决策,有利于教学活动有序、正常地进行。
通过本文的研究,从理论和实践上提供一套有效的方法和工具,为高校全面进行数据仓库、数据挖掘的研究与开发提供参考。
[1]邵峰晶,于忠清编著.数据挖掘原理与算法[M].北京:中国水利水电出版社,2003,08.
[2]符开耀,朱文湘,朱建军.关联规则分析及其在教务管理系统中的应用[J].微计算机信息,2007,28(7):692-695.
[3]查东辉,胡致杰.数据挖掘在高校教务及科研管理中的应用[J].科技管理研究,2009(4):109-110.