◎董萍
(三门峡职业技术学院信息传媒学院,河南三门峡472000)
基于数据挖掘的教务管理系统的设计与实现
◎董萍
(三门峡职业技术学院信息传媒学院,河南三门峡472000)
教务管理系统中含有大量有待挖掘的有用信息,在大力提倡科教兴国的今天,这些信息对学院更好地制定学生培养计划具有重要的指导意义。对教务管理系统进行了全面剖析,通过在该系统中的具体实践和运用,对关联规则以及聚类分析等数据挖掘的方法进行了探索,实现了一个实用的教务数据挖掘系统。
数据挖掘;教务管理;关联规则
随着高等学校招生规模的不断扩大和信息技术的不断发展,各高校都建立了能提高教学和管理水平的教务管理系统,但由于存在众多的教务数据,原系统缺乏综合分析和辅助决策的能力,因此需要借助数据挖掘技术对其进行分析挖掘有价值的信息,达到为决策者服务的目的。
1.1 基本概念
数据挖掘是将大量的数据转换为具有潜在价值、可供人们理解的信息和知识的过程,其本质是在已有的若干信息中挖掘规律[1]。数据挖掘技术能帮助人们从浩如烟海的数据中提取出高质量的信息和减轻工作负担,给数据和信息之间的鸿沟架设方便之桥。
1.2 数据挖掘的流程
数据挖掘包括确定选择数据对象、数据准备、数据挖掘、分析和同化几个过程[2]。其中,选择数据对象是数据挖掘的重要一步;数据准备主要是对数据质量进行分析,消除噪声数据和不一致数据,本阶段包括数据的选取、数据预处理、数据的转换三个步骤;数据挖掘是核心步骤,主要是指选择最优算法和技术对转换的数据进行挖掘;分析和同化阶段主要体现的是对挖掘出的模式进行分析,供用户理解,并将分析的结果集成到挖掘的组织结构中。
1.3 分析方法
数据挖掘的方法主要是关联分析和聚类分析。其中关联分析[3]是数据挖掘中的一种主要挖掘技术,关联规则挖掘是从大量数据中挖掘出有价值的、描述数据项之间相互联系的有关知识,侧重于发现数据库或数据仓库记录之间有趣的关联性或者相互关系,根据这种关联性就可从某一记录的属性信息来推断其他记录的属性信息[4]。聚类分析是一种“物以类聚”的方法,是数据挖掘技术中的重要组成部分,该方法按照属性值把一组对象划分成一系列有意义的子集的描述性任务,在数据中发现令人感兴趣的分布模式[5]。
数据预处理主要是对包含有噪声、不完整、不一致数据的处理,一般需要用掉挖掘过程中70%的工作量。数据挖掘依赖于经过良好组织和预处理的数据源,数据源的好坏直接影响着数据挖掘,因此数据预处理过程是一个非常重要的阶段和步骤。
2.1 基本概念
为更好地提高知识发现的起点和知识的准确度,保证数据挖掘的精确性,使用者在对数据进行挖掘前需要对其进行数据预处理工作。
数据预处理方法有数据清洗、数据集成、数据变换三个方面。在对三门峡职业技术学院教务数据进行数据预处理阶段,需要对数据进行集成、变换和特殊情况的处理。
2.2 教务数据预处理的实施
在对教务成绩、教师教学质量分别进行关联、聚类分析前,必须对我们所需要的数据进行选取,这是一个非常重要的工作。如果没有准确的数据,就不能挖掘出正确的结论。从学院教务管理学生成绩数据库和教师教学质量数据库中,根据设计需要,形成关联分析数据库,然后选择分析算法,进行关联、聚类分析。
以三门峡职业技术学院教学评价数据为例,进行预处理。其过程是从原始数据表中获取数据,对获取的不符合要求的数据信息进行清理,并导出能够做数据关联的字段,对原始数据中的量化属性进行概化,转换为离散属性。然后删除冗余字段,只保留属性概念分层最底层的属性项,对学院教师的评价结果进行分析汇总。
3.1 需求分析
该系统是一种融合管理科学、信息科学、系统科学和计算机技术为一体的综合性先进管理手段,具有手工管理所无法比拟的优点,能够极大地提高教务管理的效率。
学院教务数据主要存储在关系型数据库中,该系统对数据的分析处理功能仅存在于收集教学管理过程中的数据以及和教学、管理有关的基础数据,对这些数据信息缺乏分析能力。
如何为决策者准确的评估教学、得出科学的分析结果,并将其转化为可以量化的教学优势是摆在高校面前亟待解决的问题。通过对三门峡职业技术学院教务管理系统的分析,提出了基于数据挖掘的教务管理系统模型的设计实现目标:
学院学生成绩的关联性分析。学生在学习各类课程的过程中存在着很多的关联性,对其关联性分析是为了通过学生对各门课程的学习掌握情况,更好地进行教学改革﹑设置专业课程,从而为学院培养适应社会需求的人才做好准备。
学院教师教学质量的聚类分析。三门峡职业技术学院的教务管理系统,针对学生方面的评教指标,每学期诸位学生要对其授课教师的教学方法、教学手段、教学资源等方面进行综合评价,但若简单地根据学生对相关任课教师的评价结果来反映该教师受学生的欢迎程度,我们认为并不全面。因此通过对学院教师的教学质量的挖掘,其主要目的是了解教师的受欢迎程度及教学质量效果好的教师所具备的基本教学素质是什么。同时通过对教师评价数据库系统的分析,获取影响教师教学水平的相关信息。
3.2 系统的总体设计
3.2.1 系统开发工具
本研究所使用的挖掘工具为该平台提供的商业智能软件包:SQL Server Analysis Services (SSAS),它是SQL Server中一整套的决策支持引擎和工具,是从SQL Server中的OLAP Servers发展来的,主要包括OLAP和数据挖掘功能。使用SSAS可以很方便地创建复杂的数据挖掘解决方案,SSAS工具提供了设计、创建和管理数据挖掘模型的功能,并且使客户端能访问数据挖掘数据。SQL Server引入了数据挖掘功能,可自动发现在大量数据之间隐藏的关系并可基于历史数据做出预测,将这些数据挖掘功能实施于教务管理系统中,对今后的教学起到促进作用。并且该数据库系统具有稳定性能高、规模大、操作性能强的优点。
3.2.2 系统体系结构
本论文的研究是在三门峡职业技术学院已有的教务管理系统平台上进行的,该平台经过几年的投入使用,已经形成基本的框架。本系统基本管理模式是以教务管理决策部门为控制中心,对所涉及的所有数据进行集中统一的管理,其他部门作为工作站,在主管部门的授权下可以对数据进行录入、修改、查询、统计、打印等操作。
基于数据挖掘的教务管理系统采用基于Web的客户、服务器、数据库三层体系架构。该系统按照应用分为用户界面、事务逻辑、数据服务三层。其中用户界面层主要是使用基于Java的脚本JSP技术进行开发,负责输入和输出工作;事务逻辑层主要是使用基于Java的用来执行复杂计算任务的软件组件的JavaBean,该软件负责与数据库的交互以及数据提取;数据服务层负责实际的数据存储和检索,通过JD访问教务中的所有数据库,并将结果存放在能显示的挖掘结果数据库中。教务管理系统主要功能及体系结构如图1所示。
源数据库存储来自教务管理系统不同功能模块中的数据;数据预处理主要对数据进行过滤、集成、选择、转换等操作,提供满足我们需要的数据,以方便数据的统计分析和挖掘;专题数据库用于存储经预处理后的数据,可以数据库的形式存在,为数据分析做准备;在对学生成绩和教学质量进行数据分析过程中,可运用数据挖掘方法,从数据库中发现有用的信息;结果数据库主要存储经数据挖掘后以图形、图表等形式表示的挖掘结果;在结果分析与表示阶段,主要是对挖掘结果数据进行分析,把最有价值的信息提取出来,并以文字、图形或表格的形式通过评价信息反馈功能反馈给最终用户。
图1 教务管理系统主要功能及体系结构
教务管理系统是在关系型数据库管理系统环境下设计开发的,该系统除了收集、分析教务数据外,更重要的是对其进行挖掘分析,得出有益于提高教学水平和人才培养质量的有效数据。因此,使用关系型数据库管理系统实现教务管理具有实用意义。
3.3 系统的实现
通过对原有教务管理系统以及设计需求的研究与分析,本文在原有教务管理系统上设计了基于数据挖掘的教务管理系统并实现数据挖掘应用,主要功能是利用关联规则和聚类分析对教务数据进行挖掘,并将挖掘结果提供给教务管理人员及相关的教研室、教师,具体实现包括数据处理、数据挖掘。
3.3.1 数据预处理模块
高质量的决策依赖于高质量的数据,对数据进行挖掘之前,必须对其进行数据预处理。从当前教务管理系统的数据库中提取出学院学生在校学习期间的各种成绩数据存储在DataSet中,这个过程通过数据集成Bean实现。分析数据表之间的相互关系,对表中数据进行预处理,主要包括填充空值,删除对挖掘无用的属性,规范字段等,最终形成有用的数据表,这都是利用存储过程来实现。同时在对数据进行聚类分析的过程时,在数值化之前应先为已定义好的输入、输出属性指定聚类的数据类型。
数据预处理的基本步骤:
根据挖掘需要,从教务管理数据库中选择某学期学生基础课程和专业课程成绩及教师评价结果数据,并将它们存储到待挖掘的数据集中。根据各表间的关系,删除对我们挖掘无用的信息;统计学院学生学习基础课程人数形成jichukecount统计表;统计学院学生各类基础课程考试成绩平均值形成jichuavg;统计学院学生学习专业课程人数形成zhuanyekecount统计表;统计学院学生各类专业课程考试成绩平均值形成zhuanyeavg。数据预处理的实现界面如图2所示。
3.3.2 数据分析模块
通过数据处理模块已得到我们所需要的各类数据,在数据挖掘模块中,对这些数据应用关联规则和聚类分析实现对教务管理系统中学生成绩和教师教学评价结果的数据挖掘。
(1)成绩的关联规则挖掘
每学期期末考试结束时,授课教师需要在规定的时间录入学生成绩,录入成绩结束并提交后,系统对数据进行数据挖掘。使用关联规则算法对录入成绩的属性进行分析,计算出那些和成绩分析评估特征最为相关的属性,在形成关联规则后,评估分析学生成绩并进行规则的匹配。用户可根据需要利用关联规则算法对新录入的数据进行分析,形成新的关联规则。将关联规则的结果反馈给学院教务及各教研室人员,针对学生各课程成绩分析基础课与专业课的联系,并对成绩的不利因素做出相应的调整。在本模块中,采用JSP的客户端、SQL Server的数据库层、J2EE平台的JavaBean对系统进行开发。
图2 数据处理界面
图3 关联规则挖掘
图4 教学评价聚类分析界面
在数据库层中,学生成绩信息存放在成绩数据库中,里面包含了相关的成绩表。根据属性分析的方法和规则,对成绩属性信息进行筛选,采用属性泛化和属性消除两种方法进行属性消减工作,除掉那些与系统进行关联算法无关的属性,这样可以提高挖掘效率,不会造成因有重复项而影响关联规则的挖掘。
控制层完成连接数据库,并结合前文所介绍的Apriori算法和改进的Apriori算法实现成绩的关联分析,分析的最终结果存储在表示层。在模块中采用的主要数据类型是由利用数据库层中经过属性归纳后所获得的属性来进行操作的。同时为了挖掘基础课与专业课的联系,还需计算该课程对于不同教学班的及格与不及格人数、课程的平均分及不同分数段学生的人数。
成绩关联规则挖掘的基本步骤采取了生成事务集、设置最小支持度和最小可信度、将关联规则的结果与实际数据相结合进行输出三个步骤。在客户端显示层中,采用HTML和JSP文件对成绩的结果进行分析显示。学生成绩关联规则挖掘界面及结果显示如图3所示。
(2)教学评价聚类分析
教师教学评价聚类的基本步骤:
利用数据集成阶段生成的教学评价结果表进行聚类分析。设置聚类数目和聚类的记录个数,然后根据K-means算法对教师教学评价数据进行聚类分析,最后将聚类结果存储和显示。教学评价聚类界面及结果显示如图4所示。
教学评价时,首先将聚类个数、选择聚类的记录数传递给聚类Bean,对聚类按照K-means算法进行分析,结果以饼状图方式保存在聚类结果表中,以图片的方式输出至客户端,实现了图形显示。
论文主要就基于数据挖掘的教务管理系统设计的需求分析、总体设计进行介绍,重点介绍了数据预处理模块和数据挖掘模块的具体实现过程。在设计过程中采用数据挖掘技术对教务管理数据进行多层次、多角度的挖掘分析,形成知识库,并对教务管理人员的科学决策提供有力支持。通过对数据挖掘的关联规则、聚类分析挖掘方法在教务管理系统中的实践和应用,设计并实现了一个有实用价值的教务管理数据挖掘系统。
[1]董萍.关联规则在学生成绩中的数据挖掘[J].三门峡职业技术学院学报,2009,8(4):117-120.
[2]刘美玲,李熹,李永胜,等.数据挖掘技术在高校教学与管理中的应用[J].计算机工程与设计,2010(5): 1130-1133.
[3]杨琳,姜真.关联规则技术在教务管理中的应用[J].山东理工大学学报:自然科学版,2009,23(6):55-57.
[4]杨宏颖,罗桓.基于决策树的网络教学数据挖掘应用[J].电脑知识与技术,2010,06(10):2313-2314.
[5]朱彦松.基于贝叶斯网络推荐模型的教务选课系统应用研究[D].郑州:郑州大学信息工程学院,2009.
(责任编辑 卞建宁)
TP311.52
A
1671-9123(2015)01-0135-05
2014-11-05
河南省教育厅科学技术研究重点项目课题(14B520041)
董萍(1980-),女,河南淮阳人,三门峡职业技术学院信息传媒学院讲师。