数据挖掘技术在高职院教学评价中的应用研究

2013-12-29 00:00:00董琳
电脑知识与技术 2013年10期

摘要:在高职院校教学管理中,教学质量评价是核心内容,正确的评价能有效地促进教学质量的提高。传统的教学质量评价还停留在简单的统计、备份和查询阶段,并没有对这些数据进行深入的分析,影响理解教学质量的深层次的原因。对教学评价的数据进行分析,并对教学评价本身的方法进行研究,对教学质量有着重要的意义。该文探讨了数据挖掘相关技术与粗糙集的基本理论,同时介绍了数据挖掘的常用工具,得出数据挖掘技术适合用于教学评价研究的结论。

关键词:教学评价;数据挖掘;粗糙集

中图分类号:TP391 文献标识码:A 文章编号:1009-3044(2013)10-2382-02

在我国高等职业教育迅猛发展的今天,教育质量是学校的“生命”和“灵魂”,它不仅关系着学校的生存和发展,也直接影响着学生的前途和命运,提高教学质量是高等教育永恒的话题。而与教学质量相关的教学质量评价问题也将成为一项非常重要的工作,教学质量评价是构成高等学校教学活动的基础,是保证高等学校人才培养质量的基本环节[1]。

1 高职院教学评价现状

目前,高职院校教学评教通常由学校教务处在期末将教师教学质量评估表发给学生,也有通过网上评教,学生根据评估表中的项目对教师进行打分,综合专家督导和同行评价听课后的评价得分,经学校教务处统计后排名或根据分数确定一个考核等级。这些评教方式对于教学改革和教学质量的提高起到了一定的作用,但是目前还存在一些亟待解决的问题[2]。综观我国高职院校教育教学评价实践的现状,虽然近十几年来受到各方面人士的重视,并取得了初步的发展,但总体评价工作科学性尚欠,评价研究的水平亦很低,这主要表现在以下几个方面:

1)对教育教学评价的意义,教育教学评价在教育过程、教育管理中的作用还缺乏应有的认识,许多评价活动尚处于初级水平,对教师教学水平的评价无论在理论研究还是在实际工作中都还不多,且所定项目和指标缺乏理论依据和科学性;

2)在评价理论方面,教学科研力量较强的师范院校与研究机构缺乏必要的理论储备,在评价理论研究方面发挥的作用有失期望,而从事实际教育评价的人员许多未受到测量与评价方面的系统训练,故评价研究难以深入持久;

3)在评价技术手段的开发和应用上比较落后。尽管在运用模糊数学方法进行教育教学评价方面取得了一些进展,但大多数评价工作还是借鉴国外现成的技术手段,在技术手段的开发上尚无创造性的成果;

4)在评价工作的组织上缺乏统筹规划,没有一支有效地组织力量,来开展教学评价[3]。

2 数据挖掘技术的相关研究与常用工具

数据挖掘(Data Mining,DM),从知识科学的角度上可以看成是知识发现(Knowledge Discover in Database,KDD),还可以理解成就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的但是可以潜在地存在非常重要的知识或用途[4]。目前数据挖掘广泛用于人类各方面的应用研究中。

2.1 数据挖掘技术的相关研究

2.1.1 分类方法

数据挖掘方法有多种分类方法,可根据挖掘的任务、挖掘的对象、挖掘的方法来分类[5]。

根据数据挖掘的任务分,有如下几种:分类或预测模型数据挖掘、数据总结、数据聚类、关联规则发现、序列模式发现、依赖关系或依赖模型发现、异常和趋势发现等等[5]。

根据数据挖掘的对象分,有如下若干种数据源:关系数据库、面向对象数据库、空间数据库、时态数据库、文本数据源、多媒体数据、异质数据库、遗产(legacy)数据库,以及Web数据源。

根据数据挖掘的方法分,可粗分为:统计方法、机器学习方法、神经网络方法和数据库方法。统计方法中,可细分为:回归分析(多元回归、自回归等)、判别分析(贝叶斯判别、费歇尔判别、非参数判别等)、聚类分析(系统聚类、动态聚类等)、探索性分析(主元分析法、相关分析法等)、以及模糊集、粗糙集、支持向量机等。机器学习中,可细分为:归纳学习方法(决策树、规则归纳等)、基于范例的推理CBR、遗传算法、贝叶斯信念网络等。神经网络方法,可细分为:前向神经网络(BP算法等)、自组织神经网络(自组织特征映射、竞争学习等)等。数据库方法主要是基于可视化的多维数据分析或OLAP方法。

2.1.2 分类技术

利用数据挖掘进行数据分析常用的方法主要有分类、回归分析、聚类、关联规则、特征、变化和偏差分析、Web页挖掘等,它们分别从不同的角度对数据进行挖掘。

分类(Classification)在数据挖掘中是一项非常重要的任务,目前在商业上的应用非常广泛。分类是指通过分析已知的数据,构造模型,该模型可以用来对未知的数据做预测,判定其目标值(离散或连续值)[6]。分类和回归统称为预报:描述某类数据集约模型或预测数据在变化趋势。只是分类预测的是分类标号(离散的,有限的数值),而回归预测的是连续值。

分类是一个两步的过程,第一步,建立一个分类模型,通常分类模型以分类规则、判定树或数学公式的形式提供。而本文研究的决策树算法就是建立一个决策树的分类模型。第二步,使用模型进行分类。将分类模型应用到测试数据集上,评估模型的预测准确率。如果认为分类模型的准确率可以接受,就可以用它对类标号未知的数据集进行分类。

2.1.3 分类算法

分类算法是数据挖掘算法中很重要的一种,主要分类算法有决策树算法、关联规则分类算法、K近邻分类算法、贝叶斯分类算法和基于模糊逻辑、遗传算法、粗糙集和神经网络的分类算法。

1)决策树分类算法。决策树归纳是经典的分类算法,也是在数据挖掘技术中常用到的算法,大多数决策树算法都采用自顶向下递归的分治方式构造决策树。决策树的每一个结点上使用信息增益度量选择测试属性。算法的原理是从生成的决策树中得到分类规则。具有分类速度快、效率高、理解性好等特点,可以用于分析数据,也可以用来做预测,因此,它在人工智能、数据挖掘、机器学习等领域被广泛地应用。

2)最近距离算法。KNN(K-Nearest Neighbor)法即K最近邻法[7],该算法的理论十分严密可靠,而且KNN方法的分类思路也非常容易理解,可以理解成如果一个样本在特征空间中的K个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,那么该样本可以看成属于这个类别。由于KNN分类算法十分简单,可以应用十分广泛。KNN方法虽然从原理上也依赖于极限定理,但在类别决策时,只与极少量的相邻样本有关。因此,采用这种方法可以较好地避免样本的不平衡问题。另外,由于KNN方法主要靠周围有限的邻近的样本,而不是靠判别类域的方法来确定所属类别的,因此对于类域的交叉或重叠较多的待分样本集来说,KNN方法较其他方法更为适合。

3)支撑向量机算法。支持向量机(Support Vector Machine)也称SVM法[8],该算法由Vapnik等人于1995年提出,该方法是建立在统计学习理论基础上的机器学习方法。具有广泛用处,支持向量机的基本思想是,对于一个给定的具有有限数理训练样本的学习任务,如何在准确性(对于给定训练集)和机器容量(机器可无错误地学习任意训练集的能力)之间进行折衷,以得到最佳的推广能力[9]。

2.2 常用的数据挖掘工具

数据挖掘工具根据其适用的范围可分为专用挖掘工具和通用挖掘工具。专业挖掘工具,如IBM公司的AdvancedScout系统针对美国职业篮球联赛的数据进行挖掘的工具。通用数据挖掘工具不区分具体的数据含义,采用通用的挖掘算法,处理常见的数据类型。下面介绍几款优秀的通用数据挖掘工具软件。

1) QUEST。QUEST是IBM公司中的一个项目中心为实现OS而开发的一个多任务数据挖掘系统,一般用于决策系统的支持。

2) SAS Enterprise Miner。SAS Enterprise Miner在资料探勘工具市场是非常杰出的工具,它运用了SAS统计模块的力量和影响力,且它增加了一系列的资料探勘算法,SAS使用它的取样、探测、修改、模式、评价(SEMMA)方法提供可以支持广泛的模式,包含合并、丛集、决策树、类神精网络、和统计回归 SAS Enterprise Miner适用于初学者及专业使用者,它的GUI接口是以资料流为导向,且它容易了解及使用,它允许分析师采用由使用连结连接资料节点及程序节点的方式建构视觉数据流程图,除此之外,接口还允许程序码直接嵌入资料流因为支持多重模式。

3)决策树算法平台Clementine(SPSS)。Clementine是SPSS所发行的一种资料探勘工具,它结合了多种图形使用者接口的分析技术,包含neural networks、association rules、及rule-induction techniques,这些工具提供容易使用的可视化程序环境来执行这些分析功能。Clementine使用图形象征的方法,就是透过托拉鼠标和连接屏幕上的功能节点,这些节点提供了data access、data manipulation、data visualization、machine learning以及model analysis,模式的组成是从一个pallet中选取合适之节点,并放置在屏幕上再连接各节点Clementine有强大的资料存取能力包含flat file及关系型数据库(经由ODBC),Clementine也可让modeling的结果持续的写回到ODBC的DBMS输入资料的操作包含配对合并及衍生新字段的能力,Clementine的可视化能力包含散布图、平面图及Web分析。

3 数据挖掘技术在教学评价中的应用研究

教学评价首先的任务是有科学合理的分析手段,建立数据挖掘模型,并将其应用到高职院校教学评价中,同时应尽量减少人为因素的干扰,该文提出基于粗糙集理论的方法,对教学评价中的属性进行权重的重新调整,对后面的教学评价决策树算法的正确性具有互补的效果。虽然基于决策树的数据挖掘方法在商业领域的应用已经取得了一定成效[11],但是在教育领域的应用仍然不多。建立基于决策树的数据挖掘模型,并将其应用到高职院校教学评价中,可以从大量的评教数据中发现影响学生、专家、同行评教结果的关键因素,分析教师教学行为和教学效果之间的关系,从而发现规律,为教学管理服务,本课题具体有如下三个方面的现实意义:

3.1 有利于正确评价教师的教学业绩

多年来,在高职院校教师教学水平的评定,没有一个科学合理的测评方法,测评结果不尽合理,达不到预期的效果。通过数据挖掘方法,建立科学可行的教学质量评价指标体系,通过专门负责部门测评,就可以对教师教学质量有个准确的价值判断,从而教学等级也可以作为硬指标,使得对教师的奖励晋升都有凭可依。

3.2 诊断教学问题,推动教学改革

通过教学评价,教师可以了解自己的教学目标确定得是否合理,教学方法、手段运用是否得当,教学的重点、难点是否讲清,从而调整教学策略,改进教学措施,有针对性地解决教学中存在的各种问题。评价不仅是对教师教学工作状况做出价值判断,而且对教学改革提出明确要求,引导广大教师树立正确的教学观、质量观和人才观,明确对自己的要求和努力方向,促使教师尽快转变教育教学思想,改革优化教学过程,发挥主动性、创造性,推动教改向正确的方向前进。

3.3 指导教学管理,提高教学质量

教学主管部门对教师的教学质量进行科学地评价,以及用科学的手段收集、分析处理所获得的资料,找出教学质量好的教师所具备的几种特征,反馈到学校教学的管理层,管理者就能够及时正确地采取主动有力措施进行指导、发挥管理功能,进而对其他老师的教学起借鉴作用,使教学工作质量得到提高。

参考文献:

[1] 连卫民.基于数据挖掘的高职高专教学评估应用研究[D]. 郑州:郑州大学,2007.

[2] 刘晓霞.数据挖掘技术在高校教学中的应用[J].实践与经验,2008,6(2):43-45.

[3] 范明,孟小峰.数据挖掘概念与技术[M].北京:机械工业出版社,2007.

[4] 翁宇.数据挖掘技术在高职教学质量评价中的应用[D].广州:华南理工大学硕士论文,2010.