冷泳林
(渤海大学 辽宁 锦州 121001)
学生评教作为衡量高校教学质量的重要手段之一,已经在全国各高校普遍应用。评教产生的数据被反馈给教学管理部门,并将其作为教师绩效考核和评职的依据之一,教学管理部门并没有对评价对象本身与评教结果间隐含的信息进行深入挖掘。数据挖掘技术作为一种新兴的先进的数据分析工具,正被广泛应用在各个领域[1-4]。基于数据挖掘技术的教学质量评教系统也进行了较多的研究[5-7],但对评价结果的分析及应用方面研究较少。基于此,文中使用真实的评教样本,利用决策树经典ID3算法对评教对象与评教结果之间的关系进行深入研究构造决策树,从中挖掘出有用的信息,并将研究结果运用于实际,为教学管理者提供了更多的参考数据。
数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的,但又是潜在有用的信息和知识的过程,是知识发现的重要步骤。它是由数据库、概率统计、人工智能等学科相融合而形成的一门交叉学科。数据挖掘过程一般包含如下几个步骤:
1)数据清理与集成,收集到的原始数据存在杂乱、重复和不完整性特征,因此我们要通过该步骤清除数据噪声和与挖掘主题明显无关的数据,得出需要分析的数据集合;
2)数据选择与转换,其作用就是将数据转换为易于进行数据挖掘的数据存储形式;
3)数据挖掘,它是知识挖掘的一个基本步骤,其作用就是利用智能方法挖掘数据模式或规律知识;
4)模式评估与表示,其作用就是根据一定评估标准从挖掘结果筛选出有意义的模式知识,并利用可视化和知识表达技术,向用户展示所挖掘出的相关知识。
决策树就是一个类似流程图的属性结构,其中树的每个内部节点代表对一个属性(取值)的测试,其分支就代表测试的每个结果;而树的每个叶节点就代表一个类别。构造决策树的基本算法是贪心算法,它以自顶向下递归的各个击破方式构造决策树。一种著名的决策树算法是J.R.Quinlan的ID3算法,算法的基本策略如下:
1)创建一个节点。如果样本都在同一类,则算法停止,把该节点改成树叶节点,并用该类标记。
2)否则,选择一个能够最好的将训练集分类的属性,该属性作为该节点的测试属性。
3)对测试属性中的每一个值,创建相应的一个分支,并据此划分样本。
4)使用同样的过程,自顶向下的递归,直到满足下面的3个条件中的一个时就停止递归。
设S是s个数据样本的集合。假定类标号属性具有m个不同值,定义 m 个不同类 Ci(i=1,2,…,m)。 设 si是类 Ci中的样本数。对一个给定的样本分类所需要的期望信息由下式给出:
其中,pi是任意样本属性Ci的概率,并用si/s估计。
设属性A具有v个不同值的属性{a1,a2,…,av}。可以用属性 A 将 S 划分为 v 个子集{S1,S2,…,SV};其中,Sj包含 S 中这样一些样本,它们在A上具有值aj。如果A选作测试属性(即最好的分裂属性),则这些子集对应于由包含集合S的节点生长出来的分枝。
设sij是子集Sj中类Ci的样本数。根据由A划分成子集的熵或期望信息由下时给出:
在 A 上分枝将获得的编码信息是 Gain(A)=I(s1,s2,…,sm)-E(A)
Gain(A)称为信息增益,它是由于知道属性A的值而导致的熵的期望压缩。具有最高信息增益的属性选作给定集合S的测试属性。创建一个节点,并以该属性标记,对属性的每个值创建分枝,并据此划分样本。
文中所使用的数据以作者所在学院学生评教系统中的数据为基础,将教师的基本信息表和评教结果表合成后形成如表1所示的原始数据表。在原始数据表中根据数据挖掘的基本步骤首先对数据表中的数据进行数据清理和集成,生成78条有效记录;其次由于数据表中工作年限和评教得分为数值型数据,因此需对这两个属性进行数据转换即离散化处理,工作年限字段按8,17划分成a、b、c 3个阶段,评教得分按90,60分为优秀、及格和不及格3段,离散化的数据如表2所示。
对离散化的数据进行分类统计后得到各属性样本分布表如表3所示。
表1 原始数据Tab.1 Original data
表2 离散化数据Tab.2 Discretization data
表3 样本分布表Tab.3 Sample distribution table
根据上述数据预处理得到的数据源,其中S=78,4个属性分别是学历、工作年限、职称和评教得分,根据评教得分的不同取值{优秀,及格,不及格},将样本分成3个不同的类(即m=3)。设类 C1对应于“优秀”,类 C2对应于“及格”,类 C3对应于 “不及格”, 则 S1=59,S2=16,S3=3,P1=59/78,P2=16/78,P3=3/78,因此计算出评教得分所需的期望信息为:
下面计算每个属性的熵:
1)学历
对于学历为“本科”:s11=44,s21=12,s31=3,P11=44/59,P21=12/59,P31=3/59
对于学历为“研究生”:S12=15,S22=4,S32=0,P12=15/19,P22=4/19,P32=0/19
如果样本按“学历”划分,对一个给定的样本分类所需的期望信息为:
因此,这种划分的信息增益是:
Gain(学历)=I(s1,s2,s3)-E(学历)=0.016
同理可计算:
2)工作年限
Gain(工作年限)=I(s1,s2,s3)-E(工作年限)=0.068
3)职称
Gain(职称)=I(s1,s2,s3)-E(职称)=0.081
经过比较,职称属性具有最高的信息增益,可以得出决策树的第一层节点为职称,然后建立第一层节点。其它节点依次类推,直到所有的属性值都已经访问过,就完成了决策树的建立。
当创建决策树时,由于数据中的噪声和孤立点,许多分支反应的是训练集中的异常,因此必须对决策树进行剪枝.剪枝是一种克服噪声的基本技术,同时它也能使决策树得到简化而变得更容易理解。ID3算法的剪枝有两种策略:预先剪枝和后剪枝。预先剪枝法是在生成决策树过程中,选取一个适当的阈值,但该阈值的选取是困难的,如果阈值过高,会导致决策树过分简化,而较低又会使决策树剪枝太少。后剪枝法是在生成一个完整的决策树后减去分支。本文采用后剪枝法对生成的决策树进行剪枝后得到如图1所示的决策树。
图1 剪枝后的决策树Fig.1 Decision tree pruning
从图1生成的决策树分析,可以挖掘出以下几类信息:1)影响教学质量分类的主要因素是职称,职称越高其教学质量越好。2)职称是助教,同时学历为本科,由于工作时间短且学历低,教学质量优秀所占的比例少,由此反映出这一部分教师需提高自身的学历和知识储备,多学习,多听课不断完善自己。3)讲师、副教授属于教学中的骨干力量,所占人数最多,由此也反映出学历、职称与教学质量成正比的关系。因此这一部分教师应作为教学中的主力,充实到教学一线,而且多帮助年轻教师。4)该部门教师学历为研究生的教师工作年限主要集中在a和b段,c段学历不高,为提高部门的综合竞争能力,该部分教师也应该在允许的范围内提高自己的学历。
利用ID3算法对学生评教数据和教师的基本信息集成后生成决策树并对其进行分析,从中找出影响教师评教结果的因素,为教学管理部门提供决策支持的依据,对于提高教师的整体教学效果有很大的帮助。
[1]刘美玲,李熹,李永胜.数据挖掘技术在高校教学与管理中的应用[J].计算机工程与设计,2010,31(5):1130-1133.
LIU Mei-ling,LI Xi,LI Yong-sheng.Application of datamining in university teaching and management[J]. Computer Engineering and Design, 2010,31(5):1130-1133.
[2]余腊生,李强.数据挖掘在质量管理系统中的应用研究[J].计算机工程与设计,2010,31(10):2327-2334.
YU La-sheng,LI Qiang.Research on application of data mining in quality supervising and management system[J].Computer Engineering and Design,2010,31(10):2327-2334.
[3]叶明全,武长荣,胡学钢.基于粗糙集的医疗数据挖掘研究与应用[J].计算机工程与应用,2010,46(21):232-234.
YE Ming-quan,WU Chang-rong,HU Xue-gang.Research and application on medical data mining based on rough sets[J].Computer Engineering and Design,2010,46(21):232-234.
[4]王伟辉,耿国华,陈莉.数据挖掘技术在保险业务中的应用[J].计算机应用与软件,2008,25(3):123-125.
WANG Wei-hui,GENG Guo-hua,CHEN Li.Application of data mining to insurance business[J].Computer Applications and Software,2008,25(3):123-125.
[5]王佳欣,王旭辉.基于数据挖掘的网络评教系统[J].河南工程学院学报:自然科学版,2009,21(3):50-52.
WANG Jia-xin,WANG Xu-hui.Teaching evaluation system through network based on data mining[J].Journal of Henan Institute of Engineering:Natural Science Editon,2009,21(3):50-52.
[6]郭晓利,郭平,冯力.基于数据挖掘技术的教学质量评价系统的实现[J].东北电力大学学报:自然科学版,2006,26(3):70-73.
GUO Xiao-li,GUO Ping,FENG Li.Implementation of data mining technology in analysis and appraisal system of teaching quality[J].Journal of Northeast Dianli University Natural Science Edition,2006,26(3):70-73.
[7]付海艳,符谋松,张诚一.粗糙集理论在高校教学质量评价分析中的应用[J].计算机工程与应用,2007,43(36):214-216.
FU Hai-yan,FU Mou-song,ZHANG Cheng-yi.Application of rough set theory to instruction quality evaluation and analysis[J].Computer Engineering and applications,2007,43 (36):214-216.