模糊聚类最大树算法在教学质量评估中的应用*

2012-08-15 02:02卓景文李学俊赵志伟
网络安全与数据管理 2012年6期
关键词:数据挖掘聚类规则

卓景文 ,赵 鹏 ,李学俊 ,赵志伟

(1.安徽大学 计算智能与信号处理教育部重点实验室,安徽 合肥230039;2.安徽大学 计算机科学与技术学院,安徽 合肥230039)

教学管理是为了实现教学目标,按照教学规律和特点对教学过程进行的全面管理。通过不断改善影响学校教学质量的内部因素和外部因素,建立科学的评价体系来提高教学质量,达到最佳教学效果。

数据挖掘是从大量数据中提取或“挖掘”知识(即数据中的知识发现),并以这些知识为基础,自动做出决策和预测。数据挖掘已经应用于众多领域,如金融数据分析、零售业、信息检索等。随着信息技术的发展和高等教育体制改革的不断深入,高校实现了教育信息化,大大提高了工作效率。将数据挖掘技术应用于高校教务管理中,可以挖掘出重要的对决策或者预测有用的信息和知识,利用分析结果辅助教学,帮助教学管理者做出科学的决策。然而数据库或者数据仓库的容量越大,系统复杂性越高,相应的精确化能力就越低,也就是说模糊性越强,因而仅仅依靠复杂算法和推理并不能完全发现隐藏知识,因此,考虑将模糊数学、模糊逻辑和数据挖掘结合起来的模糊数据挖掘技术引入到教学质量评估中。

1 相关基本知识概论

模糊集是用来表达模糊性概念的集合[1]。

定义 1:设 X 为论域,x∈X,设A˜是论域 X 到[0,1]的一个映射,即A˜(X):X→[0,1],x→A˜(x),称A˜是 X 上的模糊 集,而 函数A˜(X)称为模 糊 集A˜的 隶 属 函 数 ,A˜(x)称 为 x对模糊集A˜的隶属度。

定义2:公式A→B的逻辑含义称为决策规则,A称为规则的前件,B称为规则的后件,它们表达一种因果关系。其中公式A中所包含的原子公式只有决策表中的条件属性,B中所包含的原子公式只有决策表中的决策属性。

2 基于模糊聚类最大树算法的模糊数据挖掘

聚类是一种无监督的学习过程,把具有类似属性的个体聚成一类。从聚类的角度出发,由于客观世界中大量存在着界限并不分明的聚类问题,模糊聚类应运而生。模糊聚类是基于模糊等价关系分类的,模糊等价关系往往由模糊相似矩阵产生。

定义3:假设有N个要分类的样本,记为集合X=(x1,x2,x3,…,xn),每个样本 有 m 个量 化指 标,记为 Y=(y1,y2,y3,…,ym),则可以列出样本-指标 原始数据矩阵M,其中xij表示第i个对象相应于第j个指标的数值[1]。

在教学质量评估中,评估对象的某些评估因子往往会带有一定程度的模糊性。所以用模糊理论来进行聚类分析,然后再进行模糊数据挖掘,依据挖掘结果进行预测,得到有利于领导决策的有用规则。基于模糊聚类最大树算法的模糊数据挖掘算法如下:

(1)由定义3确定聚类分析的对象,得到原始矩阵:

(2)由于采集到的数据往往不在[0,1]内,根据模糊矩阵的要求,通过下面两步将数据压缩到区间[0,1]上:

①标准差变换:

②极差变换:

(3)建立模糊相似矩阵。模糊相似矩阵用来描述样本之间的相关程度,即标出衡量被分类对象间相似程度的统计量 rij(i,j=1,2,…,n)。 设论域 U={u1,u2,u3,…,un},其中每个元素为一个样本,建立U上的模糊相似矩阵:

考虑到正确性原则、不变性原则和可区分性原则,使用绝对值倒数法[2]计算 rij,即:

其中c为相似系数,反映样本之间相对于某些属性的相似程度。

(4)聚类分析。常用的模糊聚类分析方法有三种:传递闭包法、最大树法和编网法。考虑到计算量,本文采用最大树算法进行模糊聚类。构造最大树的算法如下:

①将模糊相似关系矩阵中的rij由大到小排序:β1>β2>…>βh,其中 βk(k=1,2,…,h)为某 rij;

②以被分类的对象为顶点,依据模糊相似矩阵将关联程度为β1的顶点连接,并在相应的线段上标明β1,若在连接某两个顶点时出现回路,则不画此线;

③依次对 β2,β3,…,βk(k≤h)按照上步重复,直到所有顶点构成一个无向连通赋权图(不一定到h步),即得到最大树 G=(X,rij)。

(5)得到聚类结果。首先确定截割水平λ,然后根据λ值对最大树进行切割[3]。分别比较λ与最大树各边的权值之间的大小。当λ>rij时,将rij对应的边截断,这样剩余的并且还相互连通的顶点就构成一类。

3 模糊数据挖掘在教学质量评估中的应用

3.1建立教学质量评价指标体系

课堂教学质量测评工作是教学质量评估体系的重要组成,是加强教学管理、提高教学质量的重要手段。为使课堂教学质量、学生测评工作科学化和规范化,教务处制定了完善的课堂教学评价指标体系,其中第n条是整体评价。如表1所示。

3.2教学质量评价中的模糊数据挖掘

通过科学评估教师的课堂教学质量,为学校教学管理提供决策的信息与依据,促使形成一套较为完整的教学评价机制。每门课程的学生测评成绩(统计时自动剔除5%的最高分和最低分)由教务管理系统自动生成。教师的学期测评成绩为其该学期所承担的各门课程学生测评成绩的平均值。年度测评成绩为两学期的平均值。如教师只承担一个学期的课程,则以该学期测评成绩为其该年成绩。教师年度学生测评成绩以70%计入教师当年教学考核总评成绩。表2所示为我校10名教师的学生测评成绩。

表1 课堂教学质量评价指标表

表2 课堂教学质量评分数据表

对表2中的数据应用基于模糊聚类的最大树算法找出影响教学质量的主要因素。

(2)由于得到的原始矩阵不是模糊矩阵,先由式(1)进行标准差变换,再由式(2)进行极差变换后的矩阵即为模糊矩阵:

(3)由式(3)建立模糊相似矩阵 R7×7:

(4)由上一步得到的模糊相似矩阵 R7×7,按照算法步骤(4)最大树的构造算法建立的最大树如图1所示。

(5)从最大树中可以得出:当λ=1 时 , 分 为 7 类 :{n1},{n2},{n3},{n4},{n5},{n6},{n7}; 当 λ≥0.71 时 , 分 为 5 类 :{n1,n3,n7},{n2},{n4},{n5},{n6}; 当λ≥0.33 时 , 分 为 3 类 :{n1,n3,n7},{n2,n4,n5},{n6};当λ≥0.25 时,分为 2 类 :{n1,n3,n7},{n2,n4,n5,n6};当 λ≥0.18 时,分为 1 类:{n1,n2,n3,n4,n5,n6,n7}。 用 F-统 计量确定最佳划分阈值为 λ≥0.71,评价指标被分为{n1,n3,n7},{n2},{n4},{n5},{n6},对课堂教学质量评估数据应用最大树算法聚类得到 n1,n3,n7,即为影响课堂教学质量的关键评价指标集。

用基于模糊相似关系的规则获取方法可以进一步由关键评价指标集得到分类规则[4]。课程整体评价指标n的取值分为4类:优秀、良好、中等、及格,分别用m1、m2、m3、m4表 示 ,in表 示 编 号 为 n 的 教 师 ,m1={i1,i7,i9},m2={i2,i5,i8,i10},m3={i3,i4},m4={i6}。

对于表1中的评价指标属性评价结果数值划分为5个 区 间 , 分 别 为 y1:90~100 分 ;y2:80~89 分 ;y3:70~79分;y4:60~69 分;y5:小于 60 分。 得到关键评价指标集的评价结果划分为5个区间以后的数据如表3所示。

表3 关键指标集的评价等级划分表

基于关键评价指标集可将表3中的数据划分为7类 :k1={i7,i9},k2={i1},k3={i5,i10},k4={i2,i8},k5={i3},k6={i4},k7={i6}。

将 ki(i=1,2,…,7)作为条件,mi(i=1,2,3,4)作为结论,归纳总结可以得到如下规则:

规则 1:(n1=y1)∧(n3=y1)∧(n7=y1)⇒m1

规则 2:(n1=y2)∧(n3=y2)∧(n7=y2∨y3)⇒m2规则 3:(n1=y3)∧(n3=y3)∧(n7=y4∨y2)⇒m3

以上规则分析,当在教学过程中认真负责,遵纪守时,注重为人师表;教学中做到条理清晰,重点突出,语言生动,表述准确;教学中注意启迪思维,激发兴趣,联系实际,培养能力三条都≥90分时,教学质量整体评价一定为优秀;当这三个指标都为[80,89)分或者后一指标为[70,79)分时,教学质量整体评价一定为良好;当前两个指标为[70,79)分且后一指标为[80,89)或[70,79)分时,教学质量整体评价一定为中等。基于以上分析可以看出,上述三条标准为影响课堂教学质量的关键因素。总之教师在上课过程中要注意做到端正教学态度,授课中要有条理、重点突出、表述准确,另外教学过程不能忽略学生这个主体,要激发学生兴趣,培养其独立思考和解决问题的能力。

本文使用基于模糊聚类最大树算法的模糊数据挖掘发现教学质量评估数据库中教师课堂教学质量评估等级同评估指标之间的规则知识,依据该规则知识对挖掘结果进行有效的评价,并且在分析、预测方面有着很大的优势,从而帮助决策者做出决策。当然对于该教学质量数据挖掘来说,这只是一部分工作,如何进一步优化该系统是下一步研究的主要工作。

[1]刘琦,林怀忠,陈纯.模糊聚类的最大树算法在Web页面分类中的应用[J].计算机应用研究,2004,21(11):286-287.

[2]王新洲,舒海翅.模糊相似矩阵的构造[J].吉首大学学报(自然科学版),2003,24(3):37-41.

[3]Zhan Liqiang,Liu Daxin.Fuzzy clustering method for web user based on pages classification[J].Wuhan University Journal of Natural Sciences,2004,9(5):553-556.

[4]冯源.基于模糊相似矩阵与粗糙集的规则获取[J].太原师范学院学报(自然科学版),2008,7(1):26-30.

猜你喜欢
数据挖掘聚类规则
撑竿跳规则的制定
数独的规则和演变
探讨人工智能与数据挖掘发展趋势
基于K-means聚类的车-地无线通信场强研究
让规则不规则
基于并行计算的大数据挖掘在电网中的应用
基于高斯混合聚类的阵列干涉SAR三维成像
TPP反腐败规则对我国的启示
基于Spark平台的K-means聚类算法改进及并行化实现
基于改进的遗传算法的模糊聚类算法