基于粗集理论的教学评估关联规则挖掘研究

2015-12-15 21:59王爱侠
教育教学论坛 2014年53期
关键词:关联规则

王爱侠

摘要:通过关联规则挖掘找出影响教学质量的因素及教学过程中存在的问题,可以有的放矢,以提高教学质量。以某校教学管理系统中的教学数据为案例,基于粗集理论通过数据预处理、属性约简、关联规则挖掘,进行教学评估关联规则挖掘,并对挖掘出的真正有趣的关联规则进行了分析,收到了良好的效果。

关键词:粗集;关联规则;离散化;属性约简

中图分类号:G642.0 文献标志码:A 文章编号:1674-9324(2014)53-0096-03

一、前言

粗集理论(Rough Set Theory,简称RST)是由波兰华沙理工大学Z.Pawlak教授在1982年提出的一种处理模糊和不确定性知识的新型数学工具,是一个具体的数据挖掘技术,其作为人工智能和知识发现的一种实用技术,运用到生产和生活中的各个方面。粗集理论核心思想是在保持分类能力不变的前提下,通过知识约简,导出问题的决策或分类规则[1,2]。而教学质量评估指标体系优化的基本思想[3]是在保证对被评估对象评价基本一致的情况下,选择最少、最合理的评价指标,以便降低维数、减少冗余,使评估工作量和不确定性影响因素减少到最低程度,粗集理论中的属性约简方法能很好地解决这个问题。从高校教学管理系统数据库中的原始数据出发,通过将数据库中的连续属性离散化,利用粗集理论属性约简进行教学评估关联规则的挖掘。

二、基于粗集理论的教学评估关联规则挖掘

基于粗集的知识理论不需要预先给定某些特征或属性的数量,可从现有的数据出发给出知识的简化和相对简化,基于粗集理论的教学评估关联规则挖掘,整个挖掘过程分为三步:数据预处理、属性约简、关联规则挖掘。

1.数据预处理:通过对初始数据进行清洗,缺失值处理,转换及数据选择,获取初始信息表,对初始表离散化转换为粗糙集形式,明确条件属性集和决策属性。

2.属性约简:对条件属性进行约简,删除多余属性,用属性约简算法完成求核和约简,生成约简属性集。

3.关联规则挖掘:根据数据约简结果,将粗集理论的属性约简应用到关联规则挖掘中,对规则进行抽取和约简;输入加权支持度阈值和置信度阈值,进行规则的过滤,对规则进行相关性分析,减少伪规则。

基于粗集理论的教学评估关联规则挖掘结构图如图1所示。

三、教学评估关联规则挖掘核心实现

(一)教学评估关联规则挖掘数据预处理

数据挖掘成功与否,数据准备至关重要,是实现数据挖掘应用的前提。数据准备内容:一是从多种数据源中综合数据挖掘所需要的原始资料,保证数据的综合性、易用性以及数据的质量和时效性;二是如何从现有数据中衍生出所需要的指标。以某校教学管理系统中获取的课程信息、教师信息、教师评教信息、学生信息等为研究对象,根据数据挖掘的目的,筛选数据,在上述信息中选取适用的信息,建立数据源表,将数据源表中的源数据结构按一定的数据变换规则,将年龄、工作量、科研工作量、成绩、评教分数分别变换成年龄段、工作量段、科研工作量段、成绩等级、评教等级。

利用“等区间”离散化方法[4]对挖掘的数据进行离散化。将评价指标中的出生日期、性别、学历、职称、工作量、科研工作量、课程名称、课程类别、学生入学成绩、学生在校成绩分别记作a、b、c、d、e、f、g、h、i、j,且出生日期即年龄,有青、中、中老、老四个阶段,以符号1、2、3、4记,即a={青、中、中老、老}={1、2、3、4},同理性别b={男、女}={1、2},学历c={博士、硕士、本科、其他}={1、2、3、4},职称d={教授、副教授、讲师、助教}={1、2、3、4},工作量e={未满、满、超}={1,2,3},科研工作量f={未完成、完成、超}={1,2,3},对课程名称离散数学、汇编语言程序设计、算法与数据结构、微型机系统与接口等,分别以g1,g2,g3,g4,…,gn进行编码,课程类别h={公共基础课、专业基础课、专业核心课、专业方向课}={1、2、3、4},学生入学成绩i={优良、中、及、差}={1、2、3、4},学生在校成绩j、j'={优良、中、及、差}={1、2、3、4},其中j、j'为前面所述所有课程g1,g2,g3,g4,…,gn的各科成绩和平均成绩,评价目标评教分数以k表示,且评教分数k={好、较好、一般、差}={1、2、3、4},建立评价决策表,共有85个样本数据,其中评价目标为1、2、3、4的样本数据分别是24、30、17、14。

(二)属性约简

将85个样本数据存储在SQL Server数据库中,用VB语言编写基于分辨矩阵和属性重要性的属性约简算法程序,最终得出最优或次优约简{a,c,d,e,j,j'},根据这6个指标重新建立决策表,如表1所示,求得评价目标“好”的下近似中有24个对象,上近似中有24个对象;“较好”的下近似中有28个对象,上近似中有32个对象;“一般”的下近似中有15个对象,上近似中有19个对象;“差”的下近似中有14个对象,上近似中有14个对象。具体结果见表2。整个决策表分类质量和分类精度分别为91.0%和95.3%,这表明其余4个指标从教学质量评估体系中去掉,对最终的评价结果影响不大。

(三)教学评估关联规则挖掘

表1是经过属性约简后得到的一个新表,但不能将表中每一记录作为最终规则。

1.规则的抽取、约简和过滤。利用规则抽取和约简算法对表1中的每一规则进行属性约简,以删去规则中的冗余属性。但经过规则约简后,产生的规则仍然较多,在此采用“加权支持度—置信度”的统计过滤框架对规则进行再度过滤。设给定加权支持度和信任度分别为5%和40%,指定属性的权重集w={年龄,学历,职称,工作量,成绩}={0.1,0.25,0.25,0.2,0.2},挖掘出24条规则,部分规则如表3教学评估关联规则表。endprint

2.规则的关联度分析。通过规则抽取和过滤得到的教学评估强关联规则不一定是有趣的规则,还必须要考虑规则的兴趣度,兴趣度指的是规则的真实相关性,无趣规则是指一些无用的伪规则。通过对教学评估强关联规则进行相关性分析,尽可能减少伪规则的出现,提取真正有趣的规则。强关联规则的相关性分析定义:在规则X1∧X2∧…∧Xm?圯Y1∧Y2∧…∧Yn中,用相关系数评价规则前件和后件的相关性,相关系数为corr(X1∧X2∧…∧Xm),(Y1∧Y2∧…∧Yn),即corr(X1∧X2∧…∧Xm),(Y1∧Y2∧…∧Yn)=■

(1)if corr<1,则前件和后件是负相关的;

(2)if corr>1,则前件和后件是正相关的;

(3)if corr=1,则前件和后件是独立的。

对于负相关的规则,规则的前件与后件的出现概率是互逆的,此类规则不符合客观逻辑,应该删除;对于规则的前件和后件是独立的情况,表明这样的规则也是无趣的;而对于前件和后件是正相关的规则,是用户要选择的有趣的规则。通过对挖掘出的24条规则进行关联度分析得出它们的相关性系数都大于1,所以都是真正有趣的关联规则。

四、教学评估关联规则分析及应用

通过得到的关联规则,可得到如下的分析结果及改进措施。

1.学生的考试成绩等级与学生的评教等级存在着较高的关联性,考试成绩等级为优良以上,评教等级大多为较好以上,考试成绩等级为及格,评教等级大多为差或一般,据此可得出,学生的成绩与学生对教师的评教结论成正比,表明学生对教师的评教结果是真实的,通过学生的成绩,可以看出教师的教学质量。

2.在实际教学中,教师可根据学生某门或某几门课的成绩预测该学生其他课程的成绩,使教学工作有的放矢。如由学生《汇编语言程序设计》课程的成绩可对学生进行适当的分类,作为微型机系统与接口的任课教师。已知学生甲的汇编语言程序设计成绩优良,可预测学生甲的微型机系统与接口成绩优良,在教学中可对学生甲提出更高要求;已知学生乙的汇编语言程序设计成绩较差,可预测学生乙的微型机系统与接口成绩较差,在教学中可给学生乙较多的帮助。这样,对不同类的学生采取不同的培养方式有利于学生的成长。

3.中老、老年教师,其所教授的课程,学生的评价较高;而中、青年教师,学生的评价大多为一般,在一定程度上说明年龄越大,积累的教学经验越丰富,授课的效果就越好,学校可以有针对性地制定中、青年教师培养机制,利用“传、帮、带”的方式,使中、青年教师在中老、老年教师言传身教的影响下,不断积累教学经验,提高教学质量。

4.学历高的教师教学效果比较好,但由规则6加权支持度很低说明紧缺具有博士学位的教师,而由规则5加权支持度很高说明具有硕士学位的教师占很大比例。学校应采取措施,外引内培,提高具有博士学位的教师在整个教师体系中的比重。

5.职称高的教师教学效果比较好,同样由规则8、9加权支持度比较低说明紧缺具有教授、副教授职称的教师,学校也应采取措施,外引内培,提高具有教授、副教授职称的教师在整个教师体系中的比重。

6.年龄、学历、职称与教学效果的关联性受学生成绩、工作量的影响。学生成绩对年龄、学历、职称与教学效果的关联性的影响已在第1点中说明,通过学生的成绩,可以看出教师的教学质量;由规则4、7、10可知,工作量太大会影响教学质量,所以应合理安排教师的课时量,使教师的教学工作量控制在合理的范围内。

五、结语

通过关联规则挖掘找出影响教学质量的因素及教学过程中存在的问题,有的放矢以提高教学质量。金陵科技学院是一所新建应用型本科院校,目前紧缺具有博士学位、教授和副教授职称的教师,所以学校应加大力度,外引内培,逐渐提高具有博士学位、教授和副教授职称的教师在整个教师体系中的比重,以不断提高教学质量。

参考文献:

[1]Pawlak Z.Rough Set[J].International Joumal of Computer and Information Science,1982,11(5).

[2]史月美.基于粗集理论的关联规则挖掘研究[D].太原:山西大学,2006.

[3]周庆敏,殷晨波.课堂教学质量评估指标体系整体优化方法[J].理工高教研究,2006,25(2).

[4]周艳聪.基于粗集理论的连续属性离散化及规则提取技术研究[D].天津:河北工业大学,2004.endprint

猜你喜欢
关联规则
基于关联规则的数据挖掘技术的研究与应用
数据挖掘在超市大数据中的应用