数据挖掘技术在教学中的应用研究

2013-04-26 03:22刘志妩
沈阳理工大学学报 2013年2期
关键词:结点决策树分支

刘志妩

(沈阳理工大学信息科学与工程学院,辽宁沈阳 110159)

随着海量数据收集、强大的多处理器计算机和数据挖掘算法三种基础技术的发展成熟,数据挖掘技术在商业及电子商务应用中已经大量投入使用。目前随着高等教育改革的不断深入,数据挖掘技术正在向该领域发展。

高等教育的重点是提高教育质量,为社会培养具有综合素质的复合型人才。而提高学生成绩是衡量教学质量的主要依据之一,也是评价学生对知识的掌握程度的重要标志之一,因此,通过对学生成绩进行预测分析,可以为教学管理者深化教学改革,合理安排教学计划,提高教学质量提供重要依据。

数据库系统虽然可以高效地实现数据的录入、查询和统计的功能,但却无法发现海量数据中隐藏的关系和规则。而采用数据挖掘技术,可以从海量数据中发现隐藏的知识和规律。

各学校多年来积累了大量的学生成绩数据,将数据挖掘技术应用于成绩预测分析,可以对其进行全面分析,找到潜在的影响学生成绩的因素,使教学管理者可以得到许多有价值的信息和知识,并利用其提高教学质量和教学管理水平。

目前数据挖掘技术在教学领域中的应用在逐渐增多,例如将数据挖掘技术用于学生综合排名的分析[1],有的用于试卷分析[2],也有用于学生的文理分科的分析[3]。

本文主要研究用数据挖掘中的决策树算法,对学校的学生成绩数据进行数据挖掘,建立学生成绩的预测分析模型及分类规则,力求找到基础课、专业基础课及专业课之间潜在的联系,并用实例进行验证。

1 决策树C4.5算法

1.1 决策树方法

决策树方法是利用信息论中的互信息(信息增益)寻找数据库中具有最大信息量的属性字段,建立决策树的一个结点,再根据该属性字段的不同取值建立树的分支。每个分支子集中重复建立树的下层结点和分支的过程[4]。采用决策树,可以将数据规则可视化,不需要长时间的构造过程,实际应用中的决策树可能很复杂,但每一条从根结点到叶结点的路径的含义仍然是可以理解的。决策树的这种易于理解性,对于数据挖掘的使用者来说是一个显著的优点,因此决策树方法在知识发现系统中应用较广泛。

决策树是通过一系列规则对数据进行分类。该方法的思路就是从训练集数据中,自动地构造决策树,从而可以根据这个决策树对任意实例进行判定。决策树可分为分类树和回归树两种,分类树对离散变量做决策树,而回归树是对连续变量做决策树。决策树算法的核心是确定分支准则,即如何从众多的属性中选择一个最佳的分支属性。

最早的决策树算法是由Hunt等人[5]于1966年提出的概念学习系统CLS(Concept Learn System),CLS的不足之处是它处理的问题不能太大,为此Quinlan于1986年提出了ID3算法,ID3只能处理离散型描述属性,Quinlan于1993年又提出了能处理连续属性的C4.5算法。C4.5算法是ID3的改进算法,不仅可以处理离散型描述属性,还能处理连续型描述属性[5]。本文根据需求确定分析目标,采用C4.5算法建立决策树分析模型和分类规则,很好地对学生成绩进行预测分析。

1.2 决策树C4.5算法

决策树C4.5算法用信息增益比作为选择根结点和各内部结点中分支属性的评价标准,克服了ID3算法使用信息增益选择属性时偏向于取值较多的属性的不足。其处理数据的过程如下。

1)元数据预处理

通过ETL将所有的元数据转换成数据仓库,如果元数据是连续型,则应离散化处理。

2)算每个属性的信息增益和信息增益率计算过程如下:

(1)计算每个训练集分类信息的期望值

设训练数据集为T,在T中类别标识属性有m个独立的取值,即定义了m个分类Ci,i=1,2,3,...,m,Ri为数据集 T 中属于 Ci类的子集,ri是Ri中元组的数量,则T在分类中的期望信息量可由式(1)计算。

(2)计算属性A的信息熵

假设属性A具有n个不同的取值{a1,a2,…,an},则通过属性A的取值将数据集T划分为n个子集,其中Tj表示在数据集T中属性A的取值为aj(j=1,2,…,n)的子集,如果 A 被选为决策属性,则这些子集将对应该结点的不同分支。

用 Tij表示 Tj子集中属于 Ci(i=1,2,3,…,m)类的元组数,则属性A对于分类Ci的熵可由式(2)计算。

属性A的每个取值对分类Ci的期望信息量计算如下:

(3)计算属性A的信息增益

属性A为分类提供的信息量就是属性A的信息增益,由式(4)计算:

(4)计算信息增益率

信息增益率定义如下:

必须用式(5)对每个属性(A,B,C,…)计算增益率。

3)构造决策树

信息增益率是选择决策树分裂属性的基础,拥有最大增益率的属性将被选择作为决策树的分支属性。将要构建决策树的训练集T,按照计算的增益率划分成n个子集。如果第i个子集Ti中所有的元组类别相同,该节点将成为决策树的叶结点,并停止分裂。训练集T中不符合上述条件的其它子集将继续递归分割构造树的分支,直到所有的子集中的元组属于同一类别。生成决策树后,可以从树中提取规则,用于对新的数据集进行分类。

2 实例分析

2.1 学生成绩的元数据

以学校的工业电气自动化专业学生一些课程成绩数据为例,通过数据挖掘分析,找到各科成绩的内在联系,从而有的放矢,提高学生的整体学习质量。学生成绩数据库包含学生序号(SNO),和某些主要课程的分数。例如:电工基础(记为FEE)、电机与拖动(记为EMD)、自动控制原理(记为ACP),自动控制系统(记为ACS)和高等数学(记为HM),部分数据列于表1。

2.2 数据预处理

为了便于进行数据挖掘,对表1中的数据进行规范化,将小于60分的成绩用0表示,大于等于60分的成绩用1表示,结果将表1转换为一个数据只有0和1的表。

从所有学生数据中抽样作为数据训练集,共有210条记录。其中各科及格人数和不及格人数统计如表2所示。

表1 学生成绩表 分数

表2 各门课成绩统计 人数

2.3 用C4.5算法构造决策树

表2显示了样本训练集中,含有基于课程的五个分类,在每个类别中,根据成绩的及格与否将学生人数分为两个子集。

课程ACS(自动控制系统)被选为类别标识属性,其余课程作为决策属性集。构造决策树的目的是发现课程ACS(自动控制系统)与其它课程的内在联系。

训练数据集中包含210个元组,其中ACS(自动控制系统)所对应的子集中的元组数为:及格人数r1=137,不及格人数r2=73。

为了计算每个决策属性的信息增益,首先要计算课程ACS(自动控制系统)的期望信息量如下:

进一步统计,其它作为决策属性的任一课程与标识属性课程ACS的成绩搭配情况,例如课程HM(高等数学)成绩及格(为1)且课程ACS(自动控制系统)成绩也及格(为1)的人数为110人,HM(高等数学)成绩及格(为1)且ACS(自动控制系统)成绩不及格(为0)的人数为52人,HM成绩不及格(为0)且ACS成绩及格(为1)的人数为27人,HM 成绩不及格(为0)且ACS成绩也不及格(为0)的人数为21人。其它课程成绩与课程ACS的成绩搭配情况,列于表3。而其它任两门课程成绩与标识属性课程ACS的成绩搭配情况列于表4。其中只列出EMD(电机与拖动)和FEE(电工基础)两门课成绩与ACS成绩的搭配情况。

表3 两门课程的成绩搭配情况

表4 三门课程的成绩搭配情况

按式(4),得决策属性HM的信息增益为

按式(5),可得决策属性HM的信息增益率为

用同样的方法,可以对其它决策属性进行信息增益和信息增益率的计算。计算结果列于表5。

表5 各门课程的信息增益和信息增益率

由表5结果可知,决策属性FEE(电工基础)的信息增益率最大,因此将该属性选作决策树的根结点,并且因为FEE属性只有两种取值:0(不及格)和1(及格),所以,从该结点可以分裂出两个分支:一支为不及格(记为:分支0),另一支为及格的(记为:分支1)。由表3搭配4的数据可见,FEE和ACS都及格的人数为108人,占FEE及格人数(125人,参见表2)的比例为

108/125=0.864

它表示分支1的估计准确率为86.4%,满足设置的80% 的标准,因此分支1可以停止分裂。

在分支0中,FEE不及格人数为85人(见表2),FEE和ACS都不及格的人数为60人,准确率为70.59%,不满足要求,因此需要进一步分裂。

为确定下一个分支结点,用上述方法计算除根结点之外的另三个属性的信息增益率,结果显示,属性EMD具有最大的信息增益率,因此它被选择为根结点的分支0的下一个分支结点。

面对种种似是而非的说法,很多人无法弄清真相。应该说,这不是老师们的问题。因为语文本色教学,不管怎样系统全面,不管怎样立足实际,它还只是一个教学主张,而不是具体的教学方法。为了推动语文课程改革的深入,也为了更好地满足教师实践本色语文教学主张的需要,我们必须总结出能体现语文本色教学主张的教学方法。

同样属性EMD也有两个取值0和1,所以也分裂为分支1和分支0。由表4可以看到,在FEE和EMD都不及格的学生中,有18人ACS成绩不及格,有3人ACS成绩及格,所以在EMD的分支0上,ACS不及格的估计准确率为 18/21=85.7%。分支0满足预先设定的标准,可以停止分裂。

在表3中也可以看到,在FEE不及格且EMD及格的学生中,有52人ACS成绩及格,12人不及格,因此在EMD结点的分支1上,ACS及格的估计准确率为:52/64=81.3%,分支1满足预先设定的标准,也可以停止分裂。则所构造的决策树如图1所示。

图1 学生成绩决策树

图1中,结点X为电工基础(FEE),结点Y为电机与拖动(EMD),结点 Z1为自动控制系统(ACS)及格,结点Z0为自动控制系统(ACS)不及格。

2.4 分类规则描述

决策树算法的主要优势就是可以用来直接抽取分类规则。对于图1的决策树从根结点到每个叶结点的路径用IF…THEN的形式描述分类规则。这里仅以ACS属性提取的分类规则描述如下:

IF电工基础成绩及格THEN自动控制系统成绩通常也及格,准确率为86.4%,学生人数的覆盖率为125/210=59.5%。

IF电工基础成绩不及格 并且电机与拖动成绩也不及格THEN自动控制系统成绩通常不及格,准确率为85.7%,学生人数的覆盖率为21/210=10%。

IF电工基础成绩不及格,但电机与拖动成绩及格THEN自动控制系统成绩一般及格,准确率为81.25%,学生人数的覆盖率为64/210=30.5%。

因此,可以得出结论:学生的电工基础课程学习的情况会严重影响到专业课自动控制系统的学习效果。学生的电机与拖动课程学习的情况也会影响到专业课自动控制系统的学习效果。因此,要使学生学好专业课自动控制系统,必须重视电工基础课程教学效果。那些电工基础课不及格的学生,必须重视电机与拖动课程的学习,才能在自动控制系统课程上取得好成绩。

3 结束语

本文采用决策树C4.5算法,对学生的基础课、专业基础课及专业课成绩进行分析,提出了提高学生的自动控制系统专业课程成绩的决策树模型,从而有助于教师有针对性的开展教学改革,提高授课质量。实验表明,应用该算法,构造的决策树结构简单,分类基本正确。本文是使用数据仓库和数据挖掘技术在教学管理领域的一个尝试,仍有一些问题需要进一步研究和探索。

[1]杨宇音,赵雅明,曲立敏.因子分析法在大学生综合排名中的应用[J].贵州大学学报(自然科学版),2011,34(1):10 -13.

[2]赵雅明,金祥林,刘志勇.因子分析法在试卷分析中的应用[J].数理统计与管理,2005,14(专刊):94 -97.

[3]武丽芬.改进的决策树算法在文理分科中的应用研究[J].微计算机应用,2011,32(8):7 -12.

[4]陈志泊,韩慧,王建新.数据仓库与数据挖掘[M].北京:清华大学出版社,2009:111-125.

[5]廖开际,刘凤英,胡建军.数据仓库与数据挖掘[M].北京:北京大学出版社,2008:167-173.

[6]王倩.决策树在信息检索中的性能研究[J].微计算机信息,2008,1(3):201 -208.

猜你喜欢
结点决策树分支
基于八数码问题的搜索算法的研究
一种针对不均衡数据集的SVM决策树算法
巧分支与枝
决策树和随机森林方法在管理决策中的应用
Ladyzhenskaya流体力学方程组的确定模与确定结点个数估计
一类拟齐次多项式中心的极限环分支
基于决策树的出租车乘客出行目的识别
基于肺癌CT的决策树模型在肺癌诊断中的应用
基于Raspberry PI为结点的天气云测量网络实现
生成分支q-矩阵的零流出性