C4.5决策树法在网络课程知识点个性化设计中的应用

2012-12-22 07:03马伟杰
河南广播电视大学学报 2012年3期
关键词:决策树增益数据挖掘

马伟杰

(郑州航空工业管理学院 计算机科学与应用系,河南 郑州 450015)

C4.5决策树法在网络课程知识点个性化设计中的应用

马伟杰

(郑州航空工业管理学院 计算机科学与应用系,河南 郑州 450015)

决策树是归纳学习和数据挖掘的重要方法,通常用来形成分类器和预测模型。对网络课程知识点个性化设计中的大量数据,运用数据挖掘算法中的决策树C4.5算法对所给数据进行处理,选取决策属性,构造决策树,提取分类规则,获取每一个知识点与不同类型的学生之间的关系。通过实验仿真发现,C4.5决策树算法取得了较为理想的分类预测效果。

C4.5算法;决策树;网络课程;知识点个性化

一、引言

学生对网络课程学习的个性特征差异主要表现在学生的专业基础、学习兴趣、学习倾向、课程知识点的类型、知识点难易度及学习材料的呈现方式等。如何根据学生对课程学习的个性特征差异发现课程知识点之间的联系并生产相应个性化学习环境,是一项重要研究课题。为此,笔者针对课程知识点个性化设计中的大量数据,运用数据挖掘算法中的决策树C4.5算法对所给数据进行处理,选取决策属性,构造决策树,提取分类规则,从而获取每一个知识点与不同类型的学生的关系。

二、C4.5决策树算法

C4.5算法是构造决策树分类器的一种有效算法,并最终可以形成产生式规则。C4.5算法的输入是一张关系表,由若干不同的属性及若干数据元组(称为训练样本)组成。属性分为两部分:一部分作为判定对象属性(判定树中的非叶节点),另一部分作为分类对象属性(判定树中的叶节点)。C4.5算法采用信息熵的方法,比较各个判定对象属性的信息增益率的大小,选择信息增益率最大的属性进行分类,递归生成一个判定树。

设|S|为训练集S的样本总数,共有m类样本Ci(i=1,2,3,…,m),|Ci|为类Ci中的样本数,设Pi=|Ci|/|S|是任意样本属于Ci的概率,训练样本分类属性的总信息熵E(S1,S2,…,Sm)的计算公式为:

设属性A具有v个不同值{a1,a2,…,av},可以用属性A将S划分为v个子集{S1,S2,…,Sv},其中Sj包含S中这样一些样本,它们在A上具有值aj(j=1,2,…,v)。设|Sij|为Si类中Cj的样本数,以属性A为分类所需的期望熵E(A)的计算公式为:

属性A相对于类别集合的信息增益Gain(C,A)的计算公式为:

属性A相对于类别集合C的信息增益率GainRatio(C,A)的计算公式为:

上述描述中,假设对象属性的值是离散的。如果对象属性的值是连续的,则要经过离散化处理,首先寻找该连续型属性的最小值MIN和最大值MAX,再设置区间[MIN,MAX]的m个等分断点Ai(i=1,2,…,m),分别为:

分别计算把[MIN,Ai]和[Ai,MAX](i=1,2,…,m)作为区间时的信息增益值Gain([MIN,MAX],Ai),并进行比较,选取信息增益值最大Ak的作为该连续属性的断点,把属性值设置为[MIN,Ak]和[Ak,MAX]。

C4.5算法是一个循环、递归的过程,核心部分的描述如下:

/*参数:R表示判定对象属性,C表示目标属性,S表示训练集*/

三、C4.5算法在高校奖学金评定中的应用

1.学习者模型及课程知识点属性。

表1 数据转换后的课程知识点信息特征集(部分)

中国现代远程教育标准体系 《学习者模型规范CELTS-11》为教育研究者提供了规范化的学生模型和数据,该规范指出学习者模型要包括个人信息、学业信息、偏好信息和绩效信息等4个部分。其中个人信息是指学习者的基本注册信息,如学号、姓名、性别、出生日期、联系方式等;学业信息是指学习者的专业、年级、学习计划等信息;偏好信息主要是记录学习者在学习方面的偏好情况,如对学习材料媒体呈现形式的偏好,对教师的讲授方式的偏好,对课程知识点学习方式的偏好等;绩效信息主要是指学习者的学习效果。因此,被挖掘的课程设计知识点属性主要由以下几个部分组成:知识点编号(CNo),知识点类别(CNType)(A.概念、B.原理、C.事实、D.问题、E.技能),知识点难度(CNDD)(A.容易、B.一般、C.难、D.很难),知识点掌握程度(CNGD)(A.识记、B.理解、C.应用、D.分析、E.综合、F.评价),知识点学习材料呈现方式(CNEM)(A.纯文本、B.图像、C.声音、D.视频),知识点讲授方式(CNTeach)(A.单纯理论讲解、B.结合实例讲解),知识点学习方式(CNLearn)(A.自学、B.合作学习、C.先自学后听课),绩效(CNAC)(A.熟练掌握、B.基本掌握、C.基本了解)等。

2.数据准备与预处理。

数据来自2008、2009级计算机科学与技术专业108名学生对 《计算机网络》课程第3章至第9章共117个教学知识点,共5322条学习反馈信息。经过数据预处理后,共有5220条记录。为了后面对建立好的决策树模型进行评估预测,预留1/3的记录作为测试数据,2/3的记录数据作为建立决策树模型的训练集。具体的数据信息如表1所示。

表1中的决策属性有CNType、CNDD、CNGD、CNEM、CNTeach和CNLearn,类别属性为CNAC,类别属性的取值有3个:熟练掌握、基本掌握和基本了解。

3.构造决策树。

数据预处理后,开始归纳决策树,此过程使用数据预处理得到的训练集。根据前述的C4.5算法,将属性 CNType、CNDD、CNGD、CNEM、CNTeach和CNLearn作为算法的对象属性,将属性CNAC作为目标属性,利用信息增益率的定义将属性进行排列,具有最高信息增益率的属性选作给定集合的测试属性。创建一个根结点,并以该属性标记,对属性的每个值创建分支,然后递归建树,可构造一棵决策树,算法具体处理过程如下:

训练样本数据集S中,共有3480个元组,其中类别属性(属性值熟练掌握、基本掌握和基本了解)每个属性值所对应的子集中元组个数分别为S1=1135,S2=1170,S3=1175。为了计算每一个决策属性的信息增益,首先利用公式计算集合S分类的总信息熵:

然后计算每一个决策属性的期望信息熵。

对属性“知识点讲授方式”,知识点讲授方式=单纯理论讲解

因此“知识点讲授方式”的信息增益为:

属性“知识点讲授方式”的信息增益率为:

同理得到属性 “知识点类别”、“知识点难度”、“知识点掌握程度”、“知识点学习材料呈现方式”、“知识点学习方式”的信息增益律分别为:

由于属性“知识点难度(CNDD)”具有最大的信息增益率值,故而选择该属性作为决策树的根节点。对于每一个分支,重复上述步骤生成决策树。如图1所示。因篇幅有限,只画出第一层次单位的决策树。

4.分类规则提取。

从决策树中提取熟练掌握、基本掌握和基本了解的规则。分类规则如下:

①if CNType=“A”and CNDD=“A”and CNGD=“C”and CNEM=“A”then CNAC=“A(熟练掌握)”。也就是说,如果知识点类型为“概念”、知识点难度为“容易”、知识点掌握程度为“应用”、知识点呈现方式为“纯文本”,则学习效果为“熟练掌握”。

②if CNType=“C”and CNDD=“B”and CNGD=“C”and CNEM=“D”and CNTeach=“B”then CNAC=“B (基本掌握)”。也就是说,如果知识点类型为“事实”、知识点难度为“一般”、知识点掌握程度为“应用”、知识点呈现方式为“视频”、讲授方式为“结合实例讲解”,则学习效果为“基本掌握”。

③if CNType=“E”and CNDD=“D”and CNGD=“E”and CNEM=“C”and CNTeach=“A”then CNAC=“C(基本了解)”。也就是说,如果知识点类型为“技能”、知识点难度为“很难”、知识点掌握程度为“综合”、知识点呈现方式为“声音”、讲授方式为“单纯理论讲解”,则学习效果为“基本了解”。

由以上规则可以看出,网络学习者要想获得较为理想的学习效果,网络课程开发者在进行知识点个性化设计时,知识点类型应该以“概念”为主、知识点应该容易一些、多采用纯文本方式去呈现知识点。

四、结束语

在目前网络教育成为构建终身学习体系,普及与提高全民素质的重要手段和途径的同时,将数据挖掘理论中的决策树算法引入网络教育核心的网络课程的设计中,对网络课程中知识点的数据进行分析,以实现对知识点个性化设计的目的。实验表明应用此数据挖掘算法构造简单、能正确分类,处理速度较快。

[1]云玉屏,林克正.C4.5算法在冠状造影数据处理中的应用[J].计算机工程与应用,2008,(10).

[2]尹帮治,谢鲲.高校奖学金评定系统的设计研究[D].大连:大连理工大学,2008.

[3]邹竞,鄢创辉.决策树C4.5算法在课程知识点个性化教学中的应用[J].长江大学学报,2010,(9).

[4]宋晖,张良均.C4.5决策树法在空气质量评价中的应用[J].科学技术与工程,2011,(7).

[5]吴陈,林炎钟.C4.5算法在高校教师评价中的应用研究[J].信息技术,2010,(1).

[6]David Baron.Style System Overview[DB/OL].http://www. mozilla.org/newlayout/doc/style-techtalk.html,2002-06.

[7]邵兴江.数据挖掘在教育信息化中的应用空间分析[EB/OL]. http://www.Zjedu.org/xdjyjs/107/64781thm,2008-01-08.

[8]李楠,段隆振,陈萌.决策树C4.5算法在数据挖掘中的分析及其应用[J].计算机与现代化,2008,(12).

Application of C4.5 Algorithm on Personalized Knowledge Points of Web-based Course Decision

Ma Weijie
(Zhengzhou Institute of Aeronautic Industry Management,Zhengzhou,Henan,450015)

Decision tree is an important method of data mining and inductive learning and usually used to form classification and prediction model.The large amounts of data of Personalized knowledge points of Web-based Course decision,used the C4.5 decision tree algorithm to process,select decision attributes,construct a decision tree,classify rule extraction so as to obtain the relationship of knowledge points and students.Through the experiment discovery,the results of experiments demonstrated that C4.5 decision tree algorithm can obtain good results of classification.

C4.5 algorithm;decision tree;web-based course;personalized knowledge points

TP312.8

A

1671-2862(2012)03-0108-03

2012-02-15

郑州航空工业管理学院教育教学科学研究基金项目(项目编号:2010103003)。

马伟杰,男,河南郑州人,硕士研究生,研究方向:网络环境下的数据挖掘技术(Web Mining)。

猜你喜欢
决策树增益数据挖掘
基于增益调度与光滑切换的倾转旋翼机最优控制
探讨人工智能与数据挖掘发展趋势
基于单片机的程控增益放大器设计
一种针对不均衡数据集的SVM决策树算法
基于Multisim10和AD603的程控增益放大器仿真研究
决策树和随机森林方法在管理决策中的应用
基于并行计算的大数据挖掘在电网中的应用
基于决策树的出租车乘客出行目的识别
一种基于Hadoop的大数据挖掘云服务及应用
基于肺癌CT的决策树模型在肺癌诊断中的应用