基于C4.5决策树算法的网络学习行为研究

2016-10-31 21:32马伟杰
科教导刊·电子版 2016年23期
关键词:决策树学习策略增益

马伟杰

摘 要 网络学习行为研究,是网络教育研究的重要组成部分。采用先进的人工智能技术对网络学习者的行为特征进行智能评价和预测,成为一个新兴交叉研究领域。采用C4.5决策树算法构建网络学习者行为特征系统,挖掘行为特征和学习效果关系的历史数据,建立学习效果-行为特征智能评价模型。通过实验仿真发现,C4.5决策树算法取得了较为理想的分类预测效果。

关键词 C4.5算法 决策树 网络学习行为

中图分类号:TP311.13 文献标识码:A

0引言

网络学习系统以其开放的网络平台、多媒体数字化的学习资源、灵活自主的学习方式为人们提供了一种新型的学习平台,可以满足不同的学习者在不同的学习时间的个别化学习的需求。但大多数只是将教学资源放到了网络上,没有考虑到学习者的个性化特征。师生之间缺乏交流和反馈功能,教师难以对学生学习的过程进行控制,而学习者自己由于能力所限,也难以对学习过程进行自我控制,导致学习者信息迷航、情绪低下、学习热情衰减等问题,严重影响学习效果。因此,师生双方都迫切希望能够建立提供个性化的推荐和指导的学习系统。

个性化指导的本质就是根据不同学生的个性特征提供有针对性的服务。因此,其最基本也是最首要的问题就是如何对学生的行为进行分析,并从中挖掘学生的学习特征。学习者的个性特征直接影响着学习者的学习行为和学习效果。本文研究决策树方法的经典算法C4.5算法,将其应用于网络学习者的网络学习行为,建立数据挖掘模型,合理将网络学习者分类,进而改进网络学习系统的设计方案。

1 C4.5决策树算法

决策树是判断给定样本与某种属性相关联的决策过程的一种表示方法,从数据中生成分类器的一个特别有效的方法是生成一颗决策树,该方法广泛应用于数据挖掘和机器学习等领域,用来解决与分类相关的问题。决策树表示法是应用最广泛的逻辑方法。目前生成决策树方法的算法主要有三种:CART算法,ID3算法,C4.5算法。其中C4.5算法具有分类速度快且精度高的特点,是发展得比较完善的一种决策树算法。

C4.5算法是构造决策树分类器的一种有效算法,并最终可以形成产生式规则。C4.5算法的输入是一张关系表,由若干不同的属性及若干数据元组(称为训练样本)组成。属性分为两部分:一部分作为判定对象属性(判定树中的非叶节点);另一部分作为分类对象属性(判定树中的叶节点)。C4.5算法采用信息熵的方法,比较各个判定对象属性的信息增益率的大小,选择信息增益率最大的属性进行分类,递归生成一个判定树。

设|S|为训练集S的样本总数,共有m类样本Ci(i=1,2,3,…,m,),|Ci|为类Ci中的样本数,设Pi=|Ci|/|S|是任意样本属于Ci的概率,训练样本分类属性的总信息熵E(S1,S2,…,Sm)的计算公式为:

E(S1,S2,…,Sm)=-(pi*log2(pi))……………………公式(1)

设属性A具有v个不同值{a1,a2,…,av},可以用属性A将S划分为个子集{S1,S2,…,Sm},其中Si包含S中这样一些样本,它们在A上具有值aj(j=1,2,…,v)。设|Sij|为Si类中Cj的样本数,以属性A为分类所需的期望熵E(A)的计算公式为:

E(A)= (|S1j|+|S2j|+…+|Smj|)*E(S1j,S2j,…,Smj)/|S|……公式(2)

属性A相对于类别集合C的信息增益Gain(C,A)的计算公式为:

Gain(C,A)=E(S1,S2,…,Sm)€HaE(A)………………公式(3)

属性A相对于类别集合C的信息增益率GainRatio(C,A)的计算公式为:

GainRatio(C,A)=Gain(C,A)/E(S1j,S2j,…,Smj)……公式(4)

2 C4.5算法在个性化网络学习中的应用

2.1问题定义与数据预处理

网络学习行为的评定,一方面要根据网络学习者的的学习基础,同时还要结合每位学习者的具体表现和实际情况,包括学习动机、学习策略。根据学习者的学习基础、学习动机以及学习策略,建立C4.5决策树的分类预测模型,实现对网络学习行为特征进行评价。其实质是:运用C4.5算法进行数据挖掘,获得分类规律,即学习策略与学习行为特征之间的关系;推导出分类规则,即学习行为特征智能评价模型。文中网络学习行为数据的采集采用问卷调查与web服务器端日志获取两种方法,学习者的学习动机与学习基础采用问卷调查的方式来获得,学习策略通过web日志获取。

我们对计算机学院2013级210名学生2015-2016学年的《操作系统》网络课程的学习行为建立数据表,进行分析和处理。其中包括字段:学号、学习基础、学习动机、学习策略和行为特征。

对数据进行数据清洗、数据转换、数据集成、数据规约等技术,去掉数据集中的噪声和不相关的信息,将数据源的数据类型与值转换成统一的格式。

对行为特征等级属性作处理:根据实际情况,将行为特征划分为四种类型:

(1)变通型(用A表示):该类学生有着自主学习的经理和能力,自我管理和自治能力较强,在学习过程中可以不受学习固定路径的限制,自助选择学习的知识点进行学习;

(2)顺应型(用B表示):该类学生习惯于传统教育模式,但缺乏学习的积极性,在学习策略上无主见,主要取决于网络学习系统提供的学习策略和学习路径安排;

(3)补充型(用C表示):该类学生喜欢学习,对课程有兴趣,但基础差,若在学习策略上符合要求,能够按照既定的目标和路径学习;

(4)逆反型(用D表示):该类学生学习基础中等偏下,无学习动机,学习常常受外在动力的驱动。

定义学习基础:根据实际情况,将学习基础划分为优良、中等、差三等,其中优良表示问卷测试得分为介于80与100之间,中等得分介于60与79之间,差是低于60分。

定义学习策略:根据实际情况,将学习策略划分为合格、不合格两类。

定义学习动机:根据实际情况,将学习动机划分为强、中等和弱三类。

数据预处理完成后,得到数据转换后的网络学习者学习行为信息表,如表1所示。由于记录太多,表1仅显示部分记录。

我们随机抽取预处理后的数据(共210个数据)2/3的数据,即140个数据样本,作为C4.5算法的训练集,剩下的1/3的数据,即70个数据样本,作为测试集。

2.2构造决策树

数据预处理后,开始归纳决策树,此过程使用数据预处理得到的训练集。根据前述的C4.5算法,将属性学习策略、学习动机、学习基础作为算法的对象属性, 将属性行为特征作为目标属性,利用信息增益率的定义将属性进行排列,具有最高信息增益率的属性选作给定集合的测试属性。创建一个根结点,并以该属性标记,对属性的每个值创建分枝,然后递归建树,可构造一棵决策树,算法具体处理过程如下:

训练样本数据集中,共有140个元组,其中行为特征等级属性(属性值为A,B,C,D)每个属性值所对应的子集中元组个数分别为S1=26,S2=30,S3=50,S4= 34。为了计算每一个决策属性的信息增益,首先利用公式计算集合S分类的总信息熵:

E=(S1,S2,S3,S4)=E(26,30,50,34) =€Halog2€Halog2€Halog2€Halog2=1.035

然后计算每一个决策属性的期望信息熵 。

对属性“学习策略”,当学习策略=合格。

E=(S11,S21,S31,S41)=€Halog2€Halog2€Halog2€Halog2=1.234

当学习策略=不合格

E=(S12,S22,S32,S42)=€Halog2=0

由此得出学习策略的熵值

E(CL)=E(S11,S21,S31,S41)+E(S12,S22,S32,S42)=1.086

因此“学习策略”的信息增益为:

Gain(CL)=E(S1,S2,S3,S4)€HaE(TY)=0.059

属性“学习策略”的信息增益率为:

GainRatio(CL)=Gain(CL)/(S1,S2,S3,S4)=0.052

同理得到属性“学习动机”、“学习基础”的信息增一律分别为:

GainRatio(DJ)=0.049,GainRatio(JC)=0.041。

由于属性“学习策略”具有最大的信息增益率值,故而选择该属性作为决策树的根节点。对于每一个分支,重复上述步骤生成决策树。如图1所示。因篇幅有限,只画出第一层次单位的决策树。

2.3分类规则提取

从决策树中提取一等,二等,三等类的规则。分类规则如下:

(1)if学习策略=“合格” and 学习动机=“强” and 学习基础=“优良” then 行为特征为A;

(2)if学习策略=“合格” and 学习动机=“强” and学习基础=“中等” then行为特征为B;

(3)if学习策略=“合格” and 学习动机=“中等” and学习基础=“差” then 行为特征为C;

(4)if(学习策略=“合格”)or (学习动机=“中等” and学习基础=“差”学习基础=“差”)then 行为特征为D。

3结语

在目前都迫切希望能够建立提供个性化的推荐和指导的网络学习系统的情况下,引入数据挖掘理论中的决策树算法,对网络学习系统中网络学习者访问行为进行分析,建立网络学习行为特征模型。实验表明应用此数据挖掘算法构造简单、能正确分类,处理速度较快,有利于设计个性化的网络学习资源、适应性的学习过程、灵活的学习平台。

猜你喜欢
决策树学习策略增益
基于增益调度与光滑切换的倾转旋翼机最优控制
基于单片机的程控增益放大器设计
一种针对不均衡数据集的SVM决策树算法
基于Multisim10和AD603的程控增益放大器仿真研究
决策树和随机森林方法在管理决策中的应用
高中生数学自主学习策略探讨
基于决策树的出租车乘客出行目的识别
一种使用反向学习策略的改进花粉授粉算法
基于肺癌CT的决策树模型在肺癌诊断中的应用
基于微博的移动学习策略研究