ID3算法在教学过程中的应用

2011-01-23 09:25王和平
科学之友 2011年4期
关键词:决策树分类算法

庞 娜,王和平

(山西电力职业技术学院,山西 太原 030021)

ID3算法在教学过程中的应用

庞 娜,王和平

(山西电力职业技术学院,山西 太原 030021)

在教学过程中,不同的学生适应不同的教学方法,只有选择合适的教学方法才能达到事半功倍的效果。本文使用决策树算法中比较简单适用的ID3算法,通过使用训练数据计算信息增益从而选择分裂属性的次序,由此构建决策树,并将构建好的决策树应用于学生信息,对学生进行分类。

ID3算法;决策树;分裂属性;信息增益

教学其实也是一种艺术,有多种方法,目的只有一个,就是怎样很好的引导学生朝着他们想要达到的方向前进,这个过程很漫长,在这过程中要采用很多不同的方法来教育学生。但是不同的学生所适用的教学方法是不同的:理科类学生要很有条理的去思考问题,想办法解决问题;文科学生更多是通过感性的方式去理解事物;而工科的学生更多是通过实践或实验数据来解释某些现象。不同年龄阶段的学生所适用的教学方法也不同:低年级的学生要接受更多的新事物、新概念,在讲课时应更多使用图示、列表等形象的方法;高年级的学生已经掌握了一定的基础知识,就应更多的采用引导探究为主的方法,培养学生学习的积极性和主动性。此外性别因素对学生的学习方法也有影响:男同学的动手能力要强一些;而女同学则更擅长语言文字的表达。因此选择适当的教学方法可以在很大程度上提高学生的学习效率,达到因材施教,事半功倍的效果。要对不同类型的学生使用不同的教学方法,首先要根据不同学生的特点对其做适当的分类。

在求解分类问题的方法中,决策树是最有用的一种方法。一旦建好树,就可将其应用于数据库中的元组,并得到分类结果。使用决策树求解分类问题易于理解且高效,对大型数据库具有很好的扩展性。本文通过ID3 算法构建决策树,并将构建好的树应用于数据对学生进行分类。

1 决策树算法介绍

决策树学习算法是以实例为基础的归纳学习算法,通常用来形成分类器和预测模型,可以对未知数据进行分类或预测、数据预处理、数据挖掘等。决策树主要适用于对具有多个属性的数据进行分类。决策树算法在解决问题时主要分为两步:第一,构建决策树;第二,将决策树应用于数据。

1.1 数据采集

决策树构造的输入是一组带有类别标记的例子,构造的结果是一棵二叉树或多叉树。决策树中每个结点按属性进行标记,每个弧被标记为一个谓词,这个谓词可以应用于相应结点的属性,每个叶节点被标记为一个类。发生分裂的属性叫做分列属性,在构建决策树过程中首先要选择最佳分裂属性。影响学生的学习因素有很多,但是不能都作为分列属性,如性格和社会环境虽然也会影响学生的学习,但如果将其纳入分裂属性会使决策树过于复杂,不利于对数据分类。经过筛选我们选取年级、性别、科目作为分裂属性,由此构造决策树。

通过对数据库中学生信息数据进行转换、加载和处理,同时综合考虑影响学生学习的主要因素选取如表1样本数据集。

表1 用于学生分类的训练数据

表1中每一条记录表示一个学生的信息,每一列表示学生一方面的属性。其中性别、科目、年级作为分裂属性,对学生是否适应图形、图表演示的教学方法进行判断。

1.2 ID3算法的应用

在构造决策树的过程中哪个属性作为分列属性,以及分裂属性次序的选择会影响算法的性能。根据分列属性选择方法的不同有不同的决策树算法。常用的决策树算法有ID3算法,C4.5算法和C5.0算法等。C4.5和C5.0算法主要用于解决连续数据的分类问题。ID3算法则用于解决非连续数据的分类问题。学生的信息属于非连续数据,因此选用ID3算法。

要构建树必须选择分裂属性的次序,ID3算法根据每个分裂属性所产生信息增益的大小对其排序。

表1中共有18条记录,训练数据的初始状态为:适应演示教学法的占(10/18),不适应的占(8/18)。首先计算初始集合的熵为:如果选择科目作为分列属性,则文、理、工科均有6个学生,文科学生组成子集的熵为:

理科学生组成子集的熵为:

工科学生组成子集的熵为:

上述两个熵的加权和为:

因此,用科目作为分裂属性所得的信息增益为:

同样,分别选择年级、性别,作为分裂属性,所得到的信息增益分别是0.0526和0。因此选择年级作为第一分裂属性,接下来是科目,最后是性别。

1.3 决策树的生成

训练开始时所有数据都在根结点,然后递归地进行数据划分,最终生成一棵初始树。通过前面的训练数据所生成的决策树,见图1。

从图1中可以看到,在对学生信息数据进行分类时首先根据年级属性可以将所有数据划分成3个集合,每一个集合分别包含1,2,3年级的学生。具体每一个集合,又可以根据科目分为三类,分别表示各年级的文、理、工科学生子集合。最后可以根据性别确定每一个学生到底是否能适应图形、图表演示的教学方法。

1.4 决策树的应用

在教学过程中存在有多种多样的教学方法,如果直接按照不同的教学方法对学生分类,这样所构成的决策树过于复杂,所以效率不高。本文通过改变表中第四列的数据,可以得到学生对不同教学方法的适应性。

教师在教学过程中通过将本班的学生信息输入所构建好的决策树中,得到学生对不同教学方法的适应程度,由此选择适当的教学方法。

2 结束语

决策树算法是常用的分类方法,这种算法分类精度高,形成的模式简单,对噪声数据有很好的健壮性。本文使用决策树算法中比较简单的ID3算法构造决策树,对数据库中的学生信息进行分类,从而找到适合于学生学习的教学方法。这种方法虽然理论清晰方法简单,但是只考虑了性格、年级、性别三个因素,而影响学生的学习有众多的原因,因此教师在实际教学过程中还应通过不断的归纳总结,积累经验使得算法进一步得到完善,使算法具有更强的实践性和应用性。

1 王莉.ID3算法的研究与应用[J].福建电脑报,2010(1)

2 Margaret H.Dunham.数据挖掘教程[M].北京:清华大学出版社,2005

Application of ID3 Mothod on Teaching Process

Pang Na,Wang Heping

In the process of education , different students adapt to different method, however only proper teaching method can get twice the result with half the effort.This paper classifies the students according to the ID3 classification algorithm.To choose the right order of the splitting attributes, the mothod gets the information gain of different attributes using the training data and then constructs a decision tree.At last applies the decision tree to the classification of the students.

ID3 method; decision tree;splitting attribute; information gain

G642

A

1000-8136(2011)06-0131-02

猜你喜欢
决策树分类算法
哪种算法简便
分类算一算
Travellng thg World Full—time for Rree
进位加法的两种算法
根据问题 确定算法
决策树和随机森林方法在管理决策中的应用
教你一招:数的分类
说说分类那些事
决策树学习的剪枝方法
决策树多元分类模型预测森林植被覆盖