基于ID3算法的五年制高职学生成绩因素分析

2015-05-30 10:48王光法

软件工程 2015年7期

摘要：近年来，五年制高职教育飞速发展，各学校在不断探索五年制高职教育方式方法的同时，也形成了一定的培养评价机制，这些评价机制在培养方法与手段的评价方面，大都停留在经验判断和感性基础上，缺乏科学计算支撑。文章在梳理相关培养环节基础上，引进数据挖掘算法，将五年制育人各个环节要素作为输入，通过算法，将培养环节各数据要素隐含的信息量化到学生成绩这一个“基点”上，并且通过构造五年制高职教育中学生成绩因素的决策树实现数据可视化，从而指导我们优化教育资源和培养结构，增强下一步教育方法改进的精准性与高效性。

关键词：数据挖掘；五年制高职；ID3算法；决策树

中图分类号：TP18 文献标识码：A

1 引言（Introduction）

五年制高等职业教育近年来发展飞速，为各地培养了大批初中毕业起点的高等职业技术技能人才。然而五年制高职生源的普遍入学成绩较上高中的学生成绩低，这已经是业内共识。这就要求各五年制高职学校立足于生源实际特点，科学利用各种教育方式和教育资源，挖掘有利因素积极促进学生成长成才。传统的学生成绩统计方法已无法发现学生成绩数据中存在的关系和规则，更无法根据现有的数据预测未来的发展趋势[1]。因此一种新的数据分析技术——数据挖掘技术应运而生。文中将影响学生成绩的因素通过ID3算法构造五年制高职学生成绩决策树，把学生成绩和培养要素之间的关系实现可视化。为更好开展教育教学工作和学生自我学习提供参考依据。

2 原理介绍（Principle introduction）

2.1 数据挖掘

数据挖掘（Data Mining，简称DM），简单地讲就是从大量数据中挖掘或抽取出人们事先不知道但又潜在有用的知识的过程，又称为数据库中知识发现（Knowledge Discovery in Database，简称KDD），它是一个从大量数据中抽取挖掘出未知的、有价值的模式或规律等知识的复杂过程。数据挖掘技术涉及多学科交叉领域，融合了统计学、机器学习、模式识别、数据库和数据仓库、信息检索、可视化、算法、高性能计算等最新研究成果。目前，数据挖掘方法主要有分类算法、回归算法、分割算法、关联算法、顺序分析算法等。本文就是汇集五年制高职学生培养的训练集，采用分类算法，建立分类模型，为每个类别做出准确的描述，从看似无关的数据中挖掘出分类规则，实现对下一步训练方法的决策和对未来的数据的预测。

2.2 决策树的分类方法介绍

决策树（Decision Tree）是在已知各种情况发生概率的基础上，通过构成决策树来求取净现值的期望值大于等于零的概率，是直观运用概率分析的一种图解法[2]。决策树是一个预测模型，它代表的是对象属性与对象值之间的一种映射关系。决策树分为分类树和回归树两种，本文就是用影响学生成绩的离散因素进行分类算法构造分类树。所谓分类算法，简单来说，就是根据文本的特征或属性，划分到已有的类别中。它提供一种在什么条件下会得到什么值的类似规则的方法，采用自顶向下的递归方式，在决策树的内部节点进行属性值的比较，并根据不同的属性值从该节点向下分支，叶节点是要学习划分的类，从根节点到叶节点的一条路径就对应着一条分类规则，整个决策树就对应着一组析取表达式规则，如图1所示。常用的分类算法包括：决策树分类法、朴素的贝叶斯分类算法（native Bayesian classifier）、基于支持向量机（SVM）的分类器、神经网络法、k-最近邻法（k-nearest neighbor，kNN）、模糊分类法等。

图1 决策树的构造和剪枝去噪过程

Fig.1 Process of decision tree building and improving

2.3 ID3算法描述

ID3算法最早是由罗斯昆（J·Ross Quinlan）于1975年在悉尼大学提出的一种分类预测算法，算法的核心是“信息熵”，信息熵就是一组数据包含的信息概率的度量，该算法是以信息论为基础，以信息熵和信息增益度为衡量标准[3]。ID3算法通过计算每个属性的信息增益，认为信息增益高的是好属性，每次划分选取信息增益最高的属性为划分标准，重复这个过程，直至生成一个能完美分类训练样例的决策树。

设数据划分D为类标记的元组的训练集。假定类标号属性具有M个不同值，定义m个不同的类Ci（I=1，2，…，m），Ci，D是Ci类的元组的集合，和分别表示D和Ci，D中元组的个数。对D中的元组分类所需的期望信息由下式给出：

（1）

假设属性A具有v个不同的离散属性值，可使用属性A把数据集D划分成v个子集{D1，D2，…，Dv}。设子集Dj中全部的记录数在A上具有相同的值aj。基于按A划分对D的元组分类所需要的期望信息由下式给出：

（2）

信息增益定义为原来的信息需求（基于类比例）与新的信息需求（对A划分之后得到的）之间的差，即

Gain（A）=Info（D）-InfoA（D）（3）

通过ID3算法，计算出每个属性的信息增益，把具有最高信息增益的属性作为测试属性创建一个节点，并按照该属性的每个值创建一个分支，各分支节点依此方法创建。

3 ID3算法在五年制高职学生成绩分析中的运用

（The use of ID3 algorithm in the analysis to

the students'achievements in five-year higher

vocational school）

3.1 学生成绩因素整理

根据五年制高职学生学习结构组成，大致分为课堂内和课堂外，课堂内初步分为：出勤情况、听课情况、作业完成情况，课堂外初步分为：课后看书情况、参加文体活动情况以及是否学生干部。为了使结论更加客观，样本选取为即将离校实习的高年级学生，并且是在全校十多个专业中随机抽取141名学生作为样本，数据经离散化处理后详见表1。

表1 部分学生成绩表

Tab.1 Part of the studentsachievements

编号姓名出勤情况听课情况课后看书情况作业完

成情况参加

活动学生

干部总评

成绩

1 胡扬正常认真 >0.5小时一般少否良

2 胡宏奇正常一般 >0.5小时一般一般否良

3 滕步南正常认真 >1小时认真一般否优

4 张正常不认真 <0.5小时不认真一般否差

5 张悦正常一般 >0.5小时一般多否良

6 滕腾正常一般 >0.5小时认真多否优

7 徐坚翔正常认真 >1小时认真多是优

8 袁飞正常一般 >1小时一般多是优

9 张少年正常一般 >0.5小时一般一般否良

10 史萱升正常一般 >0.5小时一般多否良

… …… …… …… …… …… …… …… ……

3.2 构造学生成绩决策树

从表1观察可知类标号“总评成绩”有三个取值（优、良、差），因此有三个不同的类，即m=3，其中总评成绩=“优”的类有56个元组，等于“良”的有63个元组，等于“差”的有22个元组。根据公式（1）可以计算D中元组分类所需要的期望信息：

再根据每个属性计算信息熵，首先从“出勤情况”属性开始，该属性有三个值，依据每个样本分布，对应每个属性所划分的子集的信息熵：

表2 学生成绩数据库类标记的因素元组统计表

Tab.2 The statistical database of the students'

achievements

出勤情况听课情况课后看书情况作业完成文体活动学生

干部

正常一般不正常认真一般不认真 >1小时 >0.5小时 <0.5小时认真一般不认真多一般少是否

成绩优56 54 2 0 50 6 0 21 14 21 54 2 0 38 12 6 37 19

成绩良63 59 4 0 22 39 2 9 29 25 46 17 0 25 17 21 23 40

成绩差22 18 2 2 0 7 15 1 0 21 3 11 8 2 7 13 2 20

根据公式1和表2，对D的元组进行分类所需要的期望信息为：

当“出勤情况”=“正常”时：

信息熵

当“出勤情况”=“一般”时：

信息熵

当“出勤情况”=“不正常”时：

信息熵

根据公式2：

再根据公式3得出这种划分的信息增益是Gain（出勤情况）=Info（D）-Info出勤情况（D）=0.01693

同理，可计算Gain（听课情况）=Info（D）-Info听课

情况（D）=0.509681

Gain（课后看书情况）=Info（D）-Info课后看书

情况（D）=0.215816

Gain（作业完成情况）=Info（D）-Info作业完成

情况（D）=0.354715

Gain（文体活动情况）=Info（D）-Info文体活动

情况（D）=0.1551

Gain（干部情况）=Info（D）-Info干部情况（D）=0.13083

从计算可知，学生的“听课情况”具有最高的信息增益，它被选作测试属性，创建一个节点，用“听课情况”来标记，并对于每个属性引出一个分支，同理，在“认真”“一般”和“不认真”三个分支上，分别对其他属性计算信息增益，按照上述方法递归，从而得出图1决策树。

图2 影响学生成绩因素决策树

Fig.2 The decision tree of the factors that affect

students' achievements

从图1可以看出，学生的学习成绩主要取决于学生的听课情况因素，听课认真的同学基本上学习成绩都是优良，听课不认真的同学学习成绩都不好。由于数据中存在着一些冗余和噪声等，影响了决策树的深度，进行剪枝后的决策树如图2所示。

3.3 成绩因素分析

从图2的学生成绩可视化因素中，影响学生成绩因素除“听课情况”“课后看书”“作业情况”等外，还与“文体活动”“是否学干”等因素有关。课堂听课质量是关键因素，课外看书和认真作业是对听课质量的有力补充或弥补。而参加文体活动会让学生从活动中习得的方法迁移到学习上，担任学生干部工作也会促进多方面的能力提高，具有激励效应，共同形成学生成长成才助推因素。这恰恰说明了职业教育通常以学生的综合素质与能力为追求目标，在教育形式上与应试教育相比“更加放得开”，一些与常规教学内容看似无关的因素，某种程度上却促进了学生的学习兴趣和学习效果。

图3 剪枝后的决策树

Fig.3 Themodified decision tree

4 结论（Conclusion）

职业教育是素质教育和能力教育的结合体，我们既要加强以课堂为中心的教学效果，培养并养成学生课后阅读与认真作业的良好习惯，还要加强校园文化建设，发挥环境育人作用，充分调动一切有利因素促进学生成长成才。

参考文献（References）

[1] 王永梅.ID3算法在计算机成绩分析中的应用[J].合肥学院学报，2010，2（1）：34.

[2] 决策树.[EB/OL].http：//baike.baidu.com/link？url=2_RdpiP_ 9Xds9QLc-C4eAhQgKNfdu-fIkCBir0aPmesvmJl_LQLUXJV WO9z6eL5pRGc9tEx68boR6XgIHYwWkK.

[3] ID3算法[EB/OL].http：//baike.baidu.com/link？url=In7lbKZgR g9RR4eTG3EzZIxZLzuE0JURWX299FCv569SxZbYrW2Gw rK4urr1qsjhTTpnDQQPwxSfCuvqsxxTqq.

作者简介：

王光法（1974-），男，硕士，讲师.研究领域：算法应用研究.