ID3算法在毕业设计(论文)成绩管理中应用研究

2015-01-06 08:12:26陈曙光
关键词:结点决策树毕业设计

王 森,陈曙光

(阜阳师范学院物理与电子信息学院,安徽阜阳 236041)

ID3算法在毕业设计(论文)成绩管理中应用研究

王 森,陈曙光

(阜阳师范学院物理与电子信息学院,安徽阜阳 236041)

利用数据挖掘技术快速而准确的提取有价值的教学信息,是提高教学质量,增强学生综合水平的重要途径。笔者利用数据挖掘技术中的ID3分类算法,对我校毕业生的毕业设计(论文)成绩进行深入的挖掘,从而挖掘出影响我校毕业设计(论文)成绩的因素,为教学管理者和指导教师提供有用的信息,进而获得更好的管理效益和提高论文指导的质量。

数据挖掘;决策树;ID3算法;教学管理;教学质量

数据挖掘作为一种新兴的数据分析技术,已广泛应用于零售业、电子商务、金融业、医学等诸多领域并取得了比较好的效果。近年来,利用数据挖掘技术,对日常教务管理中积累的大量数据进行多层次、多维度的加工处理,也已取得了一些进展。

毕业设计(论文)在本科教学体系中占有十分重要的位置,是本科学生入职之前必须完成的一项工程,是检验四年大学学习成果的重要体现,也是本科生培养计划中衡量教学质量的重要指标。提高毕业设计(论文)的质量是一项系统工程,需要多个方面的努力和协作。为研究在当前的教学条件下如何提高毕业设计(论文)的质量,笔者采用数据挖掘技术对我校毕业设计(论文)成绩进行了深入挖掘和分析,从而发现对提高毕业设计(论文)成绩有用的知识,为有关的各方面人员提供参考价值。有关各方可以将这些知识应用于我校本科教学和管理中,加强学校毕业设计(论文)的指导实践,提高教学质量,为学校未来的发展提供更广阔的空间,发挥更重要的作用。

1 数据挖掘简介

随着网络技术和信息化技术的高速发展,日常数据量成指数级增长。数据的丰富带来的对强有力的数据分析工具的需要,以前的数据统计方法(查询和简单的统计)已不能适应这种需求,数据挖掘技术正是在这中需求下产生的。数据挖掘是20世纪80年代末开始,逐步发展起来的一个研究领域,它是一门由多种学科诸如神经网络、统计分析、机器学习等交叉构成的学科,把用户对数据的应用从原有的低层查询、简单抽样和统计,提升到从大量数据集中挖掘知识,然后对决策提供支持。因此,数据挖掘在技术方面的定义就是从大量的、不完全的、有噪声的、模糊的实际应用数据中,提取隐含在其中的、人们事先不知道的,但又是潜在有用的信息和知识的过程[1]。数据挖掘的过程大致可以分为:问题定义、数据收集与预处理(数据压缩、数据清理和数据变换)、数据挖掘实施,以及挖掘结果的解释与评估[2]。数据挖掘技术有分类、关联、聚类和概念描述,其中数据分类技术是数据挖掘中一个重要技术方法[3]。有效的数据分类能够很好的帮助用户准确快速的找到自己感兴趣的数据信息。

在大数据时代,高校利用数据挖掘技术在学校教务系统中挖掘提取教学工作中的全面而有价值的信息,可以为教育管理者的管理工作提供有效的参考价值,改进教学管理方法,可以为教师的教学提供针对性意见,改进教学过程,进而提高教学质量和学生的综合素质,是高校保持良好的可持续发展的有力工具。

2 决策树和ID3算法基本理论

决策树是从一组无次序、无规则的事例中推理出决策树,其中树的根结点,代表要分类的数据集合,树中的每个内部结点表示在一个属性上的测试,每个分支代表该属性的一个具体值或该属性测试输出,而每个叶结点代表类或类分布[4]。决策树是根据训练集构建的,用于对未知的样本类别进行预测[5]。为了对未知样本分类,样本的属性值在决策树上进行测试,路径由根到存放该样本预测的叶结点。判定树容易转换成分类规则。决策树算法有许多如CHAID[6]、C4.5[7-8]、CART[9],其中以ID3算法最著名。

ID3[10-12]算法的步骤如下:

树以代表代表全部的训练样本单个结点开始;

如果样本都在同一个类,则该结点成为树叶,并用该类标记该结点。

否则,算法使用基于熵(称为信息增益)的度量作为启发信息,选择能够最好地将样本分类的属性,该属性成为该结点的分裂属性。

对分裂属性的每个已知的值,创建一个分支,据此划分样本。

算法使用同样的过程,递归地形成每个划分上的样本决策树。一旦一个属性出现在一个结点上,就不必考虑该结点的任何后代上。

递归划分步骤仅当下列条件之一成立时停止[13]:

(a)给定结点的所有样本属于同一个类;

(b)没有剩余属性可以用来进一步划分样本。在此情况下,使用多数表决或者存放结点样本的类分布。

具体过程如下:

对一个给定的样本分类所需的期望信息由下式给出:

其中pi是任意样本属于Ci的概率,并用估计。

设属性A具有n个不同的值{v1,v2,…,vn),可以用属性A划分S为n个子集{S1,S2,…,Sn};其中Sj(j=1,2,…,n)包含S中这样一些样本,它们在A上具有相同的值vj。根据A划分成子集的熵或期望信息由下式给出:

根据属性A划分样本的信息增益为:

3 数据挖掘在毕业设计(论文)成绩中的应用

利用数据挖掘技术对学生的毕业设计(论文)成绩数据进行深入的挖掘,挖掘出成绩与其他因素之间隐藏的内在联系,从而对以后的教学和指导工作提供有用的信息。不同的学校对学生的毕业设计(论文)成绩,有不同的规定,但主要是从指导教师、论文评阅人、论文答辩情况三方面,来评定学生毕业设计(论文)的最终成绩。但不同单位,三部分成绩的比例不同,各种各样,而笔者所在单位学生的最终成绩是由答辩小组的最终决定,主要是从论文有无创新,论文的工作量,论文有无实用价值,论文答辩情况考虑成绩等次。

笔者从所在单位2014电子信息本科毕业设计中抽查若干名毕业设计情况调查表和最终成绩,并综合考虑,经过属性相关性分析(去除不相关和弱相关的属性)、数据预处理(对有关空缺值,根据毕业论文指导手册对有关的调查表的数据进行补充或删除数据差别较大的数据值),数据转换(数据离散化)后得到如下20名学生毕业设计情况和成绩表(如表1)。

表1 从2014电子信息本科毕业设计中抽查20名毕业设计情况调查表和最终成绩

其中分类属性为论文的最终成绩,优4个,良6个,中7个,及格3个

为计算每个属性的信息增益,首先,由公式(1)计算样本分类所需的期望信息:

下一步,由公式(2)计算每个属性的熵。

从论文内容有无创新开始。观察论文内容有无创新的每个样本值有和无的分布,对每个分布计算期望信息。

对于有创新的:优2个,良4个,则有:

对于无创新的:优2个,良2个,中7个,及格3个,则有:

如果样本按论文有无创新划分,对一个给定的样本分类所需的期望信息为:

因此,这种划分的信息增益是

同理,可以得到:

由于答辩情况属性中具有最高信息增益,它被作为测试属性,创建一个结点,用答辩情况标记,并对每个属性值引出一个分枝,并据此划分样本,如图1。

图1 根据答辩情况划分样本的判定树

由于答辩差的同学同属于一个类(及格)生成一个树叶,不在进行划分,其他两个划分递归使用上面的方法,最终笔者得到图2。

图2 最终构建的判定树

由判定树提取分类规则并分析结果

(1)答辩情况好,工作量大,有创新,成绩为优;

(2)答辩情况好,工作量大,实用价值很大,成绩为优;

(3)答辩情况一般,有创新,实用价值很大,成绩为优;

(4)答辩情况一般,无创新,实用价值很大,成绩为优;

(5)答辩情况好,工作量小,成绩为良;

(6)答辩情况好,工作量大,实用价值一般,成绩为良;

(7)答辩情况一般,但有创新,实用价值一般,成绩为良;

(8)答辩情况好,工作量适中,成绩为中;

(9)答辩情况一般,实用价值一般,成绩为中;

(10)答辩情况差的,成绩一律为及格;

(11)其它情况,成绩均为及格。

从上面的规则中可以看出规则(3)(4)可以合并成一条规则,即答辩情况一般,实用价值很大,成绩为优,但通过检查样本规则(4)中要求工作量大;规则(5)不合理,通过查看其样本空间,修改为答辩情况好,工作量小但有创新,成绩为良;规则(11)是为了保持规则的完整性而补充的。

从上面的判定规则中可以看出:从答辩的情况来划分学生毕业设计(论文)成绩比较符合笔者所在单位的情况,因为,在我们单位成绩的评定是由答辩小组最终给定,答辩好的成绩较好;又因为现在社会强调创新理念,所以论文中有创新的至少是良以上成绩。当然创新并非人人都有,论文的实用价值大的同样也可以得到优,这鼓励学生能够把本科学习的内容,应用于实践生活创造更大的价值,这与电子信息专业的专业理念相吻合。当然,我们也要培养学生的口头表达的能力,增加学生的自信心,提高论文的成绩。另外,也可以根据判定树预测学生成绩,把预测成绩与最终成绩不一致的原因查明,从而更客观的评定学生的论文成绩,从而避免了弄虚作假现象的发生,进而加强管理,提高教学质量。

4 结论

在高校教学数字化的时代趋势下,利用数据挖掘技术来挖掘提取教学工作中的全面而有价值信息,可以为教育管理者的教学工作提供有效的参考信息,改进教学管理方法,提高教学质量和学生的综合素质,是高校保持良好的可持续发展的有力工具。

[1]毛国君,段立娟,王 实,等.数据挖掘原理与算法[M].北京:清华大学出版社,2005:114-132.

[2]JiaweiHanMichelineKamber.范明,孟小峰译.数据挖掘概念与技术[M].北京:机械工业出版社,2006:185-196.

[3]张 琳,陈 燕,李桃迎,等.决策树分类算法研究[J].计算机工程,2011,37(13):66-67,70.

[4]刘小虎,李 生.决策树的优化算法[J].软件学报,1998,9(10):78-81.

[5]曲开社,成文丽,王俊红.ID3算法的一种改进算法[J].计算机工程与应用,2003,39(25):104-107.

[6]陆 秋,程小辉.基于属性相似度的决策树算法[J].计算机工程,2009,35(6):82-84.

[7]邹永贵,范程华.基于属性重要度的ID3改进算法[J].计算机应用,2008,28(z1):144-145,149.

[8]屈志毅,周海波.决策树算法的一种改进算法[J].计算机应用,2008,28(z1):141-143.

[9]叶明全,胡学钢.一种基于灰色关联度的决策树改进算法[J].计算机工程与应用,2007,43(32):171-173.

[10]徐 雯,张 扬.ID3算法及其改进[J].计算机与数字工程,2009,37(10):19-21.

[11]丁康健,刘立栋.改进的ID3算法与原算法的比较研究[Z],2013:137.

[12]王小巍,蒋玉明.决策树ID3算法的分析与改进[J].计算机工程与设计,2011,32(9):3069-3072,3076.

[13]冯少荣,肖文俊.基于样本选取的决策树改进算法[J].西南交通大学学报,2009,44(5):643-647.

The application of data Mining in the performance management of the graducation design(thesis)

WANG Sen,CHEN Shu-guang
(School of Physics and Electonic Engineering,Fuyang Teachers College,Fuyang Anhui236041,China)

Data mining technology has been widely applied in many fields since it came into being,which has been fully verified and showing its important economic and social value.Using data mining technology to quickly and accurately extract valuable teaching information,is an important way to improves the quality of teaching and to enhance students'comprehensive level.In this paper,the use of the ID3 classification algorithm in the data mining technology mine graduation design(Thesis)of graduates score,so as to explore the influence of graduation design(Thesis)performance factors,and provide useful information for the teaching administrators and teachers and obtains the better management benefit and improve the quality of thesis guiding.

data mmining;decision tree;ID3 algorithm;teaching management;teaching quality

TP391.6

:A

:1004-4329(2015)01-062-04

2014-10-27

基于物联网技术的信息化农业示范建设研究(12010302080)资助。

王 森(1973-),男,硕士,讲师。研究方向:数据挖掘、软件工程。

猜你喜欢
结点决策树毕业设计
高校毕业设计展吸引业内眼球
玩具世界(2021年6期)2021-04-19 12:15:18
一种针对不均衡数据集的SVM决策树算法
毕业设计优秀作品选登
决策树和随机森林方法在管理决策中的应用
电子制作(2018年16期)2018-09-26 03:27:06
基于FPGA的毕业设计实践平台实现
电子制作(2018年9期)2018-08-04 03:31:14
Ladyzhenskaya流体力学方程组的确定模与确定结点个数估计
基于决策树的出租车乘客出行目的识别
基于肺癌CT的决策树模型在肺癌诊断中的应用
基于肺癌CT的决策树模型在肺癌诊断中的应用
基于Raspberry PI为结点的天气云测量网络实现