徐敏
摘要:教学管理决策在高校教育中是一项重要的工作。目前,高校内部运行的各种管理系统和各类数据库,已经积累了包括学籍管理系统、成绩管理系统在内的海量数据。本文主要研究如何采用数据挖掘技术在学院教务管理系统中,对海量数据进行发掘和应用,为人才培养提供比较客观的决策支持。
关键词:数据挖掘;决策树;ID3算法
中图分类号:G471 文献标志码:A 文章编号:1674-9324(2017)14-0009-02
一、前言
随着信息技术的发展,数据挖掘正成为一个日益受到重视的热点研究领域,并得以蓬勃发展,越来越显示出其强大的生命力。据相关资料调查显示,在一个大型企业数据库中,只有其中百分之七的数据能够得到很好的应用。同样,高校内部运行的各种管理系统和各类数据库,已经积累了海量的数据,然而隐藏在这些海量数据中的深层次的模式一直没有得到充分的发掘和应用,学校管理者只能通过简单数据查询和排序等传统数据库技术功能获得表面的信息。我们努力想要解决的是,如何对那些庞大的海量数据进行高层次的处理,从中找出管理者关心的规律和模式,以此帮助管理者更好地把现有的数据转化为可供使用的知识进行决策和研究,来提高学校管理决策的科学性,提高管理水平和办学质量。
二、决策树分类算法
决策树(Decision Tree)学习是以实例为基础的归纳学习算法。它着眼于从一组无次序、无规则的事例中推理出决策树表示形成的分类规则,它的一个最大优点就是在学习过程中不需要使用者了解很多背景知识(这也同时是它最大的缺点),只要训练例子能够用“属性—结论”式的方式表达出来,就能使用该算法来学习。决策树算法中最著名的算法是Quinlan提出的ID3算法。他把C.E.Shannon的信息论引入到了决策树算法中,把信息熵作为选择测试属性的标准,对训练样本集进行分类,并构造决策树来预测如何由测试属性对整个样本空间进行划分。ID3算法采用信息量作为测试属性的选择标准来分割训练样本集并最终生成决策树。
三、数据的收集和整理
本研究利用数据挖掘技术中的ID3算法,在教务管理系统中,实现一个专业方向选择辅助指导的模块,大学生在修完职业基础课后,能更好地按自身的特点选择专业方向。
在大学生专业方向辅助指导中,我们将以服装系为例使用决策树分类挖掘技术中的ID3算法,通过学生大学一年级专业基础课的学习成绩,配合问卷调查,预测学生最适合选择的专业方向。
我们以华南女子学院服装专业学生在大一期间的成绩为挖掘数据源(共194个样本),根据学生各科的学习成绩信息,剔除了成绩表中与专业发展方向无显著相关性的属性,如体育等课程属性,选择7门具有代表性的专业基础课作为基础数据进行处理。
其次,对训练表中的每一列成绩属性的值进行离散化处理。我们将成绩分成三个部分,用A表示[80,100]之间的分数,用B表示[70,79]之间的分数,用C表示[0,69]之间的分数。
除了学习成绩之外,我们还需要考虑影响学生专业方向选择的其他因素,服装系的专业方向具体划分为三个方面:制板与工艺方向;造型设计方向;市场营销方向。
学生在大一修完专业基础课后,自行选择专业方向。为了更好地了解学生选择专业方向的动机、阶段性学习的完成情况,以及大学二年级工学结合的专业实践后对自己所选方向的满意度,我们设计了问卷调查调查:①学生的个人兴趣:A.手工制作;B.创意设计;C.人际交往。②选择专业方向時是否按兴趣来选择。③经过一年的专业学习,觉得现在的专业方向是否合适自己。
通过数据收集、数据整理之后,我们实际可以使用的数据记录为182条,由于在系统实现过程中,我们还需要预留一部分数据进行数据分析准确度测试,因此,在放入训练数据集进行决策树模型生成训练的实际数据记录为146条。
四、利用ID3算法构造学生成绩分析决策树
(一)信息增益的计算
首先我们先利用公式计算出信息熵,参加数据挖掘的记录有146条,经过两年的专业学习后,认为自己更适合学习制板与工艺方向的有58人,认为自己更适合学习造型设计方向的有48人,觉得自己更适合市场营销方向的有32人,不确定方向的8人。
下面计算信息增益值。
利用公式:信息增益值I(S/A)=H(S)-H(S/A)
经过整理后,参加数据挖掘的属性有9个,通过计算得到的Gain(S,xq)最大,即个人兴趣对分类最有帮助,所以选择兴趣对决策树的结构进行首次分区,产生4分枝。
(二)递归创建决策树
选择兴趣作为测试属性之后训练实例集分为4个子集,生成4个子节点,对每个子节点递归采用上述过程进行分类直至每个节点中各个实例属于同类。
以“兴趣=手工制作”为例。
选择手工制作的同学一共有56人,经过两年的专业学习后,认为自己更适合学习制板与工艺方向的有42人,更适合学习造型设计方向的有8人,更适合市场营销方向的有4人,不确定方向的2人。
通过计算得到的Gain(S_xq.手工制作,sjyl)最大,即“服装结构设计原理(简称设计原理)”的信息对分类最有帮助,所以选择“服装结构设计原理”的成绩对决策树的结构进行再次分区,产生3个分枝。
计算选择兴趣为“手工制作”的学生里,设计原理成绩大等于80分,其余的6门课程成绩相应的信息增益值,发现兴趣选择手工制作的所有设计原理成绩大等于80分的同学在两年的学习后认为自己最适合工艺方向因此不再另做计算。于是,我们研究兴趣为“手工制作”且设计原理成绩介于70—80分之间,其余6门成绩的信息增益值计算。通过计算得到的Gain(S_xq.手工制作_sjyl.介于70—80分,jcgy)最大,按照信息增益最大的原则选择“基础工艺”的成绩为根结点,并将样本分成3部分,然后对每一棵子树按照以上方法递归计算。由于决策树的构建是一个递归的计算,而本研究采用数据结点较多,因此我们在Microsoft Visual Studio 2005环境下用C#语言编程,利用程序生成其余的决策树。
(三)树剪枝
在实际应用中,部分数据因数量太少以至于不能产生目标函数的有代表性的采样,导致我们使用决策树算法生成的决策树很多分支反映的是训练数据集中的异常。因此我们设置生成决策树的最小样本值为4,进行预剪枝处理。为了降低剪枝后的冗余,在剪枝后,如果有某个叶子结点下的所有属性值指向的结果都相同,则认为该叶子结点是冗余的叶子结点,将被删除,其属性值将作为该结点原父节点的属性值被保留。
由此决策树导出相关规则如下。
1.if (兴趣=手工制作and服装结构设计原理≥80) then 适合工艺方向
2.if (xq=='手工制作' and服装结构设计原理=='介于80~70' and基础工艺≥80' and成衣工艺≥80and 款式效果图≥80' and款式设计≥80') then 适合工艺方向
3.if (xq=='手工制作' and 服装结构设计原理=='介于80~70' and基础工艺≥80 and成衣工艺≥80 and款式效果图≥80 and款式设计<70) then 适合工艺方向
本次参与数据挖掘的属性较多,从而导出的規则也相当多,由于篇幅有限,这里不再一一罗列,我们将留做测试的36条数据运用到决策树得出的所有规则里,经过测试有31条规则命中,准确率为86.1%。
五、应用开发运行环境
利用ID3算法得出的知识规则,我们在教务管理系统上增加了学生选择专业方向的页面。
硬件环境:PIII以上的微机
操作系统:Windows 2000
数据库系统:SQL SERVER 2000
编程语言:ASP
采用B/S 模式
六、小结
本文主要讨论的是使用ID3算法生成决策树,最后由决策树产生分类规则,完成了根据学生兴趣以及专业课成绩来判断适合选择的专业方向的决策树模型建立。最后应用所获得的规则,实现了教务管理系统中的专业方向选择系统。
参考文献:
[1]白雪.决策树分类算法的研究及其在教学评估中的应用[J].电脑开发与应用.2007,(02):24-26.
[2]陈文伟,黄金才,赵新显著.数据挖掘技术[M].北京:工业大学出版社,2002:7.
[3]栾丽华.决策树分类技术研究[J].计算机工程,2004,9:94-96.
[4]李强.创建决策树算法的比较研究-ID3,C4.5,C5.0算法的比较[J].甘肃科学学报,2006,(12):84-87.
[5]马瑜,王有刚.ID3算法应用研究[J].信息技术.2006,(12):84-86.
[6]李道国,苗夺谦,俞冰.决策树剪枝算法的研究与改进[J].计算机工程,2005,(8):19-21.