商俊燕,陆兵,柏倩然
决策树C44.5算法在学生成绩分析中的应用
商俊燕,陆兵,柏倩然
针对学院教务系统中日益增加的数据,利用数据挖掘技术找到这些数据间的联系,能帮助学院管理人员提高管理质量。决策树算法是数据挖掘技术中用于分类预测,利用决策树算法对教务系统中的数据进行分析,找出各课程之间隐藏的关系,有利于提高教学质量,提高高职院校的教学管理。
决策树;数据挖掘;学生成绩;
目前,高校教务系统中积累的学生成绩数据越来越多,对数据的处理主要还是集中在统计学生各科成绩,学生的通过一次性通过率等简单的过程。利用数据挖掘技术来分析现有系统中的数据、研究各门课程之间存在的联系、分析影响学生成绩的主要因素,可以帮助任课老师合理设计教学内容,为教务管理者提供制定教学计划、评价教学效果的数据支持。
决策树算法是一种人工智能的机器学习技术,用于实现数据内在规律的挖掘和新数据对象的分类预测技术之一。它通过归纳和提炼现有数据所包含的规律,建立分类预测模型,实现对未来新数据的预测。利用决策树来解决分类问题是,它对使用者来说容易使用,且生成后的规则容易理解、分类的精度高、对噪声的健壮性也很好,因此,很多领域如医疗诊断数据、市场营销分析、金融评估系统、客户分析等等都能使用决策树算法来进行分类预测。
C4.55决策树算法是基于ID3 算法改进而来的。C4.5算法以信息增益率为标准决定决策树分支的准则,寻找最佳分组变量和分割点,从而建立决策树。
利用决策树算法对本院教务系统中的学生各科成绩来进行分析,分析各课程之间隐藏的内在关系。在本文中主要利用专业的数据挖掘软件SPPSS Clementinne来进行挖掘分析。具体挖掘过程如下图1所示:
图1 决策树处理过程图
2.1 数据准备
本文中用到的数据是本院教务管理系统中的学生各门课程的学习成绩。在该项目中我们准备了本院2013到2014学年第二学期信息工程系12电商331和122电商332班84位学生的各科成绩表、学生基本信息表、课程表。其基本信息如图2所示:
图2 数据的基本信息图
在这些数据中可能存在冗余数据、空值等情况,这些都会影响到数据模型的准确率,因此,我们在进行数据挖掘前需要对数据进行预处理。
2.2 数据预处理
当数据收集完成以后,数据还不能直接进行挖掘,主要原因在于这些数据中可能存在不完整、有空值、含有噪声等情况,需要对这些数据进行预处理,提高数据的质量,有助于建立高准确率的数据模型。
(1)数据集成
通过数据集成,我们把图2中的3张表集合在一张表“综合学生成绩分析表”中,它包含的字段有:学号、姓名、性别、课程名、课程成绩,该表中共有83条记录。“综合学生成绩分析表”如表1所示:
1 综合学生成绩分析表
(2)数据质量评估
高质量数据是数据挖掘的前提和基础,数据质量评估是对现有数据的取值情况异常程度及缺失情况的综合评价。通过数据质量评估,发现数据中有若干字段下存在缺失值。通过分析发现产生缺失值主要有两种原因:一是在收集过程中人为失误造成,重新填入数据即可;二是由于学生因为缺考或休学原因没有数据,对于这种数据直接删除记录。通过评估整理,新的学生成绩分析表中共有81条记录。
(3)数据转换和精简
在新数据表中,课程成绩主要采用两种方法来记录:一是采用百分制,二是采用等级制,即使在等级制计分方式中,由于老师习惯,计分方式也不一致。课程成绩记录不统一,需要把它们转换成统一的计分方式,具体变换规则如表2和表3所示:
表2 成绩转换表
表3 等级制转换表
在我们集成的数据表“综合学生成绩分析表”中的每个字段不一定对建立的决策树模型有用,如果把每个字段都用于决策树模型,反而会增加模型的复杂度,降低模型的准确率。因此,利用数据精简的方法来找出对决策树模型没有影响或影响程度不大的字段。通过精简,发现在“综合学生成绩分析表”中,学号、姓名、班级、体育这些字段中的取值对建立模型的相关度不高,因此,在建决策树模型的时候忽略这些字段。新的“综合学生成绩分析表”中剩余字段包括课程名、成绩等。
2.3 构建决策树模型
在本文中,我们利用SPSS CLEMENTINE12.0软件中决策树算法节点和预处理后的学生成绩表来构建决策树模型和分类规则。形成的数据流节点如图3所示:
图3 决策树数据流节点图
对于电子商务专业学生,职业考工实训课程是必修课程,综合考核学生掌握电子商务专业知识和专业技能的课程,因此,笔者将职业考工作为输出变量。在建立决策树模型时,我们将数据的70%作为训练集,30%作为测试集,生成的模型预测正确率为58.02%。
2.4 模型优化
在决策树分类模型中,样本中可能还存在噪声,对分类预测结果存在影响,针对这一情况,我们对决策树进行修剪,利用专家模式生成决策树,每个分支最小记录数都为2。根据不同修剪严重性生成决策树,找出预测精度较高的模型。不同修剪严重性的预测精度如表4所示:
表4 不同修剪严重性决策树模型预测精度表
从表4可以看出,当修剪严重性设为30-60时模型精确度相对较高,我们采用修剪严重性为40。
2.5 决策树模型分析
根据上述设置,决策树分类规则如下:
规则1:如果电子商务安全技术=“不及格”并且电子商务项目策划与管理=“不及格”,则职业考工实训=“不及格”。
规则2:如果电子商务安全技术=“中等”并且商务礼仪=“不及格”,则职业考工实训=“及格”。
如果电子商务安全技术=“及格”并且电子商务项目策划与管理=“良好”并且就业与创业指导=“及格”,则职业考工实训=“及格”。
如果电子商务安全技术=“及格”并且电子商务项目策划与管理=“良好”并且就业与创业指导=“良好”,则职业考工实训=“及格”。
如果电子商务安全技术=“良好”并且商务礼仪=“及格”,则职业考工实训=“及格”。
一些模拟声音的词语能让读者产生丰富联想,教学中,可以抓住文本中的拟声词引导学生再现画面,如:苏教版二年级下册《歌唱二小放牛郎》中“四下里‘乒乒乓乓’响起了枪声,敌人才知道受了骗”。读到这一句,学生不由得在座位上一边用手做出打枪的样子,一边响亮地读出“乒乒乓乓”这个词语,相信他们已从这个词中感受到战斗的激烈的画面及对敌人的仇恨的情感。在苏教版二年级下册《下大雨》中“呜——哇,呜——哇”,学生从中感受到雨点之大,读到这里,一些学生还缩了缩脖子,感觉雨很大,雨声就在耳旁。
规则 3: 如果电子商务安全技术=“中等”并且商务礼仪=“中等”,则职业考工实训=“中等”。
如果电子商务安全技术=“及格”并且电子商务项目策划与管理=“优秀”,则职业考工实训=“中等”。
规则 4:如果电子商务安全技术=“及格”并且电子商务项目策划与管理=“中等”,则职业考工实训=“良好”。
如果电子商务安全技术=“及格”并且电子商务项目策划与管理=“良好”并且就业与创业指导=“中等”,则职业考工实训=“良好”。
如果电子商务安全技术=“良好”并且商务礼仪=“中等”,则职业考工实训=“良好”。
规则 5:如果电子商务安全技术=“中等”并且商务礼仪=“及格”,则职业考工实训=“优秀”。
如果电子商务安全技术=“中等”并且商务礼仪=“良好”,则职业考工实训=“优秀”。
如果电子商务安全技术=“良好”并且商务礼仪=“优秀”,则职业考工实训=“优秀”。
如果电子商务安全技术=“良好”并且商务礼仪=“良好”,则职业考工实训=“优秀”。
从规则集中看出,如果电子商务安全技术课程及格,电子商务项目策划与管理成绩“良好”并且就业与创业指导=“及格”或者就业与创业指导=“良好”,则职业考工实训成绩可能“及格”。如果电子商务安全技术课程成绩“及格”,电子商务项目策划与管理课程成绩“良好”并且就业与创业指导成绩为"中等",那职业考工实训成绩“良好”可能性很大。如果电子商务安全技术成绩为“良好”并且商务礼仪成绩为“中等”,那么职业考工实训成绩为“良好”。如果电子商务安全技术成绩为“优秀”,则职业考工实训可能为“优秀”。如果电子商务安全技术课程为“良好”并且商务礼仪成绩“优秀”,那么职业考工实训可能也为“优秀”。电子商务安全技术课程、电子商务项目策划与管理课程与职业考工实训相关度很大。这两门课程也是电子商务专业的专业基础课程,我们要重视专业基础课程教学和建设。
利用决策树算法分析各课程之间的联系,可以指导教务安排各课程之间的先后顺序,有利于教师的教学和学生掌握知识,从而提高学院的教学质量,为培养合格的高职人才打下结实的基础。
[1]薛薇,陈欢歌.基于Clementine的数据挖掘[M].北京:中国人民大学出版社, 2012.
[2]王平霞,郝志廷.决策树技术在高职院校学生成绩分析中的应用研究[J].电脑知识与技术,2013,13.
[3]孙丽英.数据挖掘在计算机等级考试中的应用[J].计算机教育,2010,7(2):38-41.
[4]李绍中.数据挖掘改进算法在学生成绩分析中的应用[J].科技通信,2012,28(8):208-212.
[5]徐鹏,林森.基于C4.5决策树的流量分类方法[J].软件学报,2009,10,2692-2704.
[6]雷燕瑞.数据挖掘技术在高职成绩分析中的应用[J].软件学报,2013,34(12).
Applicatioo n of the Decision Tree e Algorithmm C4.5 in AAnalysis off Student GGrade
Shang JJunyan, Lu Binng, Bai Qianran
(Changzhou Innstitute of Lightt Industry Technnology)
To solve the pproblem with inncreasing dataquantity in thee college educattional administtration system,it uses the tecchnology off data mining tto make connecctions with these data so thatt it can help thee college administrators imprrove managemeent quality. DDecision Tree iss used to do claassification andprediction in ddata mining. It aanalyzes the daata of educationnal administratioon system byy using Decisioon Tree to find oout the hidden rrelationships off each curriculuum. That can beenefit the improovement of teacching qualitty and managemment of the colleege.
ds: The Decisioon Tree; Data MMining; Studentt Grade; the Deccision Tree Alggorithm
TP181
A
2014.12.25)
1007-757X(2015)04-0043-02
商俊燕(1978-),女,江苏常州,常州轻工职业技术学院, 讲师,本科,研究方向:数据库及数据挖掘,常州,2133164
陆 兵(1967-),男,江苏常州,常州轻工职业技术学院,副教授,本科,研究方向:数据库及数据挖掘,常州,213164
柏倩然(1992-),女,江苏常州,常州轻工职业技术学院,大专,研究方向:数据库应用,常州,213164