基于决策树算法的CCT成绩分析方法探讨

2015-11-19 07:29:43广州工商学院
当代教育实践与教学研究 2015年10期
关键词:训练样本决策树数据挖掘

广州工商学院 陈 雪

基于决策树算法的CCT成绩分析方法探讨

广州工商学院 陈 雪

本文主要介绍基于数据挖掘决策树技术的学生成绩分析的实现过程,使用学生的真实考试数据,进行数据预处理后应用算法构造决策树。提取分类规则,通过计算规则的准确率与覆盖率对规则进行约简,从而挖掘有价值的规则。最后利用该分类规则,预测学生能否通过等级考试。研究结果表明,决策树预测准确率高,能挖掘出影响学生通过CCT考试的关键因素,对计算机基础课程教学有一定指导作用。

数据挖掘 决策树 CCT 成绩分析

全国高等学校计算机水平考试(College Computer Test,简称CCT),是经全国各省、市、自治区教委(教育厅)第八届高教处长联席会议协议,从1997年举行,由教育部所属全国各省、市、自治区教委(教育厅)组织,测试高等学校在校学生计算机应用知识与能力的全国统一标准的权威考试。这项考试制度实施至今,已得到广东省普通高校和用人单位的广泛认可,受到学生的高度重视。

笔者所在院校组织学生参加CCT考试已有十几年时间,积累了大量的CCT相关数据。本文对笔者所在院校2014级学生参加全国高校计算机等级考试数据使用数据挖掘技术中的决策树算法进行了分析,该方法首先收集大量数据,通过数据预处理得到适合的训练样本和检测样本,利用软件构造出决策树,通过对决策树分析得到有价值的信息,并对决策树模型的风险进行评估。决策树方法分类精准,预测准确率高,为了更好地指导学生顺利通过考试,挖掘大量数据背后所隐藏的对教学潜在有用信息,并据此对教学进行有针对性改革,是十分有必要的。

一、数据挖掘概述

1.数据挖掘定义。数据挖掘(Data mining)是从庞大的数据库里,通过对不完全、有噪声、模糊、随机的数据处理,提取出隐藏在其中不被发现,但又很有利用价值的信息。数据挖掘是一个完整的、不断完善的数据发现过程,可以对大型数据库不断挖掘、进行算法优化,提取有效信息,并通过信息分析做出决策。

数据挖掘是数据库技术、情报检索、数理统计、专家系统、机器学习、模式识别与人工智能等的有机结合,广泛应用于教育教学、金融销售、电信电力、生物医学等各领域。数据挖掘的核心算法主要有决策树算法、统计分析法、分类规则、遗传算法、聚类算法等,其中决策树算法以直观性强、数据分析率高的优点而经常用于教学管理中。

2.决策树算法。决策树方法利用信息增益来找寻数据库中具有最大信息量的字段,用以建立决策树的某个结点,然后再根据该字段的不同取值来建立树的分支,重复这个过程最终建立树的下层结点和分支。决策树方法可以使数据规则变得可视化,构造过程时间并不需要很长,虽然实际应用中决策树可能表现得很复杂,但从根结点到叶子结点的每一条路径仍然易于理解。这种易于理解性是决策树的一个显著的优点,所以决策树方法能在知识发现系统中得到较广泛的应用。

决策树算法通过一系列规则对数据进行分类,思路在于从训练样本中,自动地构造出决策树,根据这个决策树再对任意实例进行检测。决策树的主要优点在于树状结构的决策树分类模型,采用自顶向下的递归方式,简单直观的产生一个类似于流程图的树形结构,可以在根节点和各内部节点上分别选择合适的描述属性,并根据属性的取值不同至上向下建立分枝。

3.决策树算法应用

(1)挖掘准备工作

①数据采集。我院2014级学生是此次数据挖掘的对象,在挖掘中要注意深挖出和结论可能存在联系的隐藏数据,在学生相关信息中找到有价值的内容,方便于决策树的构造。在数据收集中主要获得了以下三类数据:

第一,学生基本数据,包括学号、姓名、籍贯、年龄、性别、所属院系、专业、班级,可以通过我院的学生学籍信息管理系统获得。教师设计问卷调查表,对学生的电脑基础、兴趣爱好、是否预习、是否复习、是否宿舍有电脑等这一类辅助信息进行收集,注意问卷设计上要多选择少填写以规范数据格式。

第二,学生学习状态数据,包含学生的学习态度和过程化考核成绩信息,例如学生考勤信息、作业完成情况、期中考试成绩、模拟考试成绩等。信息的获取来至于学生考勤表、学生平时成绩登记册、模拟考试成绩细分表。其中成绩细分表包含有学生在平时测试中的各章节各知识点得分情况。

第三,考试成绩数据,包括学号、姓名、成绩、科目、专业、班级、准考生号等,通过省考试中心的成绩反馈文件获取。

②数据预处理

根据采集到的数据特点,在挖掘之前要对其进行数据预处理工作,通过数据转换来得到适合挖掘模型的数据,这一过程由数据集成、数据消减、数据清理、数据转换构成,其工作量较大,需要占据挖掘过程的60%以上。

第一,数据集成。将采集得到的多个数据文件利用数据库技术整合,建立起复杂大型的CCT考试成绩分析数据库。

第二,数据消减。通过数据集成建立起的CCT考试成绩分析数据库数据量大,数据结构复杂,但并不是所有的数据都有意义,应该根据实际需求挑选出有价值的的数据,来缩小数据库的规模,要注意消减操作不能影响到知识获取。对于数据挖掘工作来说没有价值的一类数据,如学生学号、姓名、籍贯、年龄、所属院系、班级、科目、准考证号等字段,要将其删除,通过此步骤得到新的数据表。

第三,数据清理。在教师收集学生问卷调查时,由于学生的配合度不一,可能会得到某些不合格的数据,或在一些选项中存在遗漏,需要进行数据清理。对一些单项或少量统计不全的记录,可以使用同类样本的平均值来进行替换空缺选项。例学生问卷调查表中如果有某条记录的“电脑基础”、“是否宿舍有电脑”等信息为空时,可以综合该班其他学生的该项平均值记录来进行人工填补;如果存在无法填补或有较大错误的记录,可以直接删除,例如缺考学生的数据、未提交问卷调查的学生数据。

第四,数据转换。数据清理之后,要把数据转换以成数据挖掘所需要的形式。在收集到的数据中,很多类别的数据都很具体,如平时考勤信息、作业完成情况、模拟考试成绩、CCT成绩等,对于挖掘过程来说工作量过大,需要将数值泛化为离散的区间来处理有些数据之间存在语义模糊,需要进行信息缺陷处理,得到规范的数据表述。

考试分数。由于成绩细分表中各章的分数占比都不同,为统一标准需进行百分制转换,转换的公式为:各章转换得分=(各章得分÷各章总分)×100。接下来对所有分数离散化处理,按照以下五个等级划分成绩:0-44分为差,45-59分为较差,60-74为中等,75-84分为良好,大于等于85分为优秀。

考勤信息、作业完成情况。对以考勤信息、作业完成情况这类以次数表达的信息,也可按完成情况进行离散化处理并划分成五个等级。

兴趣爱好。兴趣爱好属于字典项数据,如果按学生所填信息将很难处理,将这一项目也泛化处理为五大类,包括阅读、运动、艺术、上网、游戏。

(2)进行数据挖掘

本次挖掘的目的是从参加CCT成绩的合格和不合格两大类中去找出各类的重要影响因素和有用规则,采用了决策树的CRT算法。具体实现时,使用SPSS软件把数据调入分析系统,设置CCT考试成绩评价为因变量,设置其他经过预处理的数据为自变量。采用随机拆分样本抽取数据方式,随机抽取出80%的数据作为训练样本使用,剩余的20%数据作为检验样本。基于本研究的数据样本集和挖掘的需要,在最小个案数中,父节点最小设为60,子节点最小设为25,通过软件分析系统输出训练样本的决策树。

(3) 数据分析评价

对得到的训练样本决策树进行分析,可以看出尽管学生信息复杂,存在较大差异,但不合格学生的决策树模型具有一定相似性,表现为宿舍里没有电脑、出勤率差、平时成绩差、学习习惯不好、EXCEL得分差、喜欢玩游戏。宿舍里有电脑、出勤率高、EXCEL得分优秀、业余爱好阅读的学生合格率高。Excel题为关键性题型,Excel学习情况的好坏对通过与否影响较大。此结论对教师教学来说具有较强的指导意义。

实际操作中,对训练样本和检测样本进行测试,得到的分类准确率分别为86%和81%,处于合理区间范围,对教学具有一定的指导意义。

构建决策树反馈的评价模型风险表如下表所示:

评价模型风险表

从风险表的反馈数据来看,训练样本模型将不合格误判为合格的个案错判率为9.6%;检测样本模型的个案错判率为10.8%。构建的模型风险可以接受,处于良好可控范围,从技术层面上讲,说明本研究采用决策树CRT算法是可行的。训练样本建立模型的标准误差为0.012,检测样本建立模型的标准误差为0.016,根据偶然误差的高斯理论,结合概率统计相关的知识,上述误差值处于低位,说明系统在构建的模型时,具有一定的可靠性。

总之,数据挖掘技术是一种数据的深层次分析方法,通常通过长期对数据库进行研究和开发才可获得成果。人类往往只使用到低层次的简单查询操作,通过数据挖掘可以提高到从数据中挖掘有价值信息,提供分析预测依据、干预决策支持等高级应用中来。将其运用到CCT成绩分析后,能提高工作效率,在预测学生通过情况时具有较高的准确率,风险程度处于良好可控范围。需要注意的是,教师在利用该方法分析学生成绩时应注重数据挖掘流程的设计安排,特别着重于选择对挖掘有用的数据资源,以保证结果真实可靠。

[1]毛国军.数据挖掘原理与算法[M].北京:清华大学出版社,2005

[2]Jiawei Han,Micheline Kamber.数据挖掘概念与技术[M].北京:机械工业出版社,2001

[3]刘志妩.基于决策树算法的学生成绩的预测分析[J].计算机应用与软件,2012

[4]曾 旭,司马宇.一种基于ID3的计算机等级考试成绩分析方法[J].遵义师范学院学报,2013

[5]陈潇潇.数据挖掘技术在高校学生成绩分析中的应用研究[J].科技风,2013

[6]吴铁洲,曾艺师.决策树分类算法在教学评估中的应用[J].中国高等教育评估,2013

ISSN2095-6711/Z01-2015-10-0247

猜你喜欢
训练样本决策树数据挖掘
探讨人工智能与数据挖掘发展趋势
人工智能
一种针对不均衡数据集的SVM决策树算法
决策树和随机森林方法在管理决策中的应用
电子制作(2018年16期)2018-09-26 03:27:06
基于并行计算的大数据挖掘在电网中的应用
电力与能源(2017年6期)2017-05-14 06:19:37
宽带光谱成像系统最优训练样本选择方法研究
融合原始样本和虚拟样本的人脸识别算法
电视技术(2016年9期)2016-10-17 09:13:41
基于稀疏重构的机载雷达训练样本挑选方法
基于决策树的出租车乘客出行目的识别
一种基于Hadoop的大数据挖掘云服务及应用