决策树在成绩分析中的应用

2015-05-22 06:41吴焕瑞
智富时代 2015年3期
关键词:决策树数据挖掘

吴焕瑞

【摘 要】数据挖掘技术能够从海量信息中获取有用的知识,有利于辅助管理者制定决策。分析《计算机信息技术》的课程成绩时,挖掘得出影响学生成绩的潜在的因素,目的在于改善课程教学。

【关键词】决策树;数据挖掘;成绩分析

一、引言

传统的学生学习成绩分析大多只是将学生的考试成绩档和查询做简单的排序和分析,如果将数据挖掘技术运用到高校学生成绩分析中来,对成绩数据进行更深层次的有效分析处理,可以更加全面地分析各种影响学生成绩的因素以及学生各项成绩之间的潜在联系,可以帮助教师们认清同学们的学习现状,从而更加灵活和有效的组织教学,同时,还可以进一步帮助同学们科学的、有针对性的提高学习成绩。

二、决策树介绍

决策树是一种类似于流程图的树结构,它对数据进行分类,以此达到预测的目的。决策树由决策结点、分支和叶子组成,每个决策结点代表一个问题或决策,最上面的结点为根结点,每个分支代表一个新的测试输出,每一个内部节点代表在一个属性上的测试,每一个叶子结点代表一种可能的分类结果。决策树结构是采用自上而下的递归算法,由内部结点属性值的比较来判断下面再根据哪个结点进行分支,最后找到决策树的叶节点。

三、决策树算法在《计算机信息技术》成绩分析中的应用

《计算机信息技术》在学生在大一时上的一门基础课,包含选择题、windows操作、word操作、excel操作、PPT、网络等,利用决策树技术研究在计算机等级考试中,各个模块对成绩影响的程度,通过构造决策树可以很容易看出,哪些属性对成绩起决定作用最大。

(一)数据采集

本文利用的数据源是2013级计算机类专业的《计算机信息技术》成绩,由于现实数据是不完整和包含噪声的,对原始数据进行预处理,是进行数据挖掘操作前必须要做的一个非常重要的步骤。数据预处理部分包括数据清理、数据集成、数据变换等操作。

数据清洗:采用忽略元组的方式,将采集到的原始数据中缺考、缓考、旷考、作弊的学生记录删除。

数据选择:因为主要针对各个模块对成绩的影响进行分析,所以学生的学号姓名等无关字段一并删除。

数据转换:因为重点分析成绩及格和不及格决定因素,因此将数据转换为表:

(二)数据分析

利用C5.0算法,在Spss Clementine下建立“成绩分析”表的决策树模型。

流中将“分析结果.xls”作为源文件节点。用到了Excel、类型、C5.0模型三个对象。将三个节点对象拖如流中,并建立其连接。在建立成绩是否及格决策树模型时,以等级属性作为分类属性。运行后对结果进行了分析,得出了基于等级字段类型的决策树模型为图2,分类规则如图3.

(三)结果分析

通过以上分析,可以看到对EXCEL决定这最终成绩的影响是最为重要的,其次是网络,word。因此,同学们在计算机信息技术的等级考试的时候可以将excel作为重点来进行强化训练。另一方面,任课教师也可以根据通过等级的几种规则有所了解,在日常的教学工作中,合理制定教学计划,适时调整教学方法。授课教师要在课堂上多进行excel强化训练,经常提醒同学们多重视、多练习。因此根据数据挖掘分析结果教师对同学们学习进行科学的指导,帮助学生进一步提高学习效率。

四、总结

本文运用数据挖掘的技术建立了分类处理模型,探究了《计算机信息技术》这门课中,找出规律,从而不断改进教学工作,指导学生调整学习计划、完善学习方法、科学有效提高学习成绩。

【参考文献】

[1]吴全胜,马敏.数据挖掘技术及其应用现状[J].科技信息,2009(33).

[2]范明 ,孟小峰,译.数据挖掘概念与技术[M].机械工业出版社,2001.

[3]赵艳春.决策树算法在中职招生宣传中的应用研究[J].中国西部科技,2013 (01).

[4]张春琴.数据挖掘技术在课程成绩分析管理中的应用研究[D].杭州:浙江工业大学,2009.

猜你喜欢
决策树数据挖掘
一种针对不均衡数据集的SVM决策树算法
决策树和随机森林方法在管理决策中的应用
基于改进决策树的故障诊断方法研究
基于并行计算的大数据挖掘在电网中的应用
基于决策树的出租车乘客出行目的识别
基于决策树的复杂电网多谐波源监管
一种基于Hadoop的大数据挖掘云服务及应用
基于肺癌CT的决策树模型在肺癌诊断中的应用
数据挖掘的分析与探索
基于GPGPU的离散数据挖掘研究