狄晓娇
摘 要:信息技术的发展及应用以及如何利用信息技术提高高校的管理水平,是高职院校面临的重大课题。在学习和工作的过程中接触到数据挖掘这一先进的概念,力图通过数据挖掘从学生的成绩中找到隐含在其中的有效信息,这样既可以帮助老师了解学生的学习情况,又可以帮助学生了解学习重点,达到教学相长的目的。利用数据挖掘技术中的决策树的相关知识和方法,以多届学生的《计算机应用基础》成绩,对学生的成绩进行分析。主要使用数据挖掘中的决策树知识将决策树应用在学生成绩数据挖掘的模型上,使用SPSS Modeler 软件利用C 5.0 算法分析出哪些因素对于《计算机应用基础》考试的影响最大,揭示其中规律,为今后教学工作及教学安排提供有效的科学的指导依据。
关键词:数据挖掘;考试成绩;决策树;关联规则
中图分类号:G4 文献标识码:Adoi:10.19311/j.cnki.1672-3198.2018.17.083
1 决策树的基本概念
在已有的大量源数据中得到有效的分类器有许多种办法,决策树就是其中一种有效的办法。他在数据挖掘中尤其在数据分类领域中应用十分广泛。决策树算法主要是通过一组输入样本数据然后对样本进行決策树归纳的一种方法。决策树的表现形式是一个倒树状结构图,并且在树枝的节点上一般还附带概率结果,它是一种是直观的使用统计概率来分析对象的图表示方法。
2 几种常用的决策树算法
常见的算法有CHAID、CART、Quest和C5.0。判断决策树算法是否合适,就看每一个决策树分组的组之间的差别是否够大,属性差别越大就是算法越合适。决策树算法擅长处理离散型数据,并且处理非数值性数据时效率的方面也有不错的表现。
3 决策树的评价标准
建立了决策树模型后需要给出该模型的评估值,这样才可以来判断模型的优劣。学习算法模型使用训练集 (training set) 建立模型,使用校验集 (test set) 来评估模型。经过校验集评估后决策树进行评价。评估指标有分类的准确度,描述的简洁性和计算的复杂程度等指标。
4 决策树在计算机成绩分析中的应用
4.1 确定挖掘对象
本次挖掘的对象是以《计算机基础》为基础信息,之所以选择这门课程,是因为它是新生入学的第一门与计算机相关的课程,也是今后继续学习计算机相关课程的基础。
《计算机基础》包含平时成绩及期末考试成绩。考试在新生入学的第一学期的期末,即每年的1月份进行期末考试,期末考试总分为40分,占总成绩的40%。期末考试的形式为上机操作,其中包括Word,Excel和powerpoint分别占总成绩的40%,40%,20%。在平时成绩中有3次随堂测验同样分别是Word,Excel和powerpoint,将其成绩汇总作为平时成绩,总分为60分,平时成绩占总成绩的60%。
本论文决定使用决策树方法研究《计算机基础》考试中word,Excel和powerpoint几个部分对最终成绩的影响程度。通过构造决策树可以更容易找到哪些因素对最终成绩影响更大。同时采用关联规则中的Apriori算法研究《计算机基础》和后续课程《fireworks》的关联。
4.2 数据的预处理
本文用到的2013至2015级学生的《计算机基础》成绩及《fireworks》成绩,是在学校教务部门,使用我校教务部门的教务管理软件下载得到,由于学校的管理软件的功能有限,所以下载的成绩是以班级为单位的。
(1)数据的预处理。
数据的预处理对与数据挖掘有着重要的作用,在本文研究的目标模型是多界学生的《计算机基础》及其后续学习课程的成绩,并且这些成绩是以Excel文件的形式保存的。其中包含的属性包含学号、姓名、平时成绩、期末成绩、总成绩、专业名称、课程名称、任课教师等。现在需要做的就是对这些数据进行集成和预处理。
(2)数据清理。
数据预处理的第一步就是处理缺失数据。通常情况下对于缺失值的处理方法包括:人工填写,使用最有可能的数值,忽略数值,平均值填充等方法。在处理《计算机基础》考试成绩的过程中发现大部分缺失值产生的原因是由于缺考造成的,所以对于缺失值的处理方法是忽略条目的方法。由计算机基础是第一学期的考试科目,所以缺考学生没有,得到有效数据2397条。
(3)数据集成。
我们需要将《计算机基础》,《fireworks》等科目的成绩集成在一个成绩表中,也就是数据集成。
集成后数据表格包含《计算机应用基础》,《fireworks》考试成绩,每门课程包括平时成绩,期末成绩及总成绩,任课教师等属性。其中原始样本为2397个,经过预处理可以进行数据挖掘的样板数为2253个。本次数据挖掘样本有效率为94%。
(4)数据的归约。
经过数据集成后,我们还需要对数据进行归约,对数据进行离散化处理把连续型数据转换为离散型数据,可以使数据挖掘的结果更加直观简洁。在本文中我们通过数据集成,将学生的成绩数据集成到一个包含学号、姓名、专业类别、平时成绩、期末成绩、总成绩等属性的数据文件。首先我们研究的课题是利用决策树研究平时成绩与期末成绩和影响考试通过率因素。所以首先剔除《fireworks》的考试成绩,以及专业类别、任课教师属性。还因为姓名与学号两个属性是属于相关属性,也就是说姓名与学号是对应的关系,相互可以替代,但是姓名还有重名的可能,而学号是唯一的,所以将姓名的属性剔除。只保留学号,平时成绩,期末成绩,总成绩这些属性。
对于决策树的构成最好使用离散型数值,这样可以使结果简洁,减少计算量。所以,我们需要将成绩库中的数据进行离散化处理。目前,期末考试的总成绩为100分,而评价学生通过考试的分数线为60分,所以,将总成绩属性离散化为两个部分,即:将高于60分的学生成绩转换为“yes”,分数低于60分的成绩转换为“no”。
平时成绩占总成绩60%,满分为60分,按照平时成绩大于54分,小于等于60分;大于47分,小于等于53分;大于41分,小于等于47分;大于35分,小于等于41分;小于等于35分五个层次,将平时成绩分为“Super”“Hi”,“Mid”,“Low”,“No”五个等级。平时成绩分为Word,Excel,powerpoint及平时表现分数四个部分,其满分分别是20,20,10,10。将这些成绩按照满分的90%,80%,70%,60% 分成“Super”“Hi”,“Mid”,“Low”,“No”五个等级。
与此同时,期末成绩占总成绩的40%,共40分,按照期末成绩分数大于35分,小于等于40分;大于31分,小于等于35分;大于27分,小于等于31分;大于23分小于等于27分;小于等于23分,分为“Super”“Hi”,“Mid”,“Low”,“No”五个等级。
4.3 利用决策树做成绩分析
使用SPSS Modeler软件中C5.0模型,得到运算结果。
通过对结果的查看得到对于考试成绩影响最大的是“平时”部分,预测变量的重要性=0.36;然后是powerpoint和word部分,预测变量的重要性=0.23;而“出勤”部分对于是否通过考试的影响重要性为0.18。由此得出结论:对于判断一个学生是否通过考试的几个因素中平时成绩最重要,word,powerpoint和出勤情况的占比差不多,但是对于Excel部分的相关性却不是很强,但是由于对于学生来说word与Excel和powerpoint的重要性在学习和以后的应用中是同等重要的,所以应该加强考试出题中Excel的难度比重,如图1所示。
提高Excel成绩与最终考试成绩的相关性,使教学的成果在考试中得到均衡的体现,更好的表现出考试的均衡性。通过对规则的研究可以得到一些有用的规则,我们发现如图2。
IF powerpoint成绩是“Hi”或者“Mid”then 通过考试的比率为98.33%。其他的规则由于样本比例不是很多所以没有更多的挖掘意义。具体形成的决策树如图3。
通過以上的数据挖掘,我们可以看出在众多影响学生成绩的因素中,平时成绩对学生最终成绩的影响是最大的。所以如果想要提高学生的最终成绩,就需要提高学生的平时成绩。而平时成绩主要是由考勤及平时几次考试的成绩决定的,因此如果希望提高学生的最终成绩一定要保证平时的出勤率,和平时的学习效果。
另外,从以上的规则中我们还可以看出对于最终成绩影响较大的还有powerpoint部分,这部分知识点较简单,学习起来也较容易,因此比较容易拿分,因此需要提高其他方面知识点的分布,增强学生的学习效果。
5 总结
信息化技术的发展,对于高校这既是机遇又是挑战,笔者所在的学校的各个管理部门也在引入先进的管理系统,完善各自部门的管理。比如近些年学校陆续上了教务管理系统、学生管理系统、人事管理系统等等。这样使得笔者所在学校的管理水平上了一个台阶。升级新的管理系统为我校积累了大量数据资源。如何利用先进管理系统带来的宝贵的数据资源也为学校各界人士提出了问题。笔者尝试利用数据挖掘这样一个新兴的学科来对学校的数据进行一些分析,力图从中挖掘出一些隐藏在数据中的一些信息,为学校的建设提供科学的理论依据。
参考文献
[1]范佳凤,袁娟,许艳敏.基于成绩分析的大学教与学现状思考[J].现代商贸工业,2013,(03).
[2]戎荷婷,王瑞玲,武晶,杨秋白.学生行为对学生成绩的影响探究[J].现代商贸工业,2016,(23).
[3]臧琛,李景平,刘海亮,王景磊.工程训练学生成绩考核体系探讨与设计[J].现代商贸工业,2017,(09).