摘 要:随着大数据时代的到来,各高职院校的学生数据不断增长。当前,国内高校的学生成绩散乱地存储在教务系统中的现象十分普遍,高校较差的文件归档整理能力,容易导致严重的资源浪费和空置。文章基于数据挖掘技术的决策树算法,利用国内某高职院校电子商务专业学生成绩进行数据挖掘,提取数据中的隐性有用信息,获取该专业的核心课程与其它课程之间的关联关系,帮助高校教师和管理人员更好地掌握学生的学习情况,改进教学,为其合理地设置课程提供参考依据。
关键词:高职院校;数据挖掘;决策树算法;核心课程;关联分析
中图分类号:TP319 文献标识码:A 文章编号:2096-4706(2019)02-0151-03
Abstract:With the arrival of the big data era,the student data in higher vocational colleges has been increasing. At present,the scores of students in many domestic colleges and universities are just stored in the educational administration system in disorder,which leads to serious waste of resources and vacancy due to poor filing ability. This paper will find out the relationship between the core courses and other courses of the major,using the decision tree algorithm to make data mining for the score of the electric business students in a higher vocational college,and mining students’scores deeply and extracting useful information hidden in the data,which can help teachers and administrators to master the students’learning situation better and improve the teaching,and provide a reference for scheduling the courses more reasonably.
Keywords:higher vocational colleges;data mining;decision tree algorithm;core course;association analysis
0 引 言
在信息时代迅速发展的历程中,数字化、信息化的内在动力正在深刻地影响着社会的发展,数据已成为推动我国科技和经济发展的重要力量。大数据的核心价值影响力正逐步拓展至金融分析、教育、交通运输、医疗救助、文化等众多领域,并得到了广泛的关注和应用。近年来高职院校学生成绩数据也在呈爆发式增长,而许多学校教务系统的数据管理还只停留在对数据进行简单的查询、统计阶段。因此,应用数据挖掘技术对数据进行更深入的挖掘分析,成为高校教学管理的迫切需求。就国外应用情况而言,数据挖掘技术已被逐步应用到高校管理及教育实践中,具体体现在学生教务系统管理、平台管理、校友系统管理等方面。在国内,数据挖掘技术整体使用较国外晚,但近年来其应用发展较快。数据挖掘技术可以帮助高校完成学生综合素质测评,教师测评,课程合理设置和教学方法选择,试卷评阅和试题质量评价等大数据量的工作。教育数据挖掘(Educational Data Mining,EDM)[1]是综合运用统计学、人工智能学、管理信息系统、模式识别以及数据挖掘技术等对大数据进行集中分析和统计,通过数学建模方式,及时发现学生学习过程中具体内容、学习成果及学习行为等之间的量化关系,以实现对学生后期学习的综合预判。教育数据挖掘也可以帮助高校改进教学,如提高学生学习成效,挖掘课程间的内在联系,及时帮助教师不断改进和优化具体的教学方法,以提升教学针对性,帮助教学管理人员快速制定决策,从而为改进教学和提升教学质量提供依据[2]。
1 教育基础数据挖掘的环节
教育大数据挖掘具体流程涵盖:数据前期准备、数据采集、结果阐述环节。
(1)数据前期准备:确定挖掘对象,搜集并整理教学管理中的源数据,使数据挖掘可以就明确的对象进行分析,以得出相关结论。它包括数据集成、遴选和预处理:1)数据集成:也称为“数据清洗”,通常占整体工作量的30%以上。整理数据,及时处理和纠正数据中存在的纰漏,实现“数据清理”。及时过滤、筛选其中的错误数据、重复统计数据;2)数据遴选:基于数据要求,进一步缩小圈定范围,提升数据的处理效率;3)数据预处理:将数据转置为满足数据挖掘的固有格式,并进行必要的数据简化和离散化。
(2)数据采集:它是数据挖掘过程中最关键的一步,首先应选定某个特定的数据挖掘算法。数据挖掘算法,是根据数据创建数据挖掘模型的一组试探法和计算,其包括以下几种常用算法:关联规则、决策树算法、神经网络方法、分类算法、遗传算法、聚类分析算法、回归算法、统计分析方法等[3]。在数据挖掘的各种算法研究中,学者们的研究方向集中在分类、聚类、关联规则等方法:1)分类:分类是一种有指导的学习过程,基于既有数据样本集合及样本特点建立可以将数据及时映射到某一特定类型的分类函数或者直接划分至特点的类型中的某一个类型,对未知的统计样本赋值类型,以实现决策干预[4]。一般情况下,分类过程可以分为两个环节:分类器构建及分类器数据分类;2)聚类:聚类分析和分类分析之间的差异体现在其属于一种无监督体系下的自我学习过程[5],分析前尚不明确相应的样本类型及数量。它是将物理的或抽象的对象划分为若干组的过程,一个群体也就是一个类。聚类分析算法以最大化分类的相似度指标及最小化分类的相似度指标作为聚类分析对象,对应条件下形成的数据簇可以认为是一个完整的数据对象,描述其特性的方式主要有两种,即:显性和隐性。不依赖预先定义的类和带类标号的训练样本;3)关联规则:主要是从数据存储库中及时发现数据库项目或者不同数据属性之间的隐性关联关系,并借助关联标准进行量化描述。它早期出現在市场购物模型中,其主要目的是评价顾客的购买需求及购买意向。当前,关联规则已经被推广使用到其它领域[6],例如,银行的信用卡使用及跟踪系统,及时获取消费相关数据,发现特定信用卡客户群的消费习惯;网站设计及维护人员可以借助Web服务器及时记录访问客户的数据,发现浏览者的浏览习惯及不同网站之间的相互关联关系。
(3)结果阐述环节:上述步骤主要是基于用户的最终决策,以实现对数据及相关信息的及时发现及处理,并将可用信息合理区分,提交给决策者。
2 决策树算法
在分类算法中最重要的算法之一就是决策树算法,其是数据挖掘阶段的核心研究内容之一,上述算法受到了国内外相关研究者的追捧。决策树算法(Decision Tree)是常用的分类方法之一,其把所有变量对数据的影响用树枝形状来描述,详细执行流程如下:首先,依照标准确定对应的根节点;其次,分析根节点的属性,将样本集合划分为多个子集合,使用相同的方法从子集中确定节点,并完成连续迭代,直至子集合为空集合或者达到既定的停止运行条件,对应的节点为子节点,子节点可以认为是某一类型的属性值;最后,将上述继承关系借助树状图的形式表现出来,形成决策树。当前其已经广泛应用在信用卡使用损失预判、国际性货币流通兑换时序等方面[7]。
当前,已经成熟的决策树算法类型涵盖:ID3、C4.5、CART、CHAID、SPRINT、SLIQ等算法。J.R.Quinlan早在上世纪70年代中期就提出了ID3算法[8],其是决策树算法中常用的算法之一,具有代表性。决策树算法类似于离散函数值算法,ID3算法能够初步满足数据挖掘的需求,但这种算法尚未考虑到决策树节点数量过量的问题,导致决策树的高度值无法控制。随着知识量的不断累积,知识量和决策树高度呈现出明显的正相关关系,这导致算法效率无法达到预期效果。为了切实降低决策树算法的繁琐程度,优化决策树的决策效率,人们提出了更加合理的改进算法。研究人员努力简化决策树,同时在改进属性选择方法、测试属性空间的修正、数据集合限定、数据结构改善等方面均提出了相应的标准算法。其中,C4.5算法继承了ID3算法的优势,并从以下方面进行了重点改进:将信息增益率作为属性判断指标,在构造决策树的过程中对决策树进行精简;实现属性连续及离散化目的;适用于不完整数据的处理和分析。但是,C4.5算法也存在诸多缺陷,譬如,在构建决策树时,先对数据进行多次顺序扫描及排序,这将在一定程度上导致算法运行效率低下,仅适用于能够停驻在内存中的数据集合[5]。C5.0算法主要面向大数据集合,被广泛应用在数据库分析中(其中包含了数百万份数值或者名义领域)。虽然其存在记忆存储使用率低的问题,但比C4.5算法运行效率高,并且能产生更准确的规则。C5.0算法可以更好地掌握学生的学习情况,其在内存占用方面的性能也比C4.5算法提高了大约90%。在精度控制层面,C5.0算法一般使用提升方法,部分数据集合的测试结果表明,C5.0算法误差率低于C4.5算法的50%[9]。
本文高职院校课程关联性分析实验采用决策树C5.0算法,该算法易于理解,且应用领域也最为广泛。其在可理解度、易训练性、易实施性和通用性等方面优于其它分类方法。决策树算法可应用于连续或者离散数据的决策分析中,其可以更加明确地分辨出不同属性的重要程度,减少计算量,并且可以生成易于常规用户理解的准则。将决策树算法应用在学校成绩管理综合系统中,可以帮助高校更加高效地完成信息挖掘,获取其中的隐含数据。
3 决策树C5.0算法在高职院校课程关联性分析中的具体应用
3.1 实验数据准备
本实验的原始数据为福建农职院教务管理系统中电子商务专业2015级100个学生、5个学期的成绩表,其中包括39门课,3900条成绩记录。进行数据清理后,将其中1名退学学生,4名缺考较多学生的记录删除,保留95个学生、39门课程、3705条成绩记录,实际调查学生占所有调查学生的95%。在39门课程中,去掉3门选修及7门实训课程,余29门课,95个学生,共2755条记录。根据实际需要,将学生每学期的总评成绩及格与不及格成绩,分别用属性标志,分别用字母“Y”、“N”表示,具体情况如表1所示。
3.2 数据采集
根据该学院2015级电商专业培养方案,该专业的核心课程为:“电子商务网站建设”、“网络营销”、“电子商务案例分析”、“电子商务法”。根据培养方案中各课程之间的关系,利用决策树C5.0数据挖掘算法,建立专业核心课程与其它课程的决策树模型,找到专业核心课程与其它课程的关联。
3.3 结果阐述环节
部分核心课程与其它课程关联的挖掘结果如图1、图2所示。
3.3.1 实验结果综合分析
第一,“网络营销”课程与“电子商务概论”、“电子商务案例分析”、“应用文写作”、“电子商务物流”等课程相关,特别是与“电子商务概论”课程关系最为密切。第二,“电子商务网站建设”课程与“电子商务概论”、“网页设计与制作”“应用文写作”、“市场调研与观测”等课程关系较密切,特别是“电子商务概論”课程,大部分“电子商务概论”课成绩不及格的同学“电子商务网站建设”这门课也不及格。第三,“电子商务法”课程与“电子商务案例分析”、“电子商务概论”、“电子商务数据库设计与管理”等课程关系密切。第四,“电子商务案例分析”与“电子商务概论”、“电子商务法”、“应用文写作”等课程有关系,其中影响最大的是“电子商务概论”课程。
3.3.2 实验挖掘后的数据应用
实验挖掘出有价值的信息为:几门核心课程都与“电子商务概论”、“电子商务案例分析”课程关系密切。因此,应对学生重点教授这两门课程,提高学生成绩,为学生其它核心课程的学习奠定良好的基础。此外,对于各核心课程与其它课程之间的关系也应予以重视,为教师更好地改进教学及合理地设置课程提供参考依据。
4 结 论
为了更好地提高学生学习成绩分析效率和高校教学质量,利用数据挖掘技术构建高校学生成绩分析系统较为关键。文章利用决策树算法对电商专业的学生成绩进行挖掘整理,发现了该专业核心课程与其它课程的关联,以期为教师更好地改进教学及合理地设置课程提供参考依据。由于篇幅和水平有限,本文只采用决策树算法进行了挖掘,并未比较几种数据挖掘算法在学生成绩分析中的应用。笔者将不断学习,以期就这方面展开更为深入的研究。
参考文献:
[1] 孙曙辉,刘邦奇,李鑫.面向智慧课堂的数据挖掘与学习分析框架及应用 [J].中国电化教育,2018(2):59-66.
[2] 余亮,杨秋燕,赵楠.模型驱动的教育大数据挖掘促进教与学——访美国犹他州立大学米米·雷克教授 [J].开放教育研究,2018,24(1):4-9.
[3] 和铁行,王伟.数据挖掘在计算机课程成绩分析中的应用 [J].浙江医学教育,2017,16(5):4-6+42.
[4] 王金庆.决策树C4_5算法的改进与应用 [D].西安:西安理工大学,2017.
[5] Wang X M,Wang J B. Research and Improvement on K-Means Clustering Algorithm [J].Computer & Digital Engineering,2013(756-759):3231-3235.
[6] Buko Dadye H,Rimiru R. Effects of Different Pre-processing Strategies:A Comparative Study on Decisision Tree Algorithms [J].International Journal of Digital Content Technology & Its Applications,2013,7(7):939-948.
[7] 黄炎,王紫玉,黄方亮.数据挖掘技术在高校学生成绩分析中的应用与研究 [J].兰州文理学院学报(自然科学版),2016,30(3):64-68+78.
[8] Baldwin J F,Lawry J,Martin T P. A mass assignment based ID3 algorithm for decision tree.induction [J].International Journal of Intelligent Systems,2015,12(7):523-552.
[9] 李強.创建决策树算法的比较研究——ID3,C4.5,C5.0算法的比较 [J].甘肃科学学报,2006(4):84-87.
作者简介:潘燕(1981-),女,汉族,福建建阳人,专任教师,高校讲师,工程硕士,主要研究方向:软件工程、数据挖掘技术、三维建模。