基于教育数据挖掘的大学生实验课成绩预测研究*

2019-07-26 07:40丁国勇秦新国

中国教育信息化 2019年13期

丁国勇，秦新国，王雪

（1.南京审计大学教务处，江苏南京 211815；2.南京审计大学实验中心，江苏南京 211815）

21世纪以来，信息技术、网络技术、存储技术等的快速发展以及“互联网+”、云计算、物联网、人工智能、机器学习等技术的大规模应用，在许多方面产生了深刻变革，正如邬贺铨院士所说：“数据量与日俱增，数据处理能力不断增强，数据的资源属性更加明晰，具有可开发的价值”[1]，我们已经进入了维克托·迈尔-舍恩伯格所定义的“大数据时代”[2]。教育大数据是大数据的一个子集。如何从长期积累的海量教育大数据“金矿”中，通过教育数据挖掘技术挖掘出有价值的“知识”，从而指导管理决策和反馈教学，已成为高校的现实需要。教育数据挖掘的主要技术方法包括预测、聚类、关系挖掘、人类判断过程简化等，其中预测是指建立从多个自变量推断单一因变量的模型。[3]本文通过收集学生社会与人口统计特征、学生个人特征和学生投入等教育数据，构建一个大学生实验课成绩预测模型，并评价其有效性，探索教育数据挖掘在高校实验教学中的具体应用。

一、研究回顾

1.国外相关研究

国外有不少利用教育数据挖掘预测学生学业表现的研究和案例。Garcia（2011）等通过朴素贝叶斯分类器对大一学生学业表现优秀（High）和学业表现较低（Low）的预测正确率达到70%。[4]Ashkan Sharabiani等（2014）建立贝叶斯网络分类模型，将学生性别、种族、年龄、身份以及之前相关课程成绩作为输入变量，预测2门课程成绩的正确率分别达到70.4%、73.1%。[5]Garima Sharma、K Santosh（2017）基于学生先前的课程学习成绩和作业成绩，利用决策树算法ID3构建的学业预测模型，对70名学生学业表现低、一般和好的预测正确率分别达到79%、97%和 67%。[6]Sajadin Sembiring等（2011）构建了一个支持向量机分类模型，将兴趣、学习行为、家庭支持、时间投入、信心等作为输入变量，对1000名来自三个不同专业的学生学业表现进行分类预测，预测学业表现较低（Poor）的正确率达到93.7%，预测学业表现良好（Good）的正确率为最低，但也达到了61%。[7]

2.国内相关研究

国内关于教育数据挖掘的研究相对要晚于和少于国外的研究。葛道凯等（2012）最早编写了《教育数据挖掘：方法与应用》的著作，并依据数据来源将教育数据挖掘的应用领域细分为E-Learning数据挖掘（数据来源于教学和学习软件系统）、E-Management数据挖掘（数据来源于各种教育管理系统如招生管理、学籍管理、教务管理、师资）和E-Research数据挖掘（数据来源于文献数据库、政策数据库、语料库等），并通过案例详细介绍每个领域的典型应用。[8]黄景碧（2012）构建了一个数据驱动的教育决策支持系统，通过教育数据挖掘分析学习绩效数据，为教育决策提供支持。[9]舒忠梅等（2014）通过教育数据挖掘分析大学生学习效果和学习满意度。[10]彭涛（2015）通过教育数据挖掘构建了一个学生表现预测模型。[11]施佺等（2016）建立了网络学习过程监管的教育数据挖掘模型，并以大学英语教学管理平台为例，借助统计分析与可视化、关联规则算法和聚类算法，分析了网络学习过程中产生的大量学习数据，并根据分析结果给出了网络学习过程监督与管理的思考和建议。[12]这些学者的研究都证明了教育数据挖掘技术在预测学生学业表现和学习效果中的有效性。国内对于实验课成绩的研究主要在于评价体系和评定比例等，[13][14]对于教育数据挖掘在高校实验课成绩预测中的应用，虽提出了一些思路，[15]但没有提供具体应用案例。

二、数据来源与数据采集

1.数据来源

本研究探讨的是大学生实验课成绩预测模型的构建，因此预测目标（因变量）为大学生的实验课成绩。因为学生在校期间存在多门实验课程，故将每一位学生实验课程成绩平均值作为目标变量，并计算所有学生的成绩平均值和标准差，根据“均值±标准差”将学生实验课成绩分为“高”、“一般”和“低”三个类别。

大学生实验课成绩的影响因素具有复杂性和不确定性，本研究主要探讨实验课程教学过程之外的关联因素，参考乔治·库的“大学生成功要素模型”[16]，从社会及人口统计特征、个人特征和学生投入三个维度来考虑预测指标，共采集21个自变量，具体如表1所示。

表1 大学生实验课成绩预测模型的自变量

2.数据采集

大学生实验课成绩预测模型的因变量和自变量来自于多个数据源，比如学生的基本信息来自于教学管理信息系统，学生的体质测试成绩来自于体质测试平台，学术讲座、志愿服务等数据来自于学生管理系统，图书借阅等来自于图书馆管理系统等，因此需要构建一个“整合型教育数据系统”（Intergrated Educational Data System）。整合型教育数据系统基于这样一个理念——“将技术和组织运营规则相结合，整理合并从不同渠道收集到的数据，从而产生有意义的、有价值的信息”。整合型教育数据系统通过将分散在高校各类管理信息系统、业务系统的数据集中存储到统一的数据库中，统一进行管理和分析，可以提升教育数据挖掘分析的效率与效果。整合型教育数据系统具有数据仓库（Data WareHouse）的一些基本特征，比如面向主题、非易失性等，从某种意义上来说是一种数据集市（Data Market）。整合型教育数据系统从各关联系统中抽取数据，并进行数据清洗、数据标准化、缺失值处理等操作，以保证经过处理后的数据能够直接用作预测模型的“原材料”。

本研究以某大学为例，构建了一套整合型教育数据系统，采集了大三学生数据共3449条，约占该校大三年级全部学生数的85%。3449条数据中包括所有自变量和因变量，并已进行标准化处理。变量包括标志变量、分类变量、有序变量、连续变量等类型，比如性别为标志型变量，只有两种类别，男、女；地区为名义型变量，有三种类别，东部省份、中部省份和西部省份；学术讲座、志愿服务、图书借阅、社团参与等4个变量为有序型变量，用1、2、3分别代表参与程度；非实验课GPA、舍友GPA为连续型变量，用0.0～5.0之间的小数表示。因变量实验课成绩为名义型变量。

三、大学生实验课成绩预测模型构建与评估

1.模型构建

本研究使用SPSS Modeler作为建立预测模型的工具软件。SPSS Modeler原名Clementine，全面支持数据挖掘CRISP-DM的标准流程，可提供数据挖掘相关的数据理解、数据抽取加载转换、数据分析、建模、评估、部署等全过程的功能。SPSS Modeler的特点是图形化的数据探索方式，数据挖掘的所有过程都通过可视化的方法进行操作，直观明了。SPSS Modeler提供一系列的数据挖掘算法，可用于建立多种类型的数据模型，包括数据探索类模型、决策树模型、神经网络模型、聚类模型、关联性分析模型、时间序列分析模型等。SPSS Modeler用工作流的方式将教育数据挖掘的过程以可视化的方式呈现，包括数据源的链接、数据的筛选、预测变量和目标变量的选择、数据分区、建模算法选择等。

本研究中，数据来源为从整合型教育数据系统中导出的Excel文件；在“类型”节点中对21个自变量（输入）和1个因变量（目标）的类型进行了设置；在“分区”节点中设置了训练集为70%，测试集为30%；建模算法选择决策树（C5.0）、贝叶斯网络和支持向量机三种，运行结果存放在“钻石”节点中，运行流程如图1所示。

图1 大学生实验课成绩预测模型工作流图

2.运行结果

经过运行，三种建模算法的运行结果呈现方式各不相同，决策树C5.0算法的运行结果是以多叉树形式呈现的，共有6层19个节点，如图2所示。

贝叶斯网络算法的运行结果以有向无环图的方式呈现，最左端节点为目标变量，其他节点均为自变量，节点与节点之间用有向边连接，每一条边代表着一张条件概率表，表示上一级节点的值对本节点值影响的概率。模型运行生成的贝叶斯网络如图3所示。

图2 决策树C5.0算法运行结果

图3 贝叶斯网络算法运行结果

与决策树、贝叶斯网络等“白盒”算法相比，支持向量机算法并不能显示或输出运行过程，属于 “黑盒”算法。可以看到，选择不同的建模算法，其运行结果不尽相同。如果需要解释因变量与自变量以及自变量之间的相互关系，则应该选择“白盒”算法，如果不关心过程只需要结果，可以选择“黑盒”算法。

3.模型评估

对三种建模算法的正确率进行分析，决策树C5.0算法训练集正确率为77.76%，测试集为79.02%，贝叶斯网络算法训练集为79.46%，测试集为77.67%，支持向量机算法训练集为92.90%，测试集为64.39%。可见，在三种建模算法中，支持向量机在训练集中的正确率最高，达到了92.90%，但在测试集中的正确率最低，存在一定的过拟合现象，决策树算法和贝叶斯网络算法在训练集和测试集的正确率都在80%附近。预测模型的ROC图也表明支持向量机算法在训练集中的信息增益最高，如图4所示。

与国内外相关研究中构建预测模型的正确率相比，本模型中各算法在测试集中的平均正确率在73.70%，属于一个有效的模型，但正确率还存在提升的空间。

四、大学生实验课成绩预测模型的优化和部署

1.模型优化

图4 大学生实验课预测模型的ROC图

本研究中构建的大学生实验课成绩预测模型，通过模型评估已证明了其有效性，但还可以从两个角度进行优化。一是进行预测变量的调整。目前该预测模型中21个预测变量（自变量）均是通过业务管理信息系统收集的客观数据，我们还可以进行实验课教学的有关问卷调查，通过调查采集学生对实验课的自我评价等主观数据，将主、客观数据结合来提高模型的预测正确率。二是通过更多的数据进行验证。目前该预测模型仅在一所学校一个年级学生中进行了检验，如果要使预测模型具有普遍适用性，还需要在不同类型学校的不同年级不同专业进行重复性验证，并根据对象特点适当调整自变量，以使之具备通用性。

2.模型部署

大学生实验课成绩预测模型的部署有两种方式——离线预测模型和在线预测模型。离线预测模型中，数据从业务系统中被收集、存储到独立于业务系统的数据仓库中，通过通用的教育数据挖掘软件，采用人工方式进行分析，并将预测结果反馈给实验课教师和教学管理人员，该种部署方式的优点是简单、易实现，缺点是存在数据流转周期。在线预测模型则是将教育数据挖掘算法代码重写，直接嵌入到相关业务系统中，数据在业务系统内部流转，该种部署方式的优点是即时预测，缺点是需要重构业务系统，存在一定难度。在对预测结果时效性要求不高时，我们一般可以选择部署离线预测模型进行预测，在课程开设时将学生实验课成绩的预测结论反馈给实验课教师和相关学生，对那些成绩预测结论为“低”的学生提前给予警示和个别化辅导，以促进高校实验课教学质量的提升。