基于数据挖掘算法的本科生学习质量分析

2022-07-26 09:31高雅奇穆军妮刘培昌
微型电脑应用 2022年6期
关键词:本科生分类森林

高雅奇, 穆军妮, 刘培昌

(北京第二外国语学院,网络与信息中心(图书馆), 北京 100024)

0 引言

高等教育大众化情境下,全面提升教育质量,改进本科教育教学成为国际高等教育界的共识,各高校将重视本科教学、提高人才培养质量放在高校发展重中之重的地位[1]。随着中国高等教育的内涵式发展,学生学习的质量成为一流本科教育的关键指向[2]。《教育部关于全面提高高等教育质量的若干意见》《统筹推进世界“双一流”建设总体方案[2015]64号》《国家中长期教育改革和发展规划纲要(2010—2020年)》等相关政策文件都肯定了“质量为重”的中心思想。基于教育质量评价的内部增值观也体现了教育质量提升的结果[3]。本科生教育阶段是高等教育的主要阶段,本科生学习质量的高低是考评高校办学质量的核心要素[4]。然而,随着高等教育的大众化,学生的学习质量因各种因素无法得到保障。因此,如何获取影响学生学习质量的关键因素,进而提高学生的学习质量是研究的主要目的。

1 研究设计

参考国内大部分高校通用的绩点成绩计算方法对本次研究进行设计:某一课程的绩点成绩=课程分数/10-5;学分绩点成绩=学分×绩点即学分×(课程分数/10-5)(90分以上按90分计算);学生在校期间总的绩点成绩=该生所修全部科目的学分绩点成绩之和/该生所修全部科目的学分之和。根据学生绩点成绩生成该生学习质量(以XXZL命名)字段值,名次在同年级同专业前20%及以内的学生学习质量设为1等, 名次在20%~40%的学生学习质量设为2等,以此类推,名次在后20%的学生学习质量为5等,并将最后一等设定为预警等级。

本次研究抽取本科生在校期间与研究主题相关的基础数据,构建影响学生学习质量分类模型,并对模型加以训练。以训练好的模型对本科生的学习质量进行预测,实现对预警等级学生的反馈,从而有效促进学生管理工作开展、为学校改进本科教育教学和提高学生质量提供可行性的支撑。

2 数据获取及预处理

2.1 数据获取

与本科生学习相关的数据主要涉及学生基本信息、学籍信息、校园行为等数据。学生学习质量建模时需要从北京某高校的一卡通系统、教务系统、财产系统、图书馆自动化系统、门禁系统、校园网计费系统中抽取如下信息:学号、国籍、地区、民族、性别、所在年级、所在院系、所在专业、学科门类、学生类别、培养层次、学制、是否学分制、校园日均消费、年均消费天数、年上网时长、年图书外借册数、年自习室刷卡次数。抽取的时间段设定为2013年1月至2019年12月。研究共收集到9 744位本科生在校期间的数据。

2.2 数据预处理

1)数据清洗

数据清洗的主要目的是从业务以及模型的相关需要方面考虑,筛选出需要的数据。原始数据集中53条数据的绩点成绩为空,为了便于模型分析,对其进行过滤处理。因此,研究的样本量最终确定为9 691位学生数据。

2)缺失值处理

原始数据集存在数据缺失的情况,若将有缺失值的记录删除,会影响样本的数据量。为达到较好的建模效果,采用取代法对缺失值进行插补。对于数值型的数据,如日均消费、年均消费天数等,采用其他记录的均值插补缺失值;对于字符型的数据,采用以其他记录中出现次数最多的值代替缺失值。

3)数据变换

在构建模型前,需要将原始数据集中的数据转换成适合挖掘任务及算法需要的格式。采用的数据变换方式如下。

(1)数据规约。将分类变量转换为字符型并定义代码含义,如性别变量,以“0”代表女性、“1”代表男性。各变量指标及含义见表1。

表1 本科生学习质量影响因素及含义

3 模型建立

3.1 数据划分

对数据样本采用随机抽样的方法抽取80%作为训练样本,用于模型训练;余下的20%作为测试样本,用于模型结果检验。训练数据集包含7 752条数据,测试数据集包含1 939条数据,可通过对训练集和测试集数值型变量的分布情况对比验证训练集与测试集的划分是否合理,具体描述性分析如表2所示。数值型变量包含上网时长、借书数量、消费天数、入馆天数、日均消费。

表2 训练样本描述性统计

由上述对比可知,训练集数据与测试集数据的数据分布较一致,划分相对合理,根据训练集生成的模型可以用测试集数据对其进行性能评估。

3.2 算法选择

在研究中选择3种算法进行比较,即决策树算法、随机森林算法和Boosting算法。采用R语言中各算法的默认参数构建模型,并对三者的拟合结果进行对比,确定研究最终选取的算法。

(1)验证方法

交叉验证法是验证机器学习算法模型效果的常用测试方法。采用最常用的10折交叉验证法,即将初始采样分成10个互斥的子样本,以1个子样本作为模型的测试数据,另外9个样本作为训练数据。共进行10次训练和测试,以10次结果的均值作为对算法性能的最终估计。

(2)算法性能评估

表3 三种模型10折交叉验证结果

由表3可知,随机森林算法的R-squared均值高于决策树及Boosting算法,其拟合效果最佳。因此,选用随机森林算法对本科生学习质量影响因素进行研究。

3.3 特征筛选及贡献度排序

在模型训练过程中,为了构建简化的、易于理解的模型,需要从全部特征中筛选相关性强的特征子集作为最优特征子集。特征筛选不仅可以缩短模型训练时间,改善模型的通用性,还可以降低模型过拟合的风险[5]。

(1)特征筛选

常用的特征选择方法包括正向选择法、后退选择法和逐步回归法,研究采用正向选择法选择特征变量。得出本科生学习质量的随机森林分类模型包含学科类别代码、专业代码、院系所号、所在年级、上网时长、借书数量、消费天数、入馆天数、日均消费、国籍、性别、学制、地区码等13个特征指标时拟合程度最好。

(2)特征贡献度

筛选出特征集后,需要对其各项特征变量在模型中贡献度机型进行评估,随机森林模型的feature importance函数可评估各个特征变量在模型中的重要性,即以完整的模型性能减去某个特征后的模型性能标注特征对模型的贡献度,计算出的各特征对模型的贡献度如图1所示,年借书数量对模型的贡献度最高,入馆天数、消费天数和性别特征对模型分类性能也非常重要。

图1 随机森林分类模型特征贡献度

(3)特征验证

为了验证随机森林分类模型筛选出的特征及排序是否合理,可将其与决策树和Boosting模型的特征筛选情况进行对比。决策树算法筛选出的特征包含9个,用feature importance函数进行排序,前6个特征与随机森林模型的特征指标及顺序相同,之后依次为所在年级、上网时长、院系所号特征。Boosting算法筛选出的分类模型包含11个特征指标,通过计算各特征的F-score值对特征的贡献度进行排序:前5个与随机森林模型的特征指标及顺序相同,之后依次为上网时长、地区码、所在年级、院系所号、学科分类码、学生分类码特征。可见在不同模型中的特征选取和排序情况比较类似,随机森林模型的特征筛选和贡献度是合理的。

3.4 模型参数调优

模型需要进行参数调优的主要原因在于训练出的模型可能存在过拟合和欠拟合问题。过拟合,一般是指模型缺乏泛化能力;欠拟合,一般指训练出的模型距离拟合曲线较远,拟合度不高[6]。当模型的复杂度上升会使模型的性能增加,也会增加过拟合的风险;当模型的复杂度减小,又可能出现欠拟合情况。综合以上情况,需要做好对构建模型的参数调优工作。随机森林分类模型如果采用默认值容易发生过拟合现象,可对以下参数采取限制措施。

(1)对树的深度做限制,防止树的深度太深。树的深度越小,计算量越小,模型的计算速度越快。为了找到最佳深度,可增加一个集合验证集,当tree depth=9时,模型准确率趋于稳定并不会随着tree depth的增加明显提高,故选定tree depth=9。

(2)限制最小样本数:当节点包含的节点过少时就停止分裂节点。随机森林模型的默认最小样本数为1,经实验当minimun node size增大到2时,模型的指标状态最优。

(3)森林中决策树的数量限制,随机森林模型的默认决策树数量为1 000,实验证明,当ntree=1 000时模型的错误率基本收敛,而再增加ntree的数量模型效果不会显著提高,故选定ntree=1 000。

4 模型性能评估

以测试集对构建的森林分类模型进行评估。

4.1 准确率及精度评估

表4 随机森林分类模型混淆矩阵

4.2 ROC曲线评估

ROC曲线显示分类模型在所有分类阈值下的效果。ROC空间将假正例率FPR定义为X轴,真正例率TPR定义为Y轴。横坐标为用曲线下面积AUC表示ROC曲线下的面积,AUC的值介于0和1之间,AUC值越大代表分类模型的性能越好[18]。为验证特征筛选是否提高了分类模型的性能,可将经特征筛选与未经特征筛选的随机森林分类模型进行对比,其ROC曲线如图2所示。图2(a)为未经特征筛选的ROC验证曲线,平均AUC值为86.12%;图2(b)为经特征筛选后的ROC验证曲线,平均AUC值为89.76%。经过特征筛选后,随机森林模型的验证性能提升了4.22%。

(a) 未经特征筛选

(b) 经特征筛选图2 随机森林模型验证ROC曲线

4.3 小结与建议

从测试集的1 939条数据中随机抽取100条数据,展示模型的预测效果。以虚线代表学习质量的真实值,实线代表学习质量的预测值,结果如图3所示。

图3 模型预测对比图

由图3可以观察到模型的预测准确率较高,模型的预测准确率达到79.11%。模型本身具有较好的准确度和稳定性,可为改进高校教学管理和提高学生学习质量提供参考依据。

(1)高校应着力于学校学习环境的改善[7],尽可能地为学生营造良好的学习氛围,多种途径多种方式引导和鼓励学生增加阅读量和自主学习的时间和能力。

(2)地域因素、家庭因素及语言环境都是影响学生学习质量的重要因素,高校应关注不同学生的需要和个性差异,重点关注新疆、西藏等少数民族地区及海外留学生。

(3)性别差异也是影响学生学习质量的重要因素。高校应充分重视性别差异造成的成绩分化现象,利用各种有效措施来改善这种局面, 提高学生学习成绩和实际的运用能力。

(4)高校应建立良好的鼓励机制,转变教学方法、增强课堂氛围,调动学生的学习热情与激情。

(5)合理区间内,上网时间的增加不会影响学生的学习质量反而会促进作用,高校应适当引导学生正确使用网络,指导学生更好地、更有效地使用各种学习资源。

5 总结

研究基于机器学习算法,以经过预处理的本科生在校期间的相关数据为样本进行模型训练,建立学习质量和影响因素之间的映射关系,并就各影响因素对学生学习质量的重要程度进行排序。实验效果显示,随机森林算法的学习质量预测模型预测准确率接近80%。但在学习质量的影响特征因素选取方面还不全面,未来仍需继续改进,进一步提升模型的分类性能。

猜你喜欢
本科生分类森林
能为与应为:从本科生成绩单看绩点制的功能
“Without Contraries is No Progression”: Contraries in William Blake’s “The Sick Rose”
An Analysis of the Absence of Maternal Care in The Bluest Eye
本科生论文流于形式
按需分类
教你一招:数的分类
说说分类那些事
哈Q森林
哈Q森林
哈Q森林