周庆 肖逸枫
摘 要 以某高校计算机学院2012级293名学生前三学期的学籍信息和历史成绩信息作为研究对象,采用多種数据挖掘方法,旨在对高风险学生成绩情况和留级风险进行预测分析。研究表明,通过学生前三学期的历史成绩和学籍信息,可以有效地预测学生在第四学期结束后是否留级,准确率达到87.5%。将这一数据挖掘方法运用到学生日常管理中,可以利用大数据处理技术整合学生数据,进行客观、科学的分析和决策,起到学业监测和预警的作用。
关键词 数据挖掘;成绩预测;学业预警;教学管理;学籍信息
中图分类号:G645 文献标识码:B
文章编号:1671-489X(2018)06-0036-04
Analysis and Precaution of College Students' Academic Record based on Data Mining Technology//ZHOU Qing, XIAO Yifeng
Abstract In this paper, we study the student status information and historical grade of 293 students in the first three semesters from the
college of computer science of a certain university. Based on multi-
ple data mining methods, we analysis and predict the future acade-mic performance and the repetition risk of target students. The study shows that the student 's historical academic records and student sta-tus information, we can effectively predict whether a student will repeat at the end of the fourth semester. The accuracy rate is 87.5%. By applying the data mining method to the daily management of stu-
dents, we can use big data processing technology to integrate student
data, do objective and scientific analysis and decision-making, and play the role of academic monitoring and precaution.
Key words data mining; performance prediction; academic precau-
tion; teaching management; student status information
1 引言
教育大数据是整个教育活动中产生的、根据教育需要采集到的,一切用于教育发展并可创造巨大潜在价值的数据集合[1]。教育数据挖掘EDM(Educational Data Mining)
是综合利用机器学习和数据挖掘的技术和方法,对教育数据进行处理和分析,通过数据建模预测学生未来的学习趋势[2]。
近年来,高校学生人数急剧增加。通过数据挖掘,研究学生在校数据背后的趋势和问题,显得尤为关键[1]。通过研究高校学生在校相关数据,利用数据挖掘技术分析学生的行为数据和历史成绩,可以起到学业监测预警的作用。同时,利用结果有针对性地对学生进行指导,可以有效提升高校教学管理的工作效率。
本研究主要通过学生学籍信息和历史成绩,预测学生是否存在留级风险。首先对学生历史成绩进行预处理,计算出用于预测的四个特征变量。利用数据挖掘模型来预测学生的留级风险,根据预测结果分析选取的特征变量和留级的相关性系数,阐述本研究对教学实践的启示和应用价值。研究结果表明,逻辑回归模型的预测效果最佳,Precision
(准确率)和Recall(召回率)分别为70.00%和87.50%,F1
(F1-measure)为77.78%。通过学生学籍信息和历史成绩数据,能够比较准确地预测出有留级风险的学生,可以帮助学院加强监督,为高校管理者提供有效依据。
2 相关研究
教育数据挖掘简介及研究趋势 数据挖掘的研究始于20世纪80年代,现在已经成功地应用于多个领域。教育信息化的发展使得教育领域的各种数据呈现爆炸式增长,如何从海量数据中挖掘出有用的信息,成为现代高校管理者的研究热点。
自2005年起,人工智能(AAAI)、人工智能教育应用(AIED)及智能导师系统(ITS)等国际会议开展了多次“教育数据挖掘”主题研讨会;2008年,在加拿大召开第一届教育数据挖掘国际学术会议,2011年7月,在荷兰埃因霍温举办第四届教育数据挖掘国际会议,并且成功创办专门的电子期刊——教育数据挖掘杂志(JEMD)。
教育数据挖掘(EDM)从教育系统的数据中提取出有意义的信息,这些信息可以为教育者和管理者提供服务[3]。教育数据挖掘技术当前研究方向很广泛,有助于管理者做出科学的决策。
国内外相关教育数据挖掘成果 国外高校在学生预警方面有很多相关研究成果。有研究表明,可以根据学生第一学期的新生成绩和高中百分比排名,对学生的平均成绩进行预测分析。Dursun Delen利用高校学生五年的数据研究模型,预测和解释有风险的学生并进行适当干预[4]。在Ya-Han Hu等人的研究中也提到,关于利用学生在线学习课程和整个学习活动建立早期预警系统[5],帮助识别和预测有风险的学生。
随着国内大数据研究的逐步推进,也有很多学者提出了自己的认识。例如:在陆璟的文章中就提到,要加强多个来源的数据库整合[6],利用教育舆情分析降低学生学业风险;赵玉洁的文章中提出,需要深入挖掘高校数据特征,才能更好地实现高校教育信息化的全面建设[7];陈美娥提出,要从学生历史成绩和在校行为出发进行探索[8]。国内很多研究都表明,学生学业问题逐年增加,因此需要建立有效的防范机制来进行学业预警。
我国高校大数据研究的特点及问题 随着我国教育信息化建设的不断深入,学生在校数据成为高校一笔隐藏的财富,它们背后蕴藏的价值对于高校信息化管理有着相当深远的意义。
高校数据主要呈现出三个特点,即“碎片化”“持续性”和“多维度”[7]。高校学生数据是随着时间的不同呈现分布式、碎片化生成的。例如:学生的学习成绩反映出学生的学习效果,上网数据体现学生的上网习惯,一卡通消费显示出学生的作息规律。但是现在高校中未处理的数据使得大量数据价值密度低,无法挖掘其背后的深层含义,造成数据的浪费和丢失。
因此,只有将多维度的数据进行信息整合,深入分析学生的生活习惯和学习情况,才能为管理者提供有效的数据支撑。本文也将有效地通过学生历史成绩和学籍信息,预测学生是否存在留级的学业风险。
3 数据准备
本次实验的数据来源于某大学在校学生的学籍信息数据和历史成绩数据。由于成绩数据保密和数据源获取的原因,学籍信息(61 919条)和历史成绩数据(1 422 780条)较为庞大。主要分析计算机学院2012级293名在校生入学至今的成绩记录(共计59 831条),同时结合学生的学籍信息和学籍状态,分析高风险学生成绩和学生留级预警情况。
学生学籍信息和历史成绩数据 从表1可以看出,学生学籍数据主要记录了学生的学号、专业代码、入学年级、现在年级、班号和学籍状态。可以通过学生学籍状态了解该学生当前学籍情况。
如表2所示,学生历史成绩是由学校学工部直接获取,记录了在校学生各门课程考试学年和考试学期、课程名称、课程成绩、课程学分和课程标志。其中课程标志有初修、重修和补考三种不同状态。通过处理,对每个人的成绩数据进行统计,可以将对学生的挂科数、重修数、补考数、补考学分进行整合。
学生历史成绩数据统计 如表3所示,经过对每个学生考试成绩和课程状态进行情况分析,可以根据学生历史成绩整合为考试情况统计表,计算得到学生在各学期的挂科数、补考数、重修数和挂科学分等数据。其中挂科学分的统计较为复杂,它是一个随着学生考试进行随时迭代更新的数据。如果学生该门课程重修通过,便在挂科学分中去掉该门课的对应学分;未通过就一直保留。
经过处理之后,可以根据学生历史成绩表整合为六个学期的学分成绩统计表,如表4所示,其中记录了学生各学期成绩绩点、平均分数、选课学分、学期获得学分和学分获得率等数据。
4 实验研究与讨论
根据获取的学生学籍信息和历史成绩数据,通过对数据的特征选择和预处理,主要选择计算机学院2012级293名学生前三学期的成绩数据进行分析,预测学生第四学期结束之后是否存在留级风险。
本实验中未留级的学生标志为0,留级学生标志为1。通过从学院得到有效数据和相关文件进行实验分析。使用几种经典的数据挖掘模型,分别为决策树模型、人工神经网络模型、朴素贝叶斯模型和逻辑回归模型。
模型分析 决策树模型易于理解和实现。决策树可以通过静态测试来对模型进行评测,能够在相对短的时间内对大型数据源做出可行结果,是一种直观运用概率分析的方法。有不少学者也将决策树算法应用于学生成绩的退学研究中。
人工神经网络模型对噪声神经有较强的鲁棒性和容错能力,具备联想记忆的功能。有项目使用人工神经网络模型并预测了工程与信息科技专业学生的学业表现。
朴素贝叶斯是一种构建分类器的模型。Juan Feldman等使用朴素贝叶斯模型研究学生的认知风格[9]。
逻辑回归适用于预测结果介于0和1之间的预测问题;同时适用于连续性和类别行的变量分析问题,具有很好的实用性和解释性[10]。
评价指标及实际含义 本文选择计算机学院2012级学生前三学期的成绩数据进行分析,最终预测出第四学期结束后学生的留级情况。预测结果分为四种类型:TP表示预测为留级的学生该学期实际也留级了;FN表示预测为没有留级的学生实际却留级了;FP表示预测为留级的学生实际没有留级;TN表示预测为没有留级的学生实际也没有留级。该实验是一种典型的二分类问题,二分类预测问题中常用召回率(Recall)、准确率(Precision)和F1值(F1-measure)来评价模型的优劣。
Recall表示模型中正確预测出的留级学生占实际留级学生数量的百分比。Precision表示结果预测为留级学生中正确预测的比例。在模型的性能评价中,Recall和Precision越高越好;但这两个数据在实验结果的计算中本身存在冲突。因为F1是Recall和Precision的加权调和平均值,所以在结果分析中利用F1值来评价预测模型的综合性能。
模型的性能对比与选择 如表5和图1所示,将实验过程中运用到的模型的性能分析结果进行统一比较。四个模型的整体预测效果都较好,Recall均超过了70%,可以较为准确地预测出第四学期结束后可能留级的高风险学生。但是朴素贝叶斯的Precision和Recall误差波动较大。虽然人工神经网络模型两项指标较为稳定,但是很难对所选特征进行解释。在决策树和逻辑回归模型的对比中,逻辑回归的Precision和F1均高于决策树,而且逻辑回归具有很好的实用性和解释性,因此,最终决定运用逻辑回归模型。
模型对教学实践的启示
1)特征值相关性分析。根据选定的模型计算统计,得到各项预选定的特征属性与留级预测之间的关系,如表6所示。由表6可见,补考数与留级预测结果的相关性系数为0.366,数值较低。结合实际分析,不难得出,部分学生会有补考经历,经过反思和准备,大多能通过。这不能完全作为预测留级的主要因素,但可作为辅助指标,从侧面反映出该学生的学习状态。
挂科数、重修数和挂科学分与留级预测的相关性较高。挂科学分达到一定标准,学生会留级,这一指标相关性最大。经过分析,重修数和挂科数较多的学生会有很大可能性留级。因此,这三个指标能够作为预测学生留级情况的主要特征。
2)应用价值。结合学院政策和学生实际情况,对于学生留级预测这一研究课题,学院在处理的时候会参考学生在校的综合行为和背景信息。因此在教学实践中,学院领导和辅导员更加关心预测结果的准确率(Precision)和模型的综合性能(F1)。
逻辑回归模型Recall为70.00%、Precision为87.50%、F1为77.78%。Recall反映了模型能够正确预测出10名留级学生中的七人。Precision表示模型预测出的10名可能留级的学生中有九名确实会留级。模型结果预测出的有留级风险的学生在实际教学中确实有很高概率留级。因此,该模型可以为辅导员和学院领导提供一份有较高准确度的留级学生预测名单。作为辅助依据,结合实际情况,对名单内的学生进行针对性监督和帮助,降低学生的留级风险,具有较高的实用价值。
5 结论
本文根据某高校计算机学院2012级293名学生学籍信息和前两年的历史成绩数据,结合相关文件和学院学籍研究管理办法,处理得到学生前三学期的补考数、重修数、挂科数和挂科学分,结合朴素贝叶斯、人工神经网络、决策树、逻辑回归等模型,预测学生在前四学期结束后是否会留级。
最终经过数据统计和实验分析,选取逻辑回归模型作为预测模型,实验召回率(Recall)为70.00%,准确率(Precision)
為87.50%,总体预测准确率(F1值)为77.78%。结合特征值分析和应用价值讨论,表明该模型能对教学实践予以启示。因此,本文的研究成果可以帮助学院领导和辅导员有效监测学生学习情况,及时督促并进行人工干预,降低学生挂科和留级的风险。
但是本研究尚不完善,用于建模预测的数据不够全面。高校学生在校产生大量的生活和学习数据,如果可以挖掘高校系统中学生不同行为数据背后隐藏的信息,如一卡通消费数据、学生上网数据等,就可以更加全面地分析在校学生的学业和生活情况,使研究结果更具有解释性和可推广性。在未来工作中将结合学生在校的一卡通消费数据和上网数据,完善对学生学业预警的研究和分析,为“智能化校园”建设和管理提供支持。
参考文献
[1]徐鹏,王以宁,刘艳华,等.大数据视角分析学习变革:美国《通过教育数据挖掘和学习分析促进教与学》报告解读及启示[J].远程教育杂志,2013(6):11-17.
[2]杨现民,唐斯斯,李冀红.发展教育大数据:内涵、价值和挑战[J].现代远程教育研究,2016(1):51-61.
[3]李婷,傅钢善.国内外教育数据挖掘研究现状及趋势分析[J].现代教育技术,2010(10):21-25.
[4]Delen D. A comparative analysis of machine learning
techniques for student retention management[J].Deci-
sion Support System,2010,49(4):498-506.
[5]Hu Y H, Lo C L, Shih S P. Developing early warning
systems to predict studentsonline learning perfor
mance[J].Computer in Human Behavior,2014(36):469-478.
[6]陆璟.大数据及其在教育中的应用[J].上海教育科研,
2013(9):5-8,22.
[7]赵玉洁.大数据在高校教育信息化中的应用探究[J].中国教育信息化,2015(19):38-41.
[8]陈美娥.独立学院学生留级问题的应对及对策[J].和田师范专科学校学报,2011(1):52-53.
[9]Feldman J, Monteserin A, Amandi A. Detecting stu-
dents perception style by using games[J].Computers & Education,2014,71:14-22.
[10]Sarbakhsh P, Mehrabi Y. Transition Logic Regre-
ssion Method to Indentify Interaction in Binary Longi
tudinal Data[J].Open Journal of Statistics,2016,6(3):
469-481.