林龙 沈海青
摘 要 传统的基于数据挖掘技术的学业表现研究存在数据来源单一、学习行为静态、数据关联模型准确度低等问题,如何对学业表现进行实时动态精确监测,更好地为教育管理者服务,实现学生学业预警,是目前较难解决的问题。针对以上问题,借助学校的多个平台数据系统,围绕学业表现预警问题,采用当下前沿的深度学习方法构建模型,进行学习表现预测,研究成果为学校和教师及时进行调整并给出个性化指导提供有益思路。
关键词 教育大数据;数据平台;数据挖掘;深度学习;学业预警
中图分类号:G712 文献标识码:B
文章编号:1671-489X(2022)22-0034-04
0 引言
随着智慧校园、数字校园的推广,大数据早已进入校园各个角落,学生在学习、生活中无时无刻不在产生数据,背后都有相应的数据系统在跟踪记录。与此同时,教育也从经验向数据驱动决策、管理的方向发展,教育大数据研究和应用是当下热议的话题。学生的学业表现是教育大数据应用研究的一个重要方向,也是学校教育管理者、教师、家长共同关心的焦点。不少学者将教育大数据和人工智能技术相结合,应用于学生的学习行为分析和学业表现预测,目前在相关方面已开展深入而广泛的研究[1-2]。但是基于数据挖掘分析技术的学业表现研究还存在以下问题。
1)数据来源单向、片面。学生的学业数据往往来源于课程成绩,这类数据较为单一。实际上,评价学生的学业表现应该是多维度多方面的。学生无时无刻不在产生数据,学业表现应该体现在学生学习、生活的方方面面,比如学生的德智体美劳,这五个方面都应该被纳入评价范围,因此需要构建一个整合型教育数据系统。
2)学习行为的单一性、静态性。基于学习行为的分析往往只考虑单一或者几种静态的学习行为,并未考虑学习行为随着时间而变化的特点,因此,如何追踪学生在学习过程中不断变化的行为特征,如何精准确定学生相应阶段的状态变化等,是当前教育数据研究实践中亟待解决的难题。
3)数据关联模型精度不够。如何基于学习生活行为对学业表现的影响,构建学业表现的自变量和因变量因子,从而进行客观全面评价,并对不良趋势进行精确预测预警,是目前研究的一个难点。
针对以上问题,在教育大数据挖掘分析与应用中,收集和打通与学生相关的多个数据系统,消除数据冗余,形成整合型教育数据系统,构建全方位的学生立体化数据库,通过人工智能算法技术,从宏观层面对学生学业表现情况进行建模研究,同时在微观层面针对学生个体动态监控学习过程、实时预测学习成绩、有效评价学习结果,进而提供有针对性的干预和指导,显得很有实际价值和现实意义[3]。
深度学习技术由多伦多大学的Hinton教授提出,是目前机器学习的最新热门研究领域。深度学习算法已被很多学者应用于学习预测、语音识别等诸多领域,并展示出宽广的应用空间和价值,比其他的数据挖掘方法更具灵活性和准确性,也弥补了许多数据挖掘方法的缺点[4]。本文基于深度学习算法,综合学生在校表现的多维度评价数据,高效利用学习过程的动态数据,构建基于时间的学习行为表现模型,对学生的学习状态进行实时监测,从而实现学业表现异常学生的及时预警。
1 整合型教育数据系统采集
基于学生在校学习生活多类平台系统,对各类数据进行收集汇总,建立学生在校档案的立体数据库,通过该数据库可以了解学生在校学习生活的全方位信息。依据获得数据的来源场合,从以下七个方面进行数据收集:
1)招生管理系统中的档案数据,记录了学生的基本信息;
2)教学平台数据,记录了教务管理系统中学生的各门课程考试成绩;
3)在线学习平台数据,记录了课堂教学过程中学生的学习行为数据;
4)体育系统中的体测平台数据,记录了学生体育锻炼和测试的各项数据;
5)教育科研平台数据,记录学生参与创新创业、技能比赛数据;
6)学生社会实践平台数据,记录学生成长过程中的学习工作行为;
7)图书借阅数据,记录了图书管理系统中学生的阅读记录、借阅次数等。
采集表1所示数据表格作为学生个体的学业表现数据,以固定周期作为数据统计的内容,将数据以向量的形式保存在系统中,做好标签记录,所有数据均以数值形式体现。
2 基于深度学习的学生学业表现模型构建及预测
2.1 数据预处理
根据以上七大数据系统中提取的数十维特征,设得到的特征矩阵为X:
其中,X(t)=当前学期不同月份对应的特征矩阵,m=学生数,n=特征个数,t=时间度量间隔,本文以月份进行表示。
由于数据维度很高,且格式不统一,因此需要对自变量数据X进行预处理。先对单个学生的单组数据进行归一化,然后进行主成分分析(PCA),获得学生单组特征数据集。具体步骤如下。
1)标准化。对特征矩阵X中的每个月份特征X(t)进行Z-Score标准化,得到具体标准化公式:
其中,和σ分别为每个月份特征X(t)的均值和方差。
2)降低数据维度。利用主成分分析方法对每个固定周期特征进行降维,设定累积方差贡献率θ,选择累积方差贡献率大于θ的主成分,作为降维后的特征Xd(t)。
学生的课程种类多,数据维度高,对因变量数据Y进行预处理。设计以每学期的加权平均作为综合成绩,公式如下:
其中,n=该生本学期的课程数量,credit=某门课程学分,score=某门课程成绩。计算得到每学期的综合加权平均成绩之后,将成绩按照优秀、良好、中等、及格、不及格分成五档,对应的分数分别为:90分及以上,80~89分,70~79分,60~69分,低于60分。以分数段进行独热编码,形成学生成绩标签Y:
2.2 建立学习状态异常监测模型
构建many2one形式的长短时记忆网络模型[5],将同一学生连续的若干个单组特征数据集输入模型进行训练,得到该学生的预测模型,从而实现对学生当前成绩的预测预警。
将Xd(t)作为输入,Y作为输出,训练长短时记忆网络模型(LSTM),采用交叉熵损失函数作为损失函数,形式如下:
其中,Y表示实际输出,表示预测输出。优化器采用随机梯度下降算法(SGD),为了获取网络模型的隐层单元值,在输入与输出处加入dropout层。另外,本模型中也可利用多个已知的历史学业数据增多训练次数,以便提高模型的预测准确率。
2.3 实现预测预警
在进行成绩预测时,收集学生上一个学期的相应学业表现数据,按照以上方法提取特征并进行标准化,然后进行PCA降维,将低维特征数据输入训练完成的LSTM模型,计算获得网络预测结果,即学生的成绩类别,其中每个学生的预测结果为。
具体实施步骤如图1所示。
1)对预测结果进行转化赋值。将学生的预测结果按照所在档次的分段平均分进行转化。
2)计算公式。其中,W为预警率,当W>0时,说明该生学业表现存在下滑;当W>30%时,说明该生退步较大,需要谈话预警。
3 学业预警实例分析
以台州科技职业学院汽车专业20级97位学生为例,进行学业预警分析。首先,根据不同的数据库,收集学生各方面数据信息,同时计算学生的综合加权平均成绩,设置2020—2021学年第二学期学生在校期间五个月的数据作为训练样本数据,设置2021—2022学年第一学期学生的综合加权平均成绩作为因变量标签。按照表2,对每个学生的综合行为表现数据以单月为单位进行特征提取,然后进行独热编码,设置如下:
其中,Y1=[1 0 0 0 0]对应[90,100),Y2=[0 1 0 0 0]对应[80,90),Y3=[0 0 1 0 0]对应[70,80),Y4=[0 0 0 1 0]对应[60,70),Y5=[0 0 0 0 1]对应(0,60)。
最终得到学生特征矩阵X的大小为97×32,标签矩阵Y大小为97×5。即总共学生人数97人,提取的特征为32维。对特征数据进行Z-Score标准化,然后进行PCA降维,选择累积方差贡献率大于90%的主成分对应的特征作为降维后的特征,降维后特征数据集为Xd(t),矩阵大小为97*4。
以每个月份特征矩阵Xd(t)作为输入,Y作为输出,训练长短时记忆网络模型,采用交叉熵损失函数,优化器采用随机梯度下降算法(SGD)。此时输入网络的序列长度为5,输入维度为4。通过网格搜索法进行参数寻优,获得优化参数:批输入大小为32,网络隐层单元为32,网络隐藏层层数为1,SGD中的动量参数为0.8,学习率设置为1×10-3,dropout层的丢弃比率为0.6。
取2021—2022学年第一学期的学业表现状况来预测2021—2022学年第二学期学生的成绩情况。获取测试数据,按照图1所示步骤进行特征提取,标准化降维后输入训练完成的网络中进行测试,最终得到每个学生的预测成绩状况。对每个学生预测成绩所处分段,按照平均分进行转化,然后计算该学生上一学期成绩与转换后的预测成绩差值,获得预警率,如表2所示。筛选预警率大于30%的学生,总共九人,即成绩下滑的学生,辅导员、班主任进行谈话预警。
4 结束语
学生的学业表现与平时的学习生活息息相关,其数据应来源于学生多个方面的数据平台,以此能更客观全面评价学生的学业。本文基于学生在校学习生活多类平台系统,对各类数据进行收集汇总,建立学生在校档案的立体数据库,通过该数据库可以了解学生在校学习生活的全方位信息;通过归一化、加权平均、PCA分析对不同教育数据类别进行统一,以便提取相应的教育大数据特征,然后以该段时间内的学习表现特征为自变量,以综合学业成绩为因变量,基于深度学习的学业预测模型来构建两者之间的映射关系,最后对学生学业表现进行实时预测,进而对成绩退步学生实现预警监测。
参考文献
[1] 廖鹏,刘宸铭,苏航,等.基于深度学习的学生课堂异常行为检测与分析系统[J].电子世界,2018(8):97-98.
[2] 陈彦钊,朱雪颖,黄瑾,等.基于深度学习的大学生课堂行为分析系统研究[J].齐鲁工业大学学报,2020,34(1):13-18.
[3] 朱佳,张丽君,梁婉莹.数据驱动下的个性化自适应学习研究综述[J].华南师范大学学报(自然科学版),2020,52(4):17-25.
[4] 陈德鑫,占袁圆,杨兵.深度学习技术在教育大数据挖掘领域的应用分析[J].电化教育研究,2019,40(2):68-76.
[5] 吴和俊,王敏康.基于深度学习学生序列化行为的学业成绩预测预警方法:CN201910401106[P].2019-05-15.
*项目来源:2021年浙江省教育规划课题“多数据平台融合下的学生学业表现及预警模型研究”(项目编号:2021SCG131。主持人:林龙);2021年浙江省高等教育学会课题“数据驱动的大学生学业表现精准评价研究”(项目编号:KT2021310。主持人:林龙)。
作者:林龙,台州科技职业学院,讲师,研究方向为教育信息化;沈海青,台州科技职业学院,高级工程师,研究方向为汽车检测技术(318020)。