基于大数据的学习预警研究综述

2021-03-25 04:05杨丰玉聂伟郑巍乔广超
现代计算机 2021年4期
关键词:预警系统预警学习者

杨丰玉,聂伟,郑巍,乔广超

(南昌航空大学软件学院,南昌330063)

0 引言

近年来随着大数据技术的兴起,大数据技术逐渐在教育领域得到广泛应用,教育信息化技术得到快速发展。同时,国家对教育信息化的发展越发重视。2016 年,国务院印发《国家教育事业发展“十三五”规划》鼓励高校利用发展教育信息化技术,对教育教学活动中的学生行为数据进行广泛收集、分析和研究,探索、发展学分制度,实行学生自主选课原则,从国家层面将教育信息化技术纳入发展规划中[1]。此外,《2017新媒体联盟中国高等教育技术展望:地平线项目区域报告》分析了学习分析技术和量化技术在教育领域的发展前景,表示在未来四五年内,学习分析技术和量化技术能为教育领域带来新的想象空间,为教育教学活动提供科学指导[2]。因此,如何利用学习预警技术、学习分析技术提高教学质量,是教育大数据发展过程中亟待解决的、具有重要意义的问题之一。

在线学习平台出现之后,加速学生学习日志记录数据的积累,海量学生学习日志记录数据成倍增加,为学习预警研究提供了更为广阔的数据支持。学习者学习行为产生的海量数据蕴含丰富信息,成为研究学习行为与学习成绩的相关关系的重要基础,为在线学习预警提供了新的思路[3]。大数据技术在教育领域的应用主要体现在,一是根据在线平台获取的数据,对数据进行管理分析,以此构建学习者学习行为模型,对学习者未来学习效果进行有效预测;二是对学习行为进行分析,判断学习者当前学习状态,生成学生“体检”报告[4]。

目前在在线学习平台的推动下,学习预警技术的发展与应用达到教育信息化的新高潮。国外学习预警主要集中于预警系统开发与应用、分析方法、可视化工具等领域;国内主要集中于学习预警模型设计、风险预测等领域。本文将着重从大数据角度分析学习预警概念、系统构建、系统应用以及学习预警系统的挑战与展望。

1 学习预警的相关概念与发展历程

1.1 学习预警

学习预警(Early-Warning for Learning)指按照一定的标准对学生的学习背景、学习行为以及测验成绩等相关数据进行分析,根据分析结果向教学人员、学生发出提示信号,对有问题的学生提供有针对性的干预意见[5]。预警分析中,研究者力求了解学习者的学习过程,提前发现学习风险,并为学习者提供合理建议;学习预警系统主要是确定具有潜在的风险,通过对学生基本数据进行分析处理,生成学习预警报告[6]。

在国外,美国是学习预警系统研究与开发的领跑者,已经有一些学校和企业机构根据教育发展的需求成功研发出各具特色的学习预警系统,并在实际教学应用中获得了较好的反馈,特别是在防止辍学方面,积累了宝贵的经验[7-8]。

Hu Y.H.等人提出的预警系统可以通过分析学习管理系统(Learning Management System,LMS)中记录的学习日志数据来帮助识别处于危险中的学生或预测学生的学习绩效,以往的研究主要集中在课程结束后学习者绩效评价指标的构建上,而忽视了“预警”系统在课程实施过程中对高危学生进行预测的实用价值[9]。

可汗学院(Khan Academy)在2013 年提出学习仪表板(Learning Dashboard)概念,并应用于数学课程。学习仪表盘通过学习行为分析模型分析学生当前学习状态,并将学习状态进行可视化呈现。同时,根据用户的需求对数据进行分析。最后,向学习者、教师、研究人员和教育管理人员提供电子学习中的图形和图表等可视化形式[8]。

华金秋对学习预警制度和学习预警机制进行对比分析,指出前者是指通过利用大数据技术手段,构建一套学生学习状态的预测、评价和干预制度,以此确保学生能够顺利完成学业;后者主要强调学校、学生、家长之间的协作交流,构建三位一体的教育教学模式,并能够及时发现和识别学生潜在的问题,向学生、家长以及教学人员发出提示信号,预测可能产生的不良后果[10]。

1.2 学习预警与学习分析

美国新媒体联盟在地平线报告中指出学习分析技术是利用数据收集工具采集学生学习过程中的行为数据,分析学习过程中的行为表现、参与状态等数据,对教学状态和学生学习状态进行实时评价[11]。学习预警和学习分析是大数据技术在教育领域应用的两种重要方法。学习预警与学习分析相互交织,却又有所区别。相同点主要在于具有相同的研究对象和研究方法。主要区别在于研究目的不同。学习预警基于学生学习过程对学习结果进行预测,发现有问题的学生;学习分析侧重于学习者学习过程的评价,对学习者学习能力和状态进行评估研究,为其提供合适的教育教学方法。

分析技术早期主要应用于物理、生物等领域,在教育领域的应用较晚。随着大数据技术的发展,教育信息化研究渐渐引入分析技术,其中学习预警技术和学习分析技术是分析技术在教育信息化研究中的具体应用[12]。Angela 等人[13]对学习分析在高等教育领域的应用中采用的术语和描述概念进行了总结,发现学习分析、学术分析和预测分析研究方向已经概念定义最为接近。徐鹏[4]则指出学习预警技术和学习分析技术均是分析相同的学习行为数据,但研究目的和对象不同。Abelardo 等人[14]提出学习分析指在提供有意义的教学指导,学习预警旨在分析学习行为与学习结果的关系和分析对问题学生的干预策略。肖巍等人[5]分析了数据挖掘和学习预警异同,指出数据挖掘利用相关算法从大量冗余数据中发现隐藏的关系和规律,数据挖掘技术促进学习预警的研究与发展,为其提供了新的研究方向。学习预警与学习分析具体比较情况如表1。

表1 学习预警和学习分析比较

2 学习预警指标

学习成绩是衡量学生学习效果的重要指标之一。根据相关文献以及学生实际学习表现发现学生学习行为对学习成绩有重要影响。因此,在学习预警研究过程中,利用数据挖掘技术分析影响学习效果的重要指标是学习预警研究的重要方向之一。同时,数据挖掘算法分析结果也受到输入指标数据影响,因此如何做好预警指标数据处理至关重要。

陈益均等人[15]采用聚类算法和K-means 算法对学生数据进行分析,研究学生上网行为与英语四级通过率的关系,结果表明上网行为中的下载流量、在线时长、使用费用各指标对四级通过率影响最大。杨雪等人[16]利用Moodle 平台数据进行处理和分析,发现完成作业时间、完成作业次数、互评时间、互评次数及自评次数和自评时间等6 个课程变量与学习成绩主要相关。

李建伟等人[17]运用逻辑回归算法分析入学成绩、作业成绩、学生类别等指标与已完成课程的平均成绩相关性,构建学习风险预测模型。研究结果显示作业成绩与“已完成课程的平均成绩”相关性最高,接下来依次是“已完成的课程数”、“生源地”、“学生类别”、“课程学习平均时长”、“章节测试成绩”和“入学成绩”。

王改花等人[18]总结数据预处理的具体步骤,包括数据清洗、数据集成、数据变换、数据规约等,通过数据预处理提取了不同学习背景、不同学历、不同性别学生的9 个学习行为特征指标,分别为学习时间跨度、平均每次在线学习停留时长、学习总时长、重复学习率、讨论交流、学习次数、接收反馈数量、学习笔记、总成绩。利用决策树方法对9 个学习行为特征与总成绩进行逐个分析,结果发现成绩与学科背景关系最密切,其次是性别,学历对总成绩的影响最小。

表2 学习预警指标相关研究情况

吴青等人[19]对Moodle 平台数据进行提取处理得到各学员对各章节知识点浏览时间、在线作业成绩、发言类型、发言次数和字数、性别、年龄、婚否与前置学历等作为特征变量,将数据进行离散化处理。其中采用最近邻算法中的IBk 算法处理异常值数据,具体方法是计算学员向量空间距离,再人工筛选剔除异常值。研究发现各章节知识点浏览时间和在线作业成绩与学习成绩显著相关,发言次数和字数对学习成绩略有影响,其他指标影响不显著。

Wladis 等人[20]收集了来自美国东北一所大型城市社区学院1001 名在线学习学生和1329 名面对面学习学生的学习记录。包括入学前平均学分绩点、学生是否申请或接受经济资助、年龄、性别、种族等特征变量信息。还有很多学者对学习预警指标选取进行了研究,表2 汇总了部分研究的具体情况。

通过对文献进行分析,纳入学习预警的数据指标主要分为以下几类:

(1)学生网络学习行为:主要包括章节测试成绩、课程平均学习时长、上课时间、论坛交流互动次数、观看视频次数等;

(2)学生属性:主要包括性别、年龄、入学成绩、学生类别、国籍等;

(3)教师属性:主要包括性别、年龄、好评度等;

(4)课程属性:主要包括难易程度、历史平均得分、分数段人数等;

(5)学习环境:主要包括学生资助情况、图书馆到馆情况等。

确定学习预警的数据指标后,通常还需要对数据进行预处理。通过对国内外文献进行分析,预警指标处理主要分为以下几个方面:①缺失值、异常值处理;②数据标准化处理;③预警指标量化,如离散化、归一化。对于不平衡数据常采用重抽样或欠采用方法。

李建伟等人[17]对学习者数据分为行为数据和信息数据,在学习者特征属性值选取中设置20%为缺失数据阈值,丢失数据超过20%的属性进行丢弃,对于不平衡的数据采用SMOTE 采样方法进行重抽样。尹茂竹等人[25]数将据缺失值按照缺失机制划分为完全的随机缺失、随机缺失、非随机的缺失三类,对缺失值采用删除存在缺失值的个案和缺失值插补两种方法;引入Z分数概念处理成绩不平衡问题,并对变量进行归一化;对学生行为构建序号表,名义变量用0、1 表示法等进行数字化处理。陈子健等人[26]采用对原始数据中所有的单个属性通过计算皮尔森相关系数活信息增益率进行评估并排序,然后依据排序结果来选择属性子集的方法确定影响学习成绩相关指标。

3 学习预警框架

学习预警框架通常定义了学习预警系统的体系结构,给出了学习预警数据的完整处理过程,因此学习预警框架设计的好坏直接关系到预警系统的效率与效果。目前很多学者从不同角度对学习预警的框架结构进行设计。

武法提等人[27]设计了学习效果预测框架。该框架包括学习内容分析、学习行为分析和学习预测分析三大模块,如图1 所示。学习内容主要从学习时长、交流活动、作业和考试情况进行分析;学习行为主要从学习活动行为和学习结果行为进行分析;学习预测主要采用聚类分析、时间序列分析、决策树分析。

图1 武法提的学习结果预测框架

金义富等人[28]采用离群数据挖掘与分析技术构建“三位一体”预警制度,将课程、课堂和课外结合起来,对学生进行全方位预警,并提出了LAOMA(Model of Learning Alert Based on Outlier Mining and Analysis)学生预警模型,如图2 所示。其主要步骤是获取包括主要知识点、测验评分、作业情况以及与该课程相互关联的其他课程完成情况和成绩等数据、离群挖掘与分析、构建LAOMA 模型、两类六级信号与影响因素反馈。

图2 金义富等人的学习预警LAOMA模型框架

LAOMA 模型中还建立了学习预警两类六级信号含义及其参考标准,用于描述学习预警的结构,详见表3。

表3 金义富等人的两类六级学习预警信号含义及判别标准表

Wu R.等人[29]提出了一个模糊认知诊断框架(FuzzyCDF),如图3 所示,用于考生的客观和主观问题的认知建模。诊断框架从考生的潜在特征开始,然后确定被测试技能的熟练程度,计算考生的问题掌握情况,并通过考虑失误和猜测因素生成考生在问题上的可观察分数,提出了一种MCMC 抽样算法来推断FuzzyDF 的不可观测参数。实验证明,FuzzyCDF 可以更有效地预测考生的表现。

王林丽等人[30]提出了学习预警功能模型,具体分为数据收集、数据分析、预警信息呈现和提供干预四个阶段,从学习者知识掌握程度、学习情绪变动和行为特征三个方面出发,构建在线学习预警功能模型,如图4所示。

图3 Wu R.的4层模糊认知诊断框架

图4 王林丽等人的学习预警功能模型

此外,王林丽等人[30]还提出学习预警的过程模型,分为七步,明确预警目的和内容、数据采集、数据分析、预警信息和学习情况呈现、预警信息推送、个性化建议提出和资源推荐、个性化建议和个性化资源推送给相应的学习者,如图5 所示。

图5 王林丽等人的学习预警过程模型

李建伟等人[17]设计了在线学习风险预测框架,包括数据清洗、训练模型和预测应用三个阶段:数据清洗阶段首先需要选取合适的数据源,然后处理数据异常值和缺失值,最后将数据分为训练数据和预测数据;训练模型是的使用机器学习算法对重抽样数据进行训练和调优的过程,最终生成最优模型;预测运用是对将学生的学习数据利用模型进行预测,得出预测结果。如图6 所示。

图6 风险预测框架

4 学习预警方法

自教育大数据概念提出以后,国内外很多学者致力于学习预警方法的研究。通过对国内外文献研究发现,大多数学习预警研究方法主要运用机器学习和数据挖掘技术。主要包括决策树、随机森林、逻辑回归、反向神经网络、聚类、支持向量机等。

Gokhan Akcapinar 等人[22]在开发学习预警系统过程中发现,在算法方面使用原始数据时随机森林优于其他算法,使用分类数据时朴素贝叶斯优于其他算法。Pandey 等人[31]学生成绩预测提供一种通用的解决方案,提出了综合多分类器的概念,该分类器由决策树、K 邻近和贝叶斯分类器三种互补算法组成,利用概率组合规则的乘积对多个分类器进行集成,对学生成绩进行预测。Sansone 等人[32]收集了2009 年美国940所高中学校约2.6 万名九年级学生学习行为数据,对高中辍学率进行预警,利用学生成绩、平时表现等组成的高维数据,结合支持向量机、boosted regression、postlasso 等机器学习工具能够有效增强预测效果。

Wladis 等人[20]研究课程水平因素在多大程度上可用于预测在线或面对面的课程的结果。采用多层次建模方法,控制教师水平和学生特征的影响,测量课程水平特征与在线和面对面课程成功完成的关系。并利用随机截距控制特定课程的随机变化,建立多层次逻辑回归模型,研究课程水平因素对课程结果的影响。

Iqbal 等人[33]收集国际电联电器工程系225 名参加电气工程课程的本科学生数据,并分别利用协同过滤(CF)、矩阵分解(MF)和受限玻尔兹曼机(RBM)对国际电联电气工程系学生学业成绩进行预测。研究发现CF 依赖于历史数据或用于预测结果的项目,对稀疏过大的数据表现差;SVD 与梯度下降算法一起使用能够增强预测学生成绩的准确性但可能包含难以解释的负值;RBM 适用表格数据建模在预测学生特定课程中的表现优于其他技术方法。表4 收集了多名学者对学习预警方法研究的具体情况。

通过对文献研究发现,分类和聚类是学习预警研究中最典型的技术,贝叶斯定理、决策树、隐马尔科夫模型以及Instance-Based Learning 是学习预警研究最常用的方法[40]。对于机器学习方法评价,常采用混淆矩阵和曲线下面积(AUC)。如Jae 等人[41]使用机器学习研究高中生辍学率,预测模型绩效评价指标采用二元分类的四个性能指标:准确度、灵敏度、特异性以及曲线下面积。

5 学习预警系统应用

学习预警系通过对学习者学习行为产生的海量数据的获取与分析,构建预警模型和干预措施库,对学习者学习危机进行识别和预警,并通过可视化工具向教师、学习者展示学生学习状态,针对危机学生提供相对应的干预措施。

表4 学习预警方法相关研究情况

美国是学习预警系统研究与开发的领跑者,已经有一些学校和企业机构根据教育发展的需求成功研发出各具特色的学习预警系统,并在实际教学应用中获得了较好的反馈[42]。美国可汗学院将可视化分析工具融入学习管理系统中,推出了一款可用于实现预警功能的学习支持工具——学习仪表盘[43]。此外加拿大学者Leah P.Macfadyen 等人利用学生管理系统平台,采用数据挖掘技术开发“学习预警系统”,并在系统中设计了可视化仪表盘,能够快速识别锁定处于“危险状态”下的学习者,并提供干预建议[44];加拿大一所大学对相当数量的被留校观察的学生进行SAT 成绩、几人电话联系情况、宿舍停留时间等作为数据源进行分析,识别出他们在学习和生活中出现的问题[45]。综上,通过对国外预警系统文献检索分析发现,国外在线学习预警系统的理论研究和实际应用能力较成熟[27],目前典型案例有学生成功系统[46]、电子顾问[47]、海星预警系统[48]、普渡大学的课程信号系统[49]以及可汗学院的仪表盘应用。表5 分别从实现形式、预警内容、预警方式、技术、成效、不足等角度详细分析了国外五大典型学习预警系统。

相对而言,国内学习预警系统应用典型案例较少。Wu C.等人[50]以华侨大学旅游学院为试点,建立“学校-学生-家长”三位一体的“学习预警与干预体系”。其将预警系统分为两部分:预警等级评估系统和预警干预系统。预警等级评估系统由评价矩阵对学生进行分类和划分等级。评价体系由教育学者设定。预警干预系统则是以评价体系为标准,及时对学生和教学人员以及家长发布预警序列,同时学院采取动态跟踪学生模式。

表5 国外典型学习预警系统

6 挑战与展望

大数据技术在教育领域的运用带来了机遇和挑战。随着MOOC 等技术和平台的兴起,给学习预警、学习行为分析提供了海量数据源。基于大数据的学习预警技术,在应用中面对着各种挑战与展望。

6.1 面临的挑战

(1)道德和隐私的挑战

随着网络的发展,人们使用各种终端设备接入互联网,产生了海量的行为数据,这必然涉及到隐私问题。学习预警过程中,需要通过MOOC 等平台收集学生行为数据,行为数据的采集是否需要征求学习者同意?海量的行为数据增加了学习者的透明性,如何防止数据泄露也是一大难题。

赵琼慧等人[51]认为大数据学习分析中伦理道德挑战主要集中在个人隐私泄露、数据访问权限模糊、数据可信性受威胁等。针对这些挑战,赵琼慧提出三大安全与隐私保护策略,分别是:遵守透明原则、征得学习者的知情同意、提高数据质量(真实性和完整性)。同时,相关的法律制度和道德规范的指定与实施需要与安全技术的使用保持同步,相互补充。

李青等人[52]制定了七大隐私保护策略,如:通过立法保护学习者的信息隐私、形成大数据时代的数据伦理观念、建立学习者数据的使用规则、确定参与各方的权利和义务以及问责机制、行政主管部门应形式监管职责、培养学习者保护自己隐私的意识、推动教育信息行业的行为自律等。

通过研究先关文献发现,目前国内为已有相关学者从事伦理道德保护的相关研究,国家机关也指定了相管法律文件,但都处于研究的初期阶段,尚未形成系统的、全面的隐私保护机制。道德和隐私的挑战,需要政府职能部门和研究机构共同努力,构建脉络清晰的隐私保护体系。

(2)目前学习预警研究存在的问题

通过对学习预警相关文献进行分析,发现在现有研究中,尤其是国内研究主要存在的问题如下:

①学习预警干预研究颇多,但主要体现在理论层面的干预,缺乏实践验证。目前国外学习预警系统应用较为成熟,如可汗学院等。国内学习预警系统研究主要集中在理论研究层面,缺乏实践应用经验。

②学习效果影响因素研究,主要集中在研究相关变量与学习成绩的相关性,对相关变量与学习成绩数量关系研究不够深入。如表2 主要列举相关指标与学习成绩具有强相关性,但鲜有文章相关变量与学习成绩影响相关系数进行研究。

③目前研究主要针对一定时期内学生行为数据对学习成绩的预测,缺乏动态可视化成绩预测研究。通过对文献进行分析,目前研究主要集中于针对一段时间内学生行为表现对期末成绩的影响,尚未利用时间序列分析发现学习者随时间变化而变化的规律等[17]。

6.2 学习预警的发展机遇

针对目前缺乏动态可视化成绩预测研究,研究基于时间序列的动态可视化学生画像模型是学习预警研究的一大方向。动态可视化学生画像能够随时间的变化展现不同时间段学生的学习状态。有助于学习者、教学人员实时掌握学习者学习状态,学习者能够根据画像及时调整学习方法,教学人员能及时调整教学方案并对有问题学习进行教学干预。

另外开发完善的学习预警系统顺应高校的需求。学习预警技术结合学习分析技术、干预研究等构建完善的学习行为研究体系,能够精确检测学习者学习状态,提高学习者学习积极性,极大地推动教育信息化的发展,在教育领域发挥促进作用。

猜你喜欢
预警系统预警学习者
企业财务预警系统构建与思考
基于AI技术的高速公路行人误闯预警系统
在线学习环境下学习者画像构建研究
预警型智能包装在食品安全中的应用和设计
超级秀场 大风预警
学校肺结核流行趋势控制及预警系统监测分析
十二星座是什么类型的学习者
情感过滤假说在对外汉语教学中的应用
俄太空预警系统探测到64枚导弹发射
非正式学习环境下基于移动终端的学习者模型研究