徐 琦 刘兴红 余亚烽 陈 雪 张 涵
在线教育以“大规模、开放、共享”等特点风靡全球[1]。学习者画像以刻画和呈现学生信息全貌为特点,近年来已成为远程教育领域的研究热点。通过网络实现的教育过程,不要求师生在时间和空间上严格同步,学生很容易形成松散的学习心态,以致难以收获良好的学习效果。因此,借助学习者画像的优势来缓解在线教育中学习成绩预测的难题,帮助学生及时调整学习状态、提高学习效率,是当前教育界关注的热点,也是本研究的重点之一。本研究在学习者画像的指导下进行学习成绩预测,一方面可以让原本无序繁杂的学习数据变得有序简洁,另一方面能让教师原本缺少视觉线索、无法判断学习者参与度的现状得到逐步缓解,有助于促进在线教与学的和谐共生,为更多学习者创造更加个性化的学习体验。
表1从五个维度对“学习者画像”的相关概念进行了辨析。学习者画像起源于商业领域的“用户画像”。“用户画像”因其在充分利用典型消费者的特征数据(背景、能力、性格、习惯、行为等)后,能定量化发掘用户心智与需求而于近几年被广泛关注[2]。“学习者画像”可以看作“用户画像”在教育领域中的创新应用与尝试[3],但目前尚未形成统一的概念。
表1学习者画像的相近概念辨析
如表1所示,“学习者画像”与“学习者模型”也有相似之处。它们都是对满足教育系统需要的部分要素加以描述和表示,但“学习者模型”更强调学习者的动态特征,这也是个性化学习的核心与关键[4],由于教育系统目标的差异与学习环境的复杂性,目前并不存在通用的学习者画像建模方法。由此可见,学习者画像可以针对某种个性化的学习需求目标(如提升学习效果等),通过采集学习者特征的有关数据,运用多种分析手段找出画像角色之间更深层次的差异(目的、动机、能力等),而不仅仅是学习者是谁(姓名、性别等浅层信息),从而为其提供精准的教学支持。
学习成绩量化了学习者的学习成就与收获,可看作学生在完成一系列教学活动后产生的认知、行为、技能、情感态度的结果总和。学习成绩预测可视为是否进行学习预警和调整教学策略的重要依据,它是在教学评价等理论的指导下,通过确定学习成绩的影响因素,从在线学习平台等数据源中采集相应数据,运用预测算法来建立学习成绩的数据模型,分析不同学生之间的成绩差异情况,发现学习过程中存在的问题,从而助力师生及时调整教与学的状态。
学习成绩预测研究主要包括以下内容:
(1)预测方法研究。根据学习者客观的统计数据和学习行为数据等,沿用计算机领域中的经典算法进行预测建模[5],主要涉及基于概率的成绩预测,如朴素贝叶斯;基于传统机器学习的成绩预测,如决策树、多层感知器和随机森林等监督式数据挖掘技术等;基于深度学习的成绩预测,如基于特征交互的神经网络框架等[6]。目前,各类预测算法随学习成绩的等级划分标准具有不同的预测准确率[7],准确率普遍在70%左右[8]。因此,根据学习者的有效特征综合选取预测模型尤为关键。赵磊等[9]通过多种预测技术(决策树、贝叶斯、支持向量机和人工神经网络),解释了MOOC课程中学习行为(界面交互、内容交互、人际交互和参与考核)与学业成绩之间的复杂相关性。可见,在线教育系统中的学习数据日渐丰富,教育大数据技术的快速发展,驱动着成绩预测模型的比较、筛选和优化研究的不断深入。
(2)预测应用研究。能够在收集和管理学生数据的基础上,开发和探索数据内部结构所蕴含的联系,对深入解释教学现象、发现教学问题具有重要作用。如Moises等[10]通过LMS日志数据创建了学生成绩的早期预测模型,发现LMS交互模式与学生学业表现有很强的相关性;Agapito等[11]通过预测来自完全在线学习(CO)的本科生成绩,发现互动次数与学生表现密切相关、年龄与学业成绩成反比;马玉玲[12]通过学生已完成课程上的学习情况预测了其在下学期待开设课程上的成绩,证实了学生的行为习惯与成绩之间具有相关性。
综上所述,学习成绩预测的角度大多以课程关联度、学习交互等为主,少有研究从学习者画像的角度来挖掘学习成绩影响因素,而学习者的特征也是学习成绩影响因素的重要组成部分。学习者画像研究的兴起有望将学习者的特征与学习成绩影响因素结合起来,构成学习成绩的预测要素,以更加关注学习者的全貌特征来支持学习成绩的有效预测,促进学习成绩预测研究的深度应用。
从在线教育环境下学习者画像的角度出发,提出基于学习者画像的学习成绩预测流程,如图1,分为确定目标、构建标签体系和数据建模、数据采集与预处理、学习者画像分析与输出、实施学习成绩预测五个主要步骤。该流程是学习者画像和学习成绩预测双向融合的系统框架,确定本次画像的构建目标为:(1)通过学习者画像精准刻画学习者的在线学习特征;(2)通过学习成绩预测对在线学习结果进行评价与反思;(3)进一步反思教学,为学习者提供个性化的服务,助力教师制定预警及干预措施。
在设计学习者画像标签体系的过程中,采用结构化的标签体系设计方式来识别不同的学习者群体,挑选具有价值的学习者数据类型,并将学习者的各级标签与各类型数据对应起来,指导开展学习者画像。在数据采集和预处理后,将对学习者个体和群体进行画像分析,重点输出学习者画像的聚类结果。在学习成绩预测的实施阶段,首先通过比较不同的预测模型,初步筛选出实施预测的最佳算法,然后在构建各类群对应的数据模型基础上评估预测效果,同时深入理解学习者的学习发生过程和学习变化规律,最后输出预测结果,用以验证本次实践对总体目标的达成情况,以期更好地反馈教学效果、优化教学过程。
图1基于学习者画像的学习成绩预测流程
标签体系设计是将学习者的各属性进行维度细分,并与学习数据指标对应起来的过程。如表2,从学习者画像的五个方面确定学习成绩的影响因素:
(1)个人属性对应学习者的基本信息,这些信息是为了帮助教学相关者准确识别每一位学习者,并没有涉及学习过程的动态数据,故不纳入后续数据维度分析中。
(2)交互属性是对学习交互的描述,分为人机交互和人际交互两个类目[13]。人机交互体现的是学习者与平台资源之间的互动过程。人际交互主要表现为学习者与教师和学伴的学习交流[14],如查看讨论、评论、点赞等,这种在线教学对话有助于减少学习孤独感、增强在线教学联系,但也可能包含学习者为了完成学习任务而发生的被动交互行为,因而不能反映出学习者的综合能力。
(3)兴趣属性是对在线学习偏好的描述,分为学习兴趣和学习风格两个类目。当学习者的学习兴趣较强时,他们会对学习任务表现出积极、专注的学习状态;当学习兴趣一般或较低时,他们不愿意完成基本的学习任务,学习热情也会较低。学习风格划分参考Felder-Silverman模型(FSLSM)[15],在信息加工过程中将学习者划分为活跃型和沉思型。活跃型学习者更喜欢积极地执行学习任务,会根据问题的部分信息或未对问题做透彻的分析就积极做出反应、仓促做出决定,反应速度较快,但容易出现错误。沉思型学习者会通过大量的时间安静地思考和分析问题,能较好地约束自己的行为,权衡各种问题解决方案后做出决定,能在外界要求下对自己的解答做出全面合理的解释,因而出现的错误较少。
(4)能力属性是对学习者的认知、行为和情感等复杂学习投入情况的描述[16],分为认知能力、创造实践和自主学习三个类目。认知能力指学习者在参与课堂活动过程中的记忆、理解、应用三方面的综合表现,如参加抢答等。创造实践能反映学习者在分析、评价和创造三方面的能力情况,与学习者积累经验、知识储备和技能调用的情况有关,如创建话题等。自主学习主要反映学习者能否按照课程目标和个人需求展开自主学习,以及学习频率如何。能力属性聚焦学习者的深层投入情况,而非交互属性中所指的较浅层在线交互,能代表学习者在知识创造、逻辑推理、抽象思维和信息加工等方面的综合能力。
(5)知识属性是对学习者在线学习过程的形成性评价,划分为资源利用率、知识掌握度和目标达成度三个类目。资源利用率用于描述学习者对学习资源的运用情况。知识掌握度体现在平时作业和随堂考试中,平时作业中涉及的知识内容少、知识范围小,可以反映出学生者对具体知识点的掌握情况。目标达成度与课程阶段性测验有关,如期中、期末考试,用于检验学习者对课程目标的达成情况,阶段性测验中涉及的知识范畴更广、综合性也更强。
表2学习者画像标签体系及数据指标
案例样本来自湖北H大学三门“超星学习通”线上课程《数字视频设计与制作》《新媒体技术讲座》和《电视节目编导与制作》,面向来自教育技术学专业和数字媒体技术专业的185名学习者。根据研究需求,从该平台导出两部分数据:(1)学习者的基本信息;(2)在线学习数据,包括学生综合完成情况、任务点完成情况、音视频观看详情、讨论详情、章节学习次数、成绩详情、章节测验统计、作业统计、考试统计和课程综合统计,共计10项数据表。采用python数据处理技术对原始数据进行数据清洗、数据整合和数据转换等,共得到24207条有效学习数据。初步统计发现,各属性取值范围均在0至1之间,学习者在能力属性(M=0.384)、交互属性(M=0.468)、兴趣属性(M=0.590)、知识属性(M=0.818)上的均值呈现依次递增的趋势,这说明大多数学习者对在线学习平台均具有较浓厚的使用兴趣,但在交流互动方面还不够积极主动,在线学习能力也有待加强,学习者在四个属性上的得分离散程度(SD<0.3)均不大,说明学习者在各维度上的表现比较稳定。
从样本中随机挑选一名学习者进行个人画像,用该学习者不同维度的数据值减去样本对应维度中的平均水平值,结果作为该学习者所在课程的某项标签值得分,得到各级标签可视化详情如图2所示。其中,部分维度有三分类标签值,为获得清晰方便的结构,均将其用两级标签进行展示。
这名学习者在知识属性上的表现最好,阶段测试结果也比较优秀,说明他较擅长通过在线学习掌握课程知识,获得较高分数,是一名深度学习者。该学习者在兴趣属性和能力属性上的表现相当,均处于中等偏上的水平。深入分析发现,他能积极参与各项学习活动,并按时完成签到等学习任务,学习兴趣较浓厚。在能力属性上,他自主学习的投入度较高,能努力完成各项作业,是一名课堂学习高手,但在创造实践方面表现一般。这名学习者在交互属性上得分的偏低,说明他没有与其他学伴、教师进行频繁的交流互动,可推测他不太注重维护线上学习社交关系,倾向独立学习和观察学习。
图2某位学习者的个人画像
本文采用K-means算法对样本进行聚类,通过“手肘法”[17]来判定最佳聚类数K值,其中同时考虑了类内距离和类间距离的变化,最后确定最佳聚类数为4。经F检验,四个属性均呈现显著性差异(p<0.05),验证了本次聚类的有效性。其中,类群1占总人数的比例为14%,类群2占比48%,类群3占比30%,类群4占比8%。各属性对聚类结果的重要程度为:知识属性(F=168.79)>能力属性(F=127.73)>交互属性(F=72.89)>兴趣属性(F=93.70)。
统计发现,类群1在兴趣属性(M=0.85)和能力属性(M=0.80)上的得分较高。类群2在交互属性(M=0.52)和知识属性(M=0.88)上的表现相对更好。类群3在兴趣属性(M=0.43)、交互属性(M=0.28)、能力属性(M=0.25)和知识属性(M=0.83)上的表现均较稳定。而类群4在交互属性(M=0.11)、兴趣属性(M=0.33)、能力属性(M=0.12)、知识属性(M=0.30)上的得分均偏低。
因此,类群1能代表兴趣浓厚、能力突出的学习者群体;类群2代表的是善于交流、学习兴趣明显、积极努力的学习者群体;类群3用于代表具有学习潜力、知识技能掌握扎实的学习者群体;类群4则代表的是在交互、兴趣、能力和知识方面均表现不佳的学习者群体。根据上述四个类群的属性特点,本文对他们进行类型识别并命名,将类群1划分为主动赶超者,类群2划分为积极协作者,类群3划分为潜在建构者,类群4划分为被动接受者,具体描述如表3。
表3各类群的描述性特征
从教务系统中获取样本学习成绩后,将百分制的学习成绩转换成4个等级,转换规则为:学习成绩为85分以上时为优秀,将其划分为A;学习成绩为85-75分之间时为良好,将其划分为B;学习成绩为75-60分之间时为合格,将其划分为C;学习成绩在60分以下时定义为不合格,将其划分为D。成绩转换后发现,优秀等级者73名(39%),良好等级者99名(54%),合格等级者9名(5%),不合格等级者4名(2%)。
为了找出适合本次数据的预测算法,这里通过Rapid Miner工具对常见的预测算法进行了比较,分别选取朴素贝叶斯、广义线性模型、Logistics回归、Fast最大边缘算法、深度学习、决策树、随机森林、梯度增强树和支持向量机,将185名样本学习者的学习成绩作为预测目标变量,交互、兴趣、能力和知识属性作为输入自变量,并从准确率(accuracy)[18]和分类错误率(classification error)两个指标来判断各算法的优劣程度,数据模型中各属性所占权重大小用折线表示,如图3,知识属性和交互属性在各模型中均占较高权重,当学习者在这两类属性上的得分均较高时,他们更有可能获得较高的学习成绩,这说明这两类属性是对学习者影响较大的因素,Logistics回归、广义线性模型、Fast最大边缘算法、决策树、随机森林、梯度增强树的预测准确率达到0.547~0.595,其中Logistics回归的准确率最高,为0.595,说明该数据模型的预测性能最好,即logistics回归模型能较好地解释样本数据,因此选择该模型对四类学习者进行深入预测分析。
图3预测算法精度比较
以学习成绩等级(“优秀”=A、“良好”=B、“合格”=C、“不合格”=D)为因变量,交互、兴趣、能力和知识属性为自变量,对主动赶超者、积极协作者、潜在建构者、被动接受者的学习数据建立logistic回归方程,分别对应表4中的模型1、模型2、模型3、模型4。各模型对应的显著性p值均小于0.05,说明模型构建均具有统计学意义,四个模型对原始学习数据的拟合通过检验。根据依次列出的3个伪R2值,模型1、2、3、4的最大伪R2值分别为0.444、0.365、0.364、0.475,这说明模型4和模型1对原始属性变量变异的解释程度最好,模型2和模型3对原始属性变量变异的解释程度一般,可能还存在一部分信息无法解释,导致这两个模型的拟合程度并未达到优秀。
表4各模型的拟合信息
如表5,模型1在预测主动赶超者学习成绩等级为“优秀”的正确百分比最高,为84%,该模型的整体预测正确率为66.4%,说明主动赶超者的logistic模型预测效果表现良好。模型2在预测学习成绩等级为“合格”上也实现了100%的正确预测,该模型在预测积极协作者学习成绩等级为“优秀”的正确率高于模型1和模型3的预测效果,且模型2在预测学习成绩各等级的总体正确率最高,可推测出模型2对积极协作者的学习数据建模效果最好。模型3在潜在建构者学习成绩等级为“合格”的预测正确率高达100%,这说明logistics回归模型对潜在建构者中的“合格”者能实现完全正确预测,整体上看,模型3对潜在建构者总体变异的解释能力一般,尤其是对学习成绩等级为“优秀”的学习者预测效果不太理想,导致该模型的总体预测正确率也偏低。模型4对被动接受者学习成绩的预测正确率最高达到了80.0%,这说明被动接受者的学习数据也能被良好地建模,且在学习成绩等级为“良好”上表现最佳,模型4对学习成绩为“不合格”的学习者的数据也实现了较好的预测效果,预测正确率为75.0%,这将有望在后续教学实验中实现早期预警,对大规模在线教学平台来说具有较强的实际应用价值。
表5各模型的预测分类情况
经过对四类学习者进行多项logistic回归分析,以因变量的第一个分类水平(即学习成绩等级=“A”)为参照,用其他分类依次与之对比,考察不同水平间的倾向,可得到具体的logistic数据模型,各参数估计值均已通过瓦尔德显著性检验(p<0.05),下面将具体描述。
主动赶超者的数据模型可表示为:G11=LOG[P(良好)/P(优秀)]=2.219+(-4.473)*交互属性+(-27.396)*兴趣属性+(-27.899)*能力属性+(-1.154)*知识属性;G12=0(对照组)。对于主动赶超者,他们在交互、兴趣、知识属性方面的投入度越高,越有可能获得较高的成绩等级,且兴趣属性和能力属性对成绩等级影响程度较为明显。这代表着主动赶超者若想要保持较高的成绩等级,需要努力提升兴趣属性和能力属性得分,这不仅需要学习者自主加强逻辑推理、抽象思维等一般性能力的锻炼,更要结合具体的课程知识,注意积累学习经验,并应用到实验实践中去。教师应充分关注该类学习群体的在学习活动中运用的思维与心智等,通过各种方式加强学生的在线专注度、坚持度,促进有意义学习的发生。
积极协作者的数据模型可表示为:G31=LOG[P(合格)/P(优秀)]=110.8+38.568*交互属性+(-95.853)*兴趣属性+(-167.268)*能力属性+(-68.614)*知识属性;G32=LOG[P(良好)/P(优秀)]=2.865+(-5.211)*交互属性+(-3.589)*兴趣属性+4.328*能力属性+(-0.277)*知识属性;G33=0(对照组)。对于积极协作者,合格等级和优秀等级者之间的差距主要体现在能力、兴趣和知识属性方面,当积极协作者在上述三方面表现越好时,他们越有可能获得优秀等级。因此积极协作者在保持良好交互关系的基础上,需要进一步提高在线学习能力,并对学习内容采取积极稳定的学习策略,教师并不需要给予过多的教学干预。良好等级和优秀等级者之间的差距主要体现在交互、兴趣和能力属性方面,这也再次表明加强在线学习活动中的交互设计,可能对积极协作者获得较高等级的学习成绩非常重要。
潜在建构者的数据模型可表示为:G21=LOG[P(合格)/P(优秀)]=-324.456+(-35.748)*交互属性+(-101.488)*兴趣属性+16.019*能力属性+(-384.279)*知识属性;G22=LOG[P(良好)/P(优秀)]=3.199+(-1.892)*交互属性+0.585*兴趣属性+1.005*能力属性+(-3.484)*知识属性;G23=0(对照组)。对于潜在建构者来说,知识属性对他们成绩等级的影响最大,且他们的知识属性得分越高,越有可能获得相应更高的成绩等级。其次,若潜在建构者中的合格者继续加强兴趣属性的培养,即潜在建构者充分调动对各项在线学习任务的积极性,从而强化对课程知识本身的关注,则他们有望上升为优秀者;教师也可通过提供奖励支持来调动他们的外部动机。从良好等级上升为优秀等级则需要潜在建构者注重提升交互属性得分;教师则需要在教学设计中重视课程交互活动的设计,帮助潜在建构者实现从信息加工、感知到理解、分享的过渡。
被动接受者的数据模型可表示为:G41=LOG[P(不合格)/P(良好)]=6.857+(-9.511)*交互属性+(-6.959)*兴趣属性+3.954*能力属性+(-12.867)*知识属性;G42=LOG[P(合格)/P(良好)]=-5.511+(-5.966)*交互属性+(-6.698)*兴趣属性+(-2.412)*能力属性+(-4.938)*知识属性;G43=0(对照组)。对于被动接受者,不合格者和良好等级者之间的差距主要体现在知识属性方面,即资源利用率低、平时课程知识内容掌握度差、阶段性目标达成度不高等消极因素造成了他们成绩不合格。合格者和良好等级者之间的差距在兴趣属性方面表现得更为明显,一方面,被动接受者对在线学习任务的投入度不高,参与活动的积极性不明显,这种被动接受的学习方式让他们很难达成学习目标,继而导致他们仅能获得合格的成绩等级。因此,教师应该加强对该类群的关注,通过有意义的学习活动逐渐保持被动接受者的在线注意力,为他们创设学习活动的参与机会,鼓励被动接受者发挥所长真正参与到学习过程中。
借助学习者画像在描述学习者的特征上的优势、学习成绩预测在实施教学干预上的价值,提出了基于学习者画像的学习成绩预测流程,然后从个人属性、交互属性、兴趣属性、能力属性和知识属性五个方面构建了学习者画像模型,以此展开教学案例实践。通过个人画像和聚类画像,将学习者分为主动赶超者、积极协作者、潜在建构者和被动接受者四类群体。在此基础上,采用logistics回归模型对四类群体进行数据建模,深入分析并讨论了各类群的学习成绩预测效果,为教育工作者深入诊断学习者的学习状态并给予精准的教学干预服务提供了参考。在未来研究中,将继续在更多学习场景中整合不同类型学习者的学习数据,并采用更加智能化的数据分析技术,以挖掘学习者画像及学习成绩预测的应用潜力,促进个性化教育与现代信息技术的融合创新发展。