影响MOOCs退课的学习行为指标分析

2022-04-21 07:03郭文锋
开放学习研究 2022年2期
关键词:会话天数次数

郭文锋 樊 超

(1.山西农业大学 基础部,山西 晋中 030801;2.成都理工大学 管理科学学院,四川 成都610059)

一、研究背景

MOOCs学习具有学习泛在化以及学习资源丰富和知识结构系统化等特点(樊超,宗利永,2016),为学习者提供了一种新的学习方式。尽管MOOCs为学习者在课程来源、内容、时长、认证等方面提供了更多选择权,但较低的完成率仍是当前MOOCs所面临的主要问题之一。大量研究表明,MOOCs的完成率约为5%到10%(De Freitas, Morgan,& Gibson, 2015)。而影响MOOCs完成率的主要原因是学习者不能持续学习,即学习者学习一段时间后就放弃了学习,我们称之为退课。如果能尽早发现可能退课的学习者,并对其给予激励措施则可有效提高其学习积极性,进而降低退课的可能性。为此,Feng、Tang和Liu(2019)基于学堂在线平台的“小木”人工智能辅助系统针对可能退课的学习者进行了在线干预,干预措施主要是向学习者推送激励学习的提醒信息。通过一个对照组和三个实验组进行对比分析,采取了激励措施的实验组在观看视频时长、完成作业数量和作业正确率方面有显著提升。这一实证研究表明对可能退课者实施干预可以促进其持续学习。

随着大数据技术的快速发展,MOOCs平台记录并存储了海量的学习行为数据,为定量分析学习者的退课行为提供了基础。现有研究主要基于资源访问度(学习行为时长和次数)构建学习行为指标来预测退课,而资源访问规律对退课也具有重要影响,因此本研究将基于学堂在线MOOCs平台记录的37门计算机类课程的学习行为数据,综合资源访问度和资源访问规律构建学习行为指标,探索能够预测学习者退课行为的学习行为指标。

二、文献综述

关于MOOCs的退课预测是目前教育大数据领域的一个研究热点,其目的是发现潜在的退课者以便于课程设计者调整课程设计、改善学习者的学习体验,从而降低退课率并提高学习者的学习积极性和学习效果。关于MOOCs的退课研究的内容主要包括基于不同数据源的退课影响指标分析、退课预测模型的实证研究等。

退课影响指标分析指的是根据研究数据构建学习行为指标并分析对退课的影响。根据数据来源的不同,可分为两类研究,一是基于调查问卷等小样本数据,二是基于数据库记录的大数据。具体来说,一方面,采用问卷调查或文献调研获得研究数据从而构建影响退课的指标,包括持续时间投入、参与论坛讨论(梁林梅,2015),学习者的感知有用性、满意度、内在动机(杨根福,2016),学习者自身、教学内容与视频、教师、MOOC教学支撑平台(徐振国,张冠文,石林,安晶,2017),期望确认、好奇心和态度(任岩,2021)等。另一方面,得益于网络技术的发展,学习平台记录了大量的点击流数据,可以通过对这些数据的处理获得影响退课的行为指标。大部分研究主要根据对学习资源(包括视频、作业、页面和论坛四类)的访问度来构建影响指标,包括观看视频时长(牟智佳,武法提,2017;王改花,傅钢善,2019;张媛媛,李爽,2019),观看视频次数(牟智佳,武法提,2017;Lemay & Doleck, 2020),提交作业次数、访问页面次数(李爽,钟瑶,喻忱,程罡,魏顺平,2017;张媛媛,李爽,2019),论坛参与程度(李爽 等,2017;王改花,傅钢善,2019;张媛媛,李爽,2019)等。此外,也有学者考虑学习者的年龄、性别和教育背景对学习者持续学习的影响(Williams, Stafford, Corliss, & Reilly, 2018)。不难看出,基于调查问卷的研究优点是能够了解学习者的真实心理状态和学习动机,而大数据的优点是能够记录学习者的详细行为,尽量减少样本偏差。

关于退课预测模型的实证研究指的是利用机器学习算法对退课进行预测,以及对退课预测算法进行改进并比较几种不同算法的预测准确率。一些研究者基于经典的分类算法对退课进行预测,它们的共同特点是需要人工提取学习行为特征。如Kloft、Stiehler、Zheng和Pinkwart(2014)基于MOOC的点击流数据训练支持向量机(SVM)模型预测学习者在下一周是否退课。Sinha、Jermann、Li和Dillenbourg(2014)基于Coursra平台学生播放视频的交互数据使用逻辑回归模型(LR)进行了退课预测。Xing、Chen、Stein和Marcinkowski(2016)使用决策树(C4.5)对MOOC交互数据建模,以便尽早发现退课者。还有部分学者采用如集成学习算法(Youssef, Mohammed, & Wafaa, 2019)、朴素贝叶斯(Xing, Tang, & Pei, 2019)等算法对退课进行预测。考虑到学习行为的时序特征,一些研究者采用时序预测模型预测退课。长短期记忆网络(LSTM)(Qu, Li, Wu, Zhang, & Wang, 2019)作为一种时间循环神经网络,常用于对时间序列进行预测。孙霞、吴楠楠、张蕾、陈静和冯筠(2019)采用卷积神经网络(CNN)从学习者学习活动日志中自动抽取一段时间内的连续特征,以学习者行为特征为自变量,采用长短期记忆网络(LSTM)建立MOOCs辍学率预测模型CNN_LSTM。为了克服输入数据序列增长时导致数据丢失的问题,Chen和Wu(2021)通过引入注意力机制提出了一种时间序列模型CNN-LSTM-ATT来预测退课行为。尽管采用CNN自动提取特征可以减少工作量,而且对预测算法进行改进的主要目的在于提高预测退课的准确率,但这些都不便于课程设计者理解退课的机制。

现有的研究主要基于资源访问度(包括学习行为时长和次数)探究影响退课的指标,而对基于资源访问规律的指标探究较少,包括活跃天数、会话数、访问间隔天数等。相关研究表明,会话数(Kloft et al., 2014)、活跃天数(Kloft et al.,2014)、访问间隔天数(王改花,傅钢善,2019)等对学习效果具有重要的影响。因此,本研究针对MOOCs平台提供的数据,拟整合资源访问度和资源访问规律两类因素构建行为指标,使用传统的机器学习模型综合分析其对退课的影响。研究问题具体包括:①通过对行为指标分类,比较分析不同类型指标对退课预测的效果;②探索哪些指标组合对退课的预测效果最好。通过对这些问题的探索,试图找出影响学习者退课的重要指标,为MOOCs的设计者尽早发现准备退课者提供帮助。

三、研究设计

(一)退课界定

不同的文献对退课有不同的定义,为了便于验证和测试,本研究采用学堂在线开放数据集的定义,即学习者经过连续35天学习,如果在之后的十天内没有学习行为,则被认为退课,否则为非退课(或者持续学习)。

(二)数据描述

本研究采用的数据来源于学堂在线平台的开放数据集①。学堂在线是目前中国最大的MOOC学习平台,由清华大学于2013年创建,为全球学习者提供了12个类别的1 000多门课程,其中课程类别包括计算机科学、工程、物理学、外语等,选课次数累计达到1 000万次。在学习者学习的过程中,系统平台自动记录了鼠标点击流日志信息,从中抽取用于描述学习者的行为记录,记录字段包括:注册id、用户名、课程id、会话id、学习行为类别、访问对象和时间戳。其中,根据资源类型的不同,学习行为类别包括观看视频(播放、暂停、快进等)、完成作业(正确、错误等)、访问页面(访问课件、课程信息等)和论坛讨论(提问、回答问题等)四种。

研究主要针对学堂在线平台的37门计算机类课程的学习行为日志记录进行分析,课程开设周期为2015年6月10日至2017年5月31日,开设周数为9到43周不等,详细统计信息见表1。日志记录包含了丰富的学习者学习行为信息,为深入理解学习者的退课机制提供了数据支撑。

表1 计算机类课程学习行为日志统计

(三)指标描述

基于学习行为记录探索反映学习效果的行为指标,有助于理解学习者退课原因、提高学习者的参与度。学习行为次数和学习行为时长是基于资源访问度的两种重要的指标(牟智佳,武法提,2017),反映了学习者访问资源、参与学习的程度。每种学习行为类别包括多种动作,例如:观看视频包括播放、暂停、快进等动作,如果连续多条行为记录属于观看视频的行为类型,即算作一次观看视频,且最后一条记录的发生时间减去第一条记录的发生时间即为此次观看视频的时长(以秒为单位)。将学习者在35天内观看视频的次数、时长分别汇总即得到其观看视频次数和观看视频时长。针对四种学习行为类别,学习行为次数指标包括观看视频次数、完成作业次数、访问页面次数和论坛讨论次数。学习行为时长按照四种学习行为类别划分为:观看视频时长、完成作业时长、浏览网页时长和论坛讨论时长。

资源访问规律指标反映了学习者的学习规律性,本研究只考虑会话数、活跃天数和访问间隔天数三个因素。一个会话(session)指的是学习者在学堂在线平台学习时,从进入网站到关闭网站经过的时间,在这段时间内学习者产生了一系列的学习行为,如观看视频、完成作业等。会话数反映了学习者在35天内使用浏览器登录平台学习的次数。学习者学习一门课程的活跃天数反映了学习者学习的持续性,只要学习者在某一天产生了一次学习行为,则活跃天数计为1(Kloft et al., 2014)。学习者第一次学习到最后一次学习的访问间隔天数,反映了学习者的学习周期(王改花,傅钢善,2019)。使用间隔天数除以活跃天数可以得到平均活跃间隔天数。

综合考虑资源访问规律和资源访问度两类因素,根据会话总数以及学习行为次数和学习行为时长,可以计算得到每个会话的平均学习行为次数和时长,基于活跃天数以及学习行为次数和学习行为时长,可以计算得到平均每天的学习行为次数和平均每天的学习行为时长。

综上所述,本文一共提取了28个学习行为指标,具体指标的描述及编码见下页表2。

表2 学习行为指标、编码及类别

(四)数据预处理

1. 数据清洗与筛选

采用Python工具对学习平台中的37门计算机课程的学习日志进行格式化处理,选取各个学习模块中都有学习者参与的数据样本,最终抽取得到8 827条记录、28个行为指标。

2. 数据归一化

不同行为指标在数量级上存在显著差异,为了消除指标的数量级对预测模型的影响,采用基于python的机器学习工具scikit-learn的离差标准化(min-max标准化)将各个指标值限定在[0, 1]。

(五)模型介绍

本文将采用三种分类算法(支持向量机、逻辑回归和朴素贝叶斯)分析各类学习行为指标对退课的预测准确率,采用属性选择算法(基于递归特征消除的特征排序算法)对学习行为指标的重要性进行排序,进而选取能够获得最高预测准确率的最优指标组合。模型具体包括以下几种。

1. 支持向量机(SVM)

通过优化寻找超平面将数据样本分为两类,使得位于超平面两侧的样本距离最大化。本文采用了机器学习工具scikit-learn的线性分类支持向量机(LinearSVC)。

2. 逻辑回归(LR)

通过将数据样本的线性回归问题通过sigmoid函数映射转换为非线性回归。本研究采用了机器学习工具scikit-learn的线性模型的逻辑回归(LogisticRegression)。

3. 朴素贝叶斯(NB)

以贝叶斯定理为基础,通过数据样本学习从输入到输出的概率分布,最后输出使得后验概率最大的类别。本文采用了机器学习工具scikit-learn的基于高斯的贝叶斯分类算法(GaussianNB)。

4. 基于递归特征消除(RFE)的特征排序算法

首先在学习行为指标全集上训练模型并得到每个指标的重要性,然后从指标全集中删除重要性最低的一个指标,再在剩余的指标集合上训练,不断循环此过程直到剩余一个指标,按照此顺序依次得到重要性由低到高的行为指标。本研究评估器仍然采用基于线性分类的支持向量机(LinearSVC)。

(六)评估指标

本文主要对学习者是否退课进行预测,本质上属于二分类问题。评价二分类性能的常见指标有:①准确率(Accuracy),反映了预测准确的样本数占样本总数的比例;②精确率(Precision),又称查准率,反映了在预测为退课的样本中,真正退课的样本所占的比例;③召回率(Recall),又称查全率,反映了在真正退课的样本中,被预测为退课的样本所占的比例;④F1分数,是基于精确率和召回率的调和平均数,同时兼顾了分类算法的精确率和召回率,是一类综合性评估指标,在类别不平衡的评估中占有重要的地位。

(七)研究过程

首先将28个学习行为指标分为七个类别(见表2),包括:①学习行为次数;②学习行为时长;③每个会话的平均学习行为次数;④每个会话的平均学习行为时长;⑤平均每天的学习行为次数;⑥平均每天的学习行为时长;⑦资源访问规律指标。采用支持向量机(SVM)、逻辑回归(LR)和朴素贝叶斯(NB)等三种具有代表性的分类算法,比较不同类别的学习行为指标对退课预测的准确率,并分析不同分类算法的效果。

接着采用基于递归特征消除(RFE)的特征排序算法,分析不同学习行为指标对退课预测的权重顺序以及预测准确率最高的最优指标组合。

四、研究结果分析

(一)不同类型的学习行为指标的预测比较分析

在学习行为指标的提取上,主要针对学习行为次数和学习行为时长,在考虑会话数和活跃天数的基础上,将学习行为指标划分为七个类别。本部分主要分析哪种类型的学习行为指标更能有效地预测学习者的退课行为以及比较不同预测分类算法的预测效果。为了了解不同类型学习行为指标独立和综合的预测效果,以对学习行为指标全集进行的预测分析作为参照。为了评估各个预测分类算法的预测效果,采用五折交叉验证的策略,分析结果见表3。

通过表3发现:①从四类分类评估指标来看,由于学习者退课比例较高,使得样本数据类别不平衡,导致召回率较高(0.840~0.999,除0.247外),因此在对比分析时应重点考虑准确率、精确率和F1分数。②资源访问规律指标对退课行为预测效果最高(从准确率和F1分数看),甚至高于指标全集的预测结果。这表明会话数(SN)、活跃天数(AD)、访问间隔天数(ID)等指标更能反映学习者的学习状况。③学习行为次数较学习行为时长对退课行为的预测效果更好,即学习行为次数更能有效预测学习者的退课行为。④从学习行为次数、每个会话的平均学习行为次数和平均每天的学习行为次数三类指标分析发现,学习行为次数对退课行为预测效果最好,每个会话的平均学习行为次数预测效果次之,平均每天的学习行为次数预测效果最差。除了NB算法,从学习行为时长、每个会话的平均学习行为时长和平均每天的学习行为时长三类指标分析发现,预测准确率和F1由好到差依次为:平均每天的学习行为时长、每个会话的平均学习行为时长、学习行为时长。这表明会话数和活跃天数对学习行为次数和学习行为时长影响不同。⑤综合分析发现,支持向量机(SVM)预测准确率最高,逻辑回归(LR)预测效果要好于朴素贝叶斯(NB)。

表3 不同类型学习行为指标预测比较分析结果

(二)预测退课指标的重要性排序及最优指标组合

尽管学习行为活动的类型有多种,但不同的行为指标对退课行为的预测重要性可能存在差异。本研究采用基于递归特征消除(RFE)的特征排序算法,对学习行为指标的重要性进行排序,评估器仍然采用基于线性分类的支持向量机(LinearSVC)。退课行为预测指标的重要性排序(由高到低)结果见表4。会话数(SN)和活跃天数(AD)两个学习行为指标的重要性排名位列前二,访问间隔天数(ID)和平均活跃间隔天数排名比较靠前(位列第7、8),这与第1步骤中分析不同类型学习行为指标预测一致,表明SN和AD这两个指标对退课行为预测影响最大。会话数越多意味着学习者登录学习平台越频繁,学习积极性越高,则学习者发生退课的可能性越小。

表4 指标重要性排序结果(由高到低)

为了进一步提取有效预测退课行为的指标组合,按照学习行为指标的重要性排序依次添加指标构成集合,然后采用支持向量机分类算法对各个指标集合进行预测,预测准确率(评估指标采用F1分数)见图1。图中横坐标的数字代表学习行为指标集合,如“7”代表按照指标重要性排序后的前7个指标构成的集合,“28”代表指标全集。从图1可以看出,随着指标的增加,前7个行为指标构成的集合(SN、AD、TD、DD、DDPD、WFPD和ID)对退课行为预测的准确率最高(F1=0.836),即构成预测退课的最优指标组合。随着指标的继续增加,预测的准确率逐渐下降,一直到指标全集时F1分数到达0.832。

图1 学习行为指标组合的预测准确率比较分析

五、研究总结

本研究以学堂在线的37门计算机课程的学习行为数据为研究对象,整合资源访问度和资源访问规律两类因素构建学习行为指标,采用三种机器学习分类模型分析了学习行为指标对学习者退课的影响问题。首先抽取得到28个学习行为指标,然后从不同类型的学习行为指标以及学习行为指标的最优组合两方面,对影响学习者退课的指标进行了探索分析,得出如下结论:第一,与以往研究不同之处在于,本研究综合考虑了资源访问度和资源访问规律两类因素构建学习行为指标,而且经过实证研究表明资源访问规律指标对退课的预测效果最好。这些指标包括:会话数、活跃天数等,反映了学习者的真实学习规律。在不同类型的学习行为指标的预测对比分析中,发现学习行为次数相对于学习行为时长预测准确率更高,这与牟智佳与武法提(2017)使用这些行为指标预测学习成绩的结论一致,反映了这些学习行为指标不仅可以用于预测学习成绩,也可以用于预测退课。第二,综合考虑28个行为指标,通过递归特征消除(RFE)的特征排序算法得到其重要性排序,发现排序后的前7个行为指标构成了预测退课的最优指标组合,而且这7个指标中包括了资源访问规律指标中的3个(会话数、活跃天数和访问间隔天数),再次验证了资源访问规律指标对预测退课的重要性。

一门计算机类课程的开设周数一般为9到16周,MOOCs开发人员可以通过学习平台分析学习者连续5周(35天)的学习记录,并计算资源访问规律指标或者最优指标组合(包含7个指标),然后采用机器学习分类算法(如支持向量机)对其后两周的退课情况进行预测,从而发现可能的退课者,进而通过平台向学习者推送鼓励其持续学习的提醒信息,可以提高其学习的动力和积极性,降低退课率。此外,目前大部分计算机类MOOCs面向社会开放,学习者在教育水平、职业等方面呈现多样化,他们为了满足自己某方面的需求注册并学习MOOCs。由于能否持续学习全靠自主选择,为了提高他们学习的积极性,降低退课率,提高MOOCs资源的利用率,MOOCs开发人员在设计教学内容时应注意理论联系实际。计算机类课程本身就具有实践性强的特点,比较容易将枯燥乏味的理论知识与真实有趣的实际应用紧密结合(通过视频内容呈现),让学习者体会到学习的实用性,提高他们的学习积极性(会话数、活跃天数也会随之增加)。设计者可以在学习完一节内容后,设置一些难度适中且与实际应用结合的作业供学习者巩固知识并检验学习效果,当学习完一门MOOC后可以为其颁发结业证书,从而提高其学习的满意度。

本研究虽然分析了有效预测学习者退课的学习行为指标,但仍存在如下两方面的不足:第一,本文主要基于计算机类课程展开研究,今后将选取多个不同学科的学习者行为数据进行对比分析,探索不同学科的学习行为数据在预测退课指标的选取上是否具有显著差异。第二,本研究主要基于资源访问度和资源访问规律两类因素构建影响退课的行为指标,为学习平台尽早发现退课者提供了判断依据,以便及时提醒学习者持续学习,但并不能针对课程设计者在教学内容、教学设计等方面给出改进建议。今后将深入分析一些具体类型的数据,如观看视频的数据,包括播放、暂停、快进、停止等更微观的学习动作,以期发现在视频内容学习方面影响退课的深层机理,进一步帮助MOOCs教师尽早发现退课行为并采取适当的教学干预,切实改善学习者的在线学习效果。

注释

① http:// moocdata.cn/data/ user-activity

猜你喜欢
会话天数次数
质量管理工具在减少CT停机天数中的应用
2020年,我国汽车召回次数同比减少10.8%,召回数量同比增长3.9%
抑郁筛查小测试
QQ和微信会话话轮及话轮转换特点浅析
俄罗斯是全球阅兵次数最多的国家吗?
最多几天?最少几天?
基于切削次数的FANUC刀具寿命管理
生日谜题
基于集群节点间即时拷贝的会话同步技术研究①
探索性作战仿真实验重复次数控制研究