基于机器学习的中文MOOC教育学员流失预测研究

2019-08-02 05:10王晓芳贾宗维
中国教育信息化·高教职教 2019年6期
关键词:流失机器学习预测

王晓芳 贾宗维

摘   要:MOOC教育自2013年引入国内高等教育领域,得到了大面积的推广普及,随之而来的问题是学员流失严重,这一现象已然成为学界共同关注的研究问题。本文以国内最大的中文MOOC教育“学堂在线”数据集为研究对象,通过数据清洗、筛选、特征优化提取,分别应用三类典型的机器学习模型进行学员流失预测研究,实验对比分析表明,使用具有时间序列特点的优化特征值进行算法预测,其结果在准确度、召回率、F-Scroe等评估指标方面较特征优化前有大幅提高。

关键词:机器学习;MOOC;流失;预测

中图分类号:G434 文献标志码:A 文章编号:1673-8454(2019)11-0047-05

一、引言

2013年10月清华大学基于 edX 平台的开源代码,开发建设的第一个中文MOOC平台“学堂在线”正式上线,开启了中国MOOC教育的先河。[1]教育以一种全新的视角呈现在世人面前,上至高等教育,下至中小学教育,MOOC给整个教育领域带来了巨大的影响。[2]

截至2018年12月底,全球已有900多所大学加入MOOC,上线1.14万门课程,注册学员数达1.01亿,其中学堂在线平台拥有1400万学员。[3]如此众多的MOOC课程产生了前所未有的、海量的、多样化的教育大数据,国内外研究人员已在学习行为分析、效果评估、学员流失、教学模式等方面开展了诸多卓有成效的应用研究。Akshay Agrawal和Shane Leonard[4]以機器学习算法分析研究了学生对论坛不同主题的关注程度,Ravichandran等[5]利用论坛分数建立回归模型用于预测学员最终成绩,哈佛大学Ho A D.Harvard X和 MITx[6]研究了edX平台上17门课程在线学员的课程注册与完成率之间的相互关系。国内学者王雪宇等[7]分析对比了中美学习者MOOC学习行为,并对学员的辍学进行了预测研究,卢晓航等[8]利用滑动窗口模型动态预测Coursera平台上学员的辍学行为,获得了较高的准确率。近期学堂在线发布了39门课程,共计800多万条学员学习日志记录,为中文MOOC教育学员流失分析研究提供了重要数据支撑。

二、数据分析

1.数据集描述

学堂在线公布数据集采用CSV格式发布,该格式主要应用在程序间相互转移表格数据,在科学研究和商业领域被广泛应用。数据集共包含5类8个CSV格式文件,分为训练集、测试集、课程基本信息、开课周期、验证集等。数据集情况说明如表1所示。

其中,数据集中enrollment_train,enrollment_test、log_train和log_test、true_train主要文件各字段涵义说明如表2所示。

2.数据预处理

(1)加密字段数字化映射

通过对数据集的观察发现,多个文件中username、course_id列是以加密字符显示,为了后续数据处理,需要把这些加密字符映射为不同的数字化形式,通过Python中的dictionary对这些字符进行一对一字典数字化处理。最终形成如图1所示的情况。

(2)date.csv文件记录了课程的开始和结束时间,通过增加一列day_num数值型数据,用来统计每门课程持续的天数,以方便后续特征提取时使用。结果如图2所示。

(3)将数据文件date.csv分别与enrollment_test.csv、enrollment_train.csv进行左连接处理,新生成的文件将包含MOOC学员所选每门课程的编号、起止时间、开课天数等数据信息,同样作为后续特征提取使用。

(4)学员对课程的每一种学习事件的产生时间与课程的起始时间间隔,反映了每位学员对每门课程的学习积极程度,这一重要的学习行为特征将是学员流失预测的主要因素。通过对数据文件的操作,增加interval数值列用于存放该数据,操作结果如图3所示。

(5)对数据文件truth_trian、enrollment_train连接处理,生成enrollment_dropout文件,并增加course_num、nondropout_num、dropout三列。前者表示学员选课门数,后者表示学员持续学习(未流失)课程门数。假如后者大于前者的一半,则置dropout(流失)为0,否则为1。操作结果如图4所示。

三、特征提取

1.基本特征选择

通过对 “学堂在线”公开日志训练数据集进行分析和处理操作,筛选反映学习行为状态的四个基本特征,分别是选课门数、持续学习课程门数、是否辍学、持续课程与选课总数的占比关系。 具体在数据集中用course_num、nondropout_num、dropout、nondrop_precent表示,详细描述如表3所示。

2.特征优化扩选

(1)关键事件

学堂在线对学员学习行为事件通过event属性值不同,表现为七种情形,分别是problem = 1、video = 2、access =3、wiki=4、discussion=5、navigate=6、page_close=7,其中acess、navigate、page_close情形與学员的学习行为联系不紧密,暂不考虑,故选取四种关键事件,分别是1、2、4、5。

(2)有效特征

通过对日志数据研究发现,学员每天学习所产生的各种事件都会持续一段时间,如果该事件不是点播视频(event=2)且持续时长超过60分钟,则认为这是一个无效事件,忽略并重新计算新的事件持续时长。由此我们可以确定每位学员每天学习产生的事件总数、关键事件总数、所有事件持续时长总和共3种有效特征,基于此再分别计算30天发生的情况,共计产生90个有效特征。具体描述如表4所示。

(3)统计特征

为了更加准确地反映学员在线学习的真实写照,每10天看成一个阶段进行统计分析,将30天分割为3个阶段,分阶段统计每个学员所有学习事件的Min(最小值)、Max(最大值)、Sum(求和)、Mean(平均值)、std(离散值)等统计量,形成新的有效统计特征。如表5所示。

通过以上特征工程处理,得到114个反映学员MOOC学习行为的主要特征值,其中包含4个基本特征、90个有效特征和20个统计特征。

四、学员流失预测

1.模型选择

机器学习算法是目前数据挖掘领域的主流分析算法。其主要思想就是如何使计算机从给定的数据中学习法则,即从观察到的数据(样本)中找到规律,并使用学习的规则(模型)来预测未知或无法观测的数据。学堂在线日志数据集中分析获取的训练数据均具有清晰的标签和结果,在一系列特征优选的前提下,通过Python语言分别实现Logistic regression、Random forests、Gradient boosting三种机器学习模型进行学堂在线学员流失预测对比研究。

2.实验环境

硬件环境:Intel(R) Core(TM) i7-4600U CPU @ 2.60GHz/8G内存;

软件环境:Windows10专业版(1803)/Python3.6(64位);

第三方库:NumPy、Pandas、Sklearn。

3.模型预测

通过公布的学堂在线日志数据集利用机器学习模型预测学员流失的概率,但是对于如何确定学员是否真正流失,官方给出的定义是:如果学员在未来10天内没有任何学习事件产生,则认为该学员从平台流失。基于此,分别选用4个基本特征和114个具有时间序列特点的优化特征,通过Python编程实现Logistic regression、Random forests、Gradient boosting三种机器学习模型,然后进行学员流失预测对比分析。预测结果对比如表6所示。

通过表6可知,对于具有时间序列特点的优化特征,三种机器学习模型上都表现为准确率显著提升,而时间均在可以接受的范围内,故实验评估部分主要从优化特征提取前后预测模型在精确率、召回率、F-Score等评估指标方面对比研究。

五、实验评估

1.评估指标

假设学员流失的样本数记为P,学员继续学习(未放弃)的样本数记为N,正确预测到学员流失的样本数定义为TP,正确预测到学员未放弃的样本数定义为TN,学员本身是流失而预测为继续学习的样本数量记为FP,反之,学员本身未放弃课程,而预测为流失的样本数量记为FN。具体说明如表7所示。由此可得预测模型的准确率、召回率、精确率等评价指标。

2.模型评估

由表8数据可以得出,不同预测模型在优化特征提取之后的精确率、召回率和F值三类指标都有大幅提升,说明学员学习行为中关键事件的统计信息对学员流失预测起到至关重要的作用。学员在MOOC平台上的关键事件总数和持续时长统计,很大程度上反映了学员对所选课程的兴趣和互动性;另一方面,从时间序列上对学员学习行为事件的分阶段统计的特征值反映了学员近期学习的变化情况,同样对学员流失的预测起到积极正面的作用。

由此可见,特征提取的手段、特征数量对分类预测模型的结果有极大影响,此外,Gradient boosting(梯度提升)算法在预测的准确率和执行时间都有较好的表现,明显优于其他两种方法。

六、结束语

实验结果表明,机器学习方法及优化特征提取对学员流失问题有极高的准确率,能够帮助教师及时跟进学生、改进教学策略、把握课堂进度。通过提取有效和高效的统计特征,进而提高预测模型精度,以便帮助MOOC平台及时更新课程授课方案,从而降低学员流失率,提升在线教学质量和教学效果,最终实现 MOOC 的预期价值和意义。

参考文献:

[1]王书瑶,王小根,晋步.中外MOOC 课程对比研究——以edX 和“学堂在线”为例[J].软件导刊,2014(7):154-156.

[2]汪基德,冯莹莹,汪滢.MOOC热背后的冷思考[J].教育研究,2014(9):104-111.

[3]By The Numbers: MOOCs in 2018[DB/OL].https://www.classcentral.com/report/mooc-stats-2018/.

[4]秦昌博.中文MOOC论坛课程中情绪分析及知识难点的挖掘研究[D].北京:北京邮电大学,2017.

[5]Ravichandran P, Kaur A. Impact of Discussion Forums on the Final Scores of Post Graduate Students at Open University Malaysia[J].ASEAN Journal of Open Distance Learning 2013,5(1).

[6]Ho A D.Harvard X, MITx. The First Year of Open Online Courses, Fall 2012-Summer 2013[J].Social Science Electronic Publishing,2014.

[7]王雪宇,邹刚,李骁,王玉龙.中美MOOC学习者学习行为分析——基于edX公开数据集和国防科技大学梦课数据集[J].计算机教育,2016(6):116-120.

[8]卢晓航,王胜清,黄俊杰,陈文广,闫增旺.一种基于滑动窗口模型的MOOCs辍学率预测方法[J].数据分析与知识发现,2017(4):67-75.

[9]Bengio Y,Grandvaler Y.No Unbiased Estimator of the Variance of k-Fold Cross-Validation[J].Journal of Machine Learning Research,2004,5(3):1089-1105.

(編辑:王天鹏)

猜你喜欢
流失机器学习预测
无可预测
选修2-2期中考试预测卷(A卷)
选修2-2期中考试预测卷(B卷)
在华日企现地管理人才现状及对策研究
前缀字母为特征在维吾尔语文本情感分类中的研究
基于支持向量机的金融数据分析研究