贺超凯 吴蒙
【摘 要】 教育数据挖掘是一门新兴学科,通过分析学习行为记录归纳学习者的行为特点以提高教育质量,大规模在线开放课程学习者的学习行为记录为此提供充足素材。2012-2013学年哈佛大学和麻省理工学院在edX平台上开设了17门课程,本文选择其中16门课程60余万人次学习行为记录,归纳学习者学习行为特征,对部分典型行为特征进行数据挖掘,采用逻辑斯谛回归方法对成绩进行预测。实验表明,通过学习者的典型学习行为分析可以有效地判别其是否可以完成学习任务并获得证书。
【关键词】 慕课;学习行为;数据挖掘;成绩预测;学习者特征
【中图分类号】 G420 【文献标识码】 A 【文章编号】 1009—458x(2016)06—0054—06
MOOCs(Massive Open Online Courses),即大规模在线开放课程(慕课),是由加拿大学者Bryan Alexander和Dave Cormier在2008年提出的。2012年《科学》杂志上出现了研究人员对慕课的介绍,并展望它将改变未来的教育[1]。2013年《自然》杂志详细介绍慕课的发展、现状和趋势[2]。以edX、Coursera和Udacity为代表,慕课理念和实践得到了哈佛大学、麻省理工学院等国际优秀大学的认同 [3]。北京大学李晓明教授认为两个因素:一是信息技术,主要是网络基础设施、Web2.0、音视频和云计算四个方面,使得慕课教学的良好体验成为可能;二是以学习者为中心的教育技术思想的成熟,使得慕课得以迅速流行[4]。慕课以其独特的共享优势,使教育机会和教育公平变为现实,并得到广大学习者的高度认可,近千万用户通过网络学习优秀大学的优质课程,世界范围内大规模在线教育时代已经到来。
不同于传统的通过电视广播、互联网、辅导专线、函授等形式的远程教育,也不完全等同于近期兴起的教学视频网络共享公开课,更不同于基于网络的学习软件或在线应用。与传统的授课过程相比,慕课主要呈现出以下特点:① 慕课提供了丰富的课程资源,学习者可以根据自己的兴趣爱好,选择不同的授课者进行学习。② 慕课课程以知识点为一个授课环节,一般时间在10-20分钟之间。 ③ 学习者可以根据课程进度安排,随意选择学习地点,重复学习课程内容。④ 慕课学习者的问题一般能得到及时回复。⑤ 慕课的成绩评价则结合学习者在整个学习过程中的表现。此外,在慕课模式下,课堂教学、学习进程、学生者的体验、师生互动过程、学习者互动过程等被完整、系统地在线实现。慕课的主体是学习者,慕课最大的特点在于海量的学习者和各种各样的学习者群体。学习者的学习动机、受教育程度、学习态度、学习方法也呈现多样性。慕课平台上学习者的相关资料(如年龄、性别、受教育程度、来自国家和地区等)和学习行为(如观看授课视频次数、参与教学互动次数、浏览教学内容次数、解答问题数、学习者之间的交互学习等)都会以丰富多样的形式记录下来。如何充分利用数据,根据学习者的相关资料及学习行为记录,对其学习成绩进行评定是一个挑战。
一、相关工作
教育数据挖掘是一门新兴学科,关注从海量数据中挖掘出对教育者和学习者有用的信息,以提高教育管理效率和学习效率。慕课处于高速发展阶段,已经有学者利用教育数据挖掘方法对慕课学习行为数据进行分析。Ho等分析了edX平台上的慕课学习者,认为:学习者已经遍布全球,欧洲学习者学习的课程数量最多,参与率最高,而东亚的少;男性学习者比例较高;慕课对于已经获得学士学位的学习者更有吸引力;学习者的平均年龄为24岁;半数学习者从未完成课程的学习;社会科学类课程的参与率最高,而人文科学类课程的参与率最低;课程参与率最高的人群是已获得博士学位的学习者;大多数学习者仅注册了一门课程,注册了多门课程的学习者的参与率更高,而注册课程多于6门的学习者参与率则下降[5]。国内也有学者采用问卷调查等形式对MOOC课程学习过程进行研究[6]。
对慕课学习者的学习行为分析与成绩预测的研究从方法上可以分为以下4类。
1. 通过率预测
Jiang 等人根据学习者一周的学习记录对其最终成绩进行预测[7]。Ramesh等人对学习者的线上学习行为进行了区分,作为预测最终成绩的潜在特征[8],也用于预测学习者是否会参加最终测试[9]。
2. 退出率预测
Balakrishnan等分析了伯克利大学开设的一门课程的退出情况,采用隐形马尔科夫模型,主要根据学习者观看授课视频的时间、浏览学习论坛帖子的数目、发帖数和学习所用的时间4个因素,判定学习者退出学习的机率[10]。Halawa、Greene和Mitchell通过学习者的学习特征判定是否对学习失去兴趣,对退出率给出较准确的预测[11]。Kloft采用决策支持向量机分析学习者的点击序列,对退出率进行判定[12]。Taylor等基于学习者的群体特征进行判定[13]。
3. 干预式预测
edX、Coursera、Udacity等平台上的慕课通过率都很低。一种解决办法是及时识别学习困难者,并及时干预,给予学习者一定的提醒和帮助。Williams 从认知心理学的角度进行了深入的研究,通过在MOOC课程视频中添加提问的方式提高学习者的积极性,对减少退出率的有效性进行了验证,并分析了不同交流措施对通过率的影响[14][15][16]。He 等人根据多维因素对逻辑斯谛回归方法进行改进,通过预测,对处于边缘的学习者进行干预[17]。
4. 关系挖掘
主要是分析哪些因素影响课程通过率或失败率。DeBoer等研究了年龄、性别、地区等人口统计特征对课程通过率的影响[18]。Yang等研究了学习行为和在学习论坛中的地位对通过率的影响,以及学习者在论坛中的评论和学习者之间的相互作用对通过率的影响[19][20]。这些研究对慕课课程设计有很大帮助。
二、学习者特征
传统教育活动中,学习者群体的学习动机基本相同,学习者的心智发展和知识水平大体相当。慕课环境下,学习者的学习动机和知识背景差异呈现多样化。2012年秋季到2013年夏季,哈佛大学和麻省理工学院在edX平台上开设了17门课程。本文选定其中16门课程60余万条学习行为记录进行学习者特征的统计分析,16门课程的信息(如课程代码、课程名称、注册时间、开始时间、终止时间、课程天数、注册学生数、通过考试获得证书学生数、通过率等)如表1所示。
1. 学习者类别
根据平台上的学习记录,将学习者分为3类:
注册者(only registered):注册账号后,未完成任何一项学习任务。
浏览者(only viewed):注册账号后,学习内容少于课程内容的一半。
探索者(only explored):注册账号后,学习内容超过课程内容的一半。
每类学习者所占比例、性别、教育程度、年龄以及课程开始前注册人数、课程进行中注册人数及课程结束后注册人数等信息如表2所示。
2. 教育背景
按照初级教育水平、中级教育水平、高级教育水平、副学士、学士、硕士、博士7个等级进行统计,学习者的平均受教育水平是学士,HealthStat课程学习者平均受教育水平是硕士,拥有博士学位的学习者占10%。通过考试并取得证书的学习者中,教育水平在学士学位以上的占54%。
3. 年龄
每门课程学习者的平均年龄均小于30岁,通过考核获得证书的学习者平均年龄略高。可能是课程主题的关系,哈佛大学慕课学习者的年龄和受教育程度均高于麻省理工学院。每门课程的学习者年龄分布和完成学习获得证书的学习者年龄分布如图1所示。
4. 性别
图2表示女性学习者各门课程中所占的比例以及完成学习获得证书的比例。科学类、工程类、技术类、数学类课程女性学习者的比例比人文和社会科学类的课程低,完成学习获得证书的比例更低。
三、典型学习行为选取
除了受学习者年龄、性别、教育背景等因素影响外,学习动机和投入程度也很大程度上影响着学习效果。为了准确地描述学习者行为,本文选取了学习时间、学习事件次数、抽样统计学习次数、观看视频次数、学习章节数以及在学习论坛上发帖数等作为学习行为分析的客观依据,以此为基础进行成绩预测。
时间:在开课前几周就有注册课程的记录,一半以上的学习者在课程开始前完成注册。约有8%的学习者在课程结束后注册课程。文中的学习时间用学习者最后学习记录日期减去注册时间。
学习事件次数:通过分析系统日志,得到学习者与课程交互活动的次数。
抽样统计学习次数:系统在特定的时间对学习行为进行的抽样统计。
观看视频次数:学习期间观看视频的次数。
学习章节数:从课程开始到课程结束,学习者学习的内容章节数。
发帖数:学习者关于课程内容在学习论坛上发起的话题,包括回复别人提出的问题等。
四、逻辑斯谛回归算法框架
逻辑斯谛回归算法主要包括对学习记录数据的归一化处理、构造预测函数、构造损失函数、采用优化算法求解等过程(如图3所示)。
1. 构造预测函数
设Y是 0-1型变量,表示学习者是否通过学习并取得证书。表示影响学习效果Y的相关变量,与的关系为:
函数的值表示结果取1的概率,因此对于输入分类结果,值为 1和值为0的概率分别为:
五、实验结果与分析
1. 实验数据集
本文用到的数据集包括641,138个注册学习者在学习16门课程期间的相关学习记录,删除了特征记录不完整的数据,有效记录338,888条,按课程以80%和20%比例拆分,得到训练集和测试集。
2. 评价指标
为了衡量算法的效果,文中采用了准确率、精确率、召回率和调和值作为评价指标。
TP:记录值为1,预测值为1的记录数;
FN:记录值为1,预测值为0的记录数;
FP:记录值为0,预测值为1的记录数;
TN:记录值为0,预测值为0的记录数;
准确率=(TP+TN)/(TP+FN+FP+TN);
精确率=TP/(TP+FP);
召回率=TP/(TP+FN);
调和值=2TP/(2TP+FP+FN);
迭代次数达到40次时,准确率、精确率、召回率、调和值均达到最佳值(如图4所示)。
3. 学习效果预测
对16门课程进行了实验分析,结果如表3所示。
实验结果表明,应用逻辑斯谛回归方法,根据学习者的学习记录,能比较准确地预测后期学习效果,充分说明了本文提出的算法的合理性和有效性。
4. 其他数据分析
实验结果表明,选取的学习者行为特征可以在课程进行中有效地区分学习者,在全部课程上均有较好的实验效果。从数据中发现的现象和主要结论如下:
(1)可以根据学习记录较准确地预测学习效果
虽然学习者的学习动机、学习目的以及想要达成的目标等主观情感无法计算,但可根据学习者的年龄、教育背景、学习行为的过程化记录数据(观看视频数、学习章节数、抽样学习行为记录数、学习论坛发帖数、学习课程用时数等)等客观数据预测学习者的最终学习效果。实验证明,采用逻辑斯谛回归方法进行预测效果较好。
(2)学习者教育背景对学习效果影响不大
实验中完成学习环节、获得证书的学习者中初等及以下的受教育者占3%,获得博士学位的占3%,中等教育占28%,本科占35%,硕士占31%。初中等教育的学习者与本科和硕士学习效果区分不显著。
(3)性别因素对学习效果影响不大
实验表明,性别与学习效果间没有显著关系。
六、结 论
本文对edX平台上开设的16门课程60余万条学习行为记录进行了分析,选取了学习时间、学习事件次数、抽样统计学习次数、观看视频次数、学习章节数、发帖数等作为学习行为关键记录,对学习者是否可以完成学习任务并获得证书进行了预测。实验证明,可以通过分析学习行为关键记录预测学习效果。
学习效果是学习行为的最终体现,受动机、目的、情感等多方面的影响。edX平台上的学习行为主要是学习者的一些客观行为表现。虽然采用逻辑斯谛回归方法可以准确判定学习效果,但是学习过程中的主观因素未得到体现。如何体现主观因素,并应用于学习效果预测,是一个有趣且复杂的课题,对充分理解学习者的学习行为、提高学习效率、科学地设置课程内容、干预学习进程等都有很大的帮助。
[参考文献]
[1] Stein L A. Casting a wider net [J].Science, 2012, 338(6113):1422-1423.
[2] Waldrop M M. Online learning: Campus 2.0 [J].Nature, 2013, 495(7440):160-163.
[3] 蒋卓轩,张岩,李晓明. 基于MOOC数据的学习行为分析与预测[J]. 计算机研究与发展,2015,52(3):614-628
[4] 李晓明. 慕课:是橱窗?还是店堂?[J]. 中国计算机学会通讯,2013,9(12):24-28.
[5] Ho, A. D., Reich, J., Nesterko, S., Seaton D. T., Mullaney, T., Waldo, J., & Chuang, I. [2014]. HavardX and MITX: The first year of open online courses. (HarvardX and MITx Working Paper No. 1). http://dx.doi.org/10.2139/ssrn.2381263
[6] 范逸洲,王宇,冯菲,汪琼,李晓明. MOOCS课程学习与评价调查[J]. 中国远程教育,2014,20(3):27-35.
[7] S. Jiang, A. E.Williams, K.Schenke, M.Warschauer, D. ODowd. Predicting MOOC performance with week 1 behavior[C]. In Proceedings of the 7th International Conference on Educational Data Mining. 2014.
[8] Ramesh A, Goldwasser D, Huang B, et al. Modeling learner engagement in MOOCs using probabilistic soft logic[C]. NIPS workshop on data drive education, 2013.
[9] Ramesh, A. Goldwasser, D. Huang, B. Daume III, H. and Getoor, L. Learning latent engagement patterns of students in online courses. [C] In Proceedings of the Twenty Eighth AAAI Conference on Artificial Intelligence. AAAI Press. 2014.
[10] Balakrishnan G. Predicting student retention in massive open online courses using hidden markov models, UCB/EECS 2013-109. Berkeley: University of California, Berkeley.2013. http://www.eecs.berkeley.edu/Pubs/TechRpts/2013/EECS-2013-109.pdf
[11] Halawa, S., Greene, D., and Mitchell, J. Dropout prediction in MOOCs using learner activity features[C]. In Proceedings of the European MOOC Summit. 2014 .
[12] Kloft, M. Stiehler, F. Zheng, Z. and Pinkwart, N. Predicting MOOC dropout over weeks using machine learning methods[C]. In Proceedings of the EMNLP Workshop on Modeling Large Scale Social Interaction in Massively Open Online Courses. 2014.
[13] Taylor, C. Veeramachaneni, K. and OReilly, U.-M. 2014. Likely to stop? predicting stopout in massive open online courses[J]. Eprint arXiv. 2014.
[14] Willams J J, Williams B. Using interventions to improve online learning [C]. NIPS workshop on data driven education, 2013.
[15] Willams J J, Improving Learning in MOOCs by Applying Cognitive Science[C] Paper presented at the MOOCshop Workshop, International Conference on Artificial Intelligence in Education, Memphis, TN.
[16] Williams, J. J., Paunesku, D., Haley, B., & Sohl-Dickstein, J.. Measurably Increasing Motivation in MOOCs[C]. Talk presented at the MOOC shop Workshop, International Conference on Artificial Intelligence in Education, Memphis, TN. 2013.
[17] He. J., Bailey J., Rubinstein Zhang R., Identifying at risk students in massive open online courses[C] Twenty-Ninth AAAI Conference on Artificial Intelligence. 2015.
[18] DeBoer, J. Stump, G. Seaton, D. and Breslow, L. Diversity in MOOC students backgrounds and behaviors in relationship to performance in 6.002 x[C]. In Proceedings of the Sixth Learning International Networks Consortium Conference.2013.
[19] Yang, D., Wen, M., and Rose, C. Peer influence on attrition in massive open online courses[C]. Proceedings of Educational Data Mining. 2014.
[20] Wen, M.; Yang, D.; and Rose, C. P. Sentiment analysis'in MOOC discussion forums: What does it tell us? [C]. Proceedings of Educational Data Mining. 2014.
收稿日期:2015-11-23
定稿日期:2016-01-31
作者简介:贺超凯,南京邮电大学计算机学院(210003)。
吴蒙,南京邮电大学通信与信息工程学院(210003)。
责任编辑 韩世梅