夏晓峰
DOI:10.16644/j.cnki.cn33-1094/tp.2016.07.013
摘 要: 从学习分析系统角度研究MOOC教育中低通过率与有效学习的问题。通过分析学习者学习活动情况,在MOOC社区取样大量原始数据,生成平台学习数据,采用一个基于Hadoop的MOOC学习分析系统对数据进行分析和挖掘,促进学习者进行有效学习。为了评估该系统的有效性,开发一种分析方法来识别那些容易辍学、低延迟的在线学习者,以使得MOOC服务商能够有效地进行教学策略调整,提高了课程通过率。
关键词: 大规模开放在线课程; 云计算; 分布式系统; 分析系统
中图分类号:TP393.02 文献标志码:A 文章编号:1006-8228(2016)07-45-04
Construction of MOOC learning analysis system based on Hadoop
Xia Xiaofeng
(Department of Computer Science, Shaozhou Normal College, Shaoguan University, Shaoguan, Guangdong 512009, China)
Abstract: Study on the problems of low pass rate and effective learning in MOOC (massive open online courses) education from the perspective of the learning analysis system. Through the analysis of learners' learning activities, sampling a large number of original data in MOOC community to generate the platform's learning data, a Hadoop based MOOC learning analysis system is used for data analysis and data mining to promote learners for effective learning. In order to evaluate the effectiveness of the system, an analytical method is developed to identify those online learners who are easy to drop out of school, so that the MOOC service providers can effectively adjust the teaching strategies, and improve the pass rate of the course.
Key words: MOOC; cloud computing; Hadoop; analysis system
0 引言
随着云计算技术的推广与应用,云计算已经为新一代在线教育系统奠定了基础,它改变了现代的教育模式,基于无限的网络资源,任何教育机构可以通过全球在线学习资源分享教学经验。目前全球MOOC(大规模开放在线课程)[1]有三大巨头。edX[2]是由麻省理工大学和哈佛哈佛大学联合推出的非盈利在线教育平台,它现在提供150多门跨领域、高标准、具有创新技术的免费课程,现有全球46所著名大学加盟,北京大学、清华大学位列其中,参加学习的学员超过180万。Coursera[3]是由美国斯坦福大学两名计算机科学教授吴恩达(Andrew Ng)和达芙妮·科勒(Daphne Koller)创办的大型免费公开网络在线课程项目,它现在提供600多门课程,门类丰富,但良莠不齐,现在全球108所大学加盟,复旦大学、上海交通大学、北京大学正式加盟,参加学习的学员超过600万。Udacity[4]是由斯坦福教授塞巴斯蒂安·特伦(Sebastian Thrun)推出了包括科学、数学、编程、计算机科学和企业家精神训练等在线免费课程,现在提供38门课程,非常精致,参加学习的学员超过160万。
免费网络公开课,全新商业模式,这吸引着全世界目光,许多学习者渴望获得世界名校的免费课程,许多学习者注册或参加MOOC学习。自2012年免费公开课的模式推出至今已经有两年多,MOOC遭遇了成长的烦恼:2013年12月5日宾夕法尼亚大学教育研究生院公布了对全球100万名MOOC的学习者进行了调查,结果显示,注册的学习者只有大约一半听过一堂课,只有4%的用户完成了全部课程[5]。
在本文中,通过采集学习者在MOOC网络学习过程中产生的大数据,利用云计算技术中的一个可编写和运行分布式应用的处理大规模数据的开源框架Hadoop[6-7]构建一个学习分析系统,利用该系统去分析学习者在线状况,帮助相关MOOC服务商提高结课率,改善教学和学习的环境。
1 大数据与Hadoop概念
大数据的定义是大量的非结构化的信息和内容,可以从“无限”活动在互联网上,一般非传统来源,如web[8]日志、点击流、社交媒体、电子邮件、传感器、图像和视频。能够分析和利用大数据的实时情报可以为相关产品提供了巨大的机会,甚至政治决策服务。一些在线教育活动可以受益于大数据,对情绪分析、活动分析、欺诈检测均可以通过大数据的挖掘进行,学习分析和大数据结合在未来的在线教育中将扮演一个重要的角色。
Hadoop能对海量数据执行分布式处理,它的核心就是HDFS和Map Reduce。若干个数据节点(Datanode)加一个名称节点(Namenode)构成HDFS,对相关文件被客户端访问的管理、文件或目录的管理、数据块与相应数据节点的映射关系的管理等均由名称节点负责,每个节点一般设置一个数据节点,由它负责管理该节点上的存储[9]。Map Reduce将整个任务过程分为Map阶段和Reduce阶段,Map将用户的输入数据以键/值对形式通过用户自定义的映射过程转变为一组中间键值对的集合,Reduce则对中间生成的临时中间键值对作为输入进行处理,并输出最终结果[10]。
2 MOOC特点
MOOC是“大规模开放在线课程”的英文缩写(中国称为慕课),即:Massive(大规模),是指学习者对课程注册与访问数量多;Open(开放),指有学习需求的学习者,均可以上线学习;Online(在线),指的是学习时间、地点不受限制,24小时开放,通过网络作业、讨论、互动和评价获得相关知识;Course(课程),MOOC的课程设计类似于大学课程,但MOOC将课程重新分解,重新再造,使之适应在线教育。
MOOC作为一种崭新的教学模式,它将课程重新分解,重新再造,使之适应在线教育。它主要有以下几个方面的特点。
2.1 教学理念的转变
“以教师为中心”是现行的传统教育理念,MOOC则是“以学生为中心”,翻转课堂,教师只是活动的导师,网络课堂是师生互动的场所,通过提供适当的教学材料引导学习者之间进行交流,学习者可以根据个人需求,掌控学习节奏与方式,会更加努力、勤奋、主动、个性化地参与其中,并获取想要得到的知识。
2.2 教学规模的改变
传统大学课程一般只有几十到几百位学习者,而一门慕课课程动辄上万人,目前最多的一门课程有240000位学习者参与,MOOC完全突破了班级规模限制,打破了传统教学模式班级的概念。
2.3 学习的伸缩性改变
传统的学习者依照各门课程的教学大纲安排进行学习,缺乏灵活性。MOOC中的学习者可以根据自己的时间、对该门课程的掌握情况,利用分段时间进行学习,自我掌控学习进度,完成相应的课程学习。
2.4 开放性的改变
传统的大学是在教室、实验室、图书馆等场所进行学习,而且各个大学之间相应课程是不对外开放的。MOOC学习者只要拥有一台电脑或移动终端,只要可以上网,就可以学习各种优质课程,并与来自世界各地的学习者进行充分的交流,这些MOOC课程资源是对所有人开放的。
2.5 学习方式的改变
传统教育以45分钟为一个单元进行课堂教学,MOOC视频课程被切割成5-15分钟的“微课程”,学习者可以通过在线资源和一些额外的学习材料,发现和闯关课程中许多个教学小问题,并在平台上直接提出自己的想法和疑惑,会有师生共同讨论或提供解答,学习者的学习兴趣和主动性会得到极大的提升。
2.6 教育技术的改变
传统的教育多数基于多媒体教室或传统板书,学习者接受的是本地教育,MOOC则是借助云计算技术、移动平台技术、数据挖掘技术构成一个虚拟网络在线教育时空,通过这些技术解决了地域问题,让学习者不再停留在自己所在学校和地域的影响。
3 MOOC学习模式分析
第一步分析由MOOC生成的大数据的生命周期,第二步对学习者进行分类,第三步MOOC环境中“未完成”学习者的识别模式。
3.1 MOOC生成的大数据的生命周期
如图1所示,大数据的生命周期在MOOC可以描述如下。
⑴ 获得数据:在相关网站源头定期通过查看网络发帖、学习者调查、用户资料、网络社交媒体等获取数据。
⑵ 整合数据:将各种数据按照规则进行整合,并将整合后的数据传输到一个大数据平台,为后期数据处理做好准备。
⑶ 分析数据:在大数据平台上使用各种分析模块对整合后的数据进行处理。
⑷ 优化数据:将数据挖掘的分析结果给MOOC服务商,使得服务商可以对学习者进行有效的帮助和管理。
3.2 MOOC学习者
基于MOOC环境中学习者学习过程中的行为,对学习者进行分组定义为下面几种类型。
⑴ 注册者:只是简单注册了MOOC课程,但是基本不在线,这类注册学习者的数量通常是最大的。
⑵ 浏览者:简单浏览MOOC课程,但是没有真正参与相关的探索、讨论、评价、测评。
⑶ 中途退课者:大部分学习者属于这一类,他们通过从MOOC课程中获取他们需要的课程资源帮助他们的学习,但是没有完成整个课程的学习。
⑷ 被动参与者:这些学习者浏览每门课程材料、观看讲座、参加测试、参加互动,但是不参与课程考核。
⑸ 积极参与者:全程参与MOOC课程的学习,并通过MOOC课程的评估和考核。
对于学习分析系统,我们主要研究注册者、浏览者、中途退课者、被动参与者这四类学习者,将这四类学习者列为“未完成”学习者。
3.3 MOOC环境中“未完成”学习者的识别模式
通过分析学习者的行为和活动,如观看视频、下载课程、互动参与测验和调查等,观察交互性和持久性这两个指标,基本可以识别“未完成”学习者。
持久性表示学习者在线相对稳定的时间,主要从学习者观看视频和下载课程两个方面进行考量。交互性表示学习者参与程度,主要从在线回答问题和参与调查程度进行考量。
4 MOOC学习分析系统架构
4.1 MOOC学习分析系统架构
图2描述了一个MOOC学习分析系统架构,利用一个基于私有云的Hadoop,从相关的MOOC服务商数据平台以较小时间间隙大量捕捉和使用学习者学习的数据,设计一个学习分析系统,帮助MOOC服务商用来调整授课内容,为学习者提供更好的服务。
大数据集成组件负责捕捉数据,数据源依据不同学习者的参与,同时兼顾学习者的行为和偏好,第一步收集数据,第二步从MySQL数据库数据导入到Hadoop的分布式文件系统HDFS,第三步处理Hadoop作业,然后提取MySQL表中的分析结果出口转移到分析引擎。
系统的核心部组件是分析引擎部分,分析引擎是将Hadoop组件部署到私有云,通过HDFS对数据分类管理,然后通过分布式处理框架Map Reduce处理大量的MOOC用户的数据,由Map Reduce作业过程来分析所有获取的数据并输出数据处理结果。最后,MOOC学习分析系统实现利用一个用户界面来访问相应的学习分析应用程序,同时允许用户通过一个Web界面提交学习分析工作和研究结果。
4.2 MOOC学习分析系统实施
本节首先描述实验环境和基础设施的部署;然后为了显示该系统的有效性,设置一个小规模场景实现对“未完成”学习者的识别,并进行系统结果评价。
4.2.1 实验装置
在小范围内通过基于Hadoop的私有云部署,由1个主节点资源管理器和8个区域服务器从节点组成,每个节点都是一台配置为主频2.5GHz、RAM内存4GB和磁盘空间500GB的虚拟机,分配给HDFS、数据集成组件和Map Reduce应用程序,以此来识别“未完成”学习者。在实验过程中,使用的样本数据集是从斯坦福大学Class2go开源平台上的私有云采集。
4.2.2 评价
利用收集的数据,通过实验来评估MOOC学习分析系统的性能,表1给出了使用MOOC学习分析系统时用来标识“未完成”学习者不同节点数目。
一般MOOC课程的平均持续时间为5周,发现Map Reduce执行应用程序时针对不同数量级别的并行MOOC学习节点,结果有明显的差异。当学习者的数量很小,MOOC学习分析系统只有一点小优势,8节点加速略高于1节点,达到1.64,这说明本系统对学习者数量较小时分析结果没有优势;然而当大量的数以百万计的学习者参与时,学习分析加速使用8节点达到1节点的7.47,这种现象可以解释为:即使进入MOOC学习者的数量非常巨大,但是用MOOC学习分析系统可以比较理想地的识别“未完成”学习者。
5 结束语
通过MOOC学习分析系统实施,重点加强对终止或延迟在线学习的人群的监控,提前介入对该群体的帮扶和引导,降低MOOC高辍学率,通过数据表明该分析系统可以提升完成学习的比例,对“未完成”学习者继续完成学习起到一定的推动作用。随着MOOC项目在全球的迅速推广,基于Hadoop和Map Reduce应用程序来自动识别“未完成”学习者的学习分析系统还可以继续研究下去,将来可以结合相关的网站进行深度数据挖掘,并通过用户接口让MOOC服务商可以使用分析系统调整教学策略,提高结课率。这个系统还有不完善地方,将来还会继续改进与完善。
参考文献(References):
[1] 王颖,张金磊,张宝辉.大规模网络开放课程(M00C)典型项目
特征分析及启示[J].远程教育杂志,2013.4:67-75
[2] 陈晓清.技术联姻教育:edX网络课程的创建、运行于挑战[J].
江苏高教,2014.2:77-80
[3] 易蓉,张炯强.复旦交大加入全球最大在线课程联盟[N].新民
晚报,2013.7.9(A7).
[4] 李青,侯忠霞,王涛.大规模开放在线课程网站的商业模式分
析[J].开放教育研究,2013.19(5):71-78
[5] Penn GSE Study Shows MOOCs Have Relatively Few
Active Users, With Only a Few Persisting to Course End[EB/OL].http://www.gse.upenn.edu/pressroom/press-
releases/2013/12/penn-gse-study-shows-moocs-have-
relatively-few-active-users-only-few-persisti
[6] Dean J, Ghemawat S.MapReduce: Simplified Data
Processingon Large Clusters[C]//Proc. of the 6th Symposium on Operating System Design and Implementation. Berkeley, USA:[s.n.], 2004:137-150
[7] White T. Cluster Specification Hadoop: The Definitive
Guide[M].[s.1.]:O'Reilly Media,2009:255-259
[8] 程炜,杨宗凯,乐春晖.基于Web Service的一种分布式体系结
构[J].计算机应用研究,2002.3:105-107,111
[9] 李春艳,何一舟,戴彬.Hadoop平台的多队列作业调度优化
方案研究[J].计算机应用研究,2014.31(3):705-707,738
[10] 李天目.云计算技术架构与实践[M].清华大学出版社,
2013.