基于Weka的MOOC学习者学习成绩影响因素分析

2021-05-31 00:29王小越贾积有
数字教育 2021年2期
关键词:数据分析学习成绩

王小越 贾积有

摘 要:本文应用数据挖掘软件Weka,对北京大学2015年在Coursera平台上线的一门课程中学员的网上学习行为数据进行了相关分析。对全体学员和有学习成绩的学员的学习行为分析结果均表明:学员的学习成绩与课程网页浏览次数、平时测验总成绩、论坛发帖数、论坛回帖得票呈正相关关系。对无学习成绩的学员学习行为分析结果表明:他们的论坛讨论参与度不高,不重视平时测验。出现这个现象的原因可能是他们不关注考试成绩和证书,只关注学习过程。基于以上数据挖掘结果,为了取得较好的教学效果,我们建议MOOC课程应该积极引导学生参与论坛的发帖,重视课程网页和课件的设计,同时可考虑改进平时测验的内容和方式,关注学习者的需求,以便引起学员注意,让学员积极主动地完成测验。

关键词:Weka;学习成绩;数据分析;MOOC

中图分类号:G4文献标志码:A文章编号:2096-0069(2021)02-0068-07

收稿日期:2020-12-14

基金项目:江苏开放大学(江苏城市职业学院)“十三五”2020年度科研规划课题“艺术设计类在线课程构建模式研究”(2020-J-02)

作者简介:王小越(1992— ),女,河北唐山人,助教、硕士,研究方向为学习科学与技术、学习分析、在线教育、艺术教育等;贾积有(1969— ),男,河南获嘉人,北京大学教育学院教育技术系主任、教授、博士生导师、北京大学教育信息化国际研究中心主任,研究方向为教育技术学和人工智能教育应用。

自2012年MOOC爆炸般地在国内外红火起来后,一批MOOC学习平台相继出现并迅猛发展起来,比如Udacity、Edx、Coursera、中国大学MOOC等等。Udacity平台是于2011年由斯坦福大学的一个实验室创办,该平台提供的在线课程以营利为目的;Edx平台是于2012年1月由麻省理工学院和哈佛大学共同创办的,致力于与全世界最好的大学合作,建设影响范围广且最著名的在线学习课程;Coursera平台是于2012年7月由斯坦福大学的两名计算机专家创立,致力于与全世界最顶尖的大学和机构合作,提供免费的在线学习课程。这三大平台目前保持着全球领先的地位,其中Coursera平台作为全球MOOC第一大供应商,其课程门类丰富,学习者注册数量最多,遍布世界各地。

MOOC发展至今,学员注册人数不断增长,从几百到几十万不等,但学员中断学习现象依旧突出,真正完成学习并获得结业证书的人数相对较少。因此,本文以北京大学2015年在Coursera平台上线的一门课程(简称为A课程)为例,基于学校提供的课程后台数据,从学员在该课程中的网上学习行为包括发帖、作业、测试等方面入手,使用数据挖掘工具Weka分析影响学员学习成绩的因素[1]。

一、数据处理及描述性统计分析

(一)课程注册人数及及格率

该课程共有8019位学员注册,去除授课教师、助教以及没有参与任何学习活动的学员之后,剩余真正学员6167位,其中919位学员有学习成绩(即grade>0),约占真正学员总人数的14.9%,5248位学员学习成绩为0,约占真正学员总人数的85.1%。比照常规考试,将60分(含)作为及格的阈值[2],在919位学员中,达到60分以上的学员有280人,占有学习成绩学员的30.47%,占真正学员总人数的4.54%。

(二)网上课程学习行为基本分析

表1列出了学习成绩及11个网上学习行为因素的数值分布。学员人均次数指网上学习行为次数大于0的学员网上学习行为次数(或天数等)的平均值,所有真正学员人均次数指真正学员网上学习行为次数(包括次数为0的学员)的平均值。

表1显示,在6167位学员中,所有学员均在完成课程注册后反复登录课程网站,即具有在线时间(最后一次登录课程网站时间与注册时间之差),所有学员平均在线时间为23.16天,但由于该时间为学员最后一次登录课程网站时间与注册时间之差,所以不能说明学员在这个时间内一直在学习课程内容;该课程的视频有超过一半的学员进行了观看,并且人均次数超过200次;浏览课程网页可以获取课程的相关信息,数据表明大部分学员都浏览了课程网页,较积极地获取课程动态;所有学员均无平时作业成绩,其原因可能是平时作业成绩与最后成绩不相关;课件作为课程内容的重要载体之一,因此多数学员查看或下载课件进行学习;平时测验是阶段性检验学员掌握课程知识的一种方式,但数据显示只有较少学员获得平时测验总成绩;课程论坛为学员提供了与其他学员、助教和教师交流的机会,实现知识探讨和疑问解答,课程论坛分为发帖和回帖两种形式,每种形式可获得学员投票,得票为正表明学员赞同发帖或回帖,为负表示学员反对发帖或回帖,同时以论坛名声来反映学员论坛总体表现[3],数据显示只有少数学员参与课程论坛,并且也只有极少数参与论坛发帖或回帖的学员获得了论坛名声值。

本文按有无学习成绩将学员分成两类,为了进一步呈现上述学习成绩和11个网上学习行为因素的分布情况,笔者对有学习成绩的学员的各个网上学习行为数据用Weka软件进行了可视化处理,发现学员在视频观看、课程网页浏览、在线时间、查看和下载课件以及平时测验总成绩方面表现较为突出。所有学员均无平时作业成绩,并且大部分学员未完成参与课程论坛的发帖和回帖活动,这也可能会影响学员网上学习行为及其学习成绩。

二、影响学员学习成绩因素的相关分析

为了探讨网上学习行为的哪些行为因素会影响学员学习成绩,笔者用數据挖掘软件Weka对有学习成绩的919位学员的学习成绩影响因素进行了相关分析。本文首先采用Weka软件中线性回归算法对上述11个网上学习行为因素与学习成绩的相关性进行了线性回归分析,得到了如下线性回归模型及结果:

学习成绩 =0.0101×课程网页浏览-0.0295×查看和下载课件+0.0880×平时测验总成绩+1.0159×论坛发帖次数-1.2422×论坛回帖次数+1.8896×论坛回帖得票-1.0238×论坛名声-4.6210

根据回归模型可知:在11个网上学习行为因素中,课程网页浏览次数、查看和下载课件、平时测验总成绩、论坛发帖次数、论坛回帖次数、论坛回帖得票、论坛名声7个因素与学习成绩具有相关性,并且在这7个因素中,相比较而言,论坛发帖次数、论坛回帖次数、论坛回帖得票、论坛名声与学习成绩的相关性较高。另外,在这7个网上学习行为因素中,查看和下载课件、论坛回帖次数、论坛名声与学习成绩有负相关关系;课程网页浏览、平时测验总成绩、论坛发帖次数、论坛回帖得票与学习成绩有正相关关系。而其他指标因素与学员学习成绩无关。

另外,多层感知算法结果显示,相关系数为0.9604,相关性很高,平均绝对误差为6.8566,均值平方根误差为10.464,相对绝对误差为20.1568%,相对平方根误差为27.8099%,总体来说,各个评估指标因素的效果较好。

三、影响学员学习成绩因素的神经网络分析

为了改进上面的结果,笔者又使用了Weka中神经网络方法中的多层感知算法,并将参数“learning rate”设置为0.001,将“training time”设置为10000,得到了如图1所示的神经网络图和表2(见下页)所示的分类统计模型表。

从图1我们可以看出,通过Weka的多层感知算法,将11个网上学习行为因素按照不同的权重分成了6个神经元节点,并且这6个神经元节点又与学习成绩这一神经元节点相连。

笔者以表2(见下页)分类统计模型表来进一步对图1进行解释,图1中右侧学习成绩神经元节点即为表2中的节点0(Node 0),节点0的极限值为0.482,其权重分布对应的是左侧的6个神经元节点,即表2中的节点1、节点2、节点3、节点4、节点5、节点6,权重分别为0.735、0.725、-1.492、-0.486、-2.017、1.482。

同样,在图1中我们可以发现,节点1、节点2、节点3、节点4、节点5、节点6的权重又分别对应的是左侧11个网上学习行为因素的权重,每个神经元节点中11个网上学习行为因素的权重均在表2中呈现出来。

在多层感知算法中,相关系数为0.9773,平均绝对误差为4.7928,均值平方根误差为7.96,相对绝对误差为14.0897%,相对平方根误差为21.1551%,可见相关系数比线性回归中的相关系数略有提高,并且其他各个评估指标值均有所下降,表明分类结果很好,结果也有了改善。

四、影响学员学习成绩因素的聚类分析

聚类分析是把一个数据集合中相似的数据进行聚合分类处理,每个分类聚群我们称其为一族[4]。笔者利用Weka软件中EM(Expectation Maximization,期望最大)聚类算法对A课程中有学习成绩的学员学习行为数据进行聚类分析。

EM算法是一种迭代算法, 每一次迭代都能保证似然函数值增加, 并且收敛到一个局部极大值[5]。通过运行Weka软件得到的结果如表3所示。

EM聚类算法将学习成绩聚成了两族,标号分别为0和1。其中0族有599位学员的学习成绩记录,占有学习成绩学员总人数的65%,1族有320位学员的学习成绩记录,占有学习成绩学员总人数的35%。

表3呈现了所有指标因素在两族中的均值和标准差。我们发现,0族学员学习成绩的均值仅为9.61分,1族学员学习成绩的均值为77.77分,说明1族学员平均学习成绩要远远高于0族学员平均学习成绩。但是1族学员学习成绩的标准差(26.28)要大于0族学员学习成绩的标准差(9.95),表明1族学员学习成绩离散程度较大,分布不均匀,相比较而言,0族学员学习成绩分布较均衡,成绩均较低。

表3也显示平均学习成绩较高的1族学员在线时间、视频观看、课程网页浏览、查看和下载课件、平时测验总成绩、论坛发帖次数、论坛发帖得票、论坛回帖次数、论坛回帖得票、论坛名声的均值均大于平均学习成绩低的0族相应的网上学习行为因素的均值,表明1族学员比0族学员在网上学习行为中的10个网上学习行为因素平均表现更为突出,这可能是导致1族学员平均学习成绩高于0族学员平均学习成绩的根本原因。除在线时间、平时作业成绩外,1族学员在剩余9个网上学习行为因素的标准差均高于0族学员的标准差,说明1族学员比0族学员在这9个网上学习行为因素上表现差异更大(或次数、时长离散程度更大),分布更不均衡,这是导致1族学员内部学习成绩分布不均、过于离散的原因。另外,由于所有学员的平时作业成绩均为0,所以0族和1族学员的这一网上学习行为相一致。

为了更好地分析两族学员学习成绩与网上学习行为表现的关系,笔者分别以11个网上学习行为因素为x轴,学习成绩为y轴,对网上学习行为因素和学习成绩的关系进行了聚类可视化分析。

通过对在线时间-学习成绩进行聚类可视化分析,可以发现,0族学员和1族学员在线时间分布均较为分散,但1族学员在线时间相对聚集,主要集中在104天左右,并且1族学员在线时间普遍大于0族学员,1族大部分学员的学习成绩也普遍高于0族学员的学习成绩,但在相同在线时间范围内,0族存在少数学员的学习成绩高于1族少数学员的学习成绩的现象。

通过对视频观看-学习成绩进行聚类可视化分析,可以发现,0族学员观看视频次数分布较为集中,并且大部分学员的学习成绩较低;而1族中学员观看视频次数分布相对分散,并且在视频观看次数相同的情况下,不同学员学习成绩有高有低,差距略大。另外,笔者还发现,在1族中,即便有些学员观看视频的次数较少甚至为0,这些学员的学习成绩也会较高,可能这些學员只想获得较高分数和证书,并不想真正学习A课程的知识。

通过对课程网页浏览-学习成绩进行聚类可视化分析,可以发现,0族学员浏览课程网页次数分布相对集中,并且大部分学员的学习成绩较低;而1族学员浏览课程网页次数分布相对离散。在浏览课程网页次数一样的情况下,1族学员的学习成绩也会出现高低不同的情况,浏览课程网页次数较少的学员也会有较高的学习成绩,但从0族和1族浏览课程网页次数与学习成绩整体分布来看,浏览课程网页次数越多,其学习成绩可能越高。

通过对平时作业成绩-学习成绩进行聚类可视化分析,可以发现,无论0族学员还是1族学员平时作业成绩均为0,但1族学员的学习成绩普遍高于0族学员的学习成绩,表明学员的学习成绩与平时作业成绩无关。

通过对查看和下载课件-学习成绩进行聚类可视化分析,可以发现,0族学员查看和下载课件次数分布相对集中,且大部分学员学习成绩较低;1族学员查看和下载课件次数分布相对分散。另外,在查看和下载课件次数相同的情况下,0族也存在少数学员学习成绩较高,1族也有少数学员学习成绩较低,但相对而言,1族中大部分学员的学习成绩要比0族学员高。

通过对平时测验总成绩-学习成绩进行聚类可视化分析,可以发现,虽然0族学员的平时测验总成绩与学习成绩分布较为分散,但学员学习成绩与平时测验总成绩之间的整体分布呈线性上升趋势,即0族学员平时测验总成绩较高的话,那么其学习成绩可能会相对较高;与0族相比,1族中学员的平时测验总成绩与学习成绩分布的离散程度更大,但除少部分学员外,大部分学员的平时测验总成绩分布较为集中,学员平时测验总成绩与学习成绩之间的整体分布也呈线性上升趋势,也就是说,如果学员平时测验总成绩较高,那么其学习成绩也可能会比较高(个例除外)。综合0族和1族来看,学员的学习成绩会因平时测验总成绩的增长而增长,也就是说,二者存在正相关性。这一点也印证了线性回归中学习成绩与平时测验总成绩有正线性相关关系的结论。

通过对论坛发帖次数-学习成绩进行聚类可视化分析,可以发现,0族学员论坛发帖次数分布集中,主要聚集在发帖次数为0的范围内,并且同一发帖次数的学员学习成绩略有差距;1族学员论坛发帖次数分布相对分散,在论坛发帖次数一致的情况下,学员学习成绩有高有低,有一定差距;学员论坛发帖次数较多的话,其学习成绩可能会相对较高。

通过对论坛发帖得票-学习成绩进行聚类可视化分析,可以发现,0族学员论坛发帖得票数呈一条直线(即几乎所有0族学员论坛发帖得票数相同),但学员之间学习成绩略有差距,以低于50分的居多;1族学员论坛发帖得票数分布相对离散,且获得相同发帖得票的学员之间的学习成绩差距较为明显。

通过对论坛回帖次数-学习成绩进行聚类可视化分析,可以发现,0族学员论坛回帖次数呈一条直线(即几乎所有0族学员论坛回帖次数相同,均为0),但学员之间学习成绩略有差距,以低于50分的居多;1族学员论坛回帖次数分布相对离散,且获得相同发帖得票的学员的学习成绩有高有低,差距较为明显。另外,普遍而言,1族论坛回帖次数相对较多的学员学习成绩没有比回帖次数少的学员学习成绩高,有些甚至较低。这符合线性回归中学习成绩与论坛回帖次数呈负线性相关关系的结论。

通过对论坛回帖得票-学习成绩进行聚类可视化分析,可以发现,0族学员均未得到回帖投票,各个学员之间学习成绩差异略大;1族学员大部分学员也未得到回帖投票,学员学习成绩之间差距较大,并且获得论坛回帖得票较多的学员的学习成绩均不高。

通过对论坛名声-学习成绩进行聚类可视化分析,可以发现,0族学员论坛名声均为0,学习成绩略有差距;而1族学员论坛名声分布较离散、有高有低,且大部分学员的论坛名声为0,学员的学习成绩也存在差距;并且论坛名声大于0的学员的学习成绩并没有都很高,有些甚至较低。

五、对所有学员学习成绩影响因素的相关分析

以上内容均是针对A课程中有学习成绩的学员的分析,接下来笔者对所有学员学习成绩影响因素用Weka软件进行了相关分析,得到了线性回归模型如下:学习成绩=-0.0003×视频观看+0.0167×课程网页浏览-0.0311×查看和下载课件+0.0765×平时测验总成绩+1.3311×论坛发帖次数-0.4871×论坛发帖得票-1.1739×论坛回帖次数+2.2637×论坛回帖得票- 0.9755×论坛名声-0.6222。

我们发现所有学员的学习成绩与视频观看次数、课程网页浏览次数、查看和下载课件次数、平时测验总成绩、论坛发帖次数、论坛发帖得票、论坛回帖次数、论坛回帖得票、论坛名声具有相关性,并且相比较而言,学习成绩与论坛发帖次数、论坛发帖得票、论坛回帖次数、论坛回帖得票、论坛名声相关性更大一些,表明学员参与课程论坛的网上学习活动行为对其学习成绩的影响较大。另外,在这些相关因素中,学习成绩与视频观看次数、查看和下载课件次数、论坛发帖得票、论坛回帖次数、论坛名声呈负相关,与课程网页浏览次数、平时测验总成绩、论坛发帖次数、论坛回帖得票呈正相关。

另外,多层感知算法结果显示,相關系数为0.9614,平均绝对误差为2.1976,均值平方根误差为5.276,相对绝对误差为24.2013%,相对平方根误差为27.5007%。该结果表明对所有学员学习成绩影响因素的线性回归效果较好。

六、对无学习成绩学员特征的分析

在对无学习成绩学员数据分析时,发现5248名学员中仅有287名学员获得平时测验总成绩,且超过三分之二的学员平时测验总成绩不超过100分(与平时测验总成绩1016分相差甚多)。在5248位学员中,只有1位学员参与论坛发帖22次、回帖1次,获得发帖得票46次、回帖得票2次,论坛名声值为16。除此之外,22位学员参与了论坛发帖,发帖次数以1次和2次居多,3位学员参与了1次论坛回帖,5位获得1至4票发帖投票,4位获得论坛名声,值为1或2,综合说明学员对论坛发帖、回帖、投票不积极,也不重视论坛名声。另外,虽然大部分学员在线时间较长,平均在16天左右,且有不少学员观看视频或浏览课程网页次数较多(有些学员二者均较多),但是仍没有平时测验成绩和学习成绩。出现这个现象的原因可能是这些学员学习MOOC课程并不是为了考试成绩和课程证书。

七、结论

通过Weka软件对A课程中学员网上学习行为数据的相关分析和聚类分析,笔者发现,取得最后学习成绩的学员的学习成绩与课程网页浏览次数、平时测验总成绩、论坛发帖次数、论坛回帖得票呈正相关;所有学员的学习成绩都与课程网页浏览次数、平时测验总成绩、论坛发帖次数、论坛回帖得票呈正相关。

根據这些结论,笔者认为MOOC课程应该积极引导学生参与论坛的发帖,重视课程网页、课件的设计,同时还应考虑重新设计或更改平时测验的内容、方式,以便引起学员注意,让学员积极主动地完成测验。另外,MOOC课程还需关注学习者的学习需求和特点,有针对性地给予学习者个性化的学习支持,帮助学习者获得较好的学习成绩。

[1][2][3]贾积有,缪静敏,汪琼.MOOC学习行为及效果的大数据分析:以北大6门MOOC为例[J].工业和信息化教育,2014(9):23-29.

[4]何昌霖.基于Weka平台的数据挖掘技术在教学质量分析中的应用[D].南宁:广西民族大学,2013.

[5]张杰,阳宪惠.多变量统计过程控制[M].北京:化学工业出版社,2000.

(责任编辑 孙兴丽)

An Analysis of Influential Factors of MOOC LearnersAcademic Record Based on Weka

—A Case Study of a Curriculum of Peking University in the Network of Coursera

WANG Xiaoyue1,JIA Jiyou2

(1.School of Design,Jiangsu Open University,Nanjing,Jiangsu,China 210000;

2.Graduate School of Education,Peking University,Beijing,China 100871)

Abstract: With the application of data mining software Weka,this paper has done a correlation analysis to the trainees online learning behavior data of a course logged on the platform Coursera in Peking University in 2015.The results of the analysis of the learning behavior of all the trainees and the trainees with academic record all show that: trainees academic records and curriculum webpage browsing frequency,the normal test results,number of forum posts,forum response votes have positive correlation.The results of the analysis of learning behavior of trainees without the academic records show that: their participation degree of forum discussion is not high,and they do not pay attention to the normal tests.The reasons for such phenomenon could be that they do not focus on the examination performance and certificates,but on the learning process.Based on the above data mining results,we,in order to gain a better teaching effect,make a suggestion that MOOC curriculum should actively guide students to participate in the posting in the forum,focus on the design of curriculum webpage and courseware.At the same time,we should consider improving the contents and ways of normal tests,focus on the needs of learners,so as to arouse the attention of trainees and make the trainees complete the tests actively.

Key words:  Weka;academic record;data analysis;MOOC

猜你喜欢
数据分析学习成绩
兄弟让举
名落孙山
新常态下集团公司内部审计工作研究
浅析大数据时代对企业营销模式的影响
掐断欲望的引线
马老师的家访