刘 喆,赵伟宇,陈晓行,汪 玲,吴 涛,董爱军,郑 虎,钟洪声,崔红玲,宋亚梅
(电子科技大学 电子科学与工程学院,四川 成都 611731)
大规模在线开放课堂(massive online open class,MOOC),又称为慕课,是利用高校的课程资源以及开放的网络媒体进行知识传播的一种新兴方式[1]。该方式自2011年在斯坦福大学开展以来[2],MOOC一直处于井喷式发展的阶段,正在迅速改变着传统的教学与学习方式。目前MOOC的主流平台有edX、Coursera、Udacity以及中国大学MOOC等,各主流平台上开设的MOOC课程数目至今已经达到数千门之多,MOOC参与者累计达到百万之多。
MOOC得以快速发展的重要原因在于其可以打破传统课堂的时空界限,为学习者提供一个开放、无界的学习课堂。与此同时,MOOC还具备另一重大优势,即其具备对学习参与者学习行为数据的记录功能,可以为教师和课程设计者提供大量的后台数据。这些数据中隐含着大量有价值的信息,有效利用MOOC数据、充分挖掘出有用信息,可以为提升MOOC学习效果、优化课程结构并提高教学质量提供重要的依据,因此MOOC数据挖掘与分析已成为当前MOOC研究领域最为关注的课题和研究热点[3-5]。
目前,MOOC数据挖掘工作都是利用MOOC平台提供的后台数据展开。文献[6]针对edX提供的2012~2013年两年的开放数据,分析了课程参与者类型以及影响MOOC成绩的因素;文献[7]则针对Coursera平台上的六门课程数据,对参与者分类,并通过记录的学习者观看视频次数、参与测试次数等数据,分析学习行为与学习效果之间的关系;文献[8]针对东北大学高级语言课程数据课的MOOC课程中100个学生的学习行为记录,分析学习行为之间以及学习行为与成绩之间的关系;文献[9]基于清华大学 “学堂在线”电路分析课程的数据进行,使用logit和tobit模型,分析了课程参与度与完成度之间的关系;此外,文献[10]还针对Couresea三门课程的论坛讨论内容进行了情感分析。由此可见,目前的MOOC数据分析研究,集中于分析MOOC参与者类型、MOOC成绩的影响因素、情感分析以及学习行为等较为全局的概括分析,但针对构成一门MOOC课程各个知识点的学习效果数据统计、关联分析和预测等研究则较少。而针对各个知识点数据的详细分析更有助于教学者发现课程参与者学习规律和趋势,因此相关研究对进一步优化MOOC课程、提升学习效果具有重要的指导意义。
电子科技大学电路分析基础MOOC(以下简称电路MOOC)第一期课程于2016年2月至7月在 “中国大学MOOC平台”上线,该门课程的MOOC后台详细记录了课程参与者在各个知识点的测试参与人数、测试成绩,以及在线讨论参与情况等数据。由于测试成绩是衡量MOOC学习效果的重要标准,因此本文围绕各知识点测试成绩,从以下四个方面进行了详细的挖掘与分析:1)统计分析了电路MOOC参与者参加测试的次数与通过测试人数之间的关系;2)根据参加测试、讨论的频繁程度,把电路MOOC的参与者进行类型划分,并统计分析了各类型参与者的学习效果;3)对电路MOOC各知识点测验成绩进行关联性分析;4)利用各个知识点测试成绩,对综合测试成绩的趋势进行预测。
电路MOOC第一期课程先后共有19 393人注册了课程的学习,其中退选539人,实际注册18 854人。
电路MOOC课程主要由课程视频、测试以及讨论区三部分组成。课程内容由直流电阻电路、动态电路暂态分析和正弦稳态电路分析三个基本单元构成,共涵盖16个知识点。为了便于教学者掌握学习效果,针对每个知识点和基本单元都设计了测验,并在课程结束前进行了综合测试。本次电路MOOC共2 316人获得证书,占注册人数的12.3%。如表1所示,列出了该课程的基本信息统计结果。
表1 电路MOOC课程信息统计
为了便于后续的数据挖掘分析,针对各个知识点测试、单元测试及综合测试用数字1~20进行编号,对应关系如表2所示。
如图1所示,给出了各次测验参加人数的统计图,横坐标为各次测试的编号。由图可知,每次测验参加的人数波动不大,平均人数为2 140人,每次测验参与者平均人数占注册者总人数的比例约11%。未参加任何测试的人数为15 827人,而参加一次以上测验的人数为3 027人,占注册总人数的比例约16%。
表2 电路MOOC测验内容及编号对应表
表2 (续表)
如图2所示,为MOOC测试次数对应的参加人数与取得证书的人数的对比图,其中横坐标为总的参加测试的次数,蓝色和绿色柱状条分别表示1~20的测验次数所对应的参加测试人数以及其中取得证书的人数。需要说明的是,电路MOOC注册者是否可以得到MOOC证书,是由各次测试成绩加权平均得到的MOOC最终成绩决定,MOOC最终成绩大于60分者才可以获得MOOC证书,即完成课程,因此参加测验次数为0的学习者是无法获得证书的,其人数未在图2中给出。由图可以发现,当学习者参加测试次数较少时,如小于8次,则其中只有很小比例能够取得证书;而参加测试次数越多,如10次以上的参与者,最终获取证书的可能性越大。因此,从以上统计结果可知,参加测试次数越多的学习者,越可能获得MOOC证书,反之亦然。
图1 各次测验参加者人数统计
图2 参加者完成测验次数与完成课程人数统计
由于MOOC学习人数和最终获得证书的人数普遍远低于课程的注册人数,从表1中的 “注册人数”和 “获得证书人数”就可以看出,最终获得证书的人数或有成绩的人数最多只占注册者的12.3%,因此非常有必要对MOOC课程参与者的参与行为与获得证书的关系进行分析。考虑到测试与讨论是MOOC两个最为重要的参与行为,为此,以参加测试与讨论的次数作为衡量参与者积极程度的指标,按照表3中的标准将学习者参与类型分为以下5种类型。
1)NO-SHOWS:只注册,不参与测试和讨论。
2)OBERSERS:偶尔参与测试、讨论。
3)DROP IN:偶尔参与测试、经常参与讨论。
4)INACTIVE:经常参与测试、不常讨论。
5)ACTIVE:经常参与测试和讨论。
表3 MOOC参与者类型划分标准
在这次电路MOOC课程中,参与讨论的人数为1 006人,其中参加讨论10次以上者有640人,讨论次数在10次以下且大于0次的有366人。参与测验的人数为3 016人,其中参与测验在10次及以上的有2 285人。根据这些统计数据,以及表3的MOOC学习类型分析标准,可以得到5种MOOC参与者类型人数及各类型参与者获得证书的比例,统计结果如表4所示。
由表4可以发现,电路MOOC参与者中,注册后不参加任何学习活动的NO-SHOWS人数最多,占注册人数的83.4%;此外,所占比例多的是INACTIVE类型的参与者,这种类型的参与者会经常参加测验,却很少在讨论区发言讨论。因此电路MOOC存在 “注册人数多、积极参与人数少以及不积极讨论”的现象,这也是MOOC课程的普遍共有问题[6-10]。
此外,表4还表明,各类型参与者中,获得证书比例最高的,是ACTIVE类型的学习者,占该类型学习者的96.3%;获得证书比例次高的,是INACTIVE类型的学习者,占该类型学习者的89.1%,这两类学习者的差异在于是否积极参与讨论。对比可知,能够积极参与讨论的学习者,更易获得证书。这也说明,积极参与讨论的ACTIVE学习者比INACTIVE在MOOC学习中投入更多,课程学习效果也越好。因此如何优化课程设计,让更多的学习者积极参与到讨论与测试中是MOOC课程提供者的重要任务之一。
为了分析电路MOOC各知识点之间的关联性,本节利用本次课程后台获得的前19次测试成绩数据进行关联性分析。
关联性分析处理的流程图如图3所示。处理步骤共分为数据获取、数据预处理、构建频繁项集以及建立关联规则4个步骤。首先,通过中国大学MOOC网站电路MOOC教师后台得到各次测试成绩数据。而后进行数据预处理,该步骤主要包括:
1)对于未参加测试的学习者记录进行清除;
2)对测试成绩进行等级划分,将测试成绩分为三个等级,大于80分为优秀,成绩位于60~80分之间为及格,小于60分为不及格,将这三个等级分别用A、B、C标记。
在构建频繁项集步骤中,主要使用Python语言编写的Aprori算法代码,从各次测试成绩数据中利用Apropri算法找出频繁项集,并计算出支持度(Support)、置信度(Confidence)。而后通过频繁项集,根据最小支持度阈值、最小置信度阈值,获取关联规则(Association Rule)。
图3 关联分析流程图
如表5所示,给出了满足最小支持度阈值65%、最小置信度阈值75%的强关联规则。表5关联规则中的数字是各次测验的编号,A代表测验成绩等级为优秀。以表5中第一条规则为例,其支持度为83.8%,表示有83.8%的学习者是同时在编号19和编号17的测验中获得优秀成绩。同时,置信度为96.9%意味着在编号19的测验中获得优秀的参与者里面,有96.9%的参与者也在编号17的测验中获得优秀。
图4给出了测试成绩关联分析结果示意图,图中用虚线表示支持度小于70%的关联规则,用较粗的实线条表示较强的关联规则。从图中可以明显地看出,编号17~19的三次单元测试之间存在着很强的关联规则,学习者在任何一个单元中获得优秀,都很有可能在其他两个单元中获得优秀。此外,编号为1的 “基尔霍夫定律及参考方向”优秀也与这三个单元优秀之间有较强的关联规则,即 “基尔霍夫定律和参考方向”这一知识点掌握得好,则在这三次单元测验中就有更大可能性获得优秀。由于 “基尔霍夫定律和参考方向”知识点是电路MOOC课程的基础出发点,因此这些关联规则也具有很强的合理性。
表4 MOOC学习类型及人数统计
表5 测试成绩之间的关联规则
表5 (续表)
图4 各次测试成绩关联规则示意图
在电路MOOC的20次测试中,课程结束之前的综合测试在MOOC成绩的占比最重,因此综合测试的成绩对最终MOOC学习效果评价的影响最大。而在综合考试之前,所有知识点都已完成,会预留一段时间给学习者进行综合复习。为了给教学者和参与者提供预警提示,以便调整复习安排,本节将从课程的各个知识点和基本单元的测试成绩数据中预测综合测试成绩的趋势,利用课程后台获得的前19次测验成绩对第20次MOOC综合测试成绩进行预测拟合。
预测拟合的处理流程图如图5所示。处理步骤包含数据获取、数据预处理、特征选择、拟合回归、交叉验证5个步骤。其中前两个步骤与关联分析中的对应步骤相同。
特征选择使用了递归特征消除(regression feature elimination,RFE)方法[11]进行特征降维。拟合回归使用了线性模型,并采用了三种拟合方法进行拟合,分别是线性判别分析 (linear discrimination analysis,LDA)、罗杰斯特回归(Logistic regression,LR),以及支持向量机(support vector machine,SVM),这些拟合算法都是使用Python语言实现的。交叉验证使用了K-FOLD交叉验证实现,得到拟合误差结果。
图5 预测拟合流程图
预处理后的数据以19次测验成绩为特征,利用RFE进行特征选择,以系数0.25为阈值,可以从19个特征中选择得到13个特征,被去除的特征有编号为3、8、9、5、11、12的测验成绩。利用特征选择后的13个特征进行数据拟合,并采用K-FOLD方法进行交叉验证,选择K=5。如表6所示,列出了各个模型的性能参数,共使用4个指标衡量性能:准确率(Accuracy)、精确度(Precision)、召回率(Recall)和F得分(F-score)。由表6可知,三种线性回归方法都可以获得较好的预测效果,因此线性回归模型可以用来在MOOC综合测试之前预测成绩,为学习者和教学者提供有益的预警和指导。
表6 预测回归误差表
根据以上电路MOOC数据挖掘结果可以发现,参与程度最高的学习者,即参加测试、讨论次数最多的ACTIVE类型学习者,最有可能获得好的学习效果;课程知识点之间、单元测试之间,存在关联性,如 “基尔霍夫定理和参考方向”知识点的掌握程度与课程各单元测试成绩之间存在着很强的关联性;利用各知识点作业成绩和单元测试成绩,可以对期末成绩进行较为准确的预测。
以上数据挖掘结果为进一步的MOOC教学改革提供了重要依据与参考。因此,为提升电路MOOC教学效果,可从以下3点对今后的课程教学进行改进提升。
1)采用多种手段提升学习者的MOOC学习积极性和参与度。如在MOOC课程内容中加入可提升积极性的设计元素,采用更贴近学生的形式进行教学。
2)充分利用课程各知识点的关联性,更合理设计课程知识点、优化课程内容安排,同时充实并优化课程测试题库,以获得更好的学习效果。
3)进一步建立并完善MOOC成绩的预测与反馈机制,在学习过程中,为教师及学习者提供重要的学习效果反馈与成绩预警,便于及时了解学习效果、尽早调整学习方法与教学策略。
本文对电子科技大学电路MOOC后台数据围绕各知识点测试成绩进行了数据挖掘与分析,以测试成绩作为衡量学习效果的重要指标,挖掘了学习效果与参与度之间的关系,发现参与程度最高的学习者,即参加测试、讨论次数最多的ACTIVE类型学习与者,最有可能获得好的学习效果——通过测试并取得 MOOC证书;然而电路MOOC与其他MOOC课程一样具有注册人数多、积极参与人数少以及只学习不讨论的共有特点,大大影响了MOOC课程的学习效果;进一步分析了各次测试成绩之间的关联性,发现 “基尔霍夫定理和参考方向”知识点的掌握程度与课程各单元测试成绩之间存在着很强的关联性;最后研究了MOOC综合测试成绩的预测模型。本文的分析结果为进一步改进、优化MOOC教学提供了重要的理论依据。