张 强
(安徽商贸职业技术学院,安徽 芜湖 241002)
MOOC学习者学习行为聚类分析*
张 强
(安徽商贸职业技术学院,安徽 芜湖 241002)
随着大规模在线开放课程(MOOC)作为一种新的学习模式的兴起,基于MOOC大数据分析正成为新的研究方向.通过对学习行为特征进行重要性计算,提取出对学习效果具有重要影响的若干行为特征,进一步根据学习者的相似性进行聚类分析,并对学习行为与学习效果之间的关系进行相关性分析,力图从中发现一些有意义的学习行为特点和规律.
MOOC;聚类;学习行为;特征选择
随着教育技术手段在社会化媒介和移动设备中应用越来越广泛,通过新技术来提高教学过程和学习效率是目前研究的趋势,而MOOC(慕课)是其中一个新兴的形式[1].MOOC是远程教育、开放精品课程和网络教学平台的延续与发展,其目的是通过在网上提供免费课程,为更多的学生提供更优质的学习资源[2].目前已有海量的学习者参与了MOOC模式中的各种学习,MOOC已成为学习者的第二课堂[3].在传统教学中,同一教学群体的学习动机、知识水平大致相当,而且人数较少,所以对学生的行为分析也相对简单,而在MOOC教学中,这些现象已发生很大变化.在海量的MOOC学习者中,采用传统的行为分析方法的效果已大打折扣[4-5].文中,对学习者学习行为进行记录,首先对学习行为特征进行重要性判定,然后采用聚类分析技术对学生进行聚类分析,并对学习行为与学习效果进行分析,以确定MOOC学习环境对学习者的学习辅助效果.
2.1 学习行为特征选择
根据信息系统中知识与信息量间的关系,将学习者产生的MOOC数据进行形式化表示,通过知识的信息量对各行为特征的重要性进行评判,并从中选取若干属性值较高的行为特征来代替原始的特征.
定义1:采用四元组S来表示信息系统,S=(U,Q,V,F),其中U表示为学习者非空有限集;Q表示行为特征属性的非空有限集;V为Q的属性值范围;F为一个U×Q→V的信息函数,
定义2:知识P可表示为行为特征属性子集,P⊆Q,对于每个P存在一不可区分的二元关系:
REL(P):REL(P)=
{(x,y)U×U}|qQF(x,q)=F(y,q)}.
定义3:REL(P)是学习者集U上的等价关系,由U中等价于x的所有元素构成的子集u为U中元素x依等价关系REL(P)的等价类.
定理1:在信息系统S中,P⊆Q,若U/REL(P)∈U/REL(Q),则I(P)
证明:U/REL(P)={X1,X2,……,Xn}.
令U/REL(Q)={X1,X2,……,Xm}.
由于U/REL(P)∈U/REL(Q),知n
进一步可得:
定义5:学习行为特征属性q相对于Q的重要性定义为:IMPQ(q)=I(q),即属性q的信息量,若IMPQ(q1)>IMPQ(q2),则认为属性q1相对于学习行为特征属性集合Q而言比属性q2重要.
根据上述定义和分析,可将与MOOC学习过程相关的学习特征进行抽取,其方法是:设定属性重要性阈值minIMP,若IPMQ(qi) (1) 其中m为不同单位时间内访问记录的个数. 2.2 聚类分析 聚类分析是根据行为特征数据向量将数据集划分成为具有相似性质的类,文中将MOOC学习者进行分组,进而分析学习者的学习情况及学习行为特征之间的关联性[6].文中采用最近邻聚类算法进行聚类,样本xi和xj的相似度计算公式为: (2) 具体聚类过程如下: (1)选取未聚类的任意一个样本作为x1第一个聚类C1的聚类中心,C1=x1,设定相似度阈值为d1. (2)取下一个样本x2,计算x2到x1的距离d21:若d21≤d1,则x2∈C1聚类;否则将x2作为新类C2的聚类中心,C2=x2,设定相似度阈值为d2. (3)设存在K个聚类C1至Ck,继续取样本xi,分别计算xi与K个聚类中心的相似度,若xi与聚类Cj的聚类中心的相似度dij (4)重复执行步骤3,直至所有的样本分类完毕,获得初始聚类集C. 3.1 行为特征重要性计算 实验所需数据是从我校《大学计算机基础》在线开放视频课程的网络教学平台上收集得到,包含3234条记录.首先将该数据形式化为行为矩阵(U,Q,Vq),得到如表1所示的学习者学习行为特征表.为演示方便,表中我们仅选取了5名学习者和5个不同的学习行为特征:视频观看次数(q1)、作业完成次数(q2)、在线交流次数(q3)、参与课程的时间(q4)和学习者所属专业(q5). 表1 MOOC数据形式化表示 根据上述定义可求得5个行为特征属性的重要性,其值分别为:IMPQ(q1)=0.56,IMPQ(q2)=0.64,IMPQ(q3)=0.32,IMPQ(q4)=0.64,IMPQ(q5)=0.48.同时根据公式(1)求得平均属性值为:AIMP=minIMP=0.53.由于特征属性q3和q5的属性值均低于平均属性值minIMP,所以认为是对聚类分析影响不大的属性,可以省略掉. 从上述结果可知,学习者在学习《大学计算机基础》课程时,与自己所在的专业没有多大影响,同时该学习者在线交流的次数不是影响最终课程成绩的因素.而这两个学习特征属性在传统教学中,通常也不作为考核学生成绩的要素,从而也间接表明,文中提出的属性重要性计算方法的正确性. 3.2 聚类分析 基于上述分析,选择视频观看次数、作业完成次数、参与课程的时间作为聚类分析用的特征向量,并采用文中提出的近邻聚类进行了聚类,其结果如表2所示, 表2中q1为观看视频次数占总视频资源数的比例的平均值,q2为作业完成量的平均值,q3为学习时间与课程要求学习持续时间的比率的平均值. 表2 聚类结果 从表2可以看出,第一类学习者C1为较好学习者,他们几乎都能学习完课程视频并提交课程作业,且能够保证学习该课程需要的学习时间;第二类学习者C2为中等学习者,其特点是他们将大部分的课程视频看完并提交课程作业,但由于学习时间相对较少,很难保证有较好的学习质量;第三类学习者C3为学习较差者,他们几乎连一般的课程视频都没看完且课程作业完成量不多,虽然他们学习时间也不少,但是可能是由于他们是重复学习某部分知识点或者在看课程视频的同时进行其他的网络活动,没有真正把精力投入到学习中,从而导致学习效果不理想;而第四类学习者C4几乎不能算是真正的学习者,因为,他们中的大多数没有真正进行过学习,还有一部分仅仅是浏览了一下网络页面,因此,可以将该类学习者从学习者行为分析中剔除掉. 为考察某学习特征对课程成绩的影响,文中做了相关性分析.相关性分析是采用统计学方法来测量两个量之间的关系,取值在-1到1之间.关联值大于0时表示两个量向同一个方向变化;为0时表示两者间没有关系;为负时表示一个量变大,而另一个变小.学习者学习行为特征与课程成绩间的相关性,如表3所示. 表3 行为特征与课程成绩间的关系 由表3可以看出,看完的视频数与完成的课程作业数及课程成绩是呈正相关性的,同时要取得较好的成绩也需要有时间保证.然而,在单位时间内,页面刷新次数和页面停留时间大于视频课程时长的次数却与课程成绩呈负相关,造成这样结果的原因可能是:前者说明该学习者在进行走马观花的学习; 后者可能是学习者在登录MOOC学习环境平台后,虽然对课程视频进行了点播,却在进行网络游戏或者网络聊天等其他网络活动等. 将采集到的MOOC学习日志数据集按2:1分为训练集和测试集,其中训练集用来训练实验参数,测试集用来测试实验指标.采用文中提出的基于属性重要性进行特征筛选的聚类法与K均值聚类算法进行比较,实验结果见图1、图2所示: 图1 聚类精度比较 图2 聚类时间比较 从图1,图2可以看出,同K均值聚类法相比,文中提出的基于属性重要性的行为特征选择方法在大大缩减聚类时间的同时,保持了较高的聚类精度. MOOC作为一种新的网络学习模式,以其独有的特点吸引了大量的学习者、教师和培训机构的注意,已成为当今网络化的学习潮流.本文对从MOOC教学网络平台中采集的数据运用了数据挖掘技术,其主要工作是应用聚类方法对学习者进行分类分析,力图从中发现不同类之间的学习行为特点和规律. [1]周荃.在线教育的“后MOOC时代”-SPOC解析[J].清华大学教育研究,2014,10(1):76-84. [2]杨玉芹.MOOC学习者个性化学习模型建构[J].中国电化教育,2014,329(6):6-11. [3]傅天珍,郑江平.高校图书馆应对MOOC挑战的策略探讨[J].大学图书馆学报,2014,195(1):20-24. [4]姜蔺,等.MOOCs学习者特征及学习效果分析研究[J].中国电化教育,2013,322(11):54-60. [5]蒋卓轩,张岩,李晓明.基于MOOC数据的学习行为分析与预测[J].计算机研究与发展,2015,52(3):1-14. [6]田娜,陈明选.网络教学平台学生学习行为聚类分析[J].中国远程教育,2014,11(11):38-41. (责任编辑:王前) 10.13877/j.cnki.cn22-1284.2015.04.014 2015-01-20 安徽高校省级自然科学研究项目“数据挖掘技术在高职院校毕业生调查分析中的应用与研究”(kj2013z090) 张强,男,安徽宿州人,讲师. TP274 A 1008-7974(2015)02-0037-033 实例演示
4 结束语