基于R的在线学习者特征聚类分析

2016-07-22 03:13
长春大学学报 2016年6期
关键词:在线学习聚类分析

程 香

(安徽经济管理学院 信息技术中心,合肥 230059)



基于R的在线学习者特征聚类分析

程香

(安徽经济管理学院 信息技术中心,合肥 230059)

摘要:研究了在线学习者的聚类分析,然后以一个开放数据集为例,依据聚类思想抽取学习者特征向量,给出了基于R软件的学习者行为特征聚类分析的过程。研究认为,对学习系统捕捉的数据进行聚类分析,可以有效地区分各类学习者学习表现,有助于提高在线学习效果。

关键词:在线学习;聚类分析;开放数据;学习者特征

0引言

学习者特征是虚拟社区学习、远程教育的研究热点,是在线学习分析的重要方面。近年来,随着在线学习的蓬勃发展,研究在线学习者如何获取知识,如何与其他学习者以及学习环境交流[1-4],越来越受到人们的重视。通过文献分析发现,目前国内外关于在线学习者特征分析的研究主要体现在两个方面,一是对特定学习群体、平台、地域、的学习者特征的描述;二是对网络学习或网络学习者特征建立理论模型[5]。而目前关于在线学习者特征分析方法的研究还不是很多。

(7)运输配送阶段碳足迹 包括供应商向制造商运输过程、制造商向销售商运输过程、销售商向消费者运输过程、消费者向回收商运输过程、回收商向供应商运输过程的碳足迹。

通过文献研究发现,调查问卷、在线访谈方法被广泛应用于获得学习者相关信息[6-8],学习过程中产生的各种数据却难以量化。在线学习支持和管理平台运行期间,产生了大量学习行为数据,从在线系统中提取数据信息,可以提升研究的准确性,并能及时发现在线学习者的问题和新特征。运用计算机技术,处理和分析在线学习者学习行为数据,对在线学习者行为特征进行聚类分析,观察各类学习者的学习表现,对提高在线平台教学效果有着重要意义。

1在线学习者特征聚类分析

1.1分析工具

目前用于数据统计分析的软件很多,SAS(Statistical Analysis System)运行速度快,有大量的统计分析模块,但人机对话界面不太友好,价格较高;SPSS(Statistical package for the social science)功能设计比较齐全,输出结果比较直观,但是用户图形界面复杂,编程较困难;Splus集工业数据分析工具与数据分析应用开发于一身,图形技术领先,统计分析函数齐全,但界面复杂,价格较高。R是一款可以对数据进行统计分析的开源软件包,具有精确控制的绘图功能,支持广泛的操作,包括机器学习,如回归、分类、聚类、文本分析等。

本文利用R作为在线学习者特征分析的数据处理工具,其主要优势有两点:首先R通过各种统计和机器学习进行数据分析,利用R语言进行数据建模可以实现常用的数据挖掘技术;其次R利用循环、条件语句,控制程序的流程,便于对数据进行提取、加载、分析等过程的操作。

1.2聚类方法

根据学习者在线学习行为表现,本文在数据集中选择典型的能够区分学习者学习行为特征的数据项作为聚类的特征,并将相关特征作适当的变换。在实例中利用课程交互次数(nevents)、课程访问天数(ndays_act)、播放视频次数(nplay_video)、学习章节数(nchapters)、论坛发帖数(nforum_posts)构成各个子向量,对数据集中的学习行为数据进行聚类分析。

本文采用k-means聚类方法对拟抽取的在线学习行为特征做聚类分析。k-means算法是一种迭代的聚类算法,迭代过程中不断重新划分对象和产生新的聚类中心,直到准则函数收敛为止。k-means算法通常采用以下式子作为准则函数:

其中p是给定的数据集中数据对象;mi是计算出的聚类Ci的平均值;E是数据集中所有对象与相应聚类中心的均方差之和。该准则函数试图使生成的类中的数据对象相似度很高,而不同类中的数据对象之间的相异度也很高。

聚类分析作为数据挖掘的一个分析方法,可以作为一个独立的工具来获得数据的分布情况,观察每个类的特点,并对特定类进行更深入的分析。目前聚类分析在教育知识挖掘领域有着广泛应用,文献[9]根据异步讨论论坛的互动水平,使用聚类分析测定每一个学生的在线监听行为模式为。文献[10]使用聚类分析的方法得出四种监听行为,基于分析结果识别出讨论论坛中的一些优点和潜在弱点。文献[11]使用聚类分析和因子分析探索媒体使用行为隐藏的结构,发现文本和文本相关媒体对学习成功产生积极的影响。

2实例与结果分析

2.1数据预处理

本文实例分析目的是对实际参与课程学习的学习者行为特征作聚类分析。以edx平台开放数据(Person-Course Dataset AY2013)为基础,选取数据集中X国学习者相关数据,并根据研究需要对数据进行了如下剔除:第一,内部不一致的数据记录;第二,无实际学习行为的数据记录;第三,有关数据项缺失的数据记录。经过处理后样本中有221人次,数据预处理的关键代码如下:

知识产权审判中的技术事实查明机制研究.........................................................................陈存敬 仪 军 01.41

stu.X<-x[x$final_cc_cname_DI=="X",]

绘制不同年龄区间统计图,数据需要事先分类,主要实现过程如下:

2.5.3 定量限与检测限考察 分别精密吸取“2.2.2”项下混合对照品溶液适量,倍比稀释,按“2.1”项下色谱条件进样测定,记录峰面积,以信噪比10∶1、3∶1分别计算定量限、检测限。结果,淫羊藿属苷A、朝藿定A1、朝藿定A、朝藿定B、朝藿定C、淫羊藿苷、鼠李糖基淫羊藿次苷Ⅱ、宝藿苷Ⅰ的定量限分别为390.00、564.00、506.00、535.20、448.00、426.68、643.20、544.80 ng/mL,检测限分别为97.50、141.00、126.25、133.80、112.00、106.67、160.80、136.20 ng/mL。

data.cons<-stu.X[bad,]

result2$YoB<-"20~25岁"

y<-data.viewed[,c(5,6,8,9,10,11,14,15,16,17,18)]

good<-complete.cases(y)

data.cpl<-y[good,][,]

bad<-is.na(stu.X[,"incomplete_flag"])

result1<-data.cpl[2013-data.cpl$YoB<=20&2013-data.cpl$YoB>0,]

1.设计学习任务单,便于学生自主学习。将“商品的品质”知识点划分成知识单元:品质的概念,品质表示分类。

result1$YoB<-"20岁以下"

采用k均值算法时,需要适当地选取k值,本文用层次聚类判断聚类个数。观察层次聚类结果,可将数据大致划分为4个类别。采用k均值算法聚类,聚类结果将在线学习学习者分为4类,其中第Ⅰ类学习者人数为19,第Ⅱ类学习者人数为5,第Ⅲ类学习者人数为184,第Ⅳ类学习者人数为13。具体分类情况如图1所示。

data.viewed<-data.cons[data.cons$viewed==1,]

result3<-data.cpl[25<2013-data.cpl$YoB&2013-data.cpl$YoB<=30,]

result3$YoB<-"25-30岁"

论文扩展的四旋翼飞行器避障功能可以实现飞行过程中躲避空中的树枝等有空隙的障碍物,但由于设计的避障程序并没有考虑遇到没有空隙的障碍物的情况,因此如果遇到墙壁等没有空隙的障碍物时只能靠操作者自主躲避,曾想模仿二维走迷宫的算法使用堆栈存储路径做到自主寻路,但是由于空中环境的复杂性与四旋翼飞行器自身的限制,暂未发现高效算法来实现。四旋翼飞行器因其结构的对称性以及正反桨的应用使其对比其他飞行器具有相对优秀的平衡能力与较为简单的操作方法,可以预见随着无人机的发展,在未来生活中它将会越来越大众化,为人类带来越来越多的便利,因此对四旋翼飞行器的结构、原理以及飞行动作进行探讨具有较好的现实意义。

result4<-data.cpl[30<2013-data.cpl$YoB&2013-data.cpl$YoB<40,]

result4$YoB<-"30岁以上"

1)信息型文本:主要用于表现事物与事实,包括信息、知识、观点等。侧重传递原文的内容,语言具有逻辑性和指称性的特点。

data.cpl3<-rbind(result1,result2,result3,result4)

传文中,齐襄公灭纪国却安葬纪伯姬,孔子称赏他,许之以“侯”。《公羊传》于此指出了复仇的又一条原则,即须光明正大,把握分寸。

2.2结果分析

图1 k=4的均值聚类

result2<-data.cpl[20<2013-data.cpl$YoB&2013-data.cpl$YoB<=25,]

第Ⅰ类:学习者与课程交互的次数、与课程互动的天数、与章节交互的次数均占第3位,播放视频事件的次数占第2位。该类学习者经常访问在线平台上的课程,在线学习按部就班,喜好播放视频来获取知识。

第Ⅱ类:学习者与课程交互的次数、与课程互动的天数、与章节交互的次数、播放视频事件的次数均占第1位。该类学习者对课程学习有着持续的热情,与课程参与度高,学习课程较完整,保持用视频学习课程。

第Ⅲ类:学习者与课程交互的次数、与课程互动的天数、与章节交互的次数、播放视频事件的次数均是最少。学习者很少参与在线平台学习,只学习了课程的很少内容,这也说明在线学习需要学习者有很高的自律性。

第Ⅳ类:学习者与课程交互的次数、与课程互动的天数、与章节交互的次数均占第2位,播放视频事件的次数占第3位。该类学习者在线学习的热情较高、课程参与度较高,学习了大部分课程。

当变压器处于理想的状态下,会得出变压器的参数的关系为:当空间参数处于运行的状态时候,将其划定为一次绕组的接电源和二次绕组的开路的状态。此外变压器在受到电压的UI作用下在一次绕组的N1内所通过的电流I0将其称之为空载电流。此外I0能够产生磁通,可将其称之为励磁电流。在它的作用下,其中的二次绕组N2的两端会感应出电动的实例,可将变压器的变换关系式为:

将以上学习者分类与学习者基本信息及成绩比较分析发现:

(1)受教育程度与学习者类型。将学习者分类与学历对照,分析结果如图2所示,发现该国在线进行实际学习活动的主要是硕士、本科和中学层次的学习者,分别占14%、69.7%和15.8%。其中74.2%的具有硕士学历的学习者、85%的本科学历学习者和82.9%的中学生具有第Ⅲ类特征,均远高于这3种学历中第Ⅰ、Ⅱ、Ⅳ类学习者所占的比率。可见,无论哪种学历的学习者对该平台使用之初的都具有一定的兴趣,但是由于某些原因缺乏继续学习的动力。

(2)学习者性别与学习者类型。将学习者分类与性别对照,结果如图3所示。尽管男女学习者中属于第Ⅲ类的人数比率都很高,都表现出学习动力不足,但女性学习者具有第Ⅲ类特征人数比率为58.3%,略低于男性具有此类人数的比率,说明实际学习阶段女性学习者参与积极性略高于男性学习者。

图2 各类学习者的学历分布

图3 各类学习者的性别分布

(3)学习者年龄与学习者类别。图4给出各年龄层次的学习者分布,由图可见有实际学习行为的学者年龄介于15岁到35岁之间,其中65.2%学习者年龄介于20岁至25岁之间,这与以上分析得出绝大多数学习者是本科学历的结果相符合。将学习者分类与年龄对照,得出各个类别学习者的年龄分布,结果如图5所示。第Ⅰ、Ⅱ、Ⅳ类学习者基本上年龄为25岁及其以下,而25岁以上的学习者中97.8%是第Ⅲ类学习者,可见在线学习参与性较高的学习者年龄集中在25以下。

花朵之所以色彩斑斓,大多是由于其细胞内含有花青素、类胡萝卜素等色素。然而,花朵呈白色并不是因为白色花朵的细胞中含有白色的色素,而是由于其花瓣中含有很多填充了空气的小泡和细胞间隙。当外界光线射入花瓣后,会发生强烈的全反射和漫反射。反射的光线进入人眼后,我们就会看到花瓣呈现出白色。

图4 学习者的年龄分布

图5 各类学习者的年龄分布

(4)学习者类别与学习者成绩。图6给出学习者成绩区间与学习者数量关系,由图可见成绩合格的学习者人数非常少,与完成课程学习内容量相关。学习者类别与成绩对照,结果如图7所示,发现第Ⅰ、Ⅱ、Ⅳ类学习者的分数均很低,而参与性较低的第Ⅲ类学习者中虽然低分者占绝大多少,但是却有少数学习者获得了较高的分数。用R语言查询这些高分获得者的信息,发现除了有少数聚类误差的样本外,这些学习者大多数与课程互动的天数和播放视频事件的次数较少,与课程交互的次数和与章节交互的次数较多,可见他们学习时间集中在某些天,课程学习覆盖面大,视频播放中断次数较少。

许多研究和事实表明,有效的教学过程不能排除游戏的“必然”和“自然”成分。游戏,像实验、练习和考试一样,是一种教学的方法或技术媒介。教学游戏是一种非常实用的教学手段,教学游戏有助于激发学生的学习动力,提高学生的学习兴趣,提高课堂教学效率。

图6 学习者的成绩分布

图7 各类学习者的成绩分布

3结束语

在线学习提供丰富的学习体验和多样的学习路径,在既往教学中所起的积极作用已得到证实。在线学习管理和支持系统储存了大量的学习行为数据,对收集来的数据进行分析,对在线教学活动各要素的改进具有重要意义。从分析实例可以看出,利于R分析学习者学习数据,划分不同学习者特征群组,进一步分析后可以发现一些有意义的结果,对教学工作人员、研究人员和平台建设人员,发现问题并找出原因,提高在线学习效果具有一定价值。

参考文献:

[1]曹良亮.在线学习中学习路径分析及学习行为特点研究[J].中国远程教育,2014(4):25-30.

[2]马秀峰,李彤彤,刘冬.学习风格对在线学习交互程度影响的实验研究[J].开放教育研究,2011,17(4):96- 101.

[3]王楠,乔爱玲.在线学习活动本质及理论基础探究[J].中国远程教育,2009(1):36-40.

[4]魏顺平.在线学习行为特点及其影响因素分析研究[J].开放教育研究,2012,18(4):81-90.

[5]王泽.网络环境下在校学习者特征模型的构建研究[J].中国电化教育,2010(3):58-61.

[6]陈蓉琳.基于不同学习风格类型的大学生在线学习交互研究[J].教育与职业,2012(6):178-180.

[7]傅钢善,李运福.网络学习焦虑与空间定位感间作用关系研究——基于Felder-Silverman学习风格的群体差异分析[J].电化教育研究,2015(1):103-109.

[8]衷克定,刘洋.基于学习风格理论的在线导学策略设计与实践[J].开放教育研究,2012,18(3):83-89.

[9]Durairaj K, Umar I N. A proposed conceptual framework in measuring social interaction and knowledge construction level in asynchronous forum among university students[J]. Procedia-Social and Behavioral Sciences,2015(176):451-457.

[10]Durairaj K, Umar I N. Analysis of students’ listening behavior patterns in an asynchronous discussion forum [J]. Procedia-Social and Behavioral Sciences,2015(176):27-34.

[11]Grosch M, Berger R, Gidion G, et al. Which Media Services Do Students Use In Fact? Results Of An International Empirical Survey[J]. Procedia - social and Behavioral Sciences,2014(141):795-806.

责任编辑:程艳艳

Clustering Analysis of Online Learners′ Characteristics Based on R

CHENG Xiang

(Centre for Information Technology, Anhui Economics and Management Institute, Hefei 230059, China)

Abstract:This paper studies a method of online learners′ characteristics clustering analysis. With an open data set as an example, it extracts learners′ characteristics vector according to clustering thinking and gives a process of learners′ characteristics clustering analysis based on R software. This study suggests that different performance of various types of learners could be distinguished effectively by analyzing the data captured from learning system, which is helpful to improve the efficiency of online learning.

Keywords:online learning; clustering analysis; open data; learners′ characteristics

收稿日期:2015-3-10

基金项目:安徽省社会科学知识普及规划项目(14GH064);安徽经济管理学院课题(YJKT1516YB04)

作者简介:程香(1982-),女,安徽合肥人,实验师,硕士,主要从事计算机应用、软件性能分析研究。

中图分类号:TP3

文献标志码:A

文章编号:1009-3907(2016)06-0031-04

猜你喜欢
在线学习聚类分析
开放大学:过去充满传奇但前景依然未卜?
基于学习行为数据的在线学习时间规律探析
信息化环境下高职英语教学现状及应用策略研究
农村居民家庭人均生活消费支出分析
基于混合式学习理念的大学生自主学习能力的培养研究
基于SOA的在线学习资源集成模式的研究
基于省会城市经济发展程度的实证分析
基于聚类分析的互联网广告投放研究
“县级供电企业生产经营统计一套”表辅助决策模式研究