姜丹,王美娜,周丽
(1.海军大连舰艇学院基础部,大连 116018;2.海军大连舰艇学院海洋测绘系,大连 116018)
基于聚类分析技术的智能型MOOC平台的研究与设计
姜丹1,王美娜2,周丽1
(1.海军大连舰艇学院基础部,大连116018;2.海军大连舰艇学院海洋测绘系,大连116018)
摘要:
关键词:
随着互联网技术的飞速发展和个人电脑的普及,在线教育已经非常普遍,参与学习的人数剧增,同时学习者的学习习惯也发生了天翻地覆的变化,于是仅仅是实际课堂向网络课堂平移的传统在线教育已不能满足学习者的学习需求。目前MOOC以一种全新的教育方式,形成了一股教育革命的热潮,正迅速地席卷全球,众多的研究者致力于MOOC课程及MOOC平台的设计与实现,例如课程的设计与制作、课程的发布与管理、MOOC平台的视频播放技术、MOOC平台的功能结构改进等都有重大突破。然而如何对学习者的学习效果进行有效地、科学地评价,如何针对学习者的个性特征进行有效地互动,及时地给予针对性的指导,从而提高MOOC教学的互动性,提高MOOC平台的智能性仍是空白,是亟待研究的重要课题。
1.1什么是MOOC?
MOOC是Massive Open Online Courses的缩写,即大规模在线开放式课程,具有Open、Online、Massive三大特征。Open表示课程是开放的、免费的,凡是感兴趣的、想学习的都可以参与学习;Online表示课程是通过网络在线学习的,不受时间和空间的限制,只需要一台电脑加网络,就可以在任何地点任何时间学习这些课程;Massive表示课程不是个人发布的一两门课程,也不是针对一两个人,而是众多参与者发布的大规模的课程。MOOC是综合利用高速网络、分布式计算机以及多种多媒体技术,在线展开的,集学、议、分享为一体的全新的学习方式。
1.2MOOC与MOOC平台的发展及现状
MOOC这个术语是2008年由加拿大爱德华王子岛大学网络传播与创新的主任与国家人文教育技术应用研究院高级研究员联合提出的。从此,大量的教育工作者都采用了这种教育方式,主办了大规模的网络开放课程,参与者众多。例如2011年,斯坦福大学Sebastian Thrun与Peter Norvig联合开放的免费课程——《人工智能导论》,有来自世界各地的160万人注册并学习。
支持这种学习方式的教学平台称之为MOOC平台,能够支持大量的学生同时在线学习以及多门课程的上传与管理。自MOOC被提出以来,网络上也涌现出很多MOOC学习平台,国内外均发展迅速。成立时间最早应属斯坦福大学Sebastian Thrun开设的Udacity,以计算机类课程为主,课程数量不多,但极为精致。Coursera则是目前发展最大的MOOC平台,拥有近500门来自世界各地大学的课程,门类非常丰富。2012年5月,哈佛大学与麻省理工学院共同开发的edX也非常瞩目,课程形式设计更加自由灵活,目的是配合校内教学,提高教学质量和推广网络在线教育。
MOOC这种全新的学习方式不但引发了全球教育方式的重大变革,也推动了国内的教育教学改革,我国众多高校及机构也纷纷开设大型的网络开放课程。学堂在线是清华大学于2013年10月10日推出的MOOC平台,面向全球提供在线课程。慕课网则是由北京慕课科技中心成立的,是国内慕课先驱者之一,是互联网、IT技术免费学习平台,现设有Java开发、PHP开发、Android开发等课程,专注于服务互联网工程师快速成为技术高手。酷学习是上海首个推出基础教育慕课的公益免费视频网站,酷学习所倡导的价值观就是免费、分享、合作。
1.3MOOC平台的特点
MOOC进行自主的学习的人数众多,MOOC平台的首要特点就是支持大量的学习者同时在线学习,这也就要求课程视频必须能大量的同时正常播放。如何高效、稳定地传输大流量的视频文件是关键技术,现阶段主要采用专业的视频服务器——流媒体服务器来实现,目前比较流行的流媒体视频服务器有Red5、Helix Server、xmoov Stream等。
其次,MOOC突破了传统课堂在时间和空间上的限制,也突破了人数限制,受众面非常广,学习者的学习能力也千差万别,所以MOOC平台的第二大特点就是能够在给学习者提供自主学习机会的同时也提供有效、科学的学习指导和帮助,保证在较高入学率的前提下也能够有较高的通过率,这样的MOOC学习才是有意义的学习,这样的MOOC平台才是智能的学习平台。
如果采用客观的、自动化的线上评价系统对学习者的学习效果进行检测,然后根据测试的成绩进行个性化研究,给出个性化的针对性的学习建议,则可以大大提高MOOC平台的智能性,从而大大提高学习者的学习效果。聚类分析技术是数据挖掘的主要任务之一,可以运用聚类分析技术对学习者的测试成绩进行分析,从而实现这一目标。
2.1聚类分析的概念与方法
聚类分析技术分成两部分——聚类、分析。“聚类”就是“物以类聚”,将样本数据根据相似性进行划分,越是相似的数据对象越尽可能地划分在一个类中,越是相异的数据对象越尽可能地划分在不同的类中,从而形成若干个“簇”;“分析”则表示进一步分析每一簇数据的特征,从中得到有价值的信息。聚类分析是知识发现的重要技术手段,在数学、计算机科学、统计学、生物学和经济学等很多领域都有非常广泛地应用。
聚类分析的定义如下:给定数据集合V{vi|i=1,2,…,n},vi为数据对象,根据数据对象vi间的相似度或者相异度,将数据集合V{vi|i=1,2,…,n}分成k组Cj(j= 1,2,…,k),并满足:
该过程称为聚类分析,Cj(j=1,2,…,k)称为簇(类)[1-2]。
聚类分析方法有很多种,大概可以划分为五大类:层次聚类(hierarchical method)、划分方法(partitioning method)、基于网格聚类方法(grid-based method)、基于密度聚类方法(density-based method)、基于模型的方法(model-based method)。层次聚类主要是对给定的数据集合进行层次性的分解,直到满足某种条件终止。密度聚类是根据密度阈值将数据空间分成高密度区域和低密度区域,簇是由高密度且连通的区域构成。网格聚类采用多分辨率的网格结构,将样本空间量化为有限个网格单元,然后对网格单元进行操作,从而形成簇。模型聚类是预先为每个簇假定一个模型,然后寻找数据对象针对给定模型的最佳拟合。划分聚类是先假设数据集上有若干个簇,然后按照一定的规则将数据对象划分到对应的簇中。每一类聚类方法都有多种聚类算法,每种聚类算法都有各自的优缺点及适用范围,在使用过程中需要根据样本数据的特点以及聚类的实际需求来选择最适合的聚类分析方法。
其中K-means算法由于其简单、快速的优点应用范围非常广泛。K-means算法是一种基于划分的聚类算法,其基本思想是:首先随机选取k个点作为初始聚类中心,然后计算数据对象到初始聚类中心的距离,按照就近的原则将数据划分到最近的簇中,接着重新计算簇的聚类中心以及数据到聚类中心的距离,然后重新分配数据,重复上述过程直到聚类中心不再变化或者满足终止条件为止。
K-means算法是一种基于距离的算法,算法简单、快速,可伸缩性强,适用于处理大样本数据,但是算法的第一步“随机选取k个点作为初始聚类中心”存在两个非常大的缺陷,一是“随机”,二是“k个”。首先随机选取的初始聚类中心对于算法的聚类结果影响较大,一旦初始聚类中心选择不当,可能无法得到有效的聚类结果;算法中的k需人为事先预估来确定,而在聚类前,簇的个数k是非常难以估计的。
2.2改进的聚类分析算法
针对K-means聚类算法的这两个缺点,提出一种改进的聚类分析算法——GBKM算法。算法的基本思想是[3]:首先对样本空间进行划分,形成网格单元结构;计算每个网格单元的密度,区分高密度网格单元和低密度网格单元,将相邻的高密度网格单元合并形成簇,称为“中间聚类”,将低密度网格单元中的数据对象标记为“自由数据”;处理自由数据,计算每个簇的质心及自由数据到簇的距离,将自由数据分配到最近的簇中去,重复此过程,直到聚类中心不再移动为止。算法的具体流程如图2所示。
GBKM算法首先得到若干个密集单元,然后合并相邻的密集单元,形成的初始聚类能够很好地捕获样本数据的初始形状,可以自动确定簇的个数k及初始聚类中心,克服了人为确定k值以及随机选择初始聚类中心对聚类结果造成的影响和不稳定性。参考文献[3]通过理论分析及实验证明验证了该算法的优越性,在此不一一赘述。
3.1MOOC平台的研究与设计
MOOC平台的总体目标是支持大规模在线开放式课程的学习,首先能够支持大量的学习者进入在线平台进行学习,教师可以发布不同的课程并对课程进行管理,同时为了保证MOOC平台正常、高效地运转,还需要对学习者、教师、课程等大量数据进行管理。基于上述分析,将MOOC平台涉及到的用户定义为三种角色:学生、教师、管理员。
图1 GBKM算法流程
学生的行为包括:注册、登录、查看课程、选课、学习、测试、提问、分享、考核等。其中选课可以选择免费课程,也可以购买付费课程;MOOC学习完全是一种自发的、自主学习行为,所以学习行为是否有效其实很难界定,这里设计“签到”功能来保证学习者进行有效学习,也可以视之为一种鼓励;测试是学习行为的一部分,在学习完某章或者某节之后,可以进行阶段性的测试以检验学习效果,帮助学习,也可以在学习完整门课程后进行整个课程的测试,检验对课程知识的把握程度,以保障顺利通过考核;提问是学生与教师之间的互动,学生可以发问,也可以对自己的问题进行集中地查看和管理;分享是学生与学生之间的互动,学生可以针对某个知识点、某个话题进行沟通交流,互通有无,相互学习、相互促进。
教师的行为包括:发布并管理课程、上传视频、出题、答疑解惑等。一个教师可发布并管理多门课程,包括课程简介、课程公告、课程大纲、考核标准等内容;按照课程大纲的设置,分章节上传视频,按照考核标准针对知识点进行出题;对学生提出的问题进行在线答疑。
管理员的行为包括:管理学生、教师、课程的基本数据、发布平台公告、对平台用户进行权限设置等。
根据上述分析可以得出MOOC平台的功能,对这些功能进行分解、整合,将MOOC平台分成六大功能模块:平台数据管理、课程管理、学习系统、在线测试系统、智能辅导系统、互动平台系统等,每个模块又可细分成若干个子模块,具体如图2所示。
3.2聚类分析技术在MOOC平台中的应用
该MOOC平台的智能性则体现在“智能辅导系统”这一模块上,其基本思想:首先利用改进的聚类分析算法GBKM算法对学习者的测试成绩进行聚类,然后通过对聚类结果进一步分析,得出该类学习者的整体学习特征,并结合该学习者自身的个性特征给出辅导意见,包括三方面信息,一是测试时需要手动输入的组卷的难度系数,用以控制自动生成的试卷更加适合该学习者,使得试卷的难度更加有针对性;二是组卷参数,通过后台传递给组卷系统,用来设置学习者在下次测试时试卷内容的难点、侧重点,使得试卷的题目更加有针对性;三是学习策略,通过页面直接反馈给学习者,使得学习者对自己的学习效果有个全局的、总体的把握和认识,具体流程如图3所示。
图2 智能型MOOC平台整体功能模块
尽管实际课堂受到了空间、时间等等的限制,但是实际课堂最大的优点则是授课教师可以实时关注学生的学习动态,进行有针对性的辅导,而这也恰恰是网络学习中无法突破的难点,使用聚类分析技术来设计智能辅导系统则能解决这一难题。该MOOC平台不仅仅是提供了一个学习平台,还可以帮助学习者更好地完成自主学习,使得学习者的学习不再是盲目的,如同有个智能机器人教师在一旁辅导一般,大大提高了MOOC平台对于学习者的引导性和帮助性。
图3 智能型MOOC平台的学习流程
本文在深入研究MOOC及MOOC平台的发展和特点后,将聚类分析技术应用于MOOC平台的设计,大大提高了MOOC平台的智能性,有助于提高MOOC学习者的自主学习效果。下一步工作是将MOOC平台应用于实际,并进一步逐步完善、改进智能型MOOC平台。
参考文献:
[1]张云涛,龚玲.数据挖掘原理与技术[M].北京:电子工业出版社,2004.
[2]Anil K.Jain,RichardC,Dubes.Algorithms for Clustering Data[M]. N.J:Prentice Hall,1988.
[3]姜丹,周丽,唐红杰.聚类分析技术在教学指导中的应用研究.湖北:软件导刊[J],2014.10.
Research and Design of the Intelligent MOOC Platform Based on the Clustering Analysis Technology
JIANG Dan1,WANG Mei-na2,ZHOU Li1
(1. Department of Basic Science,Dalian Naval Academyof the PLA,Dalian 116018;2. Department of Marine Surveying and Mapping,Dalian Naval Academy of the PLA,Dalian 116018)
Abstract:
Keywords:
在深入研究MOOC及MOOC平台的本质及特点后,针对目前MOOC平台的应用现状和问题,结合聚类分析技术,设计出智能型MOOC平台,实现MOOC教学过程中高效地、有效地教学互动,提高MOOC平台的智能性,有效提升MOOC学习者的自主学习效果。
慕课;聚类分析;K-means聚类算法
基金项目:
中国人民解放军海军大连舰艇学院2015年学院科研发展基金资助项目(No.DJYKYKT2015-03)
文章编号:1007-1423(2016)13-0076-05
DOI:10.3969/j.issn.1007-1423.2016.13.020
作者简介:
姜丹(1982-),女,黑龙江五常人,讲师,硕士研究生,研究方向为数据挖掘、聚类分析
王美娜(1981-),女,黑龙江齐齐哈尔人,硕士,讲师,研究方向为海道测量数据处理
周丽(1981-),山东莱阳人,硕士,实验师,研究方向为大学物理实验教学及研究
收稿日期:2016-03-03修稿日期:2016-04-16
After the in-depth study of the MOOC and MOOC platform’s nature and characteristics,aims at the MOOC platform’s application status and problems,studies the clustering analysis technology,designs an intelligent MOOC platform,and implements the efficiently teaching and learning interaction,in order to improve the MOOC platform’s intelligent,and the MOOC learners' autonomous learning effect.
MOOC;Clustering Algorithm;K-means Clustering Method