白若微,张 萍,周 榕
陕西师范大学教育学院,西安 710062
远程教育在依靠现代网络传输海量信息资源、为学习者提供便利通信服务的同时,又面临学习个体信息获取途径繁杂、学习资源推送缺乏针对性、教学评价手段单一等诸多问题。数据挖掘技术进入远程教育领域,为解决上述难题提供了新的契机。近年来,基于数据挖掘的个性化、智能化远程教育研究不断深入,利用Web日志挖掘技术提高远程教育个性化服务质量、运用决策树实现智能化资源推送等研究如火如荼。该文借助CitespaceⅡ软件,对近10年内远程教育中数据挖掘技术的现有研究进行可视化分析,以便直观、形象地展现数据挖掘在远程教育中应用的热点问题、研究前沿以及发展趋势。
我国有关数据挖掘的研究由来已久,且研究文献数量丰富,但将数据挖掘应用到远程教育领域的研究却相对滞后。为了较全面地反映远程教育中数据挖掘技术的研究现状,该文以中国全文数据库(CNKI)为样本来源,以“主题”为检索项,以“数据挖掘”及“远程教育”为检索式,以精确的匹配模式对2001-2011年间的文献进行检索,共得到有效样本198篇,其中包括133篇期刊论文、61篇博硕士论文和4篇会议论文。
CitespaceⅡ是基于Java编程语言的信息可视化软件[1],它由美国德雷克赛尔大学信息科学与技术学院陈超美博士研究开发,可用于探测和分析学科研究前沿的变化趋势以及研究前沿与其知识基础之间、不同研究前沿之间的相互关系[2]。该研究利用CitespaceⅡ3.4.R1.public 绘制知识图谱,将检索到的研究样本题录以reforks格式导出并以“download_***.txt”格式命名。由于Citespace目前只识别美国科学情报研究所数据库中的文献格式(ISI),因此在进行可视化数据处理之前,须利用CitespaceⅡ3.4.R1.public自带的转换工具将研究样本题录进行数据格式转换,方可导入CitespaceⅡ进行科学信息处理。
图1 发文数量变化图
从图1所示的载文数量变化来看,远程教育中数据挖掘技术的研究文献总体数量偏少,但从年份来看却保持平稳较快的增长趋势。
数据挖掘进入远程教育领域的初期,为改善远程教育的诸多问题提供了新思路和新方法,因而吸引了大批研究者的关注。随着数据挖掘理论与技术的进步与完善,相关研究在2004-2005年出现了较大幅度增长。但此后,远程教育领域中数据挖掘技术的相关研究进入了高原期,甚至在2008年、2010年出现下滑。分析可知:研究者对新技术具有敏锐的洞察力,并试图结合其他学科的理论与方法来促进远程教育的发展。但数据挖掘的深入研究要求研究者具有较高的技术素养,而大部分远程教育研究者无法跨越数据挖掘技术的门槛,导致研究停滞不前。因此,远程教育应用数据挖掘技术相关研究的发展迫切需要多学科合作的研究队伍,期待理论研究者与技术开发人员的有效整合。
文献题录中的关键词是作者对文章主旨的概括和凝炼,借助Citespace对文献中的高频关键词进行分析,能够有效揭示远程教育中数据挖掘技术的研究热点。分析时,首先将单个时间分区设定为1年,即得到11个单位时间分区;之后在“Node type”面板中选择“keyword”进行聚类分析,同时阈值分别设定为(2,2,20)、(2,2,20)、(3,2,20),表示关键词出现次数大于2,关键词共现次数大于2,关键词间相似系数大于0.2。通过此条件共得到33个关键词节点和42条关键词间的连线(如图2所示),以及出现频次居于前10位的关键词列表(如表1所示)与中心中介度居于前10位的关键词列表(如表2所示)。
图2 相关研究文献关键词共现知识图谱
表1 频次前10位的关键词
表2 中心中介度前10位的关键词
图2中,圆圈颜色代表关键词出现的相应年份,圆圈大小代表关键词出现的次数,圆圈越大说明此关键词出现的次数越多。其中,外圈颜色为紫色的节点表示在整个图谱中起决定作用的关键节点,它反映了一个关键词在整个网络中作为“媒介”的能力,也就是占据其他两个节点之间最短路径的能力(即关键词的中心中介度)[3]。一个关键词的中介中心度越强(外圈紫色的厚度代表其中介中心度的强弱),意味着它控制的关键词之间的信息流越多[4]。
由图2可以看出,主要有10个较明显的聚类,各聚类以“数据挖掘”和“远程教育”为核心紧密联系,充分表明了这10个关于远程教育中数据挖掘技术的应用研究之间具有密切关系,且呈现出各聚类间相互交叉、融合的特点和趋势。结合表1、表2可以得出,“数据挖掘”是出现频次最高的关键词(即图谱中最大的节点),而出现频次仅次于“数据挖掘”的“远程教育”,以其中介中心度1.09居于中介中心度排序首位。此外,“关联规则”、“个性化学习”、“Web挖掘”、“Web日志”等关键词也很突出,这充分反映了2001-2011年远程教育应用数据挖掘技术相关研究的关注点和发展趋势。
2.2.1 “数据挖掘”聚类分析 图2中“数据挖掘”聚类直接聚集了“网络教学”、“信息处理”、“聚类分析”、“知识发现”、“数据预处理”、“xml”等关键词,并与“关联规则”、“学习风格”、“远程教育”、“Web日志挖掘”、“决策树”等关键词直接相连,反映了远程教育领域应用数据挖掘的主要技术。
①“关联规则”。关联规则能够对容易忽视且表面联系并不紧密的教学行为、知识篇章、教学成果进行有效聚类,揭示各信息间的潜在联系,为远程教育决策提供科学依据。肖志明[5]将关联规则应用到远程教育的教学评价中,探寻教学质量和效果与众多影响因素之间的相关性,从而为教学部分的决策提供学科信息;王新颖[6]等则利用关联规则的多层次、超图分割聚类方法对网页和用户进行聚类,使得高针对性辅导、答疑成为可能。
②“决策树”。它采用“分而治之”的方法,从上向下将问题划分为若干子集,并进行分类、聚类及效益预测(在远程教育中常用到ID3算法和C4.5算法)。例如:运用决策树方法,从学生历史学习记录出发,通过分析学生学习知识点的效果及知识点所调用资源的属性关系,找出具有相似学习特征的某类学生在学习某一知识点时资源选择的规律,从而给具有相似特性的学生组织课件提供决策参考[7]。
③“Web日志挖掘”。与Web内容挖掘及Web结构挖掘不同,Web日志挖掘面向用户和Web交互过程中抽取出来的第二手数据。通过Web日志挖掘可以发现相似学习群体、资源页面之间的链接关系,不仅为个性化、智能化远程教学奠定基础,而且有利于远程教学的各项管理工作。
2.2.2 “远程教育”聚类分析 “远程教育”直接聚集了“个性化服务”、“Web日志挖掘”、“数据仓库”、“个性化”、“Web数据挖掘”等关键词,与“数据挖掘”、“个性化学习”、“个性分析引擎”、“个性化学习系统”等关键词直接相连,直观揭示了远程教育利用数据挖掘技术发展的趋势—个性化。互联网丰富了学习资源种类,加快了知识传播速度,但远程学习者面对海量资源却很难寻找到适合自身需要与发展的信息。实现个性化教学是远程教育发展不变的宗旨,是现实社会对远程教育提出的新要求,是提高远程教育质量的关键点,也是将远程教育与数据挖掘链接的纽带。
“远程教育”聚类的研究通常在阐释数据挖掘相关技术的基础上,提出较为完整的个性化远程服务系统的结构设计模型。例如:运用Web日志挖掘建立学习者数据仓库,发掘学习者潜在信息,并利用Web挖掘实现个性化引擎,构建从个性化资源推送到多元化教学评价的个性化远程学习系统。
科学文献的作者是科学研究活动的主体,学科领域内的优秀研究人员往往能够引领学科发展的方向[8]。高被引文献的作者通常是某领域中具有较高影响力的研究者,其主要研究成果可以体现该领域某阶段的研究热点与趋势。利用Citespace对高被引文献的作者进行分析,能够发现远程教育中数据挖掘应用研究的核心研究力量。
在Citespace软件中,设定“Node Types”为“Author”,选择记录的前50%进行聚类分析,共得到305个节点与131条连线(如图3所示)。由图3可以看到,各个节点在图中分布零散,即表明各个研究力量相对独立,很少有学科、校际或科研团队间的合作,图中仅有的几个聚类也均为校内或项目组内的合作。
图3 研究作者合作知识图谱
由图3可以直观发现几个较为突出的研究团队,能够发掘出远程教育中数据挖掘技术相关研究的核心作者。上海交通大学计算机科学与工程系的申瑞民教授与他的学生舒蓓、王加俊发表的“个性化的远程学习模型”居于被引频次之首。该研究系统叙述了个性化远程学习模型PDLM的原理和构成,构建了PDLM系统解决方案,为从根本上解决远程学习者被动获得知识的矛盾提供了极为重要的思路[9]。董逸生教授等在“基于Weblog的模式发现及应用的研究”一文中,系统地提出了Weblog挖掘的原型,讨论了用户浏览模式的发现算法,并构建了Adaptive Web自适应Web站点系统[10],开拓了Web站点设计研究的视野。杨炳儒教授带领他的团队于2002年发表“基于Web的文本挖掘”一文,在Web文本挖掘分析研究的基础上,给出了一个基于Web文本挖掘的结构模型图,并提出了智能化、个性化的现代远程教育系统结构模型,对个性化获取信息的研究产生了重要的指导作用。
“研究前沿是科学研究中最先进、最有发展潜力的研究主题或研究领域”[11]。“CitespaceⅡ所定义的研究前沿强调的是新趋势和突变的特征,并用Kleinberg突现检测算法获取的突现词来表示研究前沿”[12]。利用Citespace对突现词进行聚类分析,可判断远程教育领域中数据挖掘技术的研究前沿。
Citespace可视化软件具有两种不同的视图显示方式,即聚类视图和时区视图,时区视图的显示方式突出共引网络节点随时间变化的结构关系[13]。在“Term Type”面板中选择“BurstTerms”,“Node Types”中选择“keyword”,三个阈值分别设置为(2,2,15)、(2,2,20)、(3,2,20),并选择 Pathfinder算法,在“Layout”面板上选择“Timezone”,得到远程教育中数据挖掘相关研究文献突现关键词的网络节点时区视图(如图4所示)。
通过图4可以看出,远程教育中数据挖掘技术的突现词主要有个性化、关联规则、Web数据挖掘、现代开放教育、文本数据挖掘,等,这与图1绘制的研究热点基本一致。“个性化分析引擎”首次将数据挖掘与远程教育个性化学习服务连接起来,成为2001年前后的研究热点之一。2002-2005年,决策树、关联规则等数据挖掘的相关算法开始有效应用于远程教育研究。2006年之后,利用历史网页获取信息的“Web挖掘”以及利用深层次分析技术将数据上升为信息的“知识管理”成为远程教育研究的新热点。2009年前后,粗糙集作为分析学习者个人认知能力的有效工具,将远程教育智能化测评研究推向高潮。2010年至今,开放教育研究受到众多研究者的青睐,开放多媒体教学系统成为远程教育中数据挖掘应用研究的新领域。
图4 相关研究文献突现关键词的网络节点时区视图
该文通过对远程教育中数据挖掘相关研究文献进行可视化分析,得出以下结论:
①随着信息技术的日新月异,数据挖掘与远程教育均取得了长足的进步,但“个性化”始终是数据挖掘改善远程教育质量的关键点与着力点。
②数据挖掘促进了远程教育的发展,并在应用研究中获得自身的完善与进步,可谓互利共赢。从早期应用关联规则、决策树等方法静态收集信息,到利用Web挖掘动态获取远程教育信息,再到利用粗糙集对学习者认知进行智能化挖掘,这不仅印证了远程教育的发展历程,也展现了数据挖掘的前进足迹。
③远程教育中数据挖掘技术的研究具有十分重要的价值,但相关成果的总体数量仍明显不足,且研究力量孤立、分散,因此期待更多研究者的投入与关注,以及不同学科、不同研究团队的有效合作。
[1]陈超美.CiteSpaceⅡ:科学文献中新趋势与新动态的识别与可视化[J].情报学报,2009,(3):401-421
[2]周金侠.基于CitespaceⅡ的信息可视化文献的量化分析[J].情报学报,2011,(1):98-112
[3]张灵芝.1998年以来中国高等教育研究热点及其知识可视化图谱分析—基于CSSCI高等教育类论文关键词的分析[J].高教探索,2012,(2):41-46
[4]Small H.The synthesis of specialty narratives from cocitationclusters[J].J of the Am Soc for Inform Sci,1986,37(3):97-110
[5]肖志明.关联规则在远程教育教学评价中的应用[J].中国远程教育,2012,(9):39-42
[6]王新颖,王向丽,张文华.基于关联规则的聚类挖掘在远程教育中的应用[J].现代远距离教育,2008,(4):12-14
[7]李家文,姚君遗,杨善林.基于决策树方法的个性化课件资源选择[J].教育信息化,2003,(6):43-44
[8]孙海生.作者关键词共现网络及实证研究[J].情报杂志,2012,(9):63-67
[9]舒蓓,申瑞民,王加俊.个性化的远程学习模型[J].计算机工程与应用,2001,(9):90-96
[10]宋爱波,董逸生.基于Weblog的模式发现及应用的研究[J].小型微型计算机系统,2002,(11):1332-1335
[11]陈仕吉.科学研究前沿探测方法综述[J].现代图书情报技术,2009,(9):28-33
[12]Chen C.Searching for intellectual turning points:Progressive Knowledge Domain Visualization[J].Proc Nat Acad Sci,2004,101(Suppl):5303-5310
[13]张士靖,杜建,周志超,等.信息素养领域演进路径、研究热点与前沿的可视化分析[J].大学图书馆学报,2010,(5):101-106