王 娟 陈世超 王林丽 杨现民
(江苏师范大学 智慧教育学院,江苏徐州,221116)
基于CiteSpace的教育大数据研究热点与趋势分析*
王 娟 陈世超 王林丽 杨现民
(江苏师范大学 智慧教育学院,江苏徐州,221116)
大数据时代来临,教育领域积累了海量数据。文章以中国知网(CNKI)数据库收录的924篇及Google学术收录的204篇与教育大数据相关的期刊论文为研究对象,运用信息可视化软件CiteSpace,以时空知识图谱及内容知识图谱分析为主要研究方法,揭示了国内外教育大数据的研究热点及发展趋势。分析发现,教育大数据研究呈现如下特点:从时间上看,研究在2013年开始集中涌现,2014~2015年进入大规模发展阶段;从内容上看,研究热点有“大数据”、“大数据时代”、“学习分析及技术”、“数据挖掘”等。为此,文章给出进一步的总结和思考,以期为教育大数据的深入研究、实践探索和产业推进提供参考。
教育大数据;热点;趋势;CiteSpace
近年来,移动通信、云计算、物联网等新一代信息技术的快速发展和应用,为教育研究提供了数据获取、存储、分析和决策等方面的支持,大规模的数据正在急速产生和流通[1]。2012年联合国发布的《大数据促发展:挑战与机遇》白皮书中指出:“大数据时代已经到来,大数据的出现将对社会各领域产生深刻影响”。美国于2012年启动“大数据研究和发展”计划,以大力推进大数据的收集、访问、组织和开发利用等相关技术的发展[2]。2015年国务院发布《促进大数据发展行动纲要》,指出“数据已成为国家基础性战略资源”。因此,大数据的重要性已上升到国家战略层面,引起了社会各界的广泛关注和高度重视。教育大数据是大数据的一个子集,特指教育领域的大数据,是整个教育活动过程中所产生的以及根据教育需要采集到的、一切用于教育发展并可创造巨大潜在价值的数据集合[3]。
20世纪80年代以来,教育数据出现了“爆炸式”增长。2014年3月,教育部发布《2014年教育信息化工作要点》,指出应加强对动态监测、决策应用、教育预测等相关数据资源的整合与集成,为教育决策提供及时和准确的数据支持[4]。教育领域部署的众多学习管理系统中存储着海量的学习数据,如何利用这些数据,使这些数据转变为信息、知识,并为教学决策、学习优化服务,已成为教育工作者们关注的重点[5]。目前学界对教育大数据研究热点进行分析的文献不多,为此,本研究采用文献计量法和科学知识图谱方法,对检索到的国内外教育大数据文献进行了多层次的研究,即利用CiteSpace知识图谱对教育大数据进行可视化分析,探测教育数据应用快速发展以来教育大数据的发展状况。通过对教育大数据研究机构、作者分布、热点主题聚类等知识图谱分析,以期为教育大数据的深入研究、实践探索和产业推进提供参考。
1 研究工具
CiteSpace是美国德雷赛尔大学陈超美教授研发的一款专门用于学术文献分析的信息可视化工具,适用于多元、分时、动态的复杂网络分析,可以探测出某一学科或领域的热点主题及其演进,目前已广泛应用于探测、分析学科研究前沿的变化趋势以及研究前沿与知识基础之间、不同研究前沿之间的相互关系。CiteSpace软件的功能按钮主要有关键词(Keyword)、作者被引(Cited Author)、杂志被引(Cited Journal)、文献被引(Cited Reference)等。关键词作为学术论文的重要组成部分和精髓,其关键词共现能够敏锐、直接地反映出某一领域的研究热点与前沿[6]。
CiteSpace分析教育大数据研究的具体步骤如下:以CiteSpace自带数据格式转换工具,将CNKI中导出为Refworks格式的文献转化为CiteSpace可识别的数据格式;将时间跨度设置为2008~2015,间隔为1年;设置阈值(c、cc、ccv,c为文献的被引频次、cc为文献的共被引频次、ccv文献的共引系数)为(2、2、20);选择路径发现(Pathfinder)的剪切连接方式以简化网络结构突出重要特征,并采用聚类静态(Cluster View-static)和展示整个网络(Show Merged Network)的可视化方式呈现最终分析图谱。
2 数据来源
研究主要针对国内外教育大数据文献的关键词进行词频、聚类、热点以及突现词分析。在分析前需要对原始文献数据的关键词进行统一的过滤、筛选与分析,但原始教育大数据文献数据中部分文献缺乏关键词,因此,本研究对缺乏关键词的文献进行了提炼,提炼过程由3名具有一定专业基础的研究人员完成。本研究以CNKI学术文献及Google学术的全部期刊为检索数据库,因为CNKI及Google相较于其它数据库,文献数量较多、覆盖面较全[7]。
在CNKI中选择“高级检索”类型,选择“主题”检索,检索条件为“教育&大数据”、“教学&大数据”、“学习&大数据”、“教学资源&大数据”、“教育管理&大数据”、“学校&大数据”、“教育应用&大数据”,截止到2015年12月30日,共检索出1010篇相关文献。由于大数据的教育应用近3年才出现,国内最早的研究始于2012年,因此本研究选取了教育数据应用快速发展以来的文献,通过手工筛选,剔除报道、会议通知、文件、征稿启事、卷首语等,共得924篇有效文献,包括作者、标题、摘要、关键词、作者单位、参考文献等字段。同理,通过Google学术以“big data”、“learning analytics”、“data analytics”、“data mining”、“big data era”、“data models”等为关键词,检索到相关文献223篇,筛选后最终得到有效文献204篇。
1 教育大数据研究的时间分布图谱
CiteSpace可以显示聚类视图和时区视图两种不同的视图方式。时区视图可显示共引网络中节点随时间变化的结构关系[8]。为考察教育大数据的研究成果,本研究统计了2008~2015年发表的文献如图1所示。图1显示,自2013年以来围绕教育大数据的研究文献急增,尤其是国内研究成果丰富、发展迅速。这一方面归结于大数据时代到来,教育数据的应用发展被推向了“快车道”,尤其是云计算、物联网、移动通信等新型信息技术的应用,使得教育数据的采集更加实时、连贯和全面;另一方面,2013年是中国大数据元年,这一年教育领域掀起了基于大数据技术促进教育改革和创新发展研究的热潮,教育大数据研究迅速发展。此外,从2012年开始,美国、英国、法国、日本等发达国家相继推出各自的大数据研究与开发计划,纷纷将开发利用大数据作为夺取新一轮竞争制高点的重要抓手,实施大数据战略。
图1 教育大数据的文献统计
图1还显示,2015年国内教育大数据的研究呈现爆发式增长的趋势,说明大数据受到了广泛的关注,这主要源于国家政策的导向和引领——2015年国务院提出“大众创业、万众创新”构想,指出发展需要依托“互联网+”、大数据等,建立和完善线上与线下、境内与境外、政府与市场开放合作等创新机制;同时,创客教育、STEAM教育逐渐走进中小学课堂,使得越来越多的智能产品进入教育市场,也越来越需要利用数据挖掘和学习分析技术解决教学中的难题。
2 教育大数据研究的空间分布图谱
为找出国内教育大数据研究的核心学术团体和机构,本研究统计了各个研究单位在教育大数据方向发表的论文,其中高产机构如图2所示。图2显示,江苏师范大学教育研究院、中国传媒大学南广学院戏剧影视学院、南京大学信息管理学院以及广州工商学院以较大优势占据发文量前四名,表明这四个机构在教育大数据方向具有较强的研究潜力。而排名前20的机构发文量相当,显示我国教育大数据研究已受到多部门、多机构的广泛关注。
图2 教育大数据研究的高产机构
为考察不同机构间的合作情况,研究生成了教育大数据研究的机构合作图谱,如图3所示。其中,节点为机构名称,节点大小代表发文量,节点环表示年轮,标签字号大小代表中心性,边描述机构合作[9];机构合作网络中共有节点63个,连线3条,网络整体密度仅为0.0015,说明我国教育大数据研究团体分散,不同机构的作者之间合作较少,研究较为分散,尚未形成极具凝聚力的科研群体。
图3 教育大数据研究机构的合作图谱
为考察不同机构在不同时间内教育大数据的研究情况,研究生成了机构研究时序图谱,上方为年代时序,年代颜色对应了节点年代环颜色(见图4)。图4显示部分高产机构,其中无锡科技职业学院早在2010年介入大数据教育应用研究,但整体影响力较弱,表明该机构在教育大数据方向的关注度下降、稳定性不足;江苏师范大学、北京师范大学、华东师范大学、华南师范大学、南京师范大学等机构自2013年开始关注教育领域大数据的研究,此后研究群体较为稳定,其中江苏师范大学逐步形成了代表性的成果,并成为机构时序的核心节点;东北师范大学、西南大学、洛阳师范学院等机构自2015年开始逐渐形成代表性观点,其中西南大学的影响力较强。这都说明,2013~2015年我国教育大数据研究呈井喷状态,多数高产机构在这个时间段展开了教育大数据的相关研究。
图4 教育大数据研究机构的时序图谱
1 教育大数据研究热点
从知识理论的角度看,中心度和频次高的关键词代表着一段时间内研究者共同关注的问题,即研究热点。中心性作为衡量节点权力的大小,反映了该点在网络中的重要性。关键词的共现频次越高,点中心性越高,说明节点在该领域愈重要。如表1所示,国内研究文献中出现频次较高的关键词有“大数据”、“大数据时代”、“学习分析及技术”、“教育与教学改革”、“数据挖掘”、“慕课”、“云计算及技术环境”、“高职教育”、“教育教学信息化”、“个性化教育教学”等,国外研究文献则主要聚焦在“big data”、“learning analytics”、“higher education”、“data mining”、“educational technology”、“big data era”等领域——这反映了教育大数据在推进、发展过程中关注领域的聚焦和变化。
表1 关键词共现频次、中心性及年代(部分)(跨年度:1年)
CiteSpace的关键词聚类功能可以明确某研究领域的热点和发展趋势[10]。在知识图谱中,圆表示关键词节点,圆越大说明对应主题出现的频次越高。节点年轮颜色及厚度表示出现时段,即圆内色环越厚,表明该颜色对应年份出现的频次越高。将CNKI和Google下载的教育大数据文献数据进行处理,切分年代为1年,聚类词来源选择标题、摘要、作者信息、关键词、节点类型等,剪切连线设置为路径探测算法,进而得到教育大数据文献聚类图谱[11]。
聚类结果分析显示(见图5),国内外研究中“大数据(Big data)”的中心性最高,可说明大数据的重要性和基础性;国内研究中“大数据”出现的频次最高,其次是“大数据时代”、“学习分析及技术”、“数据挖掘”、“慕课”、“教育教学改革”,再次是“云计算及技术环境”、“思想政治教育”等;国外研究中“big data”出现的频次最高,其次是“learning analytics”、“higher education”、“data mining”等,这与关键词共现频次的统计呈现一致。中心性越高说明节点越重要,因此根据中心性,国内研究节点较高的是“大数据”(0.62)、“慕课”(0.25)、“数据挖掘”(0.21)、“教育与教学改革”(0.17)、“大数据时代”(0.16)、“学习分析及技术”(0.16)等;国外则是“data mining”(0.33)、“big data(0.32)”、“higher education”(0.29)、“learning analytics(0.18)”等。
图5 教育大数据关键词共现频次聚类图谱(跨度:1年)
图5显示,国内教育大数据研究关键词共现网络中共有节点92个,连线95条,网络整体密度为0.0227;国外研究共有节点439个,连线900条,网络密度为0.0094。相对于机构合作网络,关键词共现网络的结构形态和性能已有较大的优化和提升,但总体上关键词共现网络结构仍比较松散、密度不高。未来应要求相关研究者做好机构科研合作,同时还需要在研究主题上保持足够的专注度,选择合适主题展开精准研究、深入研究,避免浅尝辄止。
2 教育大数据研究趋势
突变词指在较短时间内出现较多或使用频率较高的词,根据突现词的词频变化可以判断研究领域的前沿与趋势。根据CiteSpace相关分析,得到教育大数据突现主题及对应的凸显率和被引历史曲线,如图6所示。“数据挖掘”、“学习分析及技术”、“高职院校”是教育大数据研究的热点,其中“高职院校”主要体现在2010~2011年,“数据挖掘”体现在2010~2013年,“学习分析及技术”体现在2011~2013年,并且研究趋势表现为逐年上升。这在一定程度上说明,目前国内教育大数据研究前沿主要体现在数据挖掘、学习分析及技术以及高职教育领域。
图6 教育大数据关键词突现率(跨年度:1年)
研究在聚类图基础上,按时间片段统计了教育大数据前沿关键词时序图谱,如图7所示。国内教育大数据的发展脉络大致分为四个阶段:第一阶段是酝酿期(2011~2013年),可以看成是大数据的理论基础或思想根源,主要涉及数据挖掘和教育管理应用;第二阶段是起步期(2013年),涉及大数据应用于教育教学、云计算及学习分析技术;第三阶段是发展期(2014年),涉及在线教学、职业教育、思政教育、数据素养的全面突起;第四阶段是成熟期(2015年),涉及大数据技术引发的教育变革及思政领域的应用。
国外教育大数据的发展脉络大致分为三个阶段,不同时期的关键词也略有不同:①发展初期(2009~2012年):“Big data”;②发展期(2012~2014年):“learning analytics”、“Big data era”、“data mining”和“educational technology”;③成熟期(2014~2015年):“cloud computing”、“ideological and political education”和“MOOC”等。可见,随着教育大数据理念、技术、产业、实践等的日益成熟,对教育大数据的深入认知及具体应用必将成为大数据时代的重要议题和发展趋势。
图7 国内外教育大数据研究前沿关键词时序图谱
基于大数据的数据挖掘与学习分析技术是实现智慧教育的两大基石[12]。美国教育部教育技术办公室在2012年发布的《通过教育数据挖掘和学习分析提升教与学:议题简述》中提出,应用数据挖掘和学习分析技术是解决教学实际问题的途径。当下,教育数据呈现“爆炸式”增长,使得教育数据应用步入一个全新的历史时期,教育大数据作为重要资产的价值被逐渐认识和重视,未来教育数据的应用将更偏向于对用户的深层认知和了解。
1 研究结论
本研究通过CiteSpace软件,对CNKI及Google数据库中2008~2015年有关教育大数据的文献生成的图谱及相关数据进行了不同层次的分析和可视化研究,研究得出以下结论:
(1)时间分布谱图表明:教育大数据研究具有十分重要的价值,最早始于2008年,但研究在2013年开始集中涌现,在2014~2015年进入大规模、快速发展阶段,并受到了广泛的关注;我国教育大数据研究成果数量丰富,整体呈现出日益发展的上升趋势,但国内外相关成果的数量仍明显不足,未来期待更多研究者的投入与关注。
(2)空间分布图谱表明:参与教育大数据研究的机构较多,科研人员队伍不断壮大,呈现出“百家争鸣、百花齐放”的态势,但仍缺少具有足够影响力的科研机构和领军人物,既有的研究机构各自为阵,合作较少。未来需要宏观引领,建立长效的保障机制,保障科研机构和作者之间的研究关注度,形成主流研究方向,促进教育大数据研究的良性循环。
(3)关键词共现图谱表明:教育大数据研究的热点是“大数据(big data)”、“大数据时代”、“学习分析(learning analytics)及技术”、“数据挖掘(data mining)”、“慕课(MOOC)”、“教育教学改革”、“higher education”等。关键词共现网络结构相对松散、密度不高,未来需要研究者保持研究主题、研究内容、研究方向的纵深研究并提高关注度。
(4)研究前沿时序图谱表明:国内教育大数据的研究前沿体现在“数据挖掘、学习分析及技术,以及高职教育”领域,国外则体现在“big data”、“data analytics”、“data mining”等领域;从早期的教学管理及应用,到大数据技术的教育教学,到培养信息素养与数据素养,再到职业教育、思政教育的应用,这印证了国内教育大数据的发展,也展现了数据挖掘和学习分析的前进足迹;从最初的“big data”,到“learning analytics”、“big data era”、“data mining”、“educational technology”,再到“cloud computing”、“ideological and political education”,这印证了国外教育大数据的发展。时序图谱也反映出:教育大数据研究的主题较单一、研究领域及范围较小,需要借助新技术开拓新的研究方向,有必要开展跨学科、跨领域的合作。
2 研究思考
教育大数据的真正发展始于近几年,目前的理论和实践研究都处于初步发展、探索应用阶段。本研究对教育大数据研究热点和前沿进行探讨的同时,也发现了一些问题,引发了一些思考:数据采集技术、学习分析技术是当前教育大数据研究必须解决的问题。如何研发专用的教育数据分析决策模型、工具与算法,实现教育数据处理的高效能与数据应用价值的最大化;如何对学习过程中记录下来的相关行为数据进行有目的的分析,挖掘出隐藏在行为数据背后的有价值信息[14];教育大数据应用如何落地、融通共享、进行高质量管理等,这些问题亟待解决。
教育大数据应用还不太成熟。当前的理论研究多在教育大数据驱动教育政策科学化、驱动教育评价体系重构、助推学校教育质量提升、为广大师生“减负”等层面展开[15];或从技术层面进行实践分析,如教育大数据的平台架构、关键技术实现等,但教育大数据应用需要技术、设备、资源、产业、政策、环境等的不断更新,需要广大研究者与实践者在实际研究和实践中不断地对其应用的功能设计及技术实现进行修正与完善。
大数据时代,教育大数据的建设与发展已逐步引起教育管理部门、企业、学校及教育研究者的广泛关注;大数据为教育信息化、教育教学的改革发展带来了深刻的影响[16]。但教育大数据是新生事物,其应用与发展需要结合国情,借鉴国外先进的理念和经验,并在实践中不断地完善与发展。因此,随着教育大数据理念、技术、产业等的日益成熟,对教育大数据的深入认知及具体应用,必将成为大数据时代的重要议题和发展趋势,未来大数据在教育领域的应用将会越来越广泛、也越来越深入。
[1][3]杨现民,王柳卉,唐斯斯.教育大数据的应用模式与政策建议[J].电化教育研究,2015,(9):54-61.
[2]本刊编辑部.国外大数据政策环境一瞥[J].中国建设信息,2015,(3):46-49.
[4]刘凤娟.大数据的教育应用研究综述[J].现代教育技术,2014,(8):13-19.
[5]魏顺平.学习分析技术:挖掘大数据时代下教育数据的价值[J].现代教育技术,2013,(2):5-11.
[6]闫守轩,朱宁波,曾佑来.十二年来我国课程研究的热点主题及其演进——基于2001-2012年CSSCI数据库关键词共现知识图谱的可视化分析[J].全球教育展望,2014,(3):64-72.
[7][11]晏齐宏,杜智涛,付宏.国内在线学习主要模式演化的知识图谱分析[J].中国远程教育,2015,(9):25-31.
[8]蔡建东.国外CSCL理论的演进与前沿热点问题——基于Citespace的可视化分析[J].现代教育技术,2012,(5):10-16.
[9]张子石.基于CiteSpace的网络学习知识图谱分析[J].中国电化教育,2015,(8):77-84.
[10]段春雨,蔡建东.国际泛在学习领域知识图谱研究[J].现代远程教育研究,2016,(1):85-95.
[12]柯清超.大数据与智慧教育[J].中国教育信息化,2013,(24):7-10.
[13]Department of Education Office of Educational Technology.Enhancing teaching and learning through educational data mining and learning analysis:An issue brief[OL].
[14]杨现民,王怀波,李冀红.滞后序列分析法在学习行为分析中的应用[J].中国电化教育,2016,(2):17-23.
[15]杨现民,唐斯斯,李冀红.教育大数据的技术体系框架与发展趋势——教育大数据研究与实践专栏之整体框架篇[J].现代教育技术,2016,(1):5-12.
[16]杨现民,唐斯斯,李冀红.发展教育大数据:内涵、价值和挑战[J].现代远程教育研究,2016,(1):50-61.
The Analysis of Research Hot Spot and Trend on Big Data in Education based on CiteSpace
WANG Juan CHEN Shi-chao WANG Lin-li YANG Xian-min
(School of Smart Education,Jiangsu Normal University,Xuzhou,Jiangsu,China 221116)
With the era of big data coming,huge amount of data has been accumulated in education field.Taking CNKI and Google as research object,which including 924 and 204 journal papers about big Data in education respectively,adopting knowledge map of time and space and content knowledge map as main research methods,and applying the information visualization software CiteSpace,research hot spot and development trend of big data in education were revealed.It found the research of big data in education presented the following features:from the perspective of time,the research began to emerge centrally in 2013,and entered the stage of large-scale development in 2014-2015; from the view of content,the hot topic has “big data”,“big data era”,“study analysis and technology”,“data mining”,and etc.The further summary and reflection were given,in order to provide reference for deep study,practical exploration and industry promotion of big data in education.
big data in education; hot spots; trend; CiteSpace
小西
G40-057
A 【论文编号】1009—8097(2016)02—0005—09
10.3969/j.issn.1009-8097.2016.02.001
本文为江苏高校优势学科建设工程资助项目“江苏师范大学教育学省优势学科建设”(项目编号:苏政办发〔2014〕37号)的阶段性研究成果。
王娟,副教授,博士,研究方向为现代远程教育、开放课程,邮箱为wjuan8@163.com。
2016年2月5日