赵雪飞,乜 勇
陕西师范大学教育学院, 西安 710062
基于词频分析的国内外教育大数据研究现状分析
赵雪飞,乜勇
陕西师范大学教育学院, 西安710062
通过对国内外教育大数据的相关文献进行研究,分别从文献逐年刊载量、文献来源、关键词词频统计、高频词共词分析及趋势分析等五个方面进行综述,得到国内外教育大数据的发展现状并发现教育大数据背景下教师及学生的数据素养培养研究较为缺乏等相关问题,以期为后续教育大数据方面的研究提供参考。
教育大数据;内容分析法;数据素养;研究综述
“中国正迎来从IT时代到DT时代的变革”,马云在2016年全球大数据时代贵阳峰会上如是说。信息技术的核心是计算机,然而随着DT时代的到来,信息技术的核心也将逐渐转变为大数据。随着互联网技术的发展,对信息时代的大数据进行挖掘和精准分析成为各行各业必须掌握的技能。对于教育事业来说,与教育有关的企业、学校、研究机构等也必须适应大数据时代的要求,进行必要的数据收集、筛选和分析。
大数据技术越来越成熟,教育大数据观念深入人心,现在教育大数据的焦点应该放到如何利用大数据技术更好地服务教育、服务教师、服务学生上,让教育真正尝到大数据的甜头。基于此,教育者很有必要了解国内外大数据技术应用于教育的现状并从中得到启示。
文章通过收集中国知网和web of science上与教育大数据相关的国内外文章,运用词频分析和共词分析法,对论文的关键词进行统计分析,梳理教育大数据的研究脉络以及现状,探讨了该领域的研究热点,并总结其发展趋势,为今后的教育大数据研究提供切实的、有价值的参考。
教育大数据是大数据的一个子集。它是指在整个与教育相关的活动中所产生的有研究价值的数据,以及其他对促进教育发展有研究价值的数据集合[1]。教育大数据的“大”到底指的是什么呢?教育大数据并不是“数量大的数据”。“大”是指其价值之大,即是能从复杂的教育相关数据中发现其相关性,分析现存的优点和缺点、找出问题的原因,并根据数据分析的结果预测未来的发展方向,为未来的发展提供策略,从而更好地促进教育公平、提升教育质量,为学生的自主学习和个性化学习提供指导。
教育大数据较传统教育数据有什么不同呢?随着现代教育技术的进步,教育大数据从采集到分析的手段都有了很大的进步。教育大数据可以更加实时、连贯、全面地在自然的条件下采集;教育大数据的处理手段更加多样化和智能化,可以更加多元地进行数据分析[2]。比如:教育工作者可以在不影响师生基本教学活动的自然教学中,实时地、连贯地采集更多、更细致的教学过程数据(如学生在网上学习每个知识点逗留的时间,以及学生在做某道题时脸上的表情,等)。
教育大数据分为常规的结构化数据和非结构化数据。结构化数据,如成绩、学籍、就业率、出勤记录等常规结果性数据;非结构化数据,如图片、视频、教案、教学软件、学习游戏等过程性数据[3]。虽然非结构化数据逐渐占主导地位,但结构化数据依然很重要。
通过阅读大量的相关文献,结合相关专家学者的看法,笔者认为教育大数据应该具备“6Vs”的特点。这6Vs是指:大体量(volume)、高速(velocity)、多样化(variety)、真实性(veracity)、价值(value)和可视化(vis- ualization)[4]。
2.1研究样本
该研究以中国知网和web of science收录期刊为样本来源,在中国知网通过搜索篇名“大数据”并含“教育”或者“教育大数据”得到中文文献543篇;在web of science上搜索主题“Big Data”AND主题“Education”或者主题“Big Data”AND主题“Educational”去除不相关文献,共计得到英文文献230篇。
2.2研究方法
该研究采用内容分析法对样本进行统计与分析。笔者运用内容分析法对该研究做了明显的、客观的、系统的量化处理。在研究过程中,严格遵循内容分析法的基本过程和步骤,在通读文献摘要和浏览全文的基础上,首先进行主题分类,然后按文章发表日期、期刊来源、研究方法、研究对象和内容建立数据库,最后用图表展示数据。分别从文献逐年刊载量、文献来源、关键词词频统计、高频词共词分析及趋势分析等五个方面进行综述,得到国内外教育大数据的发展现状并发现教育大数据背景下对教师及学生的数据素养培养研究较为缺乏等现象,以期为后续教育大数据方面的研究提供参考。
2.3研究类目与分析单元
在通读文献摘要和浏览全文的基础上,首先进行主题分类,然后分别从文献逐年刊载量、文献来源、关键词词频统计、高频词共词分析及趋势分析等五个方面进行综述,得到国内外教育大数据的发展现状、建立相应的数据库并用图表展示数据,针对教育大数据背景下对教师及学生的数据素养培养研究较为缺乏的现象给出建议。
2.4统计工具
该文主要使用书目共现分析系统(bicomb)辅以Excel工具对样本文献进行统计分析。
书目共现分析系统(bicomb)用于处理从书目数据库(如PubMed、SCI、CNKI、万方,等)下载下来的文献记录,具体功能包括:抽取其中特定的字段,如作者、期刊名、标题、发表年代、引文等统计相应字段的出现频次;按照一定的阈值截取高频条目后,形成共现矩阵和条目—来源文献矩阵(如高频词—论文矩阵);输出高频条目和矩阵(txt文档)所形成的矩阵可以用于进一步的聚类分析和网络分析。
3.1国内外论文年限分布
依据文献发表的年份统计,截至2015年12月31日,教育大数据的国内研究文献年度分布如图1所示。
图1 国内外教育大数据文献发表数量
从图1中可以看出,国内外学者对教育大数据的相关研究最早开始于2009年,随着信息技术的发展和电脑的普及,越来越多的学生运用网络进行学习,而教育大数据作为影响学生学习效果的因素之一,也广泛受到国内关注,尤其是近3年呈明显上升趋势。而国外对教育大数据的研究从2009年开始至2015年研究热度基本保持不变,仅在2013年有轻微的数量提高。
3.2对国内外文献进行期刊来源分析
3.2.1对国内文献进行期刊来源分析笔者利用书目共现分析系统(bicomb)对中文文献样本的期刊来源进行了具体的分析研究,结果如表1所示。我们可以发现,发表文献数量最多的为《中小学信息技术教育》《中国教育信息化》《远程教育杂志》《现代教育技术》等杂志,均为我国教育技术界比较权威的期刊。由此可见,国内对教育大数据的研究不仅有一定的热度,而且有较高的研究质量。
表1 中文文献期刊来源分析
3.2.2对国外文献进行期刊来源分析国外关于教育大数据的论文来源期刊,由于种类多,该文仅对发表2篇及以上的期刊进行了具体统计。可以看出,BMCMEDICALEDUCATION期刊发表网络学习风格的文章是最多的,共计5篇,占国外论文总数的2.0161%,其他外文期刊对于教育大数据的研究都比较均衡,基本保持在2~3篇,具体如图2 所示。
图2 外文文献期刊来源统计分析
3.3国内外文献高频关键词统计
3.3.1国内文献高频关键词统计笔者利用书目共现分析系统(bicomb)对中文文献高频关键词进行了具体的统计研究,因为关键词数量较大,笔者截取了前29个关键词,分析研究结果如表2所示。我们可以发现,在中文文献的高频关键词为:大数据、大数据时代、思想政治教育、信息技术、学习过程、数据挖掘、学习分析、教育、在线教育、大学生、教育大数据、教育变革、个性化教育、教育信息化、学习行为,等,这表明国内有关教育大数据的研究热点基本在大数据时代如何更高效地利用信息技术、如何更好地进行思想政治教育、如何更有效地进行数据挖掘、如何在数据挖掘的基础上进行学习分析、如何促进教育变革和个性化教育的实施、如何更好地对学习过程以及学习行为进行监控等方面,具体如表2所示。
表2 中文文献高频关键词统计
3.3.2国外文献高频关键词统计笔者利用书目共现分析系统(bicomb)对外文文献高频关键词进行了具体的统计研究,截取频次≥7的关键词进行统计,结果如表3所示。我们可以发现外文文献的高频关键词为:data mining technology,learning analytics,visual analysis,education big data,education big data descr- iption analysis,predictive analytics,descriptive analysis model,等。
表3 外文文献高频词统计
3.4中文文献高频词共词分析矩阵
笔者利用书目共现分析系统(bicomb)对中文文献前数个高频关键词进行了具体的共词矩阵分析,分析研究结果如表4所示。从中我们可以发现,在中文文献的高频关键词共词矩阵中大数据与教育(相关度为15)、大数据与数据挖掘(相关度为11)、大数据与大学生(相关度为8)、学习过程与信息技术(相关度为6)的相关度非常高。然而,数据素养作为大数据时代下衡量教师素质与学生素质的一项非常重要的指标,其与学习过程、数据挖掘、学习分析、教育、在线教育、大学生等的相关度却非常的低,这是非常值得我们思考的问题。
表4 中文文献高频词共词分析矩阵
3.5研究趋势分析
笔者将已经构造好的高频关键词共词矩阵导入社会网络分析软件Ucinet中,并保存成.##h的专门文件格式,再将文件导入到Ucinet自带的可视化工具Net Draw中,得到了国内教育大数据前数个高频关键词的共词网络图(如图3所示)。从图中我们发现,大数据、学习分析、在线教育、数据挖掘、教育、学习过程位于图的中央部分并且与其他关键词联系密切,说明这些关键词是如今教育大数据的研究热点,然而数据素养、教育变革却位于网络图的边缘并且与其他关键词联系稀少,表明现如今的教育大数据对此研究热度不高,但是同时却也显示出来数据素养、教育变革作为共词网络图的边缘节点将会是教育大数据的研究新趋势。
图3 中文文献高频词共词网络图
通过总体的分析,我们发现国内的大数据研究热度在逐年的上升,但是大多是关于大数据本身、思想政治教育、信息技术、学习过程、数据挖掘、学习分析、教育、在线教育、大学生、教育大数据、教育变革、个性化教育、教育信息化、学习行为,等,而对教师以及学生的数据素养的研究却是非常少。国外的教育大数据研究热度基本保持不变,并且国外的文献期刊分布比较均匀。
随着大数据时代的到来,教育工作者如果想更好地、更有效地从事教育事业,必须要顺应时代发展,掌握对数据的获取、管理、分析和利用的能力以及加入到数据共享的行列[5]。“数据素养”,也常叫做“数据信息素养”,主要指研究者在科学的数据采集、组织、管理、处理、分析、共享与协同创新利用等方面的能力,以及研究者在数据的生产、管理和发布过程中的道德与行为规范[6]。“数据”可以认为是一种具体形式的“信息”,所以,“数据素养”可以看作是“信息素养”的一个子集。有学者认为,数据素养(data literacy)是对媒介素养、信息素养等概念的一种延续和扩展,至少应包括以下五个方面的维度:对数据的敏感性、数据的收集能力、数据的分析及处理能力、利用数据进行决策的能力、对数据的批判性思维[7]。
在大数据时代下,教育工作者必须顺应时代的发展,培养和提高自己的数据素养,掌握运用教育大数据的方式和方法,使教学活动更加有效和高效。因此,我们应该及时采取适当的策略提高教育工作者的数据素养,使其在大数据时代具有更强有力的教育能力,从而更有利于培养大数据时代的优秀学者。
笔者虽然针对国内外教育大数据的相关文献从文献逐年刊载量、文献来源、关键词词频统计、高频词共词分析及趋势分析等五个方面进行了研究,得到国内外教育大数据的发展现状并发现教育大数据背景下教师和学生的数据素养培养研究较为缺乏等相关问题,但并没有为这些相关问题提出有效的建议及对策。
[1]Picciano A G.The evolution of big data and learning analytics in American higher education[J].J of Asynchronous Learning Networks,2012,16(3):9-20
[2]Romero C R,Ventura S.Educational data mining:a review of the state of the art[J].IEEET ransactions on Systems,Man and Cybernetics,Part C:Applications and Reviews,2010,40(6):601-618
[3]Tulasi B.Significance of Big Data and analytics in higher edu- cation[J].Inter J of Computer Appli,2013,68(14):23-25
[4]祝智庭,沈德梅.基于大数据的教育技术研究新范式[J].电化教育研究,2013(10):5-13
[5]张进良,何高大.学习分析:助推大数据时代高校教师在线专业发展[J].远程教育杂志,2014,32(1):56-62
[6]刘雍潜,杨现民.大数据时代区域教育均衡发展新思路[J].电化教育研究,2014(5):11-14
[7]魏顺平.学习分析技术:挖掘大数据时代下教育数据的价值[J].现代教育技术,2013(2):5-11
The status quo of research on domestic and foreign educational big data based on word frequency analysis
ZhaoXuefei,NieYong
SchoolofEducation,ShaanxiNormalUniversity,Xi'an710062,China
Through literature research on domestic and foreign educational big data, this paper reviews five aspects as follows: literature published volume year by year, literature's source, statistics of keyword frequency, high-frequency words' co-word analysis and trend analysis. We have gained a better understanding of the status quo of domestic and foreign educational big data and found problems such as inadequate research on teachers' and students' data literacy cultivation under the background of educational big data. It is hoped to provide reference for studies on educational big data in the future.
educational big data; content analysis method; data literacy; research review
陕西师范大学教师教育办公室2016年度教师教育招标课题“中小学信息技术教学方法创新和教学效果评价研究”(JSJY2016J011)阶段性成果;陕西师范大学社科处(横向课题)“教师教育信息化能力研修平台资源建设及应用”(2015ET001)阶段性成果。
2016-04-29
赵雪飞(1991-),女,河南安阳人,硕士研究生在读,主要研究方向:信息技术教育应用。
G40-057
A
1004-5287(2016)05-0527-05
10.13566/j.cnki.cmet.cn61-1317/g4.201605008