蒋鑫 洪明
【摘要】大数据技术通过不同视角对教育数据进行处理和分析,将教育的实时决策、学习的个性化变成现实。以WOS数据库为数据来源,运用文献计量法、可视化分析法和内容分析法,对国际教育大数据研究领域的现状进行分析发现:教育大数据文献发文量呈现增长态势;美国和中国学者的科研产出较多,而新加坡学者显示出较强的国际交流潜力与实力,由此形成“三足鼎立”之势;高等院校则成为国际教育大数据研究的主要机构群体;国际上已经形成一支以扬纳基斯、马尔达尼为代表的核心作者群,但核心作者之间分散性明显、连接性较弱;研究热点涉及大数据理论、处理技术以及学习方式等方向;发展脉络显示国际教育大数据研究已经实现了由“技术主体”向“学习服务”的理念转变,由宏观理论探讨转向对微观具体问题的探究,隐私安全、数据挖掘必将受到持续关注。国内学者需要对照国内研究现状,借鉴国际经验,立足自身研究特色,加强交流,避免研究出现“偏向”。
【关键词】 教育大数据;对比研究;数据挖掘;学习分析;文献计量法
【中图分类号】 G434 【文献标识码】 A 【文章编号】 1009-458x(2019)2-0026-13
一、引言
教育大数据是大数据的一个重要子集,特指教育領域的数据集合(裴莹等, 2017)。随着教育信息化的不断推进、教学方式的不断变革,越来越多的数据出现在学习、教学以及学校管理之中。面对海量数据,大数据技术通过不同视角对教育数据进行处理和分析,将教育的实时决策、学习者的个性化学习变成现实(郑燕林等, 2015; 张洪孟等, 2015)。在以互联网、数据挖掘、学习分析等综合技术为基础的大数据时代,教育正悄然发生着深刻的变革,人类的学习和思维方式也在发生着重要的变化。在这一背景下,世界范围内,许多国家的高校、科研院所等相继成立了大数据研究机构,从不同视角开展对教育大数据的研究工作(McKinsey & Company, 2011)。不仅如此,2017年12月8日,习近平总书记在实施国家大数据战略第二次集体学习会上强调:“我们应该审时度势、精心谋划、超前布局、力争主动,深入了解大数据发展现状和趋势及其对经济社会发展的影响,分析我国大数据发展取得的成绩和存在的问题,……更好地服务我国经济社会发展和人民生活改善。”那么在这种背景下,国际上有关教育大数据及其相关问题的研究究竟是一种怎样的状态?它经历了怎样的演变轨迹?其热点和前沿为何?国内教育大数据研究又存在哪些特点?本文试图从文献分析的角度,对上述问题做出回答。
二、数据来源和方法
(一)数据来源
本次研究选择了Web of Science(WOS)平台下的核心数据库作为文献搜索来源。在检索词的确定方面,除选定“大数据(big data)”与“教育(education)”“教学(teaching)”“学习(learning)”的组合外,还采用了美国教育部在2012年10月发布的《通过教育数据挖掘和学习分析促进教与学》报告中的两个重要概念“数据挖掘”“数据分析”(胡弼成等, 2015),增加了对“数据挖掘(data mining)”与“教育(education)”以及“数据分析(data analytics)”与“教育(education)”两项复合检索。本研究将文献检索的时间截止日设定为2017年12月31日,在去除重复文献后,最终筛选出436篇论文,作为本次研究的主要数据来源。
(二)研究方法
本研究主要采用三种分析方法。一是文献计量法。主要统计和分析国际上教育大数据研究文献的发文时间、来源国家、发文机构、作者发文量以及被引频次,对教育大数据的研究现状做出客观评价。二是可视化分析方法。即借助CiteSpace可视化软件生成教育大数据“文献关键词聚类图”与“引文文献共被引区视图”,以此探索教育大数据研究的历程与现状,并对未来发展的趋势进行预测。三是内容分析法。由于高被引文献是构成教育大数据研究的重要知识基础,具有重大的学术价值,因此对高被引文献内容进行分析和描述是有必要的,这有助于我们深度了解国际教育大数据研究的热点与前沿。
三、研究结果分析
(一)发文量年度变化趋势分析
发文数量可显示某一学科领域受关注的程度,逐年连续的发文量可反映该学科领域受关注程度的变化。图1统计出WOS核心数据库所收录的历年教育大数据文献走势。数据显示,WOS核心数据库收录的最早的有关教育大数据的论文可追溯至2002年,该论文由斯洛文尼亚学者乌尔班契奇(Urbancic, T.)等撰写,篇名为“基于网络的数字挖掘分析与决策支持的教育(Web-based analysis of data mining and decision support education)”。他在该篇文献中认为,数据挖掘可以实现知识从学术到教育应用的转移,可为教育提供参考性决策,但却未对“教育数据挖掘”的概念进行明确界定(Urbancic, T., 2002)。这篇论文发表后的大约5年里,WOS核心数据库再也没有教育大数据主题的论文出现,直至2007年才出现第二篇同类题材的论文。从2007年到2012年,虽然每年都有同类主题的论文问世,但每年的发文量均不超过10篇。而2013年是一个转折点,当年发文量直接突破10篇,达到21篇。此后每年都保持快速增长势头,其峰值在2016年达到140篇。
按照研究文献的时间分布,可大致将教育大数据研究划分为三个阶段。从2002年到2006年为首篇之后的零增长阶段,该阶段教育大数据研究成果零星,虽目前仅有一篇可查阅,但该篇文献却为教育大数据研究奠定了基础;从2007年到2011年为缓慢增长阶段,是教育大数据研究的起步阶段,研究成果虽总体数量不多,但已开始呈现出逐年递增的潜在趋势(见图1);从2012年到2016年为快速增长阶段,相关文献剧增,反映出国际范围内关于“教育大数据”的研究在这一时期开始呈现“井喷之势”,至今尚未出现回落或“拐点”,国际对教育大数据的关注仍处于持续升温的过程中。
(二)文献来源的国别分析
文献来源的国别统计可反映出各国对教育大数据研究的贡献大小,了解教育大数据研究的热点区域。本研究收集的436篇论文共来自58个国家(地区),区域分布较为广泛。表1统计了教育大数据研究领域发文量居前十位的国家,这十个国家的作者共参与了414篇论文的发表,占论文总量的95.0%。从表1来看,中国、美国发文量分别高达146篇和131篇,远高于其他国家,在教育大数据研究领域具有绝对领先地位,展现出较强的科研产出能力及学术研究实力。
在被引频次方面,436篇样本文献共被引用2,422次。被引频次最高的是美国学者,达到855次;被引频次最少的有捷克、奥地利等19个国家,被引频次均为0次。可以看出,教育大数据虽然已经成为世界各国的研究热点,但总被引频次却差异较大,论文认可度高低不同。美国学者在教育大数据研究成果国际化方面展现了相当的实力,这与美国教育技术在全球占据显著优势的学术地位或有密切关系。而中国学者研究成果的总被引频次为563次,高居第二位,呈现出一定的发展潜力。
从篇均被引频次看,新加坡学者被引频次最高,平均每篇论文被引用达到14次,德国、西班牙学者紧随其后,分别达到7.38次和7.07次。可见,新加坡学者研究成果质量较高,在国际范围内获得了较高的认可度,具备了强劲的交流潜力和现实交流能力。而中国学者虽在发文量上优势较大,但在篇均被引频次方面与新加坡、美国等国家学者存在一定的差距,仅为3.86次,研究成果质量仍需进一步提高。
(三)核心作者分析
学科领域核心作者在很大程度上影响着学科发展的方向和速度,因此,对核心作者论文发表情况进行分析则具有指标性的价值和意义(张敏等, 2014)。经统计,教育大数据研究领域的这436篇核心文献中共有1,232位作者。我们引入国际上比较流行的核心作者计算公式——普莱斯(Price)公式作为遴选核心作者的量化标准:Ni=0.749[Nm],其中Nm为教育大数据最高产作者的发文量,Ni为能够入选核心作者的发文量最低标准。在本研究中,最高产作者为来自美国的扬纳基斯(Giannakis, G. B. )教授,共有6篇教育大数据文献发表。经过计算,入选核心作者的最低发文量为Ni=1.83≈2篇。经过统计分析,共有104位作者发文量不少于2篇,约占作者总数的8.44%,另有1,128位作者均只有1篇有关教育大数据的论文发表。从以上数据可以看出,目前国际上从事有关教育大数据研究的作者虽然较多,但大多为尚未形成长期、稳定的研究方向的瞬時作者。不仅如此,当我们利用CiteSpace软件,选择作者为节点类型,形成教育大数据核心作者共现图谱(图2),可以看到,作者之间未形成中心性,这一点从图2也可得到印证,作者群“孤岛”较多,104位核心作者仅有42条连线,说明作者群之间缺乏跨地区的交流和协作。
根据普莱斯理论:“核心作者的发文量约为发文总量的50%,大约10%的杰出科研工作者发表论文约占全部论文的一半”(赵新亮等, 2017)。本研究中发文量超过2篇的104位作者共有228篇论文发表,从这个角度而言,教育大数据研究领域的国际核心作者群已经形成。图3为教育大数据研究发文量排名前九位的高产作者统计。
如图3所示,美国学者扬纳基斯发文量最高,他共参与了6篇有关教育大数据论文的发表。这说明他对教育大数据问题保持着较高的研究兴趣,科研产出较多。扬纳基斯来自美国明尼苏达大学,他与马尔达尼(Mardani, M.)合作在数据挖掘方向进行了大量研究,共同尝试以回归、分类、聚类的方式对大数据进行提取分析,在教育大数据领域影响力较大,他们共同为教育大数据领域的理论发展与实践探索做出了巨大贡献。
(四)文献发表机构分析
文献标属来源机构统计可以帮助我们确认教育大数据研究的热点机构。表2筛选出了发文量居前十位的机构。在这前十位的机构中,仅有中国科学院一家是科研机构,而其余九家均是高等院校。由此可见,国际上,高等院校已经构成了教育大数据研究成果的主要来源。究其原因,一方面从人力资源的角度来看,高校院系拥有对教育大数据应用领域更为关注的学术“领军者”及高端学术人才,如图3中所示的扬纳基斯等人,他们既能接触到国内外相同或相近研究领域的最新动态和前沿成果,又具有很高的学术热情和科研能力;另一方面从学术氛围的角度来看,随着教育信息化的不断深入,高校环境为大数据在教育领域的应用提供了“沃土”,高校院系和教育者根据自身发展的需求,重视对新兴领域的挖掘开发和科学研究,塑造了良好的学术氛围。
从地域分布看,在教育大数据研究发文量居前十位的机构中,有五所高校来自美国,可见美国高校对教育大数据保持了较高的研究兴趣,在全球教育大数据研究领域占有强势学术地位,尤其是排名第一位的明尼苏达大学,其名下的教育大数据研究论文高达8篇,科学产出能力较强,而核心作者扬纳基斯和马尔达尼教授均是来自此大学,充分显示该校在教育大数据研究领域的国际性影响力与实力。另外,中国的三所机构,中国科学院、华中科技大学、大连理工大学,均榜上有名,发文量分列第二、三、六位。可以看出,来自美国、中国的学术机构已经发展为国际上教育大数据研究的主体力量。
从被引频次看,来自中国科学院的研究成果总被引频次最高,达到169次,可以看出中国科学院的学者对教育大数据的研究成果较受国际学者的认可。2014年,中国科学院成立了大数据挖掘与知识管理重点实验室,较早地对数据科学理论、智能知识管理以及诸多交叉领域开展了理论和应用研究。从篇均被引频次看,来自中国科学院的学者的研究成果同样也是名列榜首,这也说明了中国科学院学者在研究方向、视角、范式等方面均保持较高的国际水准,较受国外学者的欢迎,在教育大数据研究的国际舞台中扮演了重要角色。
(五)教育大数据研究的热点分析
关键词是对整篇文献的概括,关键词出现频次的高低可以在一定程度上作为判断某研究方向在领域内是否为研究热点提供了重要的论证依据。而中心度是衡量研究热度的另一重要指标,在某种意义上而言,中心度度量节点在系统中的重要程度,体现着关键词节点在不同聚类之间的枢纽作用。这两个指标可以为确定研究热点提供重要参考,而从二者的一致性和差异性可以有效地探寻出国际教育大数据不同研究方向之间的耦合关系,为我们深入分析国际教育大数据研究的热点和现状提供有价值的参考和论据。本研究借助CiteSpace软件,通过关键词的聚类功能对436篇样本文献进行关键词共现分析,形成了教育大数据研究关键词聚类图,如图4所示。
在图4中,一个节点代表一个关键词,节点越大说明关键词出现的频次越高,而中心度则是衡量节点权利大小的重要指标,是体现节点在网络中相对地位和重要性的度量,显示着关键词节点在不同聚类之间或者界面上的枢纽作用。将关键词的中心度与频次之间的一致性及差异进行对比,可以有效地探寻出教育大数据热点领域之间的关系。表3为CiteSpace软件统计出的频次排名前20位的关键词。
关键词出现频次越高,说明这个关键词在所有文献中出现的概率越高,那么这个关键词涉及的方向可能越受学者们的关注,越可能是研究的热点问题。由图4所示,关键词“大数据(big data)”的节点最大。据表3所示,该关键词出现频次为154次,由于“big data”是数据来源的重要检索词之一,因此其出现频次最高并不足为奇。而“机器学习(machine learning)”“数据挖掘(data mining)”的频次分别居第二、三位(40次和39次),说明这两个关键词在教育大数据领域较受学者们关注,反映这两个关键词相关的研究方向为教育大数据研究领域中较为核心的研究内容,借助数据处理技术实现教育数据的挖掘可能是目前国际教育大数据研究的重要方向。另外,关键词“分级(classification)”“回归(regression)”“学习分析(learning analytics)”“学校(school)”“分析(analytics)”“深度学习(deep learning)”“安全(security)”“教育(education)”“模式(model)”的出现频次也超过10次,可以推断,在教育大数据研究领域中,这些关键词所代表的研究方向也受到国际学者的较多关注。
在中心度值方面,“数据挖掘(data mining)”值最高,达到0.32,这说明数据挖掘在整个网络结构中处于最为重要的地位,连接教育大数据领域各个研究热点的“桥梁”作用明显。结合其出现频次可知,数据挖掘是教育领域大数据研究的重要热点方向;“机器学习(machine learning)”和“学习分析(learning analytics)”的中心度值分别居第二和第三位,均为0.28,说明“机器学习(machine learning)”和“学习分析(learning analytics)”在教育大数据研究领域的内部连接作用也较强,表现出较强的关联性。这也可能预示着,在教育信息化背景下,机器学习或许可为海量数据精确、高效地分析并服务学习提供重要的参考路径。“机器学习(machine learning)”在网络结构图中不仅中心度值较高,节点位置较为重要,而且在教育大数据领域出现频次较高,说明机器学习即是目前教育大数据研究的热点领域,也是研究的核心方向。而机器学习又作为人工智能的重要分支,其相关理论或可为教育大数据研究发展提供重要的理论借鉴与支撑,应引起我们的关注。
此外,在本研究中,我们也发现存在中心度和频次不一致的情况,这是由于关键词的频次和中心度是从不同视角反映教育大数据研究领域的热点分布情况,而二者的对比恰可帮助我们把握教育大数据研究领域的重点。在表3中,关键词“云计算(cloud computing)”“高等教育(higher education)”中心度值分别为0.27、0.25,排名靠前,说明云计算、高等教育在关键词聚类图中的地位较为重要,沟通和连接教育大数据领域内部不同热点方向的作用明显,但出现频次却仅为9次、8次,体现了这些研究内容在沟通与连接其他研究热点方面虽然有重要的桥梁作用,但被关注的程度还有待加强。国际学者应提高对大数据背景下高等教育、云计算研究的重视,促进教育大数据研究的完善。
美国新媒体联盟2016年发布的《2016 地平线报告(高教版)》指出,个性化是在开放环境中实现教育公平的重要手段,个性化要求教学不按照同质的教学资源开展同质的教学,在未来五年内,如何通过技术满足所有学生的个性化学习需求仍将会是世界范围内的难题(NMC Horizon Report, 2016)。对高等教育的关注度不够突出,可能与目前的研究与应用主要局限于进行技术上的个体尝试,尚未实现整体化、规模化推广有关(金慧等, 2016)。而对云计算进行追本溯源,其最初是作为一种新型的商业数据处理模式出现的,它可将计算任务分布在由大量计算机构成的资源池上,有效地帮助用户根据需要获取计算力、存储空间和各种软件服务。随着在线教育的逐渐推广,研究表明,以云计算处理教育数据可有效改善在线课程中固有的师生交互低下的劣势,帮助教师及时调整授课内容,从而确定最有效的课程元素。而目前教育大数据研究者对云计算的关注热度不高,可能与云计算主要作为典型的商业计算模型,而尚未探讨出合理处理教育领域大数据的有效模式有关(张怀南等, 2013)。
另外有一些关键词“分级(classification)”“回归(regression)”的中心度值不高,说明这些领域关联度相对较弱,但出现频次却较高,体现了国际学者对数据处理技术的重视,这种反差现象应引起我们的警觉。学者应注重大数据与云计算相融合,增加对大数据技术服务高等教育领域、改善学习效果的关注,避免陷入“唯技术”的窘境,促进教育大数据研究的全面发展。
综上所述,借助关键词频次和中心度的统计与分析,我们可以概括出目前教育大数据研究的国际热点主要聚焦于以下几个方面。
一是关注教育大数据的基础理论和应用。代表关键词有“学校(school)”“大数据(big data)”“高等教育(higher education)”“风險(risk)”等。这个方向的焦点总体看来可以划分为两个方面:首先是教育大数据的基本概念、内涵等方面,对教育大数据的基本特征和作用进行研究和概括;其次是教育大数据的应用研究,主要是在高等教育、基础教育领域的应用探究,重点探讨了信息化时代背景下大数据技术对传统教育的颠覆和对教学改革的推进。
二是聚焦大数据处理技术在教育领域的应用。代表关键词有“数据挖掘(data mining)”“机器学习(machine learning)”“教育数据挖掘(educational data mining)”“分布式(distributed)”“云计算(cloud computing)”“可视化(visualization)”等。这个方向的研究者主要对数据的分析技术进行探讨,关注如何依靠数据技术实现对海量教育数据的分析和挖掘。分布式、可视化、数据挖掘是目前大数据技术服务教育领域的主要方式,尤其教育数据挖掘、机器学习预示着基于海量学习数据的统计分析基础上实现智能化的发现和预测,可能代表着未来教育的潜在模式。
三是关注大数据背景下学习方式研究。代表关键词有“深度学习(deep learning)”“在线学习(online learning)”“电子学习(e-learning)”“学习分析(learning analytics)”“效果(effect)”“绩效(performance)”等。这方面重点分析基于大数据技术的个性化学习模式给教育带来的巨大变革,推进深度学习、实践以及问题解决为导向的教学模式改革。随着互联网等技术在教育中的不断应用,新型学习方式不断涌现,电子学习、在线学习等改变了传统的教育方式,也促进新型而适宜的教学模式和学习环境的形成与构建。大数据技术可以深入学习情境,发现隐性规律,为教育者提供有关学习者学习风格、学习行为等的重要信息,实现教育决策的科学与精准预测。
(六)教育大数据研究演进脉络分析
数据演进脉络可以直观地反映出教育大数据研究的发展轨迹,对于我们把握教育大数据研究的发展趋势和前沿都有着重要意义。引用文献和关键词变化可为数据演进脉络梳理提供重要参考。其中引用文献又作为论文来源的重要知识基础,对我们分析论文背后关注方向的转变具有重要的参考价值。
我们将样本数据导入软件,设定参数运行程序,形成文献共被引网络图谱(如图5)。
在网络图谱中共形成节点257个,每个节点代表一篇引文文献,节点的大小代表引文被引用的频次高低,引文之间的引用关系则通过连线表示。我们按照被引频次,筛选出被引高于10次的9篇引文文献,将这9篇文献作为国际教育大数据研究的高被引文献,按照时间排列如表4所示。
从被引频次看,这9篇引文文献反映了国际教育大数据研究领域的高影响力文献和前沿文献,可视为国际教育大数据领域重要的知识载体。借助引文文献年份的变化可以窥探出国际教育大数据研究领域关注热点的演变,归纳出教育大数据研究的发展脉络和前沿。
此外,根据关键词的首次出现年份,我们编制出关键词时间统计表,通过关键词中心度值的变化分析,可为梳理教育大数据研究的发展脉络提供内容观测的时间窗口。
高被引文献构成了国际教育大数据研究的知识基础,而关键词的演变在一定程度上可以反映出教育大数据研究的热点演变。根据图1及我们所做的分析,教育大数据研究比较关键的年份为2002年和2013年,这两个年份可以视为教育大数据研究开始出现和大规模发展的重要时间节点;而从表5高频关键词中心度大小看,教育大数据研究具有重要影响力的节点出现在2008年、2010年和2013年,这些年份分别出现了“数据挖掘(data mining)”“高等教育(higher education)”和“机器学习(machine learning)”这三个较为重要的高频关键词,高频关键词每年的变化代表着研究内容的不断切换。依据高频关键词在不同时段的集合和聚类,我们可将国际教育大数据研究发展分为以下几个阶段:
1. 第一阶段(2002年至2008年):教育大数据研究的萌芽阶段
数据处理技术是这一阶段探讨的重点主题,这一点集中体现在关键词“数据挖掘(data mining)”之中,其中心度值最高达到0.71。这一阶段发表的高被引的文献开启了国际教育大数据研究的先河,新加坡南洋理工大学黄广斌(Huang, G. B. )和加拿大多伦多大学辛顿(Hinton, G. E. )的被引论文是这一时期的代表。黄广斌(Huang, G. B., 2004)提出可通过优化算法改进“极限学习机”,從而促进学习者快速有效的学习;辛顿(Hinton, G. E., 2006)强调用“唤醒算法”(wake- sleep)促进学生的深度学习。由此可见,从算法等技术的角度实现挖掘数据是这一时期学者的主要探讨方向。虽然在这一时期尚未明确提出“教育大数据”“教育数据挖掘”的概念,但已有学者从技术的视角,尝试了数据处理技术在教育领域应用的可能性,开启了国际教育大数据研究的先河,迪恩(Dean, J., 2008)在“Mapreduce:Simplified data processing on large clusters”一文中,对Map-reduce程序进行了编译,可将其应用于数据处理,该模型极大简化了传统的并行计算编程模型,提高了并行计算的效率。该篇文献被引频次高达26次,可见该文献成为较多后续研究的基础文献,受到较多关注。不过,结合图1可知,这一阶段学者们的发文量尚十分有限,教育大数据发展尚处于技术孕育的萌芽阶段。该阶段主要是学者对大数据应用于教育领域的思考,虽然首次出现了物联网、数据挖掘等关键词,但研究并不深入,研究的内容也较局限于各种数据处理技术及其对教育的影响和启发。
2. 第二阶段(2009年至2010年):教育大数据研究的兴起阶段
基于前期技术的铺垫,这一时期开始进入“教育数据的发现阶段”。从表5可知,这一时期关键词“高等教育(higher education)”“教育(education)”中心度值较高,分别达到0.25和0.16,关键词“技术(technology)”表明学界对传统数据挖掘技术依然保持关注,而“教育(education)”和“大数据(big data)”等关键词的出现则代表着这一时期学者们就信息化时代背景下大数据技术对传统教育的颠覆和对教学改革的推进的可能性进行了探讨,教育大数据的研究开始逐渐向“发现教育数据”阶段过渡。西班牙学者罗梅罗(Romero, C. )等作为较早注意到教育数据作用的权威,最早对教育数据挖掘(EDM)的概念进行定义,明确提出如下观点:教育大数据技术能够深入探寻学生的学习情境;海量数据可为教育规律的发现提供重要的样本基础;基于数据驱动的挖掘机理和学习分析可以对学习行为做出精准的分析(Romero, C. & Ventura, S., 2010)。除此之外,黄晓英(Huang, X. Y., 2010)对教育数据挖掘在高等教育领域的应用前景也进行了分析,认为数据挖掘可以用于对学习者课堂复杂行为的预测,数据处理技术可以帮助教育者还原教育本质,塑造民主、和谐的课堂气氛。不仅如此,关键词“评价(evaluation)”的出现说明,学者对大数据重塑教育评价系统的关注,打破以考试和作业为指标的传统衡量方式,将传统的单一的经验式评价转变为基于教育大数据的过程式评价,挖掘更为隐性的学习者特征。总之,这一时期的关键词主要集中在“教育(education)”“评价(evaluation)”等主题中,表明此阶段大数据研究开始摆脱单纯对技术的依赖,逐渐向学习方式和教学活动领域渗透。
3. 第三阶段(2011年至2012年):教育大数据研究的初步发展阶段
这一时期的研究热点由大数据技术教育应用的可行性探讨转向大数据技术对教育决策的支持探究,开启了由“发现数据”向“挖掘数据”转变的初步尝试,开始聚焦教育数据挖掘技术的预测和决策功能。与上一阶段不同的是,这一时期关键词主要集中在“知识(knowledge)”“发现(discovery)”“学生(student)”“决策(decision)”等方面,表明研究开始侧重对教育数据的升华,以及大数据技术在教育具体方向的尝试性应用。大数据在教育领域的应用从本质而言就是数据经过分析处理后,逐步提升为信息和知识,实现从底层向顶层的升华(王萍, 2015)。2011年。麦肯锡报告正式标志着“大数据时代”的来临。美国政府率先做出回应,2012年,奥巴马政府在白宫网站发布了《大数据研究和发展倡议》,宣布投资2 亿美元到大数据领域,以推动转变现有的教学与学习方式,这一举动引发世界的关注。如何直接使大数据技术在短时间内对教育产生深刻影响,实现下层抽象数据由向上层知识的转换则引发了学者更深层次的思考。印度学者夏尔马(Sharma, M., 2011)认为,预测功能是大数据技术在教育中最直接的应用,他尝试以自组织树算法(SOTA)对学生在线学习日志中的数据进行分析,并成功对学生成绩进行了预测,实证结果表明,预测成绩与学生真实成绩呈现出高契合度。在教育领域应用抽象数据,实现预测导向,对数据处理技术也提出了更高的要求,关键词“技术(technology)”的持续出现也印证了这一点,数据挖掘技术依然受到学者的重视,但与之前不同的是,这一时期学者赋予技术更明确的针对性,以已有的技术模型和方法评估学生的学习进程,并尝试对学习绩效进行预测进而发现潜在的问题成为这一时期学者探究的关键。黄广斌通过改良极限学习算法完善了自适应学习系统的架构,实现了更有效的基于数据驱动的挖掘机理和学习分析,为在学习情境中实现精准预测奠定了重要基础(黄广斌, 2012)。总之,此阶段学者围绕数据的预测和决策功能的探讨,是教育数据服务教学的最初尝试。
4. 第四阶段(2013年至今):教育大数据研究的深入发展阶段
教育大数据研究在这一时期开始呈现多元、深入的发展趋势,研究聚焦开始转向更为具体的微观层面,基于上一阶段对教育数据利用的初步探究后,学者对如何进一步实现数据的有效利用进行了更多维的探讨。关键词“雅虎(Yahoo)”“智慧(smart)”“个性化学习(personalized learning)”“安全(security)”等代表的诸多相关领域受到关注。随着人工智能等信息技术的快速发展,实现尊重个体学习差异的个性化教学成为大数据时代进行教学策略动态调整的新要求。舍恩伯格(2013)在《大数据时代》中提出:“传统教育策略的制定主要以教师的教学经验为参照,进而实现对学习者学习行为的判断,而大数据对学生学习过程的重塑主要是基于三个特征:预测、个性化和反馈。”美国教育技术办公室基于不断变化的技术环境发布的“国家教育技术规划”持续受到国际的关注,其在2016年发布的第五份“国家教育技术规划”中就曾明确指出,大数据技术在基于海量学习数据的统计分析基础上,实现教学智能化的发现和预测,可以有效和有针对性地辅助学习者的个性化发展。不仅如此,有效利用数据也逐渐渗透到数据发现所隐含的伦理道德规则之中。个性化服务意味着教师要尽可能地满足学生特定的学习需求,不可避免地要对学习者的学习行为相关数据进行收集、分析和挖掘,而个人数据的收集必然涉及数据隐私问题。在开放环境下合理开展教学活动需要教师有特别的数据智慧,这种智慧不仅要求教师具备基于数据确认学生学习需求、实施教学方案的数字素养,而且更需要遵循数据开放边际的伦理要求。关键词“雅虎(Yahoo)”“安全(security)”的出现在一定层面上反映了学界对2014年的雅虎数据泄露事件引发数据安全的担忧,美国也重新对《家庭教育权利和隐私权法》(FERPA)和《儿童在线隐私权保护法》(COPPA)等数据安全法案进行再授权,强化了学生数据保护的法律规范和问责机制,为大数据保护的法制健全树立了典范(王正青, 2016)。学界对数据安全问题的关注在高被引文献中也得到体现,吴信东(Wu, X. D., & Zhu, X. Q., 2014)等提出了一种数据挖掘模型,该模型将数据溯源、数据水印、身份认证、数据发布匿名保护、社交网络匿名等技术纳入其中。该篇文献被引频次在关键文献中高居第二位,这也预示着教育数据安全、隐私等具体问题在近年里受到关注。总之,在数据处理技术不断成熟的背景下,在不违反伦理原则的前提下,进一步挖掘教育数据的利用价值,更有效地服务个性化学习也必将是未来学习关注的焦点。
综上所述,从演进脉络看,国际教育大数据发展依次经历了在数据挖掘技术中孕育、可行性探討、依托成熟技术模型实现教育决策、基于数据的个性化服务四个时期,在这个发展脉络中,技术始终扮演着重要角色。研究聚焦也实现了三个方面的变化:一是由“技术主体”向“学习服务”理念转变;二是由自上而下的宏观理论探讨转向对自下而上的微观具体问题的关注;三是从关注教育数据挖掘的内涵转向如何合理、高效地实现教育大数据服务。这三个方面的变化也代表着教育大数据的研究正不断走向深化。此外,经过软件探测,笔者发现(如图6),数据挖掘将依然是未来国际教育大数据研究的前沿方向,必会持续受到学者的关注。
四、结论与反思
(一)结论
本文基于WOS数据平台,通过文献计量方法并使用CiteSpace软件对国际教育大数据研究的现状、热点以及发展脉络进行了分析。在基于关键词共现知识图谱和引文共被引图谱的基础上进行动态信息挖掘,并对关键文献进行了深入阅读分析,形成以下结论。
第一,从文献发表时间分布看,截至目前可大致分为三个阶段:从2002年到2006年为首篇之后的零增长阶段,从2007年到2011年为缓慢增长阶段,从2012年到2016年为快速增长阶段。最早的关于教育大数据的研究文献出现在2002年,但由于当时教学理念、技术支持等因素的限制,尚未得到广泛的推广和关注,可以说,从发文量上看,2002年、2013年是国际教育大数据研究发展具有标志性的时间节点。截至今日,国际针对教育大数据的研究仍处于快速发展期。据统计,由于文献入库的延迟, 2017年1月1日至12月31日已有96篇文献入库,可以预测未来对教育大数据的研究仍将呈现增长态势。
第二,从热点区域和机构看,美国、中国、新加坡已经成为教育大数据研究的热点区域,美国、中国学者的科研产出较多,而新加坡学者研究成果的质量较高,呈现“三足鼎立”之勢,这三个国家成为教育大数据领域具有奠基性意义的区域;而高等院校则成为国际教育大数据研究的主要机构群体,来自美国明尼苏达大学、中国社会科学院的学者发文量、总被引频次以及篇均被引频次均名列前茅,其成果受到国际学者的格外关注,已经成为国际上教育大数据研究的主体力量。
第三,从核心作者看,目前在国际上已经形成了一支教育大数据研究核心作者群,这些核心作者硕果累累,其研究成果的质量也处于较高水平,来自明尼苏达大学的扬纳基斯、马尔达尼是其中较有影响力的研究者代表,他们的研究成果受到国际教育大数据领域学者的较多关注,其研究方向在一定程度上可代表领域内的热点与前沿问题。但在今后的研究中,应引导相关领域的学者们共同关注和探索教育大数据研究,广泛开展地区之间的学术交流,共同探讨教育大数据研究的可持续发展之路。
第四,从研究热点和前沿看,可归纳为三个方面:教育大数据的理论应用探讨、大数据处理技术在教育领域的应用以及大数据背景下的学习方式研究。它们共同构成了国际教育大数据领域的研究热点。从中心度和频次的对比看,数据挖掘技术是教育大数据领域关注的重点方向,而大数据背景下对高等教育、云计算研究的关注有待进一步提升。结合梳理出的关键文献,整体来看,教育大数据的研究主题已经开始偏向于实践领域,将已有的数据挖掘模型应用于教育数据的处理,进而实现教育的预测和评价导向已经成为国际学者关注的热点,数据挖掘技术仍将获得持续性关注。
第五,从教育大数据研究的发展脉络看,教育大数据在本世纪初开始萌芽,期间经历了大数据技术在教育领域的兴起与初探,目前已经走向深入发展阶段,学者开始聚焦数据的安全和隐私等具体问题。从每个阶段的研究重点和转向看,国际教育大数据研究实现了从对单纯数据挖掘技术的依赖向依托数据挖掘技术教育决策应用的过渡,其中形成的一些经典文献对我们丰富教育大数据研究的理论积淀、把握发展方向都有重要的借鉴意义。
(二)反思
横向来看,我国目前已经成为教育大数据研究的热门区域,不仅发文量名列前茅,而且涌现出如中国科学院等研究成果优质的科研学术机构,在国际教育大数据的研究舞台上占据了重要地位。欣喜之余,我们也要对我国研究成果的不平衡现状保持清醒。我国学者对教育大数据的研究成果的整体篇均被引频次仅为3.86次,与新加坡学者的14次、美国学者的6.53次均有一定差距,而中国科学院学者研究成果的篇均被引频次却高达24.14次,可见中国学者的教育大数据研究成果质量差异较大,除个别机构外,整体呈现学术交流能力不强的现状。
目前,国内已有学者对我国教育大数据研究现状进行了分析,按照研究方法可大致将其分为两类:一是采用传统文献综述方式,以刘凤娟等为代表;二是采用知识图谱方式,以王娟、裴莹等为代表。其中知识图谱的方式又可基本分为SPSS和CiteSpace两种方式,其数据来源均以中国知网为基础。综合他们对国内教育大数据研究的梳理,对比本研究,我国教育大数据研究的特色和不足初见端倪。
其一,从发展脉络看,我国教育大数据研究发展稍显滞后。刘凤娟(2014)采用文献分析法对我国教育大数据研究发展脉络进行梳理,依据文献发文量,她认为2012年我国的教育大数据研究开始萌芽,有5篇相关论文收录;而2013年之后,我国教育大数据研究论文数目开始倍增,教育大数据研究正式起步。而裴莹等(2017)通过区视图利用知网收录的文献对我国教育大数据研究发展脉络也进行了梳理,将国内的研究分为三个阶段:开始应用阶段(2013年)、兴起阶段(2014年)、深入发展阶段(2015至2016年)。综合以上两位学者采用不同方法梳理出的结果并与本研究对比,可得出以下两点结论:①国内外相关研究的关键时间点基本一致。2013年是我国教育大数据研究发展具有里程碑意义的时间点,而本研究梳理出的国际大数据研究的关键时间点为2002年、2013年,国内发展基本符合国际发展趋势;②国内研究发展推进稍显滞后。本研究显示,国际教育大数据研究可追溯至2002年,2013年步入深入发展期,至今已完成了从可行性探讨向关注教育大数据应用的转变,而裴莹等人的研究揭示出,国内教育大数据的研究自2013年开始萌芽,虽2015年进入深入发展阶段,但至今仍处于可行性的理论性探讨阶段,实证研究广度不够(裴莹等, 2017)。以此推断,国内发展时间和研究范式均体现出一定的滞后性。
其二,从研究热点和前沿看,国内研究特色明显,对主流问题关注尚可,但对部分前沿问题聚焦不够。有相关学者虽采用不同方法,但均对国内教育大数据研究热点前沿问题进行了关注。崔晓鸾(2016)采用SPSS软件的聚类功能分析出国内教育大数据研究的热点方向为理论研究、以思想政治教育为代表的高校教育改革研究、个性化学习研究;而王娟(2016)采用CiteSpace软件分析出,“学习分析”“机器学习”“数据挖掘”“慕课”“教学改革”“高等教育”“思想政治教育”等为国内研究的热点词汇,而“数据挖掘”“高职教育”则是国内研究的前沿突显词;裴莹(2017)根据CiteSpace分析的关键词,将国内研究领域概括为大数据技术、学习方式探索、个性化教学改革、学习行为分析等几个热点方向。对比表3国际研究热点高频关键词及其分析可以发现:首先,国内研究热点与国际关注的主流方向基本一致,关键词“数据挖掘”“学习分析”“机器学习”“高等教育”等均为国内外学者关注的高频词汇,可见,国内外学者对主流方向的关注基本趋同;其次,国内研究前沿多元,关注特色明显,在研究前沿突显词方面,“数据挖掘”“职业教育”是国内学者关注的前沿方向,而国际仅探测出“数据挖掘”这唯一突显词,从这个角度而言,国内研究发展的潜在趋势更为多样。不仅如此,关键词“思想政治教育”均不约而同地出现在三位学者统计的国内热点词汇中,可见大数据为思想政治教育带来的机遇与伦理挑战研究引起国内学者的关注,成为国内大数据研究的重要方向之一,而国外学者却鲜有涉及,这可能与中国特色密切相关。但从表3中关键词“安全(security)”和脉络前沿所反映出的国际学者关注的数据安全问题,均未见于以上三位国内学者对中国研究热点的梳理,可见,国内尚未出现相关词汇与文献,聚焦略显不够。
其三,從研究方式看,国内外研究均呈现高校研究为主体、学术交流缺乏的特征。王娟等(2016)通过对国内教育大数据研究机构的梳理发现:国内教育大数据研究的高产机构均来自国内高等院校,但研究团体分散,不同机构之间交流合作较少(裴莹等, 2017)。可以看出研究合作群体的凝聚力不够是国内外研究团队的共性;不仅如此,在其研究中,江苏师范大学、西南大学等高校是国内教育大数据研究的高产机构,这一点与本研究筛选出的中国科学院等结果存在一定出入。笔者认为,这可能与数据来自不同数据库有关,从本研究的分析看,国内学者的相关研究已颇具特色,国内学者应扩大学术视野,树立学术自信,积极参与国际教育大数据研究的交流。
总之,综合分析看,中国教育大数据研究需要明确国际化方向,形成自己的核心研究团队,国内高等院校更应该在其中发挥引领和奠基作用,积极参与国际交流与合作研究,以保持对国际主流与前沿方向的警觉。当然,从中国国情来看,我们也不能盲目跟风、机械照搬,扎根实践的调查研究和经验研究尤为关键。只有立足中国独特的教育大数据研究的文化处境和实践经验,累积一项项调查研究和经验研究,才可能形成中国特色的学术概念和分析框架,推动中国教育大数据研究的范式转型与良性发展,为国际学界贡献中国的知识与经验。
[参考文献]
崔晓鸾,赵可云. 2016. 大数据在教育领域的研究热点及发展趋势——基于共词分析的可视化研究[J]. 现代远距离教育(4):79-85.
胡弼成,王祖霖. 2015. “大数据”对教育的作用、挑战及教育变革趋势——大数据时代教育变革的最新研究进展综述[J]. 现代大学教育(4):98-104.
金慧,刘迪,高玲慧,宋蕾. 2016. 新媒体联盟《地平线报告》(2016高等教育版)解读与启示[J]. 远程教育杂志,35(2):3-10.
刘凤娟. 2014. 大数据的教育应用研究综述[J]. 现代教育技术,35(8):13-19.
裴莹,付世秋,吴锋. 2017. 我国教育大数据研究热点及存在问题的可视化分析[J]. 中国远程教育(5):1-8.
王娟,陈世超,王林丽,杨现民. 2016. 基于CiteSpace的教育大数据研究热点与趋势分析[J]. 现代教育技术,26(2):5-13.
王萍. 2015. 大数据时代提升教师数据智慧研究[J]. 开放教育研究, 21(3):30-39.
王正青. 2016. 大数据时代美国学生数据隐私保护立法与治理体系[J]. 比较教育研究,38(11):28-33.
维克托·迈尔-舍恩伯格,等. 2013. 大数据时代[M]. 盛杨燕,等,译. 杭州:浙江人民出版社.
张洪孟,胡凡刚. 2015. 教育虚拟社区:教育大数据的必然回归[J]. 开放教育研究,21(1):44-52.
张怀南,杨成. 2013. 我国云计算教育应用的研究综述[J]. 中国远程教育(1):20-26,95.
张敏,沈雪乐. 2014. 国际知识发现研究领域核心作者群成熟度分析[J]. 情报杂志,33(8):111-116.
赵新亮,张彦通. 2017. 乡村教师研究的国际前沿、主题演变及知识基础分析——基于2000—2016年主题为“rural teacher”的SSCI论文数据[J]. 湖南师范大学教育科学学报,16(4):16-22.
郑燕林,柳海民. 2015. 大数据在美国教育评价中的应用路径分析[J]. 中国电化教育(7):25-31.
Department of Education. (2015, December). Future Ready Learning: Reimagining the Role of Technology in Education. National Education Technology Plan. Retrieved November 18, 2017, from https://tech.ed.gov/files/2015/12/NETP16.pdf
Department of Education. (2017, January). Protecting Student Privacy While Using Online Educational Services:Model Terms of Service. Retrieved January 25, 2018, from http://ptac.ed.gov/sites/default/files/TOS_Guidance_Mar2016.pdf
Hinton, G. E. Osindero S. (2006). A Fast Learning Algorithm for Deep Belief Nets. Neural Computerion, 18(7), 1527-1554.
Huang, G. B. (2004). Extreme learning machine: Theory and applications. 8th Brazilian Symposium on Neural Networks. Sao Luis, Brazil.
Huang, X. Y. (2010). Application of Data Mining in Higher Education System. Proceedings of International Forum of Knowledge As A Service, (12), 203-206.
McKinsey & Company. (June 2011). Big data: The next frontier for innovation, competition, and productivity. Retrieved November 21, 2017, from https://bigdatawg.nist.gov/pdf/MGI_big_data_full_report.pdf
New Media Consortium. (2016, November). NMC Horizon Report -2016 Higher Education. Retrieved January 18, 2018, from https://www.nmc. org/publication/nmc-horizon-report-2016-higher-education-edition/
Romero, C., & Ventura, S. (2010). Educational Data Mining: A Review of the State of the Art. IEEE Transactions on Systems Man and Cybernetics Part c-Applications and Reviews, 40(6), 601-618.
Sharma, M. (2011). Accuracy Comparison of Predictive Algorithms of Data Mining: Application in Education Sector. Communications in Computer and Information Science, (125), 189-194.
Urbancic, T. (2002). Web-based analysis of data mining and decision support education. Ai Communications, 14(5), 199-204.
Wu, X. D., & Zhu, X. Q. (2014). Data Mining with Big Data. IEEE Transactions on Knowledge and Data Engineering, 26(1), 97-107.
收稿日期:2017-11-29
定稿日期:2018-02-07
作者簡介:蒋鑫,博士研究生,福建师范大学教育学院(350117)。
洪明,博士,教授,博士生导师,福建师范大学教育学院,福建省基础教育与教师教育研究中心(350117)。
责任编辑 郝 丹