李秀霞+宋凯+赵思喆+周娜
〔摘 要〕提取并对比中外教育大数据研究的主题分布,揭示国内教育大数据研究的不足,为国内教育大数据的进一步发展提供策略。通过Web of Science和CNKI数据库,利用共词分析法和LDA模型获取中外教育大数据研究的主题分布。国内教育大数据研究主要集中在教育教学改革、教学模式及应用、教育数据分析和个性化学习研究、人才培养、教师专业发展5个方面;而国外的研究主要集中在技术环境研究、数据挖掘及应用、教育应用研究、用户研究、开放资源与个性化教学5个方面。通过国内外研究主题对比,国内在教育数据挖掘、教育数据保护、教育应用和教育数据开放4个方面与国外存在较大的差距,针对于国内教育大数据研究存在的不足,分别从政策法规制定、智慧校园建设、人才培养模式以及媒体融合等方面提出国内教育大数据的发展策略。
〔关键词〕教育大数据;研究现状;共词分析 ;LDA模型 ;Vosviewer
DOI:10.3969/j.issn.1008-0821.2017.11.021
〔中图分类号〕G203 〔文献标识码〕A 〔文章编号〕1008-0821(2017)11-0125-05
A Comparative Analysis of the Current Situation of Educational Big Data at Home and Abroad
Li Xiuxia Song Kai* Zhao Sizhe Zhou Na
(School of Communication,Qufu Normal University,Rizhao 276826,China)
〔Abstract〕This paper extracted and compared the distribution of the education big data of Chinese and foreign,revealed the shortcomings of the research on the big data of domestic education,and provided the strategy for the further development of large domestic education data.Through the Web of Science and CNKI database,the co-word analysis and LDA model were used to obtain the thematic distribution of Chinese and foreign education data.The research of foreign education was mainly focused on five aspects: education and teaching reform,teaching mode and application,educational data analysis and personalized learning research,personnel training and teacher professional development.Foreign research mainly focused on technical environment research,data mining and application,educational application research,user research,open resources and personalized teaching five aspects.Through the comparison of research topics at home and abroad,there were four major differences in educational data mining,educational data protection,educational application and educational data liberalization in China.In view of the shortcomings of the study of large data in domestic education.The wisdom of the campus construction,personnel training model and the media integration and other aspects of the domestic education data development strategy were put forward.
〔Key words〕educational big data;current situation;co-word analysis;LDA model;Vosviewer
隨着互联网、物联网、云计算技术的蓬勃发展,海量的数据已经渗透到日常工作的方方面面,对社会生活产生重要影响。在教育领域,随着数字校园的建设,教育数据呈指数级增长,教育大数据正在成为教育领域不可忽视的新型驱动力,在教育教学研究与实践中发挥着越来越重要的作用。教育大数据的快速发展也引起了研究者和实践者的关注,国内外学者从内涵、技术应用以及实践案例等多个方面对教育大数据进行了广泛讨论。通过文献查阅,尚未发现国外关于教育大数据研究现状的文献,而国内学者对该问题的讨论较多,如赵雪飞等人通过对国内外教育大数据的相关文献进行研究,分别从文献逐年刊载量、文献来源、关键词词频统计、高频词共词分析及趋势分析等5个方面进行综述,得到了国内外教育大数据的发展现状[1]。崔晓鸾等人以中国知网中的相关文献为研究对象,对高频关键词进行共词聚类分析,揭示了我国大数据在教育领域的研究热点与发展趋势[2]。王娟等人以中国知网收录的924 篇及Google学术收录的204 篇与教育大数据相关的期刊论文为研究对象,运用信息可视化软件CiteSpace,以时空知识图谱及内容知识图谱分析为主要研究方法,揭示了国内外教育大数据的研究热点及发展趋势[3]。endprint
分析已有的研究发现,国内学者多是以共词分析为基础,对国内外教育大数据的研究现状进行总结,但并没有对国内外的相关研究文献进行主题分类,确定国内外教育大数据研究的主题分布,并通过对比找出研究差异。因此,本文拟通过Web of Science和CNKI数据库,利用共词分词法和LDA模型对国内外教育大数据的研究现状进行分析,总结主题分布,并通过国内外研究对比,揭示我国教育大数据研究中存在的不足,并提出相应建议。
1 研究方法与工具
本文通过共词分析法提取国内相关文献的主题。共词分析法通过对能够表达某一学科领域研究主题的专业术语共同出现在一篇文献中的频次进行统计,判断学科领域中主题间的关系,从而展现该学科的研究结构[4]。本文借助当前主流的网络可视化工具Vosviewer进行共词网络的主题聚类分析,Vosviewer由荷兰莱顿大学科学技术研究中心的研究员 Eck N J和Waltman L开发,他们对多种算法进行了统一,将基于距离和强度的算法进行了集合,提出了莱顿算法,该算法是对元素分布的结构相似性与网络聚类完美结合的新方法。其基本处理过程为:首先使用VOS Mapping算法实现共现矩阵,然后,依据关系远近在二维空间进行分布,进一步使用VOS Clustering算法对共现网络进行聚类分析,并在图谱上用不同的颜色代表不同的主题聚类。
因为国外文献相对较少,因此对国外文献的主题分布通过LDA模型进行主题建模。LDA 是一个多层的产生式概率模型,包含词、主题和文档三层结构。LDA模型假设词是由一个主题混合产生,同时每个主题是在固定词表上的一个多项式分布,这些主题被集合中的所有文档所共享,每个文档有一个特定的主题比例,从Dirichlet分布中抽样产生,作为一种产生式模型,其结构模型完整清晰,采用高效的概率推断算法处理大规模数据,是目前研究和使用非常广泛的一种主题识别模型[5]。利用EnStemmer工具实现去除停用词等自然语言处理规范化过程,获得实验语料库,基于開源包JGibbLDA实现LDA主题模型的参数训练。
2 数据来源与处理
本文数据来源于中文学术期刊库—中国知网(CNKI)和Web of Science核心集中的科学引文(SCI-EXPANDED)数据库。
通过CNKI检索国内文献,选择高级检索,检索主题为“教育&大数据”,时间不限,共检索到2 673篇文献,去除会议通知,征稿启事,共得到2 534篇有效文献,导出题录数据,将题录数据导入Bicomb软件数目共现分析系统,提取文献关键词,同时在Bicomb软件中对关键词进行去重、合并、删除等清洗处理和词频统计,提取词频大于2的关键词,建立共词矩阵,之后将共词矩阵导入到Vosviewer进行共词聚类。
通过Web of Science和CNKI外文文献库检索国外文献,检索主题为“education & big data”,分别检索到116篇和77篇文献并导出题录数据。首先通过Excel工具对标题、摘要、关键词进行分词处理,然后通过EnStemmer 软件进行去停用词和词干化处理,建立语料库,最后基于开源包JGibbLDA实现语料库的主题训练。
3 分 析
3.1 中外主题分布研究
3.1.1 中国教育大数据研究的主题分布
利用Vosviewer对共词矩阵进行主题聚类,通过调整参数值获得最优的聚类结果,见图1。分析图1发现,中国教育大数据的研究可分为5大主题:#1教育教学改革、#2教学模式及应用、#3教育数据分析和个性化学习研究、#4人才培养、#5教师专业发展。
1)主题1:教育教学改革
随着信息时代的迅猛发展,大数据带来的信息风暴正在变革人们的生活、工作和思维方式,在大数据环境下,我国教育领域的发展正面临前所未有的挑战,同时也迎来了新的发展机遇。国内学者从教育管理、教育模式、教育思维、教育评价和学习分析等方面对教育教学的改革与创新进行了多方面研究。
2)主题2:教学模式及应用
大数据技术的迅速发展给传统的教学模式带来了巨大的冲击,传统教学模式手段单一,教学内容枯燥,无法达到课上课下融合,实现教师个性化教学和学生个性化学习。国内学者以大数据技术应用为基础,积极推动MOOC和翻转课堂的研究与发展,以改进教学模式,促进专业建设,提高教学质量。
3)主题3:教育数据分析和个性化学习研究
“数据驱动学校,分析变革教育”,教育大数据是一种潜在的知识,需要利用数据挖掘技术和学习分析技术,挖掘和分析教育大数据背后的教育知识,通过整合分布的数据信息,实现真正意义上的个性化学习,进而实现教育公平[6]。结合大数据的特点,分析教育数据的特征,促进大学生个性化学习资源的构建、个性化学习共同体的建立和个性化学习风格的形成,为大学生提供个性化学习服务,为教师制定个性化教学方案[7]。
4)主题4:人才培养
90年代以来我国高校教育体制改革不断推进,高等教育得到迅速发展,奠定了我国的教育基础。随着大数据时代的到来,在全面推进“互联网+教育”的新常态下,大数据人才培养面临着前所未有的机遇和挑战。当前高校存在数据型人才培养体系欠缺、大数据人才培养意识不足、人才培养模式落后等问题,因此学者从构建创新教育服务云平台、打造创新教育人才培养新模式、创新教育教学组织新形式等多方面对大数据背景下创新人才培养模式进行了研究[8]。
5)主题5: 教师专业发展
教师专业发展是从20世纪90年代以来我国教师教育研究的核心问题,教师专业的发展是教师个体专业动态的发展过程,在不同的阶段呈现不同的阶段特征[9]。为适应大数据时代的发展,学者从提高教学信息技术水平、创新教学意识,培养大数据思维等方面为大数据环境下,我国教师专业发展提供新的发展思路。endprint
3.1.2 国外教育大数据研究的主题分布
对于处理后的关键词语料库,设置参数,主题数目定为5个(选择5个主题是基于实验,主题数目为5时,国外教育大数据的主要研究主题都能复现出来),主题相关词的显示数目设为50,使用Gibbs Sampling进行参数后验估计,实现主题抽取。将抽取出的主题以及主题相关词通过TAGUL绘制词云,见图2。分析图2可得,国外教育大数据的研究可以总结为5大主题:#1技术环境研究、#2数据挖掘及应用、#3教育应用研究、#4用户研究、#5开放资源与个性化教学。主要介绍如下:
1)主题1:技术环境研究
美国新媒体联盟(NMC)在2012年度地平线项目研究中,对技术融入当今的教育教学进行了全面的反思。技术的进步会对人们的社会环境产生极大的影响,也推动了教育的进步。国外学者及其重视技术环境的研究,如研究虚拟与现实学习环境在教学设计中的应用,研究云技术在大规模网络课程的普及,研究通过搭建物联网为学生提供全天候的网络信息和学习信息存取通道。
2)主题2:数据挖掘及应用研究
教育信息化的发展和网络远程教育的开展,导致教育领域的各类数据迅速增长,促使教育数据挖掘(EDM)研究的出现,目前国外对于数据挖掘的研究集中在EDM算法及其应用研究、EDM方法和数据的标准化研究、开发易于使用的EDM 工具等,其中应用研究的文献居多,通常是采用一定的数据挖掘方法、选用合适的数据挖掘工具,对来自于一般的网络课程、学习内容管理系统或自适应智能网络教育系统的数据进行挖掘,解决一定的教育教学问题[10]。
3)主题3:教育应用研究
由于博客(Blog)、维基(Wiki)、社会性网站(SNS)和新的移动上网设备的广泛应用,Web技术逐渐改变了人们交往方式、创造和共享数据的方式。国外学者对Facebook、交互电子白板、视频博客以及电子游戏在教育应用中的人力资源优势和技术优势进行了研究,而这些应用也为教育教学产生了积极的影响,为网络环境下开展的社会化教学提供了支持。
4)主题4:用户研究
教育的最根本目的是为了促进学习者的发展,而教育大数据的研究应用也必须遵循这一原则,以用户为中心,因此用户研究是教育大数据发展的基础与前提。国外用户研究涉及用户行为分析、用户评价以及用户隐私保护等方面,记录用户的学习行为和在学习资源上的数据,清晰了解教育状态信息,对学生、教师以及教学管理等方面的评级通过大量的数据感知得到,为实现教学评价的公正提供依据。同时教育大数据也面临着数据安全与隐私保护的挑战,如果教育大数据处理不当将导致严重的安全漏洞,因此国外学者特别重视对有关学习者和教育工作者数据的保护研究[11]。
5)主题5:开放资源与个性化教学
教育大数据的重要价值,首先来自于其数据的大规模和全面性,规模的形成需要广泛的数据共享与开放。国外学者对数据共享开放和应用规则的建立进行了深入讨论,提出建立有效的资源共享机制,通过多种途径汇聚教学、研究和管理数据,扩大数据的规模,形成教育大数据的独特优势。数据共享、资源开放是搭建个性化学习平台的基础,通过大数据分析可以定制个人学习报告,分析学习过程中潜在的学习规律,实现精准的个性化教学。
3.2 中外研究主题的差异分析
通过对中外教育大数据的研究主题进行比较,中国在教育数据挖掘、教育数据保护、教育应用和教育数据开放这4个方面与国外存在较大差异,具体介绍如下:
1)国外教育数据挖掘侧重应用研究,而国内侧重理论研究。
国外教育数据挖掘研究主要涉及三方面:理论探索和方法介绍的描述性研究、可行性分析论证研究、教育数据挖掘方法的具体应用,主要研究集中在教育数据挖掘应用方面。同时国外的研究通常可以转化为实际应用,如美国将教育数据应用到医疗、保险、户籍等多个方面,通过数据的关联分析与挖掘为用户提供精准服务。而我国对于教育数据挖掘的研究更侧重于理论层面的探索以及对国外案例介绍,对挖掘技术的应用研究相对不足。
2)国外注重教育数据的保护研究,而国内相关研究缺乏。
國外对于教育数据的保护研究从立法、行业自律以及软件保护3个方面出发,推动政府制定了一系列法律政策,因此国外对于个人教育数据隐私权尤其是针对未成年人儿童在线隐私保护的研究是较为完善的。近几年国内对教育大数据展开广泛研究,目前更多的是针对教育大数据的采集、分析、应用,忽视了对教育数据的保护工作,同时国内也没有明确的法律条规来规范针对教育数据的隐私保护,因此需要重视对教育数据保护的研究工作。
3)国外将新媒体应用于教学的研究呈多元化发展趋势,而国内研究相对单一。
国外对新兴技术与新媒体应用于教学的研究呈多元化趋势,而这些研究也推动了一系列教育应用的发展,例如MOOC、翻转课堂、POC在线课程、可汗学院、微课、APP Nearpod等一系列多媒体应用。而国内研究比较单一,更多的是对国外的经验的借鉴,近几年在国内兴起的幕课研究仍处于探索阶段,而翻转课堂、微课的应用研究还需要进一步加强。
4)国外对教育数据开放的研究相对完善,而国内研究处于起步阶段。
国外对于教育数据开放的研究相对成熟,从法律到基础设施都相对完善。在数据资源开放方面,麻省理工学院(MIT)开放课程项目(OCWC),英国卡耐基梅隆大学(CMU)开放学习项目(OLI)都取得瞩目的成就,此外美国的教育数据中心(EIIC)和OnioLINK项目相比国内的CNKI工程更加完善。而国内受制于法律以及技术环境的限制,教育数据开放的研究仍处于理论层面,实际应用中主要涉及一些课程资源的开放。
3.3 中国教育大数据的发展建议
针对国内在教育数据挖掘、教育数据保护、教育应用和教育数据开放这4个方面存在的研究不足,对中国教育大数据的发展提出以下建议:endprint
1)丰富完善教育大数据安全管理法规。教育数据既是一笔宝贵的教育资产,同时也涉及到教育者和受教育者的隐私,保护不当则会带来严重的安全风险。国家应高度重视教育数据的隐私保护与安全管理,不断努力采取更先进、安全系数更高的措施来保障教育数据的安全,保护教育隐私数据不外泄、不被恶意使用。成立国家教育大数据治理机构,提升教育数据质量,保护教育数据隐私安全,保障教育数据合理应用,促进教育数据合法共享。政府部门应对教育数据加强监管,参考通信领域颁发运营商牌照的方式,制定教育数据运营商准入标准,颁布“教育数据运营商”牌照[12]。
2)从智慧校园建设入手,为数据挖掘与分析创造充分条件。随着云计算和物联网的出现,校园信息化建设应尽快从数字校园向智慧校园过渡,将校园管理的众多软件系统平台融入到校园云,实现校园实时数据的获取、存储和加工分析,逐步开展基于云计算的大数据应用,实现教学管理科学化、智能化。充分挖掘和分析现有数据,学校应将结构化数据挖掘作为大数据思维应用的切入点,注重收集和存储用户信息和行为数据,为将来各项应用做好充分准备。学校的管理决策、课堂的教学决策和对成人学习者的学习支持服务决策都将依赖于海量数据的分析结果,数据分析与挖掘将逐渐成为学校的常规工作,因此除了注重提升各部门人员的数据分析能力外,高校还需有意识地培养和储备大数据管理人才、大数据技术人才。
3)将传统媒体与新媒体有效结合,发挥各自优势。以数字化技术为基础将传统媒体与微博、移动设备等新媒体相互融合,充分发挥各自的特点,最大程度发挥传统媒体和新媒体的教育作用。新媒体具有“协作、共享”理念,在支持社会建构性学习过程中各具特色,比如,博客适合学习反思,维基适合知识管理和协同任务处理,播客适合移动学习和情境创设,而RSS适合新信息的获取和资源的聚合[13]。同时,利用新兴技术创造情境化的学习环境,3D技术的广泛应用,使得虚拟现实环境可以量身定做,通过虚拟实验室、虚拟学习平台、仿真环境及各类仿真实训系统,使学习者在虚拟环境中获得情境体验,增加学习的深度与广度,弥补现有教学条件的不足,促使课程学习进入新境界[14]。
4)完善数据共享法规的顶层设计,从国内的相关法律制度来看,2008年正式实施的《政府信息公开条例》作为有关信息公开的最高指导性政策,并没有针对教育数据的开放问题提出具体意见、办法或方案,为了能够与现阶段的信息需求相匹配,建议将教育数据开放共享的法规纳入《条例》的框架体系。同时建立教育数据质量控制和评估体系,面对大容量、多领域、高层次的综合性教育数据资源池,数据的不完整或不一致都将不同程度地影响数据的开发利用,也阻碍了教育数据的开放共享,通过借鉴国际货币基金组织提出的数据质量评估框架和软件成熟度模型,从技术和管理两个角度进行教育数据质量的控制和评估。教育数据管理人才的培育是影响教育数据开放的关键因素,因此,需要设立数据管理教育和培训项目,增设数据管理相关课程,加大实践的考核力度,培养塑造一批懂技术会管理的复合型人才[15]。
4 总 结
本文通过共词分析法与LDA模型,对国内外教育大数据的研究现状进行了主题分类,通过中外研究现状的对比分析找出国内研究的不足,并提出了相应的建议。
1)国内对教育大数据的研究主要集中在教育教学改革、教学模式及应用、教育数据分析和个性化学习研究、人才培养、教师专业发展5个方面;而国外的研究主要集中在技术环境研究、数据挖掘及应用、教育应用研究、用户研究、开放资源与个性化教学5个方面。
2)通过中外研究主题对比,中国在教育数据挖掘、教育数据保护、教育应用和教育数据开放这四个方面与国外存在较大的差异,因此需要加大对这4个方面的研究力度。
3)针对于国内教育大数据研究存在的不足,从政策法规制定、智慧校园建设、人才培养模式以及媒体融合的角度对国内教育大数据的发展提供建议。
需要说明的是,本文选取的国外数据样本较少,使分析结论存在一定的偏差;对中文关键词的清洗是由手动实现,使结果带有一定的主观性,这些问题会对结论产生一定影响,笔者将在后续的研究中加以改进。
参考文献
[1]赵雪飞,乜勇.基于词频分析的国内外教育大数据研究现状分析[J].中国医学教育技术,2016,(5):527-531.
[2]崔晓鸾,赵可云.大数据在教育领域的研究热点及发展趋势——基于共词分析的可视化研究[J].现代远距离教育,2016,(4):79-85.
[3]王娟,陳世超,王林丽,等.基于CiteSpace的教育大数据研究热点与趋势分析[J].现代教育技术,2016,(2):5-13.
[4]邹美辰.基于共词分析和社会网络分析的国内外关联数据研究探析[J].现代情报,2016,(3):135-143.
[5]张亮.基于LDA主题模型的标签推荐方法研究[J].现代情报,2016,(2):53-56.
[6]程艳,曾燕,李春雷.大数据时代我国公平教育重构[J].江西社会科学,2014,(10):248-252.
[7]王盛.网络环境下大学生思想政治教育方法创新[J].亚太教育,2016,(10):230.
[8]彭楚钧.大数据背景下“互联网+”创新教育人才培养模式研究[J].中国商论,2016,(27):191-192.
[9]向宁.大数据时代的教育信息化建设研究[J].改革与开放,2015,(24):109,111.
[10]李婷,傅钢善.国内外教育数据挖掘研究现状及趋势分析[J].现代教育技术,2010,(10):21-25.
[11]杜婧敏,方海光,李维杨,等.教育大数据研究综述[J].中国教育信息化,2016,(19):1-4.
[12]杨现民,王榴卉,唐斯斯.教育大数据的应用模式与政策建议[J].电化教育研究,2015,(9):54-61+69.
[13]曹培杰,尚俊杰,汪基德.基于词频分析的社会化软件教育应用特点[J].开放教育研究,2011,(4):102-107.
[14]王娟,吴永和,段晔,等.3D技术教育应用创新透视[J].现代远程教育研究,2015,(1):62-71
[15]王晴.论科学数据开放共享的运行模式、保障机制及优化策略[J].国家图书馆学刊,2014,(1):3-9.endprint