杨现民 唐斯斯 李冀红
(1.江苏师范大学 智慧教育研究中心,江苏徐州 221116;2.国家信息中心 中国智慧城市发展研究中心,北京 100045)
教育大数据的技术体系框架与发展趋势*
——“教育大数据研究与实践专栏”之整体框架篇
杨现民1唐斯斯2李冀红1
(1.江苏师范大学 智慧教育研究中心,江苏徐州 221116;2.国家信息中心 中国智慧城市发展研究中心,北京 100045)
文章明确了教育大数据的内涵,指出教育大数据具有战略层价值和应用层价值。基于大数据的一般处理流程并结合教育业务特点,文章构建了教育大数据的通用技术框架,包括教育数据采集层、教育数据处理层、教育数据分析与展现层和教育数据应用服务层。最后,文章分析了十三五期间我国教育大数据的整体发展趋势,主要表现在:教育数据开放程度不断提升、教育数据资产规模逐渐壮大、教育数据创新应用效应逐步扩大、教育大数据行业生态逐步完善以及教育大数据专门人才培养备受重视。
大数据;教育大数据;技术框架;发展趋势
随着大数据理念与技术在各行各业的渗透应用,教育大数据的建设与发展逐步引起了教育管理部门、企业、学校以及教育研究者的广泛关注。2015年,国家相继出台了一系列相关文件,以促进教育大数据的快速发展。如2015年9月2日,教育部办公厅印发《关于“十三五”期间全面深入推进教育信息化工作的指导意见(征求意见稿)》,提出要“依托网络学习空间逐步实现对学生日常学习情况的大数据采集和分析,优化教学模式”;9月5日,国务院正式发布《促进大数据发展行动纲要》,对10个大数据工程进行了规划,并在“公共服务大数据工程”中明确提出要建设教育文化大数据。与此同时,各省市(如北京、江苏、浙江等)也在加快推进教育大数据的建设,诸多地区已将教育大数据作为重点内容写入区域智慧教育发展规划或行动计划中。此外,中国教育大数据研究院、江苏省高校教育大数据重点实验室等专业研究机构陆续成立;教育大数据行业也在逐步兴起;在2015年中国国际智慧教育展览会上,已有一些教育信息化企业推出了教育大数据相关产品,涵盖教育数据采集、存储、处理与创新应用等多方面。
由此可见,2015年堪称中国的教育大数据元年。一系列相关政策文件与规划建议的发布,确立了教育大数据在推动教育改革与发展方面的战略地位。地方政府、研究机构、学校以及行业、企业力量的加入,将大大推动我国教育大数据的发展。在此大背景下,《现代教育技术》杂志社与江苏师范大学共同策划了“教育大数据研究与实践专栏”,旨在从理论与实践两个层面深入探讨教育大数据,一方面让国内读者系统了解教育大数据的相关知识,另一方面结合我国教育改革与发展需求提出教育大数据建设、应用与发展的思路及建议,以便为教育的决策者、管理者和实践者提供借鉴。
本专栏共12篇文章,涉及研究热点与趋势、采集与分析技术、应用案例、数据网络构建与管理、产业生态以及政策环境等六方面内容。具体来说,第一篇为整体框架介绍,重在阐释教育大数据的内涵、体量与价值,构建技术体系框架并探讨教育大数据的整体发展趋势。最后一篇为专栏总结,回顾、梳理各主题的核心内容,明确未来的研究方向与核心议题。中间部分包括六个主题:主题一为研究热点篇,应用知识图谱技术分析教育大数据的研究现状、热点及趋势;主题二为关键技术篇,探讨教育数据的来源、分类、采集工具与技术、各种教育数据分析模型;主题三为应用案例篇,系统梳理国内外典型教育大数据的应用案例,归纳应用模式与实施策略;主题四为管理篇,聚焦各个层面教育数据网络的构建,分析现存数据管理难题及其解决对策;主题五为产业篇,重点分析教育大数据产业链、发展阶段和行业生态,明晰行业问题与发展趋势;主题六为政策篇,对国内外教育大数据相关政策进行系统梳理、比较与分析,提出促进我国教育大数据发展的政策建议。
1 教育大数据的内涵
随着大数据理念的传播及其应用的逐步深入,大数据的内涵也在不断变化和拓展。人们逐渐认识到,大数据不仅仅是一种技术,也是一种能力,即从海量复杂的数据中寻找有意义关联、挖掘事物变化规律、准确预测事物发展趋势的能力。此外,大数据还是一种思维方式,即让数据开口说话,让数据成为人类思考问题、决策行为的基本出发点。实际上,大数据正在演变为一种社会文化,即人人生产数据、人人共享数据、人人热爱数据、人人管理数据的文化——这种文化正在潜移默化地影响着各个行业。教育领域虽然长期“保守”,但在大数据文化力量的冲击下,也在加速走向开放、“拥抱”大数据。
目前,学术界对教育大数据(Big Data in Education,BDE)的概念尚未有明确的界定。本研究认为,教育大数据特指教育领域的大数据,即整个教育活动过程中所产生的以及根据教育需要采集到的、一切用于教育发展并可创造巨大潜在价值的数据集合[1]。教育大数据直接产生于各种教育活动(包括教学活动、管理活动、科研活动、校园活动等),每个教育利益相关者既是教育数据的生产者也是教育数据的消费者。教育大数据具有明确的目标指向性,即指向教育发展,能在提升教育质量、促进教育公平、实现个性化学习、优化教育资源配置、辅助教育科学决策等方面发挥有效作用。因此,教育大数据的建设并非要盲目囊括一切数据,而是要对数据予以有选择性的采集、存储与分析。与传统教育数据相比,教育大数据的采集具有更强的实时性、连贯性、全面性和自然性,其分析处理更加复杂和多样,应用更加多元、深入;与电子商务、交通、医疗、金融保险等领域的大数据相比,教育大数据的采集过程更复杂,应用模式更具挑战性,且更注重因果关系。
2 教育大数据的体量
IT界普遍认为,大数据指体量在Tb级别以上或者条目在百万级别以上的数据。实际上,大数据是个相对于小数据而言的概念;大数据并非等同于大量的数据,而是突出强调跨领域数据的交叉融合和数据的流动生长。
部分教育领域从业者常有这样的困惑:教育到底有没有大数据?《中国基础教育大数据发展白皮书》(以下简称《白皮书》)编委会面向全国教育信息化领域的研究者、管理者、一线教师等进行了一项调查,全国共有28个省市的757人参与了该项调查。结果显示,调查对象中约有75.3%认为教育领域存在大数据,9.51%认为教育领域根本不存在大数据,还有15.19%表示不清楚。那么,到底教育大数据的体量有多大?如果按IT界对大数据体量的界定,教育领域是否存在真正的大数据?为此,《白皮书》编委会对基础教育阶段一年的数据量进行了估算。
基础教育大数据体量估算的维度与基准值如图1所示,包括对师生基本信息数据、课业测试与作业数据、校园实录数据和课程资源数据的估量。依据教育部发布的《2014年全国教育事业发展统计公报》中的数据和图1的基准值进行计算,对班级、校园、区域和全国基础教育大数据一年的数据量予以估算,所得估算结果如图2所示。
图1 基础教育大数据体量估算的维度与基准值
图2 基础教育大数据体量估算结果(一年)
需要说明的是,《白皮书》只粗略地计算出了正规学校教育中产生的数据,而许多非正规教育活动的数据如校外辅导班的学习数据、网络自主学习数据等并没有计算在内。即使在数据不全的情况下,我国基础教育阶段一年的数据量也可达到12Eb=12288Pb。网络上对Pb级数据体量予以了形象说明:假设手机播放MP3的编码速度为平均每分钟1Mb,而1首歌曲的平均时长为4分钟,那么1Pb歌曲可以连续播放2000年;如果智能手机、相机所拍照片的平均大小为3Mb,打印照片的平均大小为8.5英寸,那么总共1Pb照片的并排排列长度就能达到48000英里——大约可以环绕地球2周[2]。
因此,可以肯定地说,无论是按Eb还是Pb量级来规定大数据的体量要求,中国教育领域都存在真正的大数据!
3 教育大数据的价值
目前,新闻媒体已有不少有关教育大数据的报道,学术界也对教育大数据的应用模式与价值进行了初步探讨。《白皮书》调查结果显示,绝大多数用户(96.17%)认为教育大数据能够助推和引领教育改革。归纳起来,教育大数据的价值主要体现在两个层面:
(1)战略层价值
体现在:①教育大数据是一种无形的战略资产、是一座可无限开采的“金矿”,充分的挖掘与应用是实现数据“资产”增值的唯一途径;②教育改革既要有胆魄,更要有科学的依据,教育大数据是推动教育领域全面深化改革的科学力量;③教育大数据汇聚、存储了教育领域的信息资产,是发展智慧教育最重要的基础[3]。
(2)应用层价值
体现在:①开展数据驱动的教育决策,实现教育设备与环境的智能管控,提升教育危机预防与安全管理的能力;②持续优化教与学,辅助教师开展精准教学,辅助学生实现个性化学习;③促使教育评价从“经验主义”走向“数据主义”、从“宏观群体评价”走向“微观个体评价”、从“单一评价”走向“综合评价”;④教育数据的合理、合法、有效、创新应用,不断催生越来越多样化且越来越智慧化的教育服务;⑤推动社会科学的研究范式从抽样模式走向全样本模式,使社会科学成为一门实实在在的实证科学[4]。
教育大数据的最终价值应体现在与教育主流业务的深度融合以及持续推动教育系统的智慧化变革上。目前,国内外已有一些教育大数据的创新应用案例,涵盖教学、管理、评价、服务等方面,这些案例将在本专栏的应用案例篇得到详细的剖析。总的来说,目前教育大数据的应用层价值已经初显;随着应用范围和效果的累积,教育大数据的战略层价值也将逐步实现。
一般而言,大数据的处理流程包括数据采集、数据处理、数据分析与应用服务四个环节。依据此流程同时结合教育的业务特点,本研究构建了教育大数据技术体系框架,如图3所示。
图3 教育大数据技术体系框架
该框架从下往上依次是:教育数据采集层、教育数据处理层、教育数据分析与展现层和教育数据应用服务层——通过数据传输接口,数据采集层将采集到的各类教育数据传递给数据处理层,并通过数据整合、存储形成教育数据平台;基于该教育数据平台,分析与展现层可实现教育数据的可视化展现和大数据的分析与挖掘,并将分析结果通过数据接口传递给应用服务层。在该框架中,安全与监控贯穿整个流程,以保证教育数据各个环节的安全性和可控性;标准与规范则是整个框架的基础,以保障各个环节之间以及整个系统教育数据的融通与共享。具体来说,各个环节的主要任务及其涉及的关键技术如下:
1 教育数据采集
为了保证大数据的可用性,首先必须在数据的源头上把好质量关,做好从原始数据到高质量信息的预处理。与传统教育数据相比,教育大数据的来源更加多样化,包括业务系统内部数据、互联网数据和物联网数据等,不仅数量庞大、格式不一,而且质量良莠不齐。因此,教育数据采集环节必须规范数据格式并进行初步预处理,以便于后续教育数据的存储、管理与应用。
该环节涉及的关键技术包括:数据源的选择和高质量原始数据的采集方法,多源数据的实体识别和解析方法,数据清洗和自动修复方法,数据演化的溯源管理,数据加载、流计算、信息传输技术等。
2 教育数据处理
教育数据处理环节包含数据整合和数据存储。其中,数据整合是指通过高质量的数据整合方法,对数据进行加工处理,并在尽可能保留原有语义的情况下去粗取精、消除噪声,从全局的角度保证数据的一致性和相关性;数据存储是所有数据的集中存放地,主要用来存放各种结构化、半结构化和非结构化的历史数据、预测数据、汇总数据以及需要共享的数据等。教育大数据的存储系统不仅需要以极低的成本存储海量数据,还要适应多样化的非结构化数据管理需求,具备数据格式上的可扩展性。
教育业务具有较强的差异性和灵活性,因此需要根据教育数据的类型和具体的分析目标,灵活选用或改进数据处理的算法模型。目前,主流的开源大数据处理平台有Hadoop、Spark等。
3 教育数据分析与展现
教育数据分析与展现环节的主要任务是对上一个环节处理后的数据进行深度价值挖掘,涉及的关键技术包括教育数据挖掘和学习分析。
(1)教育数据挖掘
教育数据挖掘是一个将来自各教育系统的原始数据转换为有用信息的过程,这些有用信息可为教师、学生、家长、教育研究人员以及教育软件系统开发人员所利用[5]。传统教育数据挖掘的多是结构化、单一对象的小数据集,其挖掘更侧重根据先验知识预先人工建立模型,然后依据既定模型进行分析。对于非结构化、多源异构的教育大数据集的分析,往往缺乏先验知识,很难建立显式的数学模型,这就需要发展更加立体化、全息高维的数据挖掘方法与技术。
(2)学习分析
学习分析是指通过测量、收集、分析、汇报学习者和他们所处环境的数据,用以理解和优化学习以及学习发生的环境[6]。学习分析和教育数据挖掘密切相关,应用的分析方法也较为相似。目前,学习分析领域常用的分析方法包括网络分析法、话语分析法和内容分析法[7]。近年来,越来越多的研究者如Yang X M等[8]、Hou H T等[9]开始应用滞后序列分析法,来识别各种在线学习行为模式。
除了教育数据挖据与学习分析,如何利用数据可视化技术让复杂的分析结果以更加直观、易于理解的方式呈现给用户,也是教育大数据发展过程中亟需解决的重要问题。
4 教育数据应用服务
教育数据应用服务是将教育数据分析的结果用于改善不同的教育业务,最终服务教育的整体改革与发展。当前,教育数据应用服务主要聚焦在精准教学、科学管理、全面而有个性的发展评价、个性化服务以及基于全样本的科学研究五个方面,服务对象主要包括教师、学生、家长、教育管理者和社会公众五类用户。
通过对教育大数据的分析,可以辅助教师更好地调整和改进教学策略,重构教学计划,完善课程的设计与开发;向学生推荐个性化的学习资源、学习任务、学习活动和学习路径;帮助家长更加全面、真实地认识孩子,与学校一起促进孩子的个性化成长;帮助教育管理者进行更科学的管理决策;帮助社会公众把握教育的发展现状,享受更具针对性、更适合自己的终身学习服务。
2015年国家大数据战略与“互联网+”行动计划的推出,为大数据理念与技术在教育领域的快速渗透和应用推广提供了强有力的保障。十三五期间,大数据与教育核心业务的融合,将成为驱动新一轮教育改革与发展的创新动力,教育大数据将呈现如下发展趋势:
1 教育数据开放程度不断提升
大数据时代,政务公共数据作为社会大众共享的无形财富,其开放已成为数据整合和共享应用的前提条件。目前,已有40多个国家开始推动本国公共数据的开放建设,并在全球范围内掀起了一股公共数据开放的热潮。教育数据作为公共数据的重要组成部分和基础内容,可以预计其开放的范围将越来越大、开放的程度将越来越高。在这一背景下,我国的教育政策有必要逐步走向开放,允许更多的企业和社会力量共同参与教育决策与治理;而教育数据的适度开放和合理运营,将有助于减轻我国政府和教育机构的经济压力,同时激活更多的教育创新因子,多方协同提升教育的质量和服务水平。当然,随之而来的教育数据隐私与安全问题也将更加突出,这就需要我国通过技术、制度、培训等多种措施来保障教育大数据的安全。
2 教育数据资产规模逐渐壮大
十三五期间,学习大数据与管理大数据的建设可能被写入各地教育信息化发展规划,教育大数据作为重要战略资产的意识将逐步加强。随着“三通”工程(网络学习空间人人通、优质资源班班通、宽带网络校校通)的进一步开展以及全国各地数字校园、智慧校园、智慧城市建设步伐的不断推进,越来越多的教育数据能够被采集和分析,教育数据将会以几何级的规模递增。“两平台”(国家教育管理公共服务平台和国家教育资源公共服务平台)将成为国家教育数据网络的中心节点,带动全国教育数据资产的快速累积。点阵数码笔、拍照搜题、物联感知、情境识别等这些自然便捷的教育数据采集设备和技术,将逐步融入教育的核心业务之中,让每位教育利益相关者都成为教育大数据网络中的神经元、成为教育数据资产的创造体。
3 教育数据创新应用效应逐步扩大
当前,国内已有一些高校和科研机构开展了教育大数据的应用研究与实践探索,在经济困难学生预警、大学报考难度预测、学校资产智能管理等方面取得了初步的成效,并产生了一定的社会影响。然而从整体来看,我国的教育大数据应用仍然比较零散,缺乏成熟的应用推广模式。如何进一步扩大教育大数据的应用范围和价值,是十三五期间教育大数据发展的重点任务。随着全国各地教育大数据研究机构、教育大数据行业、企业以及学校力量的加入,教育数据创新应用的广度和深度都将大为拓展。教育大数据在促进教育公平、提升教育质量、减轻学业负担、改革考试招生制度等方面,将发挥越来越重要的作用。
4 教育大数据行业生态逐步完善
国内教育大数据行业快速发展的“苗头”已经初显,如市场上已经出现了不少教育大数据的相关产品(包括题库类产品、适应性学习平台类产品、学习预警类产品等),用户规模也在逐步扩大。虽然教育大数据产业存在专业人才缺乏、产品同质现象严重、行业标准与规范缺失等诸多问题,但随着我国教育信息化政策环境的逐步完善以及行业结构的逐步优化,十三五期间有望形成和谐健康的教育大数据行业生态。基础设施提供商、数据采集提供商、数据挖掘与分析提供商、数据应用服务提供商、数据安全提供商、终端用户、教育行政部门以及教育大数据标准研制单位等诸多角色通过合理分工、有效协同,将推进教育大数据行业的持续有序发展。
5 教育大数据专门人才培养备受重视
专业人才缺乏是制约我国教育大数据发展的重要因素。为此,国内部分高校纷纷开设大数据相关专业及课程,以培养高质量的大数据专门人才。较之其它行业,教育行业具有很强的独特性和复杂性,需要一批既懂教育又掌握大数据核心技术的高端人才。基于此,国内高校有可能在十三五期间依托教育技术专业或增设新的专业,或与企业、行业联合开设教育大数据系列课程,以培养高端教育大数据专门人才。
[1]杨现民,王榴卉,唐斯斯.教育大数据的应用模式与政策建议[J].电化教育研究,2015,(9):54-61.
[2]百度知道.什么是PB级别的数据[OL].
[3]柯清超.大数据与智慧教育[J].中国教育信息化,2013,(24):8-10.
[4]北大新媒体.大数据助力社会科学研究[OL].
[5]Rvan Shaun Joazeiro De Baker,Barner T,Beck J E.The 1st international conference on educational data mining proceedings[OL].
[6]Siemens G,Long P.Penetrating the fog:Analytics in learning and education[J].Educause Review,2011,(5):30-32.
[7]顾小清,张进良,蔡慧英.学习分析:正在浮现中的数据技术[J].远程教育杂志,2012,(1):18-25.
[8]Yang X M,Li J H,Guo X S.Group interactive network and behavioral patterns in online English-to-Chinese cooperative translation activity[J].The Internet and Higher Education,2015,(25):28-36.
[9]Hou H T,Chang K E,Sung Y T.An analysis of peer assessment online discussions within a course that uses project-based learning[J].Interactive Learning Environments,2007,(3):237-251.
The Technological System Framework and Development Trend of Big Data in Education——Integrated Framework of “Research and Practice about Big Data in Education Column”
YANG Xian-min1TANG Si-si2LI Ji-hong1
(1.Research Center of Wisdom Education,Jiangsu Normal University,Xuzhou,Jiangsu,China 221116; 2.China Smarter City Development and Research Center,National Information Center,Beijing,China 100045)
Real big data exists in Chinese education field.The paper defined the connotation of Big Data in Education(BDE),and pointed out its value at strategy and application level.Based on the general process of big data and peculiarity of educational affairs,a general technology framework including four levels:educational data acquisition layer,educational data process layer,educational data analysis and presenting layer,and educational data application service layer,was conducted.Finally,this paper analyzed the development trend of BDE in 13th Five Year,which mainly reflected in the aspects of a continue increase in openness degree of educational data,a gradual expanding in educational data assets,a consistent escalating in educational data innovative application effect,a progressive elaboration of ecosystem in BDE industry,and a great attention focusing on cultivating talent in BDE.
big data; big data in education; technology framework; development trend
小米
G40-057
A 【论文编号】1009—8097(2016)01—0005—08
10.3969/j.issn.1009-8097.2016.01.001
本文为江苏高校优势学科建设工程资助项目“江苏师范大学教育学省优势学科建设”(项目编号:苏政办发〔2014〕37号)、江苏省科技基础设施建设计划项目“江苏省教育信息化工程技术研究中心”(项目编号:BM2013224)的阶段性研究成果。
杨现民,副主任,副教授,博士,研究方向为智慧教育、移动与泛在学习,邮箱为yangxianmin8888@163.com。
2015年12月25日