【摘 要】本文以广西为例,以教育基础信息库为研究对象,深入分析现有信息数据库运行的现状与存在问题,提出基于教育事业统计年报的基础信息库整合建库模式,并通过构建基于互联网的交互性查询平台,实现教育数据的开放共享,充分发挥教育大数据的价值。
【关键词】大数据 教育基础信息 整合建库 数据共享
【中图分类号】G 【文献标识码】A
【文章编号】0450-9889(2017)02C-0006-04
目前,大数据已经在教育领域,特别是在人才培养方面产生了深远的影响,但在教育基础信息库的应用建设方面,进度相对滞后于教育主管部门、研究机构与社会公众对教育数据日益剧增的需求,信息孤岛突出、系统易用性差、数据共享不足、深层次的应用缺乏等问题亟须解决。在大数据时代下,构建教育基础信息库和具有开放性、交互性的信息查询平台已成为教育研究领域中的热点、难点、重点问题。因此,本文深入分析当前教育基础信息库存在的问题,通过将近十年省级教育基础信息整合建库的研究,系统地分析和阐述信息库整合建库的方式,并根据指标的内涵和相互的关联性,研发基于互联网的数据查询平台,进一步促进了数据的开放与共享。
一、大数据的起源与发展
大数据一词出现于1997年,由NASA研究人员Michael Cox 和David Ellsworth第一次使用该词描述20世紀90年代出现的数据方面的挑战。2011年,著名的管理咨询公司发布《大数据:创新、竞争和生产力的下一个前言》,最早发现大数据潜在的商业价值,并提出相关的关键技术、应用设想和对应策略。随着Viktor Mayer-Sch?nberger和Kenneth Cukier《大数据时代—生活、工作与思维的大变革》一书的出版,通过公共卫生、贸易领域应用的鲜明案例,列举出了人们日常生活、工作与思维中所面临的数据大变革,将大数据与日常生活和商业紧密地联系在一起,大数据的思维与理念瞬间席卷世界,许多国家已经将大数据作为增强国家核心竞争力的重要手段,上升到国家发展战略中。美国发布了“大数据研究和发展计划”(Bid data research and development initiative),宣布投资2亿美元,正式启动“大数据发展计划”,计划在科学研究、环境、生物医学等领域利用大数据技术进行突破。日本于2013年6月发布《创建最尖端IT国家宣言》,阐述了2013—2020年以发展开发公共数据和大数据为核心的日本新IT国家战略。我国于2015年印发《促进大数据发展行动纲要》,指出“数据已成为国家基础性战略资源,大数据正日益对全球生产、流通、分配、消费活动以及经济运行机制、社会生活方式和国家治理能力产生重要影响”。
许多高校、研究机构、企业公司也都纷纷主动拥抱“大数据时代”,各种基于大数据的研究成果、应用和技术不断涌现。中国贵阳成立了全国第一家以大数据命名的交易所,大数据交易所将积极发挥贵阳在大数据领域的政策优势、数据清洗建模优势、数据金融衍生品设计的优势等等,连通大数据的供需双方,让数据互相碰撞,产生聚变结果,让数据变成政府决策、企业经营的第一决策要素。在教育领域方面,大数据已经在在线教育方面积累了许多成功的经验,作为线下课堂教育活动开展的重要手段,通过海量数据,可以甄别不同学生在学习过程中存在的差异,并针对性地开展个性化的教学辅导活动等,真正实现因材施教的教学理念。这种以大数据为基础,教学研究与教学产品研发紧密耦合,最终推动教育向个性化和适应性发展。
二、大数据时代下基础信息整合的必要性
随着数据爆炸性的增长,大数据已经对教育、医疗、金融、经济、社会等各个领域都产生了颠覆性的影响。在数据大规模的应用下,如何确保数据的可靠性就成为研究人员所面临的一大挑战。研究表明,为了充分发挥大数据的优势和价值,确保数据的可靠性,首先就需要构建一个统一、完整、高效、准确的基础信息库。在科学数据方面,白如江、冷伏海指出“大数据”日趋发展的今天,整合集成科学数据,实现科学数据共享与互操作性,构造基于科学数据的、开放协同的科学研究新范式具有重要的意义。在教育信息化方面,左明章、邓果、李莎莎研究表明随着信息化进程的不断推进,教育主管部门、教育研究机构和人员、社会公众对教育基础信息的需求急剧增长,建设一个完备的教育基础信息数据库来满足社会需求,就成为当前教育信息化建设的重要任务之一。在国家治理方面,梁芷铭提出数据整合是实现国家治理主体智能化的重要途径,需要填平存在于不同地区、不同领域、不同部门之间的“数字鸿沟”。
因此,基础信息的整合建库是删除冗余数据,提高数据质量,消除信息孤岛,促进异构数据源整合的重要途径,是确保数据的可用性、一致性、完整性、准确性的必要保障。是充分发挥大数据的各项技术,深度挖掘数据潜在价值的重要前提。
三、我国教育基础信息库现状研究
我国教育信息库的建设随着信息技术的发展而不断完善,为了准确掌握各级各类教育事业发展现状、存在问题,甄别发展风险,保障教育发展量质并重,各级教育行政部门针对不同的需求,分别构建了多样化、多层次、多类型的教育数据统计平台。教育数据不断积累,已经初步具备大数据的4V典型特征:Volumn(大量)、Variety(多样)、Velocity(高速)、Value(价值)。即数据的规模巨大,复杂程度高,高效的分析处理速度和蕴含着巨大的价值。
(一)涵盖各级各类教育事业发展的综合数据统计年报初步搭建
随着信息技术的发展,教育基础信息库的建设已经取得了一定成果,我国已经建设了涵盖高等教育、中等职业教育、基础教育的教育事业统计年报。教育事业统计年报由教育部发展规划司负责统筹管理,拥有报表97张。从教育类别来看,基础教育、中等职业教育和高等教育分别拥有38张、25张和34张报表;从指标内容来看,统计年报中拥有描述学校基本信息6张,学生与教职工情况表分别为39与32张,反映学校资产与信息化情况15张,体现其他内容报表5张,见表1。年报数据采集于每年的9—10月,是反映学校当年各项办学指标的关键数据。由于该统计年报采取由下至上逐级填报审核汇总,指标涵盖范围广,数据准确程度高,并作为国家教育统计的法定数据,每年定期公布在国家和各省、市、自治区的《统计年鉴》《教育统计年鉴》上,作为研究各级各类教育改革与发展的重要依据。教育事业统计年报为省级教育基础信息库的建设奠定了基础。
(二)多层次、多类型、多样化的教育信息平台相互补充
针对教育发展过程中的多样化需求,我国各级各类教育行政机构研发多种数据统计平台应用,如应用于高等职业院校评估的《高职院校人才培养工作状态数据采集与管理平台》,平台体系拥有一级指标11个、二级指标70个、近千个数据指标,该平台已经成为评估专家组衡量一所高职院校人才培养工作成效和办学特色的重要途径,也是学校做好日常管理监控的重要手段;用于央财项目日常管理的《专业建设与职业发展管理平台》,与现行各数据采集平台的最大区别在于,《专业建设与职业发展管理平台》是从专业层面反映一个高技能人才从学生—学徒—熟手—能手—大师的成才过程,不是某一时间点上的数据采集或统计数据填报,而是日常的实时活动记录;用于学生学籍管理的《中国高等教育学生信息网》,是我国高等教育学历证书查询的唯一网站。不同的教育信息统计平台相互补充,在教育的发展过程中扮演了越来越重要的角色,形成了我国教育信息平台多层次、多类型、多样化的特色。
四、教育基础信息库存在问题
在教育主管部门、研究机构、各级学校历经十几年的研究探索下,基于教育事业统计年报的教育基础信息库的建设与应用取得了较大的突破,为教育事业的发展提供了决策依据,但在信息的处理方面仍然处于初级层次,信息检索及分析能力不足、信息孤岛现象突出、数据的共享与开放不够等问题。
(一)信息检索功能不足
信息检索是指根据用户提交的查询需求,在信息库中快速有效地检索到有用的信息并反馈给用户。由于现行的教育基础信息库及采集软件主要是服务于学校和基层单位的数据采集和各级教育主管部门的数据审核过程,强调的是数据采集和审核过程的易用性,主要功能涵盖了初始化账号、角色的设定、任务分配、数据的校验等,缺乏直接服务于数据交互查询的功能设计,特别是无法满足大数据视角下多维度、跨年度的综合查询,如按照不同的办学类型、城区类型分类统计学生、教师规模等。
(二)数据应用统计分析缺乏
基于采集、审核业务流程设计的教育基础信息库和教育统计软件无法应对繁杂的数据应用统计分析需求。数据分析是大数据价值链的最后也是最重要的阶段,是大数据价值的实现,是大数据应用的基础,其目的在于提取有用的值,提供论断建议或支持决策。如对于学校各项基本办学指标,都需要从软件中逐校导出,才能进行进一步分析处理,工作量巨大且容易出错,导致信息库中巨大的信息资源得不到有效的利用,为教育事业改革发展过程提供决策支持的能力不足。
(三)信息孤岛现象突出
历年来,由于受到软件开发单位变更和教育研究的发展,教育基础信息库和采集软件版本与指标经历过多次修订的影响,每年的信息库都是单独构成,互不相连。据不完全统计,从2000年以来统计软件版本就升级4次,所采用的数据库从DBF发展到MS SQL SERVER;对于数据指标而言,每年的教育事业统计指标为了适应经济社会和教育的发展对教育研究的需求都会不断完善更新。因此,由于历年数据版本与统计指标存在差异性,不同年度的教育基础信息库均是独立运行,缺乏集成、互联性差和信息管理分散等问题突出,严重影响了大数据的完整性、精确性、可用性和实时性。
(四)信息的开放共享不足
现行的教育事业统计年报是基于CS(客户端/浏览器)架构研发的单机版数据采集软件,该软件以采集和审核过程为核心,只能部署于统计人员的电脑上,日常操作,数据的维护、处理和分析只能由统计人员负责。对于其他教育研究人员或行政管理者,只有亲自安装该统计软件或者由统计人员亲自导出,才能浏览到数据。由于缺少基于互联网的开放性信息查询平台,导致非统计采集人员必须投入大量的时间和精力关注软件的安装、部署和升级,无法全身心的专注于数据本身价值的挖掘分析。互联网的优势在教育基础信息库的建设中没有得到有效发挥,大量数据难以访问、查询和分析,大数据的价值无法得到充分体现。
五、教育基础信息库的整合与共享策略
大数据技术的战略意义并不在于掌握庞大的数据信息,而在于对这些含有意义的数据进行专业化的处理。因此,如何能够全面、多维度的分析、呈现数据,揭示教育发展过程中的隐藏现象、规律,甚至是存在问题,是实现大数据价值的关键。与国外相比,国内大数据的研究和应用起步比较晚,特别是在教育领域,在教育基础信息库的整合方面,更多的是在宏观理论层面的研究,实证研究还比较缺乏。因此,通过对广西区级教育基础信息库的建设,提出了操作性强的,其他省份可以借鉴的数据整合建库与共享策略。
(一)确定数据来源
通过对比分析各类教育信息统计平台,确定将教育事业统计年报作为教育基础信息库的数据源进行整合:一是该统计年报属于国家教育统计數据的一部分,是国家教育统计的法定数据,每年定期公布在教育部统计数据网站上及各年度的教育统计年鉴中,为研究各级各类教育发展问题提供数据支撑;二是相对于其他教育统计报表结构比较单一,只关注于特定的教育层次或者教育内容,如学籍管理系统只关注学生情况,《高职院校人才培养工作状态数据采集与管理平台》只应用于高职院校等,该统计年报属于综合性报表,运行时间已经超过10年,各类办学指标体系已经相对成熟,基本上涵盖了一所学校关键的办学事业指标;三是相对于其他教育数据,该年报在采集的过程中,使用统计核查软件对数据进行核查,并要求学校对异动超过一定幅度的指标进行再次核验,并做出书面说明,同时注重各年度的数据衔接,数据的采集质量高。该年报已经建设成为反映全区各级各类教育事业发展的重要数据来源。
(二)梳理和整合统计指标体系
由于经济社会的发展以及教育研究多样化需求,每年的教育统计指标都有所变更,主要体现在以下几个方面:一是指标的细化,如“死亡”指标之前只統计至非正常死亡,但随后又细化到分类统计各种死亡事故,如溺水、地震、泥石流等。二是指标名称改变:如“社会力量办学”改为“民办”。三是地域划分的变更,如2002年,广西的南宁地区改名为崇左市等。四是办学主体的变更:每年都有学校合并或升格转型,如2009年广西幼儿师范学校升格为广西幼儿师范高等专科学校;2012年广西工学院、柳州医学高等专科学校合并升格为广西科技大学等。五是专业目录的调整,有些是专业的取消,有的则是专业名称的改变,还有的是专业归属类别变更。面对种类繁多的教育指标的变更,通过认真梳理了近十年的数据指标,按照2015年的数据指标体系,根据数据之间的关联程度,将指标进行整合。
(三)数据预处理与整合
根据确定的指标体系,将近十年的教育基础数据进行预处理和整合。一是清理冗余数据。在数据采集的初始阶段会产生大量的冗余数据,必须要将冗余数据逐一标记,在整合建库过程中不做导入处理,提高数据库查询执行的效率;二是数据编码的转换。在数据库中,历年指标所对应显示行号、名称都会随着指标的增加或减少而改动,为了便于数据信息的查询和展示,需要将指标的行号、名称依据统一的编码进行重新修订。三是数据集成。在前两步步骤的基础上,将原本属于多个数据源且独立保存的历年信息库统一整合在一个信息库中,确保信息库的完整。
(四)数据的查询与展示
为了实现多样化、多维度的数据查询要求,本文依据报表本身指标体系特征,经过反复的研究、论证、调查,构建了相对合理的查询结构。首先,按照教育层次划分为高等教育、中等职业教育和基础教育三大层次,依据每个层次的指标体系,又进一步划分为学校、教师、学生、布局、专业等5个维度(见图2)。通过“三层次五维度”的查询结构,用户可以便捷地查询历年广西各市、县(市、区)教育发展情况,为广西的专业布局均衡发展提供了强有力的数据支撑,同时也为各个地市的同级比较提供了依据。
六、教育基础信息库的运用与成效
(一)为区域教育事业的发展提供数据支持
科学制定各项教育事业发展规划离不开大数据的支持,教育基础信息库将近10年的教育数据整合到统一的数据库中,消除历年信息库版本、数据指标多样化所带来的信息孤岛的影响,为信息的查询、统计分析提供必要条件。2014年初,广西在南宁召开了全区教育发展大会。在大会召开的前一年,为了制定各项政策,广西专门开展了广西教育振兴重大课题研究。在子课题《广西教育振兴目标体系研究》中,基于教育基础信息库的数据为2014—2017年教育改革发展目标制定提供了科学依据,为教育现代化事业指标、人力资源指标、基础能力建设指标测算提供了依据和改革思路。
(二)实现教育主管部门对教育数据的监测
随着全区教育事业的大发展,各地市、学校的各项办学教育事业指标的监测成了教育主管部门关注的热点、难点问题。通过教育基础信息库,教育主管部门就能实现分市、学校导出各项主要办学指标,还可以通过信息库的公式设定,测算各项办学教育事业指标,从而对市、学校的教育事业发展进行监测。如通过对高等学校13项基本办学指标的监测,能做到及时预警,消除风险,避免学校只注重学生规模的扩张而忽视了各项办学条件的投入;通过对各市、县的办学指标测算,了解资金投入的成效,保障各级各类教育又快又好地发展。
(三)促进教育事业数据的共享
随着教育事业的发展,社会各级各类科研院所或个人对教育事业数据的需求日益剧增,借鉴其他行业信息查询平台的模式,通过创建基于互联网B/S(浏览器/服务器模式)架构的教育数据查询平台,是实现数据开放、共享的基础。基于教育基础信息库研发的信息查询平台,可以使得教育各部门仅需通过浏览器就可以访问,无需关注软件的繁杂安装、部署和升级过程,教育数据更加易于访问、查询和分析。同时,该数据平台还具备有面向社会大众开放的能力,进一步提高数据的效用和价值,促进数据的共享。
七、结语
信息的整合建库是实现大数据价值的基础,本文基于教育事业数据统计年报,将近十年的教育数据整合到一个统一的平台下,借鉴其他行业的查询模式,创新性的构建了省级教育基础信息查询平台,为区域的教育发展提供数据决策支持,实现教育主管部门对区域、学校的教育发展进行监控,促进教育数据的开放与共享。但与教育发达地区如美国的国家教育统计中心(NCES)相比,在数据的统计、分析与应用方面,特别是面向社会公众开放的大规模应用方面,存在着较大的差距,这也是我国在构建国家级、省级教育基础信息库方面需要进一步研究的方向。
【参考文献】
[1]祝智庭,沈德梅.基于大数据的教育技术研究新范式[J].电化教育研究,2013(10)
[2]Big data:The next frontier for innovation, competition,and productivity[EB/OL].http://www.mckinsey.com/insights/business_technology/big_data_the_next_frontier_for_innovation
[3]孟小峰,慈祥.大数据管理:概念、技术与挑战[J].计算机研究与发展,2013(1)
[4]何宝宏,魏凯.2013大数据产业回顾与发展电信技术[J].电信技术,2014(1)
[5]国务院关于印发促进大数据发展行动纲要的通知[EB/OL].http://www.gov.cn/zhengce/content/2015-09/05/content_10137.htm
[6]贵阳大数据交易所[EB/OL].http://www.gbdex.com/exchange.html
[7]杨满福.焦建利.大教学、大数据、大变革—edX首门“慕课”研究报告的分析与启示[J].电化教育研究,2014(6)
[8]白如江,冷伏海.“大数据”时代科学数据整合研究[J].情报理论与实践,2014(1)
[9]左明章.美国国家教育统计中心对我国教育基础信息数据库建设的其实[J].中国电化教育,2012(8)
[10]梁芷铭.大数据治理:国家治理能力现代化的应有之义[J].吉首大学学报(社会科学版),2015(2)
[11]陆璟.大数据及其教育中的应用[J].上海教育科研,2013(9)
[12]专业建设与职业发展管理平台简介[EB/OL].http://www.fjmzw.com/InfoView-174-2647.html
[13]唐宏宇,李姣.生物医学文献的知识发现与数据整合[J].中华医学图书情报杂志,2015(2)
[14]张引,陈敏,廖小飞.大数据应用的现状与展望[J].计算机研究与发展,2013(50)
[15]马晓婷.基于大数据的图书馆异构数据整合机制研究[J].现代情报,2015(35)
[16]宫夏屹立,李伯虎,柴旭东,谷牧.大数据平台技术综述[J].系统仿真学报,2014(3)
【基金项目】广西2014年度高校科学技术研究项目“大数据时代下广西教育事业统计数据的整合与探究”(YB2014484);广西人文社会科学发展研究中心团队建设阶段性成果
【作者简介】邓学铭(1984— ),男,广西柳城人,广西教育研究院研究人员,研究方向:教育统计、高等教育管理。
(责编 何田田)