朱嘉文 顾小清
华东师范大学教育信息技术学系
《中国教育现代化2035》文件指出,要加快信息化时代教育变革,建立数字教育资源共享机制,推进管理精准化和决策科学化[1]。新冠肺炎疫情以来,教育领域正在加速数字化转型。随着教育信息化进程的推进,在线教育得到了大力发展。2022年3月1日,“国家中小学智慧教育平台”改版升级并成功上线运行。在教育信息化建设的过程中,各学校使用了诸多平台来帮助学生成长,努力引导学生个性化发展。但由于使用的教育信息化软件和平台繁多,而各软件和平台间并不互通,所收集的教育数据虽数量增加,但未能实现数据融合,出现了数据冗杂的现象,“数据孤岛”成了教育数字化进程中不可忽视的问题。国务院于2021年12月发布的《“十四五”数字经济发展规划》也提到,我国数字经济发展中数字鸿沟问题未得到有效解决,各行业应充分发挥数据要素作用,加强数据治理和监管工作。“数据孤岛”问题虽早已被提出,但至今仍然存在,大量的“数据孤岛”对教育数字化转型产生不利影响,“数据孤岛”问题亟待解决[2][3]。如何解决“数据孤岛”问题,实现数据互联互通,从而更好地推进教育数字化转型?本文结合相关文献,探索教育“数据孤岛”问题的形成原因及其弊端,为实现数据互联互通寻求解决路径。
要解决“数据孤岛”问题,实现数据互联互通,首先需要了解什么是“数据孤岛”。“数据孤岛”一词常与“信息孤岛”交替使用,又可被称为“自动化孤岛”或者“资源孤岛”[4],是指一种在数据单元中单独存放,不能自动进行信息交换,必须依靠人工手动与外部通信的数据现象。由于在不同的发展阶段,各组织或单位对信息化的要求不一致,所以在建设基础设施和软件方面,它们也各有侧重。而且由于资金和资源的限制,各组织或单位的信息系统并不完全互通。通常,每个组织或单位都对各自的数据有自己的存储和定义方式。各组织或单位的数据就如同一个个孤岛一般,与其他组织或单位的数据很难交互,此问题即为“数据孤岛”问题。
当“数据孤岛”问题发生在教育场景下时,即在教育信息化建设过程中,数据缺乏统一的、可以交流沟通的途径,因此无法做到资源共享,各教育单位或者组织之间的数据形成“各自为政”的现象。简单来说,就是教育的相关数据之间关联性不强,数据库间不能互相兼容。学者也将教育“数据孤岛”问题分为两类:(1)物理上的数据孤岛,指教育信息系统收集的数据由各教育部门和单位各自规划和收集,造成了数据间的相互独立,系统间缺乏网络互通性;(2)逻辑上的数据孤岛,指由于各教育部门和单位从各自的视角来规范数据属性,导致同一数据拥有多种教育含义,从而增加了跨部门跨单位间数据交互的成本[5]。物理和逻辑两方面的数据孤岛,使得数据无法互联互通。为实现数据互联互通,需要我们对“数据孤岛”问题的成因及其弊端有全面的认知,以寻求解决“数据孤岛”问题的路径。
20世纪末,随着计算机和网络技术的飞速发展,诸多大学掀起了教育信息化的浪潮,许多中小学也快速加入了教育数字化转型的进程之中。目前,虽然我国已形成了教育信息化的相关技术标准,但未能在全国范围内强制推行。各学校纷纷自主研发或引进企业开发的教育信息化平台或系统,因此各平台使用的技术标准各不相同,且彼此间缺乏关联,造成了“数据孤岛”问题[6]。学校各部门间使用的应用软件也不尽相同,存在技术、用户、数据格式、存储方式等方面各不相同的问题,导致数据间无法交流和共享。
不同教育信息化平台或系统使用的技术标准存在不统一的问题。由于运行环境、业务流程、数据编码规则等方面的原因,相同平台或系统在不同时期也会执行不同的标准,导致系统按不同时期的思路和流程实现数据存储,无法形成数据间的有效互通互联[4]。
我国的教育信息化工作由教育部统一指导,采用纵向管理模式,各地区和行业存在自己的独立性,缺乏整体和共享意识。各学校普遍各自为政,自己收集数据,自己使用收集到的数据。国家在《教育信息化2.0行动计划》中指出,要“完善教育数据标准规范,促进政务数据分级分层有效共享,避免数据重复采集”[7],但全国范围内仍未实现教育数据资源的有效采集和共享。很多学校仍对数据互联共享持怀疑和保守态度,或闭门造车,强化自己的数据库,造成数据的分割和垄断问题,不利于教育数字化转型工作的推进[8]。
北京大学图书馆外国语学院分馆馆长张晓雁和北京大学医学图书馆前馆长李刚教授指出,不同学校之间或同一学校的不同部门之间在信息资源共享方面存在“囚徒困境”现象[6]。不同学校之间或同一学校的不同部门之间都担心自己的利益受损,从而选择对自己有利的数据存储方式,造成数据之间不能共享,导致各方都未从中获利。还有不少学校或部门秉持着保守思想,认为解决“数据孤岛”问题耗时耗力,从而不愿意适应教育数字化改革新局面。相对封闭的数字系统将严重阻碍信息的流通和分享,不利于学生的成长和发展。我国很多学校已经逐步关注教育数字化转型工作,并开展信息化建设、管理与运行工作,但学校与学校间缺乏沟通,数据治理工作参差不齐,部分学校的数字化转型工作还有待加强。
我国已建成大面积的教育网络,但轰轰烈烈的“建网热”后,凸显了“重硬轻软”的思想,大多数学校更多关注网络基础设施和硬件环境的开发,没有意识到应用软件和教育资源建设的重要性[4]。在教育经费有限的情况下,大量投入硬件设备,导致对软实力的投入出现经费短缺的现象。搭建软件系统需要不停地迭代和更新完善,一旦面临新的系统产品需求,可能会需要大量资金和人力来维护原有软件系统。许多学校选择直接放弃原有系统产品,转而使用新的产品,由此造成数据资源不断增加,但可利用的有效数据并不多,浪费的数据资源形成了新的数据孤岛。
随着教育信息化不断发展,教育场景变得更加多元化,并且教师从更多维的角度来评价学生的学习情况,所收集到的教育数据相应变得更为复杂。教育的场景从教室延伸到了课堂外,可以发生在操场、博物馆、家庭等。从传统的仅以考试成绩作为单一维度的考查所收集到的数据已无法满足现有的学生评价体系,教师和研究人员尝试通过视觉、听觉、嗅觉等感官通道,用图片、视频、文字等方式,收集学生的成绩、表情、语言、手势等各方面的数据,致使所收集的数据量增加,学生学习的评价维度也更为复杂。但到目前为止,基于多模态学习分析的案例通常基于特定的学习任务,缺乏普适性,这也导致所收集的数据仅能在特定场景下使用,无法与其他场景下的数据进行互通,加速了“数据孤岛”的产生。
学校各部门之间相对独立,有时需要针对同一数据进行多次数据采集,并将统计数据和计算结果输入到其他信息系统,造成部分数据无法充分利用,导致数据使用效率低下。这类现象在学校图书馆数字系统中体现在图书馆不同馆库录入图书数据的过程中,会针对同一图书内容多次扫描和收录,进行重复工作,不仅浪费了人力、物力、财力,还可能造成资源环境污染问题,产生数据垃圾。学生信息在同一学校不同部门系统中也存在数据不统一的问题,各部门相关人员需要花费大量时间跨部门沟通,反复核对同一数据,而学校若未针对此问题进行系统更新及管理升级,就会导致每年花费大量人力物力整理好的数据在下一年数据更新时遇到同样的问题[9]。反复进行数据沟通还容易造成数据的丢失,并且数据的一致性也无法保证。一旦数据需要更新,就会出现针对同一数据有多方进行维护的现象。由于各方对于数据的维护标准不统一,数据更新同步性差,增加了数据使用的难度。多次输入数据、沟通数据,伴随着数据浪费现象,容易造成数据不准确问题。而数据的不准确或者不完整,对工作效率产生了负面的影响,严重的会导致学校决策失误。
学生、教师、教学管理等数据分布在不同数据库中,导致跨部门的数据沟通不顺畅,所收集到的信息缺乏整合,无法为学校提供有价值的信息。数据沟通不顺畅,致使教育相关数据出现与实际不符的情况,难以对教学进行有效的监管,不能及时发现教学过程中出现的问题,形成一些监管盲点。同时,数据存在更新不及时、不准确等问题,又对学校的管理工作造成一定的困扰[10]。孤立的数据源不能提供跨部门、跨系统的整合性数据,不能形成对教学管理有价值的信息,使得教学管理决策失去一定的有效性。
“数据孤岛”问题中的数据常被存储于各种平台系统中,有时也由个人用户存储于Excel电子表格等工具中。如果没有适当地进行数据管理和加密,存在数据安全和隐私风险问题。部分利益相关者对于数据安全和隐私问题存在担忧,认为公开数据将会增加系统建设和安全维护的成本,会对自身的信息安全造成隐患。随着人们数据安全意识与隐私意识的增强,这样的担忧广泛存在于教育利益相关者中,很大程度上阻碍了数据的互联互通,妨碍了教育数字化转型推进工作。
解决“数据孤岛”问题,实现数据互联互通的首要问题是厘清现有数据内容,掌握数据和数据集的相关内容,了解数据的存放位置,以及数据权限等各方面的信息。美国密西西比州制定的P-20W(从学前早教到劳动力就业阶段)数据模型指出,在整合数据前需要厘清为什么需要教育数据,数据存储在哪儿,哪些数据可以被使用以及使用的形式是什么等问题[11]。学校数据管理者需要充分了解本校教育数据,区域数据管理者需要更宏观地把握区域教育信息数据。
通过系统集成的方式将“数据孤岛”连接起来是解决“数据孤岛”问题最直接的方法。最流行的数据集成方式是提取、转换和加载(Extract-Transform-Load, ETL),从源系统中提取数据、整合数据并将其加载到目标系统或应用程序中,将异构数据转换成同类数据进行使用。采用多源数据融合的方法,实现多源信息的交叉印证,数据信息相互补偿[12]。在整合数据的过程中,将原有的教育数据信息从传统架构向云端进行数字化转型,并建立多元数据融合终端。这种云架构的数据转型可以缓解专有平台带来的“数据孤岛”问题,多元数据融合亦可实现数据共享互通,从一定程度上消减了数据安全和隐私的风险。
教育数字化转型工作是全国范围内的教育数字化变革。制定统一的数据标准可减少“数据孤岛”的沟通成本。美国联邦教育部制定了“共同教育数据标准”(Common Education Data Standards),其中的数据内涵囊括了完整的P-20W阶段,提出了包含数百个数据元素的相关定义标准,而这一数据标准规范了教育数据的使用[13]。美国联邦政府劳工部发起了“数据质量倡议”(Data Quality Campaign),帮助各州对接教育数据和劳动力数据,并在倡议中指出,各州需要为每个学生定制他们在本州唯一的学生标识符(Unique Statewide Student Identifier),并制定相应的通用数据标准,实现跨地区、跨机构间共享教育数据,为支持学生个性化发展作出贡献[14]。
中华人民共和国教育部于2012年3月15日发布了包含《教育管理信息 教育管理基础信息》在内的7个行业标准,对教育数据标准进行了规范,但仍然存在教育数据标准不清晰的问题[15]。上海市教育委员会响应教育部号召,在《上海市教育信息化2.0行动计划(2018—2022)》中提出了统一数据管理,完善数据编码标准等要求[16]。制定包括学生成绩数据、行为数据、心理数据、认知数据、偏好属性数据等多方面的数据标准,以便可以全面刻画学生成长画像,帮助学生个性化发展[17]。统一的数据标准,全面的学生成长画像,有助于学生、教师和家长等各方利益相关者根据教育数据制定教学和人生规划。制定统一的数据标准后还需要加强数据标准化推行的宣传工作,使区域、学校管理者和参与者对于教育信息数据标准规范有充分的认识,确保教育数据的正常交流[2]。
未来不仅要消除现有的“数据孤岛”,更要防止新的“数据孤岛”产生。因此,必须完善数据管理和治理工作,统一协调教育数据规划。管理者需要统筹考虑区域和学校的使用,从多角度出发,做好软件建设规划,建立相关数据统筹管理机构,统一规划数据信息资源。既要在某一学校内做好信息数据统筹规划工作,还要做好校际间、区域间的信息数据协调,将校际间的数据合作提上日程,避免出现“囚徒困境”现象,并制定长短期数据建设规划[2]。
面临相同的“数据孤岛”问题时,可以借鉴已有的做法由政府层面建立纵向教育数据系统,进行统一的数据管理和治理工作,从而实现各类数据的有效对接和共享[18]。深入了解教育工作者、学生和家长对于教育数据和教育数字化转型的态度,了解他们希望拥有怎样的学习环境及对教育数据信息有何需求,将有助于引导利益相关者设计教育数据管理框架、拟定相关的政策[13]。
要进行教育数据管理和治理不仅要统筹规划教育数据,还需要培育健康的数据文化。被称为“数字原住民”的现代学生,接触网络和科技的机会大大增加。应该从小培养学生的数据意识,让他们了解教育数据,学会使用教育数据,并根据所得数据制定专属的学习计划。加强数据管理的制度建设,制定针对数据安全和隐私风险的相关保护制度,强化合理使用教育数据的监管和评估工作[19]。
加强对相关教职员工在如何处理和使用数据方面的培训,提高数据使用率,让数据发挥最大的效用。培训的内容包括:让教职员工了解哪些数据可以使用,了解如何与其他部门进行数据方面的沟通合作;定期组织相关数据沟通交流活动,让数据负责人之间建立友好的信任关系;采用培训的方式规范教职员工对数据的使用等。相关人员之间的沟通交流能有效解决数据垄断的问题,促进数据使用相关利益者的相互合作(数据使用相关利益者包括学生、教师、家长、研究开发人员、管理人员、相关企业等)。
一些美国学校将教育数据资料对学生开放,通过课堂教学和实践培养等方式让学生自主分析数据、确定自己的学习目标,并对自己的学习负责[18]。学生自己掌握教育数据并能分析自己的成长数据,可以充分发挥学生的能动性,调动他们的学习积极性。美国马里兰州采取的策略是:向公众宣传政府搭建的纵向教育数据系统,倡导使用纵向教育数据系统整合学生数据,帮助学生成功[20]。美国劳工部在其提出的“数据质量倡议”中指出,建立复杂的纵向教育数据系统并不足以解决现有的教育数据问题,各州必须采取行动,确保各教育系统间建立联系,满足利益相关者需求,调动利益相关者自身的主观能动性,培养他们的数据意识,让他们学会使用数据,达到提升学生成绩的目的,从而帮助学生个性化成长[14]。
在满足利益相关者需求时,应关注不同利益相关者所能访问的数据权限和需求,并非所有数据都可以公开给公众。一些不包含学生个人隐私信息的汇总报告,可以在经过政府数据管理部门处理后,以报告的形式公布给所有利益相关者。根据学生的个人教育数据信息而得到的相关诊断、预测、预警等干预报告就只能提供给学生、教师、家长和学校相关管理人员[19]。
《教育信息化2.0行动计划》提出,要“完善教育数据标准规范,促进政务数据分级分层有效共享,避免数据重复采集,优化业务管理,提升公共服务,促进决策支持”[7]。上海市教育委员会也在《上海市教育信息化2.0行动计划(2018—2022)》中指出,要“统一数据管理工作,推动学校信息化服务共享和数据统一管理工作,深化市、区两级教育政务数据资源共享和开放”[16]。业界需进一步加强对教育“数据孤岛”问题的认知,深入了解“数据孤岛”的成因和弊端,更好地解决“数据孤岛”问题,实现教育数据互联互通,让学生得以个性化发展,让教育教学和管理更智能化和数据化,从而推动教育数字化转型,实现教育的系统性变革。