秦新国,薛 雅
(1.南京审计大学 信息办,江苏 南京 211815;2.南京大学 信息管理学院,江苏 南京 210008;3.南京审计大学 党政办公室,江苏 南京 211815)
随着我国教育信息化的深入推进,多数院校已充分认识到数据的重要性[1],数据已经成为保障学校信息化持续健康发展的最重要资产[2]。对教育数据的有效利用是高校实现信息化创新的重要基础,是促进教学、科研、管理与服务方式发生深层次变革,实现全方位高等教育现代化的基石[3]。当前,高校在信息化建设方面的投入逐年加大,各业务部门都建有相应的信息系统,积累了大量的业务数据。然而,由于缺少清晰的数据发展计划、明确的数据管理职责体系、统一的标准、一致的数据处理规范以及有效的协作机制,组织的数据建设往往变得盲目,数据管理变得重复和紊乱,从而导致数据质量下降和数据风险上升,阻碍数据价值的实现[1]。其最被人熟知和诟病的问题就是数据孤岛,主要表现为业务系统独立建设、业务数据分散管理、数据之间共享度不足,数据对教学管理的服务支撑作用亦未能得到有效发挥。因此,加强对教育数据的有效治理,从教育大数据中挖掘潜在价值,以数据驱动创新,全面提升教育竞争力,就显得尤为迫切和重要。在国内外数据治理研究现状的基础上,聚焦高校数据服务存在的问题,结合数据治理相关理论,从学校数据治理的实际出发,探讨高校数据治理的路径,提升数据治理成效,切实增强师生数据服务的获得感,以期为其他高校的数据治理工作提供借鉴。
历年来,国家非常重视教育数据的管理和使用,相继出台了一系列国家政策文件,从顶层设计的角度对教育数据建设给出了明确的规划和指导。2012年3月,教育部发布《教育管理信息教育管理基础代码》等七个教育信息化行业标准的通知[4],给出了不同阶段教育管理信息数据的国家标准,为各级各类学校开展数据治理工作奠定了基础。2016年3月,《中华人民共和国国民经济和社会发展第十三个五年规划纲要》提出要“把大数据作为基础性战略资源,全面实施促进大数据发展行动,加快推动数据资源共享开放和开发应用,助力产业转型升级和社会治理创新”[5]。2018年4月,教育部颁布了《教育信息化2.0行动计划》[6],提出要完善教育管理信息化顶层设计,提高教育管理信息化水平,建立“统一标准,上下联动,资源共享”的教育信息资源大数据,打破数据壁垒,完善数据标准,实现信息系统全面整合和资源开放共享,优化管理服务,促进决策支持。2019 年,中共中央办公厅、国务院办公厅印发《加快推进教育现代化实施方案(2018-2022年)》[7]《中国教育现代化 2035》[8],提出要创新信息时代教育治理新模式,开展大数据支撑下的教育治理能力优化行动,推动以互联网等信息化手段服务教育教学全过程;要创新教育服务业态,建立数字教育资源共建共享机制,推进教育治理方式变革,加快形成现代化的教育管理与监测体系,推进管理精准化和决策科学化。
在开展高校教育数据治理工作伊始,我们首先要明确数据治理的理论基础和方法论体系,洞悉数据治理过程中涉及的诸多要素及其关系,进而更好地指导数据治理实践,提高数据治理实效。安小米等在综合集成大数据治理体系构建方法论要素的基础上,结合戴明环(PDCA)的理论基础对当前大数据治理体系构建方法论进行修正和补充,提出更具通用性的大数据治理体系构建方法论框架[9]。庞楠等基于SWOT矩阵从机会与威胁、优势与劣势角度对影响图书馆数据生态系统内外部因素进行详细分析并提出了相关建议,作者还借鉴了利兹-里昂基于e-Research的数据周期模型,对图书馆数据生命周期各个阶段进行了详细描述[5]。董晓辉在厘清数据治理概念范畴的基础上,以活动理论为视角,采用内容分析法深入剖析了高校教育数据治理体系构成要素及其内容,并提出了数据治理的三层结构模型[10]。董晓辉等依据西方组织管理学中的权变理论平衡数据治理过程中内外众多利益群体的利益诉求,认为数据治理框架的设计既要从组织的全局出发,又要结合特定的组织环境和变化的现实情境不断调整以适应组织战略目标[11]。刘桂锋等以协同治理理论辅以数据生命周期理论和利益相关者理论为基础,在探明已有数据治理模型逻辑路线后,通过半结构化访谈法,对国内外高校人员就科研数据治理认知进行深度沟通,最终利用 NVivo 11软件对访谈结果进行质性分析,提炼模型构建要素,提出了构建高校科研数据治理模型[12]。杨学成等运用扎根理论方法对英国开放数据研究所(ODI) 进行分析,考查了数据开放背景下多主体协同的机理,提出了基于“共治主体-共治框架-共治价值”实现路径的数据共治模型,拓展了数据治理理论[13]。
当前,数据治理实践成果比较丰硕,研究角度也各异。张俊超等通过调查发现我国高校已初步建立基于数据进行决策的文化,但离数据文化的成熟还有很大距离,院校研究要通过建立共享数据治理系统,在高校数据文化培育上发挥功夫[14]。王正青等借鉴美国肯塔基州数据治理的成功经验,从治理主体、治理客体以及运行机制构成三个方面对教育数据治理体系进行了深入研究,并对我国教育数据治理提出了相关建议[15]。翟运开等基于IBM数据模型,从大数据治理的战略目标、治理保障、治理域、实施和评估四个方面构建了面向精准医疗的大数据治理框架[16]。严昕针对当前公共图书馆数据发展特点及存在问题,借鉴国内外典型数据治理框架,构建了我国公共图书馆数据治理框架[17]。张培等针对当前教育领域数据治理的现状及实现逻辑,从治理思想、治理逻辑、治理范式、治理环境四个维度提出了数据治理的基本思路,并围绕顶层设计、融合应用、联通机制、运行模式四个方面,阐述了教育领域数据治理的可行路径[18]。刘振昌等针对当前高校数据治理过程中存在的信息化发展步伐、数据治理速度慢,无法满足工作对数据的需求问题,分享了南开大学的治理经验,解决了数据治理速度缓慢问题,实现了数据质量快速提升的目标[2]。郑磊通过研究提出数据治理在依靠技术赋能的基础上,还要综合考虑理念、制度、组织、法律、伦理等多个维度的协同支撑与规范制约,把握好效度、温度和尺度,提高人民群众在数字时代的获得感、幸福感和安全感[19]。曹惠民等重点关注政府数据治理背后的风险消解机制,通过解构政府数据治理过程中的风险,为政府数据治理改革的推进创造条件[20]。
综上所述,数据治理已成为各个行业发展的重要议题和研究热点,在国家政策和相关理论指导的基础上,对高校大数据进行科学治理,解决数据质量不高、数据标准缺失、数据共享不足、数据融合不深、数据缺失严重、管理流程不畅等问题,从而不断提高高校管理和公共服务水平,更好、更全面地服务高校发展。但是,在数据治理过程中,还要把握好数据伦理关切,防范安全隐患,从重视人的感受和隐私角度做好数据治理工作。
高校教育数据治理(以下简称数据治理)是指高校通过建立系统化的制度、流程和方法对教育数据及其事务进行规范、控制和协调,确保教育数据统一、高效运行,促进教育数据价值发挥的活动与过程[10]。数据治理是一个系统工程,其治理对象不仅包括形态各异的各类教育数据,还包括贯穿数据管理和使用活动始终的各项关联要素等。因此,数据治理过程必须要全面考虑、整体优化,方能事半功倍。
数据治理应遵循以下四点原则:第一,数据全量采集,应采尽采。建立全校主数据中心,全校各类业务系统的数据都应该汇聚到主数据中心,为后续数据治理、数据监控、数据开发利用打好基础,同时也为学校积累数据资产提供保障。第二,数据确权,各部门各司其职。一方面,明确各部门在数据治理工作中的责任和义务,为加强部门协同扫清障碍,为数据治理提供组织保障;另一方面,明确数据权威来源,消除数据来源二义性。如明确人事系统是学校组织架构、教师基本信息的权威源,教务系统是学生基础数据的权威源等。同时,业务系统之间的数据交换必须经由主数据中心,业务系统之间不得私自对接,数据交换过程如图 1所示。第三,确保数据安全,兼顾伦理道德。首先,主数据中心作为各业务系统数据汇聚地,数据安全至关重要,无论是制度、政策还是技术层面都要切实落实到位,避免数据泄露,打消各业务部门疑虑;其次,数据中心对数据没有所有权,不得对数据擅做他用,未经严密的审批程序,不得对外提供和发布数据;再者,建立合理的教育数据治理伦理秩序,从数据收集阶段的伦理嵌入、数据分析阶段的伦理调适到教育决策阶段的伦理评估等方面着手,积极应对数据治理过程潜在的伦理风险[21]。第四,以人为本,兼顾各方利益。数据治理过程涉及数据的采集者、使用者和生产者,他们共同构成了教育利益相关者,数据治理要综合考虑利益相关方的诉求,进而满足教育的需要,达到解决教育问题的目的。
图1 业务系统数据交换示意图
综合国内学者的观点,高校教育数据治理过程中共涉及治理目标、治理主体、治理客体、治理方式、治理成效五大要素,如图 2所示。
图2 数据治理要素分析
治理目标是为了让数据用起来、让数据活起来、让工作主动起来,通过数据的分析和运用,解决教育中存在的问题,服务教育决策和教学改革。治理主体主要涉及数据治理组织架构中的各类参与者,包括信息化领导小组、信息化部门管理人员、各职能部门管理人员、广大教师和学生,组织架构如图3所示。他们既是数据的生产者也是数据的使用者,大家要统一行动听指挥,多方协同,层层联动,确保数据治理取得实效。治理客体包括教育数据、数据管理事务、环境、组织机构以及数据使用活动规范等,管理过程必须要有清晰的工作流程、明确的数据权属关系和制度保障体系等,数据治理环境主要指资金、技术、人力等资源的投入,这是数据治理能否成功的前提。治理方式是治理主体作用于治理客体的一系列操作的总称,包括治理主体的分工、清晰的数据治理规则、功能强大的治理工具等。治理成效是数据治理的阶段性成果,如数据标准、技术(业务)元数据、权威数据集、数据分析与可视化等。
图3 数据治理组织架构图
治理主体是数据治理的逻辑起点,通过问题发现与反思确定治理目标、对治理目标进一步细化分析明晰问题症结所在、继而明确治理对象的范围,进一步制定详细的治理计划,实施治理过程并对治理结果进行评估,然后发现新的问题开启新一轮循环。数据治理是一个长期的过程,技术在发展,理念在更新,通过治理过程的不断迭代,不断提高数据的质量,规范教学秩序,促进教学发展,推动教学变革。
数据治理建设框架是由业务数据层、数据转换层、标准数据层、数据集市层、数据交换层以及系统应用层组成的六层架构,同时,在治理过程中,数据标准体系、数据规范体系、制度体系、安全保障体系建设等贯穿数据治理始终,全程保障,确保数据治理过程的有序进行。数据治理建设框架如图4所示。
业务数据层是数据治理的最底层,是数据治理的源头,涵盖了各业务系统生产色结构化、半结构化以及非结构化数据,这里积累了大量的业务数据,是
图4 数据治理建设框架示意图
学校宝贵的数据资产,由于各业务系统在建设初期缺少统一的系统规划和数据标准规范,业务系统各自独立建设,互不打通,导致数据孤岛林立、数据重复建设、数据不一致等现象严重。典型的例子就是教务处和学工处关于在校生数的数据始终对不上,领导不知道学校准确的学生数。
如图5所示,数据转换层介于主数据中心和业务数据层之间,设置数据转换层的目的是将数据标准前置,以便于对业务系统对接数据格式进行规范,确保数据中心和业务系统的相对独立。一旦业务系统建设厂商发生变更,新厂商只要按照数据标准规范将数据表名及其数据项转换成标准的命名格式,再向数据中心提供数据。主数据中心这边只需更新数据库对接属性即可,丝毫不影响主数据中心相关业务的运转。出于安全需要,业务系统应采用中间库,以只读视图的方式与主数据中心对接。对于数据标准的制定应优先使用国家标准[7],在此基础上,结合教育行业标准和学校校情进行编制,以确保标准的通用性和适用性。
图5 数据转换层工作示意图
主数据中心是数据治理的目标,是各业务系统的数据汇聚池,是面向学校发布和交换数据的权威主数据源。数据中心由标准数据层和数据集市层组成。
首先,标准数据层采用1∶1的比例从业务系统抽取业务数据,然后经过数据清洗、数据聚合形成一个个数据集,可以是多数据表的合并,如将教务处的学生数据与学工处的学工数据整合成一张完整的学生数据表,可以是统计分析后的结果,如一卡通消费数据、学生欠费数据等,然后将数据库按角色划分,形成一个个数据集合,如教师数据集、学生数据集、资产数据集等,并上架到数据集市对外发布,供用户申请使用。如图6所示。
图6 数据聚合流程示意图
其次,数据中心提供数据预警与监控服务,对数据中心的运行提供实时监测,一旦发现数据异常、数据接口执行失败等情况及时通过邮件或即时通讯工具向管理员发送预警信息,以便于管理员及时处理问题,尽量减少因数据中心运转异常带来的不良影响。
最后,数据中心提供完备的元数据服务,业务数据对用户不透明是影响数据开发利用的一个主要原因,而直接向用户开放数据访问权限又存在安全隐患,因此,向用户开放元数据则是一个比较好的替代方案。既让用户明晰当前学校主数据中心包含哪些数据以及数据明细项,又确保数据不泄露,一举两得。 元数据服务还要强化数据的血缘关系分析,让用户更加清楚数据的来龙去脉,有助于异常排查。
数据交换层是数据中心对外发布数据的接口,也是各业务系统互相交换数据的纽带。数据交换层支持API接口及ETL工具两种方式对外开发数据。从数据安全的角度出发,基于API接口的方式应增加访问IP、访问时间、访问频率等限制,防止恶意访问现象。数据访问申请应遵循严格的审批流程,一般应按照谁主管谁负责的原则进行审批,为了提高工作效率,也可以将数据划分公共域和私有域,公共域的数据可以直接授权给信息化管理部门审批,私有域数据则由数据归属部门审批。数据访问审批流程如图 7所示。
图7 数据接口访问审批流程图
数据应用层是数据治理的目标和归属,是释放数据红利、彰显数据治理成效的直接体现。通过数据治理,规范了数据管理体系,构建了校级权威主数据中心。一方面,可以促进各业务系统更加高效的运转,形成合力,服务学校发展;另一方面,也可以围绕主数据中心,构建业务系统生态,解决学校发展痛点问题,服务学校高质量发展。
数据治理工作对高校数据规范化建设至关重要,但其本质上还属于高校数据开发和利用的基础性工作,犹如砌房子打地基,其作用的彰显对普通师生用户来说并不显著,大家对数据中心重要性的认识也不深刻,要发挥数据中心的作用,还必须围绕数据中心构建系列应用生态体系(如图8),进而更好地发挥数据中心的作用。
图8 数据治理应用生态体系框架设计
国家对高校教育教学基础数据的重视程度越来越高,数据采集的种类越来越多,如高基报表、审核评估数据、本科教学质量报告等,数据采集的主体呈现多头趋势,如教育部、省教育厅,数据采集的范围越来越细,由统计数据向明细数据转变且数据校验越来越严格,数据采集的频率越来越高,如高基报表由年报转变为季报。统计工作量的增加加重了工作人员的负担,也对他们提出了更高的要求。由于工作人员数据处理能力普遍不高,致使统计工作周期长、易出错。对此,可以基于权威主数据中心构建学校发展指标体系数据库,一方面,以国家主管部门发布的监测指标为依据采集数据,并自动生成相关统计报表,通过逻辑校验和经验校验算法加以验证,确保数据的准确性,数据管理员对数据进行检查后即可快速完成上报,提高工作效率。另一方面,国家对学校教育教学质量的评估工作是一项长期国策,从合格评估到水平评估再到现在的审核评估,专业评估已成为常态化工作,依托主数据中心,构建学校、院系、专业多维度的评估体系,自动生成评估报告,洞悉学校发展现状和不足,服务学校高质量发展。再者,按年做好各类统计数据纵向、横向比对和可视化工作,便于决策层清晰地认识到学校的发展脉络和趋势,提前发现潜在问题,做出预判和决策。
以“用数据说话,用数据决策,用数据管理,用数据创新”[22]的理念为指引,围绕主数据中心搭建服务平台群,把数据用起来,让数据活起来。如搭建一表通数据平台,解决师生重复填表问题,同时一表通系统采集的数据还可以回流至主数据中心,不断完善主数据中心的数据体系;搭建“校查查”数据服务平台,提高管理者快速获取数据的能力,解决管理过程中等、靠、要的问题;搭建数据分析与可视化平台,支持数据的统计与下钻,支持数据纵向与横向比较,服务高层决策支持;搭建数据采集平台,解决主数据中心数据缺失的问题。通过服务平台群的构建与使用,填平管理者与数据之间的鸿沟,让管理者享受数据无缝对接的获得感和幸福感。
教师和学生在数据治理过程中往往是被忽略的群体,教师和学生作为数据流转体系中的重要一环,也应作为数据治理的主体成员发挥作用,以践行数据的服务理念。另外,信息化管理队伍人员有限,难以满足学校快速发展的信息化需求,动员全校所有人员积极主动参与到数据治理工作中来,充实信息化管理队伍,集思广益,既可以提供数据服务的针对性,又可以丰富数据治理成果。第一,借鉴众包服务理念,与学校创业部门联合策划小程序设计大赛,可以是命题项目,也可以是自定义项目,面向全校学生征集优秀的信息化创意或微服务。一方面,可以为学生提供真实的实战操练情境,达到历练学生、服务育人的效果;另一方面,对于优秀的作品在创业学院进行孵化,参加校外竞赛或以微服务的方式为全校师生服务。第二,积极探索信息化建设专项课题,让更多的教师主动参与进来,从科学研究和学科交叉的角度进一步对数据进行深入研究和分析利用,如通过知识图谱、神经网络、人工智能等前沿技术的运用,挖掘深层次数据关系和价值,为学校发展提供内参。让信息化建设扎根在用户之中,合众人之力,成信息化之利。
2018年,习近平总书记在中央政治局第二次集体学习时强调,大数据发展日新月异,我们要审时度势,精心谋划,推动实施国家大数据战略,加快完善数字基础设施,推进数据资源整合和开放共享,保障数据安全,加快建设数字中国,更好服务我国经济社会发展和人民生活改善[23]。对于高等院校来说,我们要紧跟国家战略步伐,推进高校教育数据资源整合与治理、开放与共享、开发与利用,为高校高质量发展护航,为实现“中国教育现代化2035”伟大目标助力。