数据治理:提升教育数据质量的方法和途径

2018-11-10 10:20李青韩俊红
中国远程教育 2018年8期
关键词:数据管理教育

李青 韩俊红

【摘 要】 随着互联网和信息技术的发展,数据成为关乎社会和各行各业发展前景的重要资产。如何对数据进行有效分析和利用是当前亟须解决的问题,“数据治理”应运而生。随着教育信息化建设的推进,教育领域也积累了海量数据,数据质量管理和治理的需求迫切。为了在教育信息化领域普及数据治理的概念,介绍教育数据治理的做法,本研究通过文献研究和案例研究的方法分析了政府、医疗健康和金融领域数据治理的成功经验,总结归纳出数据治理的一般方法和途径。进而针对教育数据治理过程中面临的问题提出相应的解决建议,包括:设置教育数据治理的组织机构,制定和完善数据标准,推进不同层次和维度的数据共享,落实和健全数据隐私保护机制,建设数据治理的技术平台。最后,以两个具体的案例介绍了教育领域数据治理的具体做法,以期对今后的教育数据质量管理和治理工作提供参考。

【关键词】 数据治理;大数据;数据质量;教育信息化;教育数据;质量管理;数据标准;组织架构

【中图分类号】 G420 【文献标识码】 A 【文章编号】 1009-458x(2018)8-0045-09

引言

在信息技术和互联网高度发展的今天,每天都有海量的数据产生,人类社会已经进入大数据时代。各个行业领域都拥有数量庞大的数据,作为新型的资源,大数据具有多样性、容量大、高速快、价值高的特点(申孟宜, 等, 2014)。以数据为基础的决策显著地提升了组织的产出和生产率(Watson, 2011)。与传统的数据集相比,大数据不仅包含结构化数据,还包含海量的半结构化以及非结构化数据。如何治理日益庞大的数据集,并从中获取对人类社会发展有用的信息是当前急需解决的问题。为了解决这个问题,“数据治理”得到了各行各业的重视,在通信、金融、银行、医疗和电子政务等领域取得了较大进展,形成了一些行之有效的方法和工具。

同其他行业一样,大数据技术在教育行业的普及和应用推动了数据治理需求的产生。各种教育信息化平台中积累的数据呈指数倍增长,对有效地获取、存储、分析和利用数据的需求越来越强烈。教育领域对数据的管理仍没有规范的治理准则;无论是机构内、机构间,还是区域层级,均未能够对数据进行有效的应用(许晓东, 等, 2015)。数据质量管理一直是教育信息化中的薄弱环节。如何科学使用数据、盘活数据资产、发挥数据价值?数据治理或许是一剂良方。然而,当前关于教育数据治理的研究还很少,主要集中在个别高校对其信息管理系统的数据治理,或者是高校图书馆的数据治理,缺少全局视野和更高层次的思考。

本研究采用文献研究和案例分析等研究方法,以国内外权威期刊上关于大数据、数据治理的文献为来源,明确大数据、教育数据、数据治理等相关概念。同时,借鉴电子政务数据、企业运营数据和医疗健康数据等领域的治理成果,结合教育大数据的特征和教育领域内的现实问题加以讨论,梳理出教育数据治理的一般方法和途径。希望本研究能够对教育数据管理和治理工作有所启发,并引起学术界更多的关注。

一、数据治理的概念及实践

(一)数据治理的概念

数据治理(Data Governance)是特定的组织机构用来管理数据的过程和方法(Educase, 2017),以及与之对应的依托于特定工具和平台的实践。它并非一个全新概念,关于数据治理的相关理论和实践在大型数据库广泛应用的时代就已经出现。只是大数据时代,數据量和复杂度有了很大的变化,对数据质量的需求也被提到了一个全新的高度。美国全球数据管理协会(DAMA)认为,数据治理是对数据资产管理行使权利和控制的活动的集合(DAMA, 2012)。桑尼尔·索雷斯(2014)提出,数据治理是广义信息治理计划的一部分,即制定与大数据有关的数据优化、隐私保护与数据变现的政策;沈建苗(2007)认为,数据治理是企业的责任,需要统一的解决方案和治理模型来保护及共享不同层面的数据;张一鸣(2012)从标准体系、业务范围、控制范围、技术支持范围等角度对数据治理概念进行分析(如表1所示)。

表1 数据治理的不同维度

[维度 解释 标准体系 数据治理是一种标准体系,通过数据组织、数据管控实现数据标准化 业务范围 数据治理就是要对数据的产生、处理、使用进行监督管理,以满足数据和业务需要相适应 控制范围 数据治理必须对治理人员、治理流程以及治理系统进行整体设计 技术支持范围 数据治理需要前端、后端和终端等各个环节的技术支撑 ]

我们常说的数据管理则是一个更为宽泛的定义,它涉及任何时间采集和应用数据的可重复流程(Harper, 2017)。DAMA认为,数据管理是企业对数据生命周期进行管理的体系、策略、实践和过程。该机构发布的《数据管理知识手册(DMBOK)》明确指出,数据治理是数据管理的一部分(DAMA, 2014)。软件工程领域的权威——CMMI研究院在其发布的数据管理成熟度模型(DMM)中也将数据治理作为六大数据管理业务领域之一(CMMI, 2016)。

综上所述,数据治理是一个关于数据管理的综合实践领域,它涵盖了管理体系、标准体系、技术体系三大组成部分。从管理角度来看,数据治理必须建设完善的数据管理组织机构,制定科学合理的章程,确保数据的产生、处理、使用和销毁都有专业人员监管;从标准化的角度来看,数据治理必须制定规范的标准体系,使得数据的存储、使用、生命周期管理都能做到统一和规范,避免机构内和机构间的差异;从技术角度来看,数据治理必须以信息技术为基础,通过数据库和信息系统的完善使得数据的质量保持稳定,数据的价值得以充分发掘。

(二)先发领域的数据治理研究和实践

国内不同行业关于数据治理的研究和实践有很大差异。起步较早的行业已经取得显著的进展。例如,电子政务领域在如何进行数据治理以强化服务管理、推动社会发展方面有较多的研究。对于政府而言,数据是公共服务创新和策略优化的客观依据。数据治理工作可以帮助政府挖掘大数据中隐含的深层次信息,形成基于大数据的产业链和价值链(范灵俊, 等, 2016)。目前,电子政务涉及的管理数据来源分散、缺乏共享标准和规范接口。李文彬等(2016)认为改变这种局面,应在以下方面提升政府数据治理能力:转变治理理念,增强大数据意识;整合数据信息,建设公共大数据平台;完善制度保障,构建大数据法律体系;强化技术研发,掌握大数据核心技术;重视人才培养,优化大数据培养机制。陈真勇等(2014)提出了一种数据治理的分层互联框架,将治理工作划分为数据存储层、数据转换层、数据互联层和数据共享层四个层次,用于解决智慧城市大数据的共享和融合问题。国外的一些政府部门在局部领域也已经部署了一些数据治理工具,如新加坡政府就部署了OneService一站式治理平台,通过信息汇聚提升社区服务质量。

现代金融业是严重依赖数据运行的行业之一,虽然经历了多年的发展和完善,仍存在数据基础薄弱、数据不完整、一致性较差、管理体制不健全等问题。国外的银行较早认识到了这个问题,并采取了相应的措施。例如,美洲银行建立了较为完善的数据治理框架,明确了信息技术部门、业务部门和管理部门的分工,规定了数据管理、数据访问、数据质量、元数据等数据治理主体。中信银行在数据治理中提出了数据标准化、提高数据基础质量、构建数据治理管理体系等措施(佚名, 2012)。还有学者建议银行在治理数据时,明确数据来源、划分信息系统、找到数据流向、确定数据治理关键节点、依据数据生命周期划定治理职责(许文, 等, 2012)。通过数据治理,银行可以实现精准化的客户营销,强化、精细化内部管理,保障数据口径标准基本一致,方便业内统计和国家监管。

医疗领域也有海量的数据应用。医疗行业的数据分布广泛而无序,利用率低,大量累积的数据未能产生真正的价值。常朝娣等(2016)提出了“医疗健康大数据治理体系框架”,其中包含基本原则、核心指标、关键组件、技术及大数据治理评估等内容。还有研究构建了“医疗大数据生命周期模型”,提出要精确化医疗数据治理目标,落实医疗数据治理主题,包括数据标准制定、数据质量管理及数据生命周期管理等(高汉松, 等, 2013)。通过医疗健康数据的治理,实现节约医疗成本、提高医疗质量等目标。

通过对以上三个领域的观察,可以看出数据治理在产业领域中已经开始从研究进入到实践。集中治理工作有利于发挥大数据在日常管理和业务创新上的推动力,但也暴露出一些问题,具体如下:一是缺乏完善全面的数据管理体系。当前的数据管理机制上存在较多漏洞,各部门自成管理体系、自定标准,遇到数据问题时也是自行解决。在这种情况下,只能给出临时解决方案,无法从根源上杜绝数据问题。二是数据治理的方法和技术有待提高。数据治理涉及数据标准化、数据融合共享、数据质量管理及数据隐私管理等领域的专业知识,若不能将相关部门的业务能力上升到专业高度,数据治理将收效甚微。三是缺少统一的数据治理平台支撑。平台的开发与建设是数据治理的关键环节,目前数据治理平台过于分散,无论是结构上或者是功能上都不能满足大数据时代对数据治理的需要。

二、数据治理的方法和技术

数据治理是一项系统性的工作。表面上看,数据治理的问题是由数据基础薄弱、数据不完整和不一致造成的,实际上分析深层原因,是数据管理体制不健全、内部管理职能不清造成的(佚名, 2012)。因此,数据治理需要从管理机制、治理体系、技术平台各方面齐头并进,从上而下进行治理与改善。其中,最根本的是管理体系,需要确立数据治理组织架构,这是推动数据治理实施的原动力;数据治理的体系和过程也是治理过程中应该厘清的问题;最后才是数据治理的实现技术和管理平台,这是数据治理落地与实施的关键。

(一)确立数据治理的管理机制

专业化的团队是项目开展的有力保障。在数据治理工作正式開展之前,应成立专门的工作小组,并对其工作职责进行详细的规划。从已有的行业实践来看,可自上而下建立如图1所示的数据治理组织。首先,由高层领导组成数据治理委员会,这些高层领导对于业务的发展和实施应非常熟悉,对数据管理也有一定的认识。数据治理委员会的主要职责是:从战略角度统筹规划,制定治理的规章制度,提出一系列管控方法,协调各部门有序、有效工作。它是最高决策机构,对于治理工作承担最终审查和监督的职能。治理工作组是治理委员会的常设办事机构,按照具体的业务下设多个专项小组,如业务分析组、标准委员会、研发小组和考核小组等,每个专项小组具有不同的职责。专项小组的成员不需要是“万事通”的全才,但必须是领域专家。

图1 数据治理组织架构

(二)建立数据治理体系和过程

虽然在不同领域中数据的管理和使用存在差异,但是数据生命周期基本是相同的,可分为数据收集、数据处理、数据分析和数据发现等(丁宁, 等, 2013)。数据治理工作贯穿于数据生命周期的全过程,只有在每个环节上保持高效和高质量,整个数据治理才能取得卓越的成绩。在实践中,数据治理包含标准化、融合共享、质量管理及隐私保护等具体的主题,这些主题的治理工作成果优劣决定了整个数据治理的效果。下面对各个治理主题加以说明和讨论。

数据的标准化。大数据的基本特征就是数据量大、类型多样且差异明显。若没有统一的标准,海量的数据在存储、使用时会成为一团乱麻,难以对数据进行加工和分析。数据标准化是按照预定规程对共享数据实施规范化管理的过程,分为业务建模、数据规范化、文档规范化三个阶段。其中,业务建模是数据标准化的基础;数据规范化是数据标准化的关键和核心;文档规范化是数据规范化成果实际应用的关键(吴志刚, 等, 2003)。标准化是数据融合的前提,也是保证数据质量的重要条件(孙广芝, 等, 2015)。

数据的融合共享。在传统的数据管理方式下,数据繁杂而分散,既浪费了软硬件资源,也不利于关联各种局部数据得到完整的信息。实现数据共享和融合,不仅可以提高大数据的处理性能,加深语义处理的深度,还扩展了数据处理和分析的广度,使数据的分析和处理不再局限于少量孤立数据集内,将关联数据有机整合,极大地提高了数据的利用率(陈真勇, 等, 2014)。

数据的质量管理。高质量的数据是大数据发挥效能的前提和基础。大数据具有的多样性及快速变化的特点会使数据冲突、不一致、互相矛盾或者“过期”等问题更加尖锐。从技术层面看,可以通过数据库技术、数据检测和识别技术、数据分析技术保证数据质量(宗威, 等, 2013);从管理层面看,企业高层、专业管理和技术分析人员应对数据质量高度重视,贯彻和落实数据质量管理的各项规章制度。

用户数据的隐私保护。个人数据中常见的姓名、电话、身份证信息等个人信息涉及数据隐私,医疗信息、金融信息及任职情况等也可能是隐私数据。若这些数据被非法使用,则有可能造成巨大损失。为应对隐私保护风险,数据治理不仅要加强业务规范与监管,利用信息技术手段隔离和保护个人敏感信息,而且要建立主动的隐私保护机制,如隐私监控体系、隐私评估体系、隐私问责机制等(孟小峰, 等, 2015)。

(三)数据治理平台的建设

治理平台是数据治理活动开展和实施的技术基础和支撑环境。一个技术先进、功能完善的治理平台能有效提高数据治理的效率,强化治理效果。在搭建数据治理平台时,技术管理者应考虑如何将大数据的需求和管理融入已有的技术架构。美国知名的数据治理专家桑尼尔·索雷斯(2014, pp. 233-235)给出一个较为完整的大数据参考架构(如图2所示)。这个架构主要分为以下几个层次:①系统基础层包括大数据源、开源的基础组件、数据库、大数据整合等几个层次;②公用服务层包括元数据、信息政策管理和主数据管理、文本分析、大数据发现、大数据质量等服务;③系统应用层包括数据仓库和数据集市以及分析和报告工具;④数据的生命周期管理和数据隐私安全则是贯穿平台的各个层次。

图2 一种数据治理的参考架构

针对数据治理的需求,各大数据软件和企业级关键开发商也推出了相应的平台和解决方案。例如,甲骨文公司的数据治理平台采用Oracle Database11g关系型数据库和Oracle NoSQL非关系型数据库相结合,以此实现不同种类数据的存储及查询,并保证数据的安全性。同时,为实现数据整合,使用Oracle DataIntegrator和Oracle GoldenGate两个工具相结合,用于整合和转换Hadoop中的数据;使用结构化数据和非结构化数据的搜索和发现工具Oracle Endeca Information Discovery实现结构化数据和非结构化数据的搜索和发现;使用Oracle Enterprise Data Quality系列产品保障大数据质量。SAP公司也发布了类似的解决方案,将SAP HANA(内存数据库)和SAP Sybase IQ(针对商业智能和分析优化的纵列数据库)相结合,实现对本地的非结构化和准结构化数据集的文本操作以及与Hadoop的互操作;利用SAP Business Objects Data Services完成数据剖析、元数据和文本分析以及与Hadoop的数据整合。这些业界知名厂商提供的成熟的技术和解决方案可以供我们在建设数据治理平台时借鉴。

三、教育数据治理

(一)教育大数据的来源和特征

随着教育信息化工作的逐步推进,各级教育主管部门以及学校都在致力于进行数字化校园、智慧校园的建设,各种信息化管理系统以及在线学习平台的部署和应用使得教育行业也积累了多元化的海量数据。教育大数据是教育领域的大数据,它既是面向特定教育主题的多类型、多维度、多形态的数据集合,也是面向教育全过程的数据,通过数据挖掘和学习分析支持教育决策和个性化学习(杜婧敏, 等, 2016)。教育数据根据其作用范围可分为个体层面的数据、课程层面的数据、学校层面的数据、区域层面的数据和国家层面的数据(杨现民, 等, 2015)。

除了大数据的一般特征之外,教育大数据具有自身的一些特点(王帆, 2015):一是泛在性,教育大数据无处不在,越来越多的数字化设备和传感器采集了各种数据,记录了学习活动的过程和结果;二是持续性,数据系统可以跟踪学生学习过程中不同层次的不同轨迹,可以使各种教育数据连贯起来;三是互联性,各种数据系统相互关联,互相共享和交换教育数据。此外,教育大数据在数据类型上更加多元,除了包括成绩、学籍、出勤记录等常规的结构化数据之外,图片、视频、教案、交互活动记录等非结构化数据占据更大比重。

(二)教育数据治理的现状及问题

同其他行业一样,教育领域也正在经历大数据时代带来的机遇和挑战。然而,对教育数据治理的研究却还只是刚刚起步,严重影响了数据对教学和教育管理的支撑。即便有一些统计数据可用,其真实性和有效性也有待验证,对动态教育信息的掌握也非常困难(严智雄, 等, 2011),更谈不上利用数据科学决策了。

教育研究者、探索者和管理部门已经认识到数据驱动教育的重要性,并开展了局部的实践。目前,教育数据治理的研究集中在高校。例如,上海海洋大学在数字化校园建设中根据数据治理准则将原本分散在不同信息系统的数据与业务流程进行整合,集中在统一的公共数据库中(李勇军, 等, 2016)。还有一部分研究针对图书馆数据管理,包冬梅等(2015)提出了CALib数据治理框架,涵盖了高校图书馆数据治理领域所包含的基本组件及其关系,从促成因素、范围、实施与评估三个维度讨论了高校图书馆数据治理原则。但是,尚未有人从区域的层面和整个教育行业的层面,以更全局的视野探讨在大数据时代教育数据应该如何治理的问题。

和其他行业数据应用中遇到的问题类似,教育数据存在以下一些治理需求:

其一,标准缺失,数据杂乱無章。大多数学校在信息管理系统建设时只考虑本单位的应用,未考虑数据共享和交换,而区县一级主管部门又未对信息数据统筹规划,缺少统一的数据标准。集中表现为数据名称、数据长度、数据规格不一致,以及关键数据缺失(吴志刚, 等, 2003)。

其二,数据融合困难。学校是教育数据的主要生产者和使用者,也是数据价值链的源头。由于管理层级的限制以及各校信息化发展水平差异,每个学校只掌握校内的部分数据;各区县教育局也只掌握了本区上报的部分数据,对于本区域的其他数据或是其他区域的基准数据难以获取。即便是已有的教育数据,也只是海量数据中极少的一部分,如学籍、升学率、毕业率、考试成绩等管理数据,并未形成对教育数据的全局把控(许晓东, 等, 2015)。大量的教学过程数据无法获取,成为数据孤岛,无法进行深度加工。

其三,数据质量存在挑战。由于数据体量急剧扩大,非结构化数据猛增,教育大数据在存储、分析、使用的过程中都面临全新的挑战。来源的复杂性导致数据定义的一致性、元数据定义的统一性无法得到保证,变化速度较快使得数据很容易过期,数据存储方式的不合理会产生错误、无效的数据,动态数据处理不及时会降低其价值(宗威, 等, 2013)。这些都给教育数据质量带来了极大的挑战。

四、教育数据治理的方法和案例

(一)教育数据治理的方法

通过对我国教育数据治理现实状态以及存在问题的分析,结合领先行业在数据治理方面的先进经验,笔者提出一个可用于教育数据治理的框架(如图3所示)。教育数据治理工作应从组织机制、业务领域及关键技术三个方面推进。核心业务领域包括教育数据标准化、教育数据的融合共享和教育数据隐私保护。完善这三个业务领域需要两个基础条件:一是建立数据治理的组织架构,科学的组织机构设计和明确的职责分工是数据治理的制度基础;二是依据技术规范和实施办法建立数据治理平台,并通过多种技术手段和工具实现对数据的治理。

1. 设置教育数据治理的组织机构

从组织机构来说,可以根据业务需要设置“教育数据治理委员会”及其执行机构“教育数据治理小组”。按行政层级,可设置国家级、区域级和学校级的教育数据治理委员会;从数据来源考虑,可对课程教学数据、学生数据、教师数据、基础设施数据等建立专门的业务小组。数据治理委员会由各级领导和管理层组成,职责如下:①制定教育数据治理的原则、方针和政策,建立并更新相关规章制度,批准和发布相关标准及业务指南;②实施和推进教育数据治理工作。

数据治理小组由负责具体业务的专业人员组成,可包括数据系统管理员、系统开发和维护人员、业务专家和数据分析员等角色。小组成员需要鉴别和解决各自业务领域内的数据问题,并相互配合协作。例如,数据分析师可以和业务专家合作,通过分析学生成长情况的大数据,及时监控学生的心理健康和生理健康状况,从而提出相应的决策建议。再如,教学专家和数据分析师合作通过对学生个体数据分析其差异性,设计多种个性化教学方案。

图3 教育数据治理框架

2. 制定、完善数据标准和使用规范

数据标准化是推进数据治理时首先需要解决的问题。统一的数据标准使得教育机构的信息系统建设有据可依,不再出现因为供应商不同而使数据无法读取、共享和交换的情况。数据治理委员会应从教育业务实际需求出发,组织完成各类标准的编制,包括技术标准、业务标准、管理标准、数据质量标准等(覃炯聪, 2016)。标准的编制既要满足上级部门的管理与统计需求,也要为校内外的数据交换与共享服务(李勇军, 2016)。标准化是一个长期、持续的过程,在编制新标准时应注意尽量吸纳已有国家标准、行业标准,并和已发布的标准保持一致。

3. 推进不同层次和不同维度的数据共享

教育主管部门应通过教育数据的共享和融合建立起对教育数据的全局把控。各个学校也可以此获得区域教育发展水平的各项基准数据作为组织教学的参考。教育数据共享是多层次、多维度的,不仅包括在教育系统内的共享,还涉及对外信息公开。为实现数据的整合和共享,需要建立统一的数据开放平台。

在学校内部,可利用统一数据平台整合各个二级单位的管理数据、学生基本信息和行为数据、教学数据甚至是后勤管理数据,这样既可以提升管理的便捷性和有效性,强化管理,也可以分析教学过程的优势与不足,提升教学水平。校际之间则可以通过数据整合加强合作,如课程数据的共享、学习档案的交换和共享等(王薇娜, 2016)。区域性的教育数据共享也是教育发展的趋势之一。美国科罗拉多州教育部门开发了全州综合数据系统,把178个学区和28所公立高校的学生数据与福利、收入和劳动力整合起来,用于分析学生从幼儿园到大学的成绩。让行政官员和任课教师都能够通过该系统比较学生与该州基准水平的差距,并且能够分析家庭收入、学前教育和基础教育供给水平对学生大学升学或就业的影响。

4. 落实和健全数据隐私保护机制

大数据蕴含的巨大价值得到了业界的高度关注,挖掘大数据给我们带来了巨大价值。然而,大数据在带来便利的同时,也会对个人隐私造成巨大风险(黄刘生, 等, 2015)。在教育领域,数据保护措施已经落后于实践的需要,数据隐私尚未得到广泛的重视,缺乏合理、可行的措施和惩处机制。结合其他行业的成熟经验,数据隐私保护机制应包括以下内容:①隐私风险主动监测,在处理大数据时要主动监测那些不正当的或者有恶意的操作;②隐私风险主动评估,能够主动分析出隐私风险大小,并选择合理的隐私保护技术;③问责机制,当某个实体的行为违反了策略和规则时应当受到规定的惩罚(孟小峰, 等, 2015)。

5. 建设数据治理的技术平台

数据治理工作的落实依赖于信息技术平台。各级教育部门的数据治理平台建设应以已有的信息系统为基础,引入业界的先进技术和经验。从满足功能应用出发,以数据架构为基础,加强数据库设计,建立区域级的数据中心,搭建数据质量监控平台,实施数据安全工作(高亮, 2014)。数据中心可以集聚零散数据、形成教育数据资源,然后基于先进的分析软件深度挖掘其中的价值;应能够直接与各单位自有的数据平台无缝连接,直接汇总各单位的原始数据;应包括数據挖掘和分析及评估管理信息系统,对数据挖掘分析的统计结果,并通过长期的数据分析,对教育现状辅助评估(许晓东, 等, 2015)。

(二)教育数据治理的案例

1. 新南威尔士大学的数据治理项目

新南威尔士大学,作为澳大利亚名校联盟“八大名校”之一,是一所世界知名的研究型大学。为了改善数据资产管理,降低运营和管理风险,该校于2017年发起了“数据治理”项目。这个项目对该校的数据政策和治理组织进行了规划和实践,制定了包括人员分配、职责规定、数据整合规范、数据分类和数据隐私保护方法等一系列数据治理政策,奠定了该校实现数据整合、保护数据安全、改善数据质量以及提高数据使用效率的指导原则。该项目建立了一个较为完整的数据治理组织架构,描述了相关的角色及其职责(UNSW, 2017),如图4所示。

该项目确立了数据治理指导委员作为最高管理机构,负责指导项目决策,制定原则和标准。数据治理执行委员会是该指导委员会的执行部门,监督各项政策和规则的贯彻实施,并保障项目执行过程和数据管理生命周期一致,同时负责检查数据质量,为问题解决提供操作性指导。各部门的数据专员负责各自部门的数据质量、数据整合及数据管理的实施执行,监督数据使用者的身份,识别和修复各自部门的数据问题。业务专家包括数据库管理员、系统管理员、业务领域专家、软件开发人员和业务分析师等,他们为学校数据信息治理的各项业务提供一线的支持和帮助。

新南威尔士大学的数据治理项目建立了体系完善的数据治理组织架构,自上而下的管理层级保证了数据治理工作的推进有执行力,在整个体系中吸收了各类人员的参与保证了具体的业务问题能够得到关注和解决。该案例中有三点具体经验特别值得我们借鉴:①确立了数据治理的制度和流程,将过程和规则制度化,设定了清晰的边界,使得各项和数据相关的业务有了清楚的依据,并且以此为基础优化了数据治理的各项环节。②明确了整个数据治理工作的组织架构,以及各个层级和各类人员的职能和责任,在组织架构层面以制度为保证,较好地支持了数据治理工作,使得各类数据项目能够有序执行。同时,在出现数据问题时也可以精确地找到责任人员,改善了原来数据管理工作中各个岗位工作职责不清的问题。③建立了业务操作人员、技术专家和管理人员的协同和会商机制。数据治理工作往往是全局性的,某项数据管理和使用会涉及多个部门的多个岗位,这种协同机制使得治理业务中暴露出来的问题能够得到所有相关方的关注,并及时地识别、定位和解决。

2. 美国堪萨斯州的数据治理项目

教育数据交换网络(Education Data Exchange Network, EDEN)是美国学校、州教育部门及联邦教育部门进行数据报送和交换的信息系统。长期以来,美国堪萨斯州教育部门在向EDEN提交数据时饱受各种问题困扰,如数据不连续、数据质量差、数据缺乏一致性、数据格式多样等。解决这些问题需要花费大量的时间,且效果不理想。为了改善这种状况,他们意识到对数据进行治理的重要性,因此发起了一项数据治理项目(Kathy, 2007),通过近十年的努力逐步建立了州教育数据治理的流程和规范,用于保障教育数据的质量。

在整个数据治理流程中,数据部门进行数据汇总和上报EDEN的主要业务流程和关键节点如图5所示。整个过程可分为两步:第一步,从数据源采集原始数据,根据元数据仓库定义的转换规则将从数据源采集到的数据转换为满足EDEN格式的数据,并存储到数据仓库;第二步,到数据仓库提取数据并生成向EDEN提交的文件,并将文件提交到EDEN数据系统。数据治理工作涉及四个角色的技术人员:

· EDEN协调员。负责从EDEN数据库下载文件规范,并依据文件规范建立元数据库。

· 数据管理员。根据元数据仓库制定数据从数据源仓库下载存储到数据仓库时的转换规则,检查数据质量。

· 数据仓库(ETL)程序员。根据数据管理者制定的数据转换规则将数据从数据源系统抽取出来,并以EDEN存储格式存储到数据仓库。

· XML程序员。负责将单纯的数据转换为向EDEN提交的文件,并将文件提交到EDEN数据库。

在这个过程中,堪萨斯州的教育数据管理部门依据EDEN的数据文件规范,制定统一的数据采集和转换规则,保障数据的一致性和标准化。同时,教育部门的数据委员会还定期评估数据质量。数据治理工作不仅需要建立各种基础设施,如数据源采集系统、数据仓库、元数据仓库等,还要建立和维护项目文档,包括EDEN提交计划文档、项目分解计划文档、通信文档、角色职责分配文档等。为了保证良好的工作沟通还要开展工作交流会,包括数据治理委员会会议、数据管理会议及EDEN现状核心小组会议等。

该案例具体介绍了堪萨斯州教育部门在数据管理和治理方面的经验。主要有三个亮点可供我们参考:①数据治理的技术平台和业务过程。其中涉及了数据源、数据仓库、外部数据库等各种系统,以及数据元描述,数据格式规范、转换规则等技术规格。②技术人员的岗位职责。数据治理过程涉及数据管理员、程序员和协调人等不同的角色,他们的工作具有很强的专业性,相互衔接,各司其职,以保障整个治理工作得以有序进行。③有序迭代的数据治理方案。该州的数据治理工作是逐年完善的,从一個较小的满足EDEN数据提交的需求开始,经历了多次迭代,直到实现全州教育数据的统合。在历次迭代中,数据治理覆盖的范围逐步扩大,涉及的人群和相关方也逐渐增加。通过持续的数据治理,堪萨斯州教育部门的数据管理水平有了显著提升,在提高工作效率的同时减轻了工作人员的负担,较好地保证了数据的质量和数据的一致性,实现了数据共享,数据安全性也得到了极大保障。

五、总结

大数据在教育领域内有着广泛的应用前景和不可替代的作用。然而,传统的数据分析、管理和利用方法在大数据时代不再适用,其局限性日益显著。数据治理已经成为教育数据管理中亟须解决的问题。对教育数据进行合理、有效的治理,对于教育发展和推动教育改革有重大意义。首先,能够帮助教育管理者做出更智能化、更综合的教育管理决策,实现教育实践和教育战略的统一;其次,通过教育数据治理体系的建设可以将教育资源整合,并优化教育资源配置,在某种程度上改善教育资源分配不公的情况;再次,通过教育数据治理体系的建设可以提升教育质量,促进教育个性化;最后,通过教育数据治理体系的建设可以从海量的教育数据中发现模式及规律,诊断现存问题,预测教育发展趋势。

本研究通过对电子政务、金融及医疗健康等先发领域内数据治理经验的梳理,介绍了教育领域内数据治理的现状和存在的问题,给出了相应的建议,包括:制定和完善数据标准和使用规范,推进不同层次和不同维度的数据共享,强化教育数据的质量管理以及落实和健全数据隐私保护机制。当然,本研究也存在一些不足。一方面,研究主要基于文献研究和案例分析,借鉴其他行业中数据治理的经验提出解决方案,这些建议在教育行业中落地和应用可能会存在适应性的问题,未来应通过教育数据治理实践进一步完善;另一方面,本研究更偏重理论的研究,对于数据治理的具体方法、步骤以及涉及的相关技术未作详细介绍,这也将是笔者进一步研究的起点。

[参考文献]

Harper, J. 梁铭图,译. [2017-08-24]. 数据管理与数据治理的区别[EB/OL]. [2018-01-23]. http://www.cicpa.org.cn/Column/hyxxhckzl/xxjsyqy/qyjs/201708/W020170802478861099722.pdf

包冬梅,范颖捷,李鸣. 2015. 高校图书馆数据治理及其框架[J]. 图书情报工作(18):134-141.

陈真勇,徐州川,李清广,吕卫锋,熊璋. 2014. 一种新的智慧城市数据共享和融合框架——SCLDF[J]. 计算机研究与发展,51(02):290-301.

常朝娣,陈敏. 2016. 大数据时代医疗健康数据治理方法研究[J]. 中国数字医学(09):2-5.

丁宁,马浩琴. 2013. 国外高校科学数据生命周期管理模型比较研究及借鉴[J]. 图书情报工作,57(06):18-22.

杜婧敏,方海光,李维杨,仝赛赛. 2016. 教育大数据研究综述[J]. 中国教育信息化(19):1-4.

范灵俊,洪学海,黄晁,华岗,李国杰. 2016. 政府大数据治理的挑战及对策[J]. 大数据,2(03):27-38.

高汉松,桑梓勤. 2013. 医疗行业大数据生命周期及治理[J]. 医学信息学杂(09):7-11.

高亮. 2014. 数据治理:让数据质量更好[J]. 中国教育网络(12):64-66.

黄刘生,田苗苗,黄河. 2015. 大数据隐私保护密码技术研究综述[J]. 软件学报(04):945-959.

李文彬,陈醉. 2016. 大数据时代的地方政府数据应用[J]. 行政论坛(06):13-19.

李勇军,彭琳,林成,陆秋玉,夏月芳. 2016. 大数据治理在高校信息化管理中的探究[J]. 中国管理信息化,19(03):185-187.

孟小峰,张啸剑. 2015. 大数据隐私管理[J]. 计算机研究与发展,52(02):265-281.

覃炯聪. 2016. 大数据背景下的数据治理模式. 信息与电脑(16):155-156.

沈建苗. 2007. 数据治理成功的六个步骤[N]. 计算机世界(B07).

佚名. 2012. 商业银行数据治理体系构建思考[J]. 中国金融电脑(02):23-27.

沈建苗. 2012. 大数据应用:理想照进现实[N]. 计算机世界(020).

桑尼尔·索雷斯. 2014. 大数据治理[M]. 北京:清华大学出版社.

申孟宜,谷彬. 2014. 论大数据时代的政府监管[J]. 中国市场(36):32-40.

孙广芝,朱会彦,张立芬,孙兆洋. 2015. 数据标准在税务数据治理中的应用初探[J]. 中国标准化(09):73-76.

吴志刚,林宁. 2003. 信息共享、业务协同的前提——数据标准化[J]. 信息技术与标准化(Z1):43-44.

王帆. 2015. 从智慧教育视角论教育数据的变迁与潜能[J]. 中国电化教育(08):10-15.

王薇娜. 2016. 大数据时代的教育管理变革[J]. 教师(32):109-110.

许文,潘明道,徐明圣,王昭. 2012. 结合银行业务特点开展数据治理工作[J]. 银行家(12):125-128.

许晓东,王锦华,卞良,孟倩. 2015. 高等教育的数据治理研究[J]. 高等工程教育研究(05):25-30.

严智雄,马和民. 2011. 政府教育问责与治理对策[J]. 南京社会科学(05):113-118.

杨现民,王榴卉,唐斯斯. 2015. 教育大数据的应用模式与政策建议[J]. 电化教育研究,36(09):54-61,69.

张一鸣. 2012. 数据治理过程浅析[J]. 中国信息界(09):15-17.

宗威,吴锋. 2013. 大数据时代下数据质量的挑战[J]. 西安交通大学学报(社会科学版),33(05):38-43.

CMMI. (2016, May 12). Why Is Measurement of Data Management Maturity (DMM) So Important? Retrieved January 23, 2018, from http://cmmiinstitute.com/sites/default/files/resource_asset/DMM_White_paper_web%202016.pdf

DAMA. (2012). The DAMA guide to the data management body of knowledge. Technics Publications, LLC,45-47.

DAMA. (2014, March 17). DAMA-DMBOK2 Framework. Retrieved January 23, 2018, from https://dama.org/sites/default/files/download/DAMA-DMBOK2-Framework-V2-20140317-FINAL.pdf

EDUCASE. (2017, November 14). Data governance. Retrieved November 24, 2017, from https://library.educause.edu/topics/information- systems-and-services/data-governance

Gosa, K. (2007, May 4). Data governance: the Kansas approach. Retrieved November 24, 2017, from https://www.slideshare.net/Aamir97/data-governance-the-kansas-approach-ppt

UNSW. (2017, February 20). Data governance policy. Retrieved November 21, 2017, from https://www.gs.unsw.edu.au/policy/documents/datagovernancepolicy.pdf

Watson H. J. (2011). Business analytics insight: hype or here to stay, Review of Business intelligence, 16(1):4-8.

收稿日期:2017-12-27

定稿日期:2018-01-29

作者簡介:李青,博士,教授,硕士生导师;韩俊红,硕士研究生。北京邮电大学教育技术研究所(100876)。

责任编辑 韩世梅

猜你喜欢
数据管理教育
国外教育奇趣
企业级BOM数据管理概要
题解教育『三问』
定制化汽车制造的数据管理分析
软件工程教育与教学改革
海洋环境数据管理优化与实践
CTCS-2级报文数据管理需求分析和实现
什么是“好的教育”?
教育有道——关于闽派教育的一点思考
列控数据管理平台的开发