文|金海峰 董菊香 李春香
随着电子政务各领域应用不断的深入,各地大数据中心的成立,电子政务数据资源开始聚集,数据作为基础性战略资源的地位日益凸显。数据质量、数据安全、数据应用、跨机构资源管控、共享开放与互操作等问题日益成为各地电子政务领域中突显的问题。这一问题的解决之道,在于数据治理。
近年来,围绕大数据治理相关的实践和研究探索。取得一些成功经验,如华为将数据管理工作分为两个阶段:第一阶段通过数据治理,实现数据清洁,提升财报准确与业务流打通;第二阶段通过建设数据底座,数据服务化,支撑数字化转型。而银行业自2018年5月,银保监会发布《银行业金融机构数据治理指引》以来,各行从数据治理架构、数据管理、数据质量控制、数据价值实现、监督管理等方面规范银行业金融机构的数据管理活动。将数据治理提高到银行常规管理的战略高度,明确要将银行数据治理工作常态化、持久化,标志着我国银行业数据治理新时代的正式启幕。
然而,这些领域的数据治理与政府大数据中心的最大区别是:大数据中心面对的是各机构、各系统归集的数据;同时,它既不是IT 公司,也无具体特定领域的行政业务的能力。对于这样一个没有具体业务驱动的机构,数据治理的概念是什么,边界在哪里,开展的途径与切入点在哪里,是全国大数据中心当下面临的一道深刻而又紧迫的难题。
江阴市大数据中心联合北京国脉互联信息顾问有限公司,以数据质量测评入手,从跨系统数据整合,构建业务应用的角度出发,突破组织边界,设计相应指标,摸清存量数据质量水平,探索出面对增量数据及全局性资源质量改进与进一步治理的方向,在全国范围内做了一次较为领先的尝试。
数据治理是对数据资产管理行使权利和控制活动的活动集合(规划、监控和执行等),其职能是指导其他数据管理职能如何执行。其权威架构以国际数据管理协会发布的DMBOK1.0中“管理屋顶图式架构”来描绘数据治理的内容与体系架构,如图1 所示。
图1 数据治理的一般架构
图1 表明:数据治理包涵了从数据架构管理到数据操作管理、参考数据和主数据管理及文档和内容管理等9 个领域,是个覆盖领域广泛、技术内涵深入且管理要求颇高的“资源+技术+管理”的综合体系。这对于刚成立不久且履行完数据集聚的大数据中心而言,要想按此架构全面开展数据治理显然是不实现的。于是,我们从实际出发,本着先易后难、先局部后全面、先单一再复合治理的原则,选择从数据质量测评入手,先了解所聚集数据的实际质量,通过相关指标看其实用性、体量、重用性与资源贡献率等,为后期的全面数据治理打下基础。
1.数据质量的内涵
什么是质量?依据ISO 8402,质量是反映实体满足明确或隐含需要能力的特性总和。而政务数据质量,一指其必须满足规定或潜在的单一政府机构业务的需要,二指其要满足“三融五跨”所需的数据共享、互操作与业务发展之进一步要求。所以,数据质量可以是技术标准中规定的要求,也可是其中未注明,在使用中存在或发掘出的需要。但质量首先应是对技术规范的满足,再在其基础上随应用的拓展而变化。于是,对大数据中心而言,在研究数据资源的“适用性”之前,先要研究其对标准“符合性”的质量。
2.数据质量标准
中国标准化专家委员会委员钱七虎院士指出:“标准是质量的核心内涵”。高质量发展就是高标准发展,因为数据标准是数据质量的核心内涵。判断低水平、落后水平需要有依据;改变低水平、落后水平,改到什么程度才算先进水平,均要有依据。这些依据可有多种,但最简洁和权威的就是标准。
2017年,江阴作为江苏省唯一的集成改革示范县市,江阴市委、市政府提出构建“1 中心+3 平台”的智慧城市总体框架。“1 中心”即“江阴市大数据中心建设项目”,并将数据共享和应用支撑列入集成改革重点项目。为此,2017年江阴市成立大数据管理专职机构。
为响应江阴市领导提出“共享全市大数据”的要求,江阴市大数据中心对纳入江阴大数据中心平台的数据开展质量测评,以摸清其现存政务数据资源的总体质量水平,分析典型机构的质量状况及提升空间,指出全局性数据质量改进及进一步治理的方向。
本次测评指标的选取主要参考《GB/T 36344-2018 信息技术 数据质量评价指标》,其对数据质量的定义为:“在指定条件下使用时,数据的特性满足明确的和隐含的要求的程度。”分别从数据的规范性、完整性、准确性、一致性、时效性、可访问性六个方面对数据质量进行综合评价,指标框架如图2 所示。
此规范框架完全适用于政务数据。但其主要针对单位内部,而本次江阴市的政务数据质量测评主要针对跨单位、跨系统构建业务的应用环境,故对上述6 项指标略作调整:仍以其中规范性、完整性、时效性为核心指标,同时从跨系统数据整合,构建业务应用的角度,将准确性、一致性、可访问性调整为实用性、冗余度、公共数据元采用度、空项率,以及各单位对全市政务资源支持性的贡献度。这几项指标的调整,体现了本次测评主要偏向对总体数据质量水平的测度。本次质量测评的指标框架如图3。
图2 GB/T 36344-2018 的数据质量测评框架
本次质量测评依标治理,按照先数量,后质量;先数据架构,后单项数据;先数据项,后实体数据的测评原则,采用定量与定性结合、专项与关联分析结合、现场观察与后台对标相结合的方法,按提供数据的规范性、完整性和实用性为核心,综合考虑其与外部资源的共享性与组合性作质量测评分级。
根据设计的8 项测评指标,通过对全市61 个单位、632 个数据集、12102 个数据项、10.78 亿实体数据的实地调研和梳理,形成《全面数据质量测评等级评价表》。根据支撑全局数据共享的力度,将评价结果分为极欠缺、不充分、基本充分、充分、充分且规范。其中,充分且规范的单位有16 个,占比26%。此区域的数据可考虑作为试点,重点分析其质量。
图3 江阴大数据中心的数据质量测评框架
图4 数据治理框架
试点选取具有行业代表性的教育局,以及机构职能改革后变动较大的部门市场监督管理局做为试点治理单位。依标治理、形成元指标库;实体数据比对、清洗、转换形成试点治理数据库。
通过全面质量测评和试点治理,达成以下成果:理清了各机构提供数据的数量和质量,为下一步对大数据中心掌握的政务数据资产怎样进行评估,提供了定性和定量的指标框架;对深入数据治理提供了指导性的意见;依照国家和相关委办局、行业的标准,比如:教育按照《GBT 35298-2017 信息技术 学习、教育和培训教育管理基础信息》、《GBT 33782-2017 信息技术 学习 教育和培训教育管理基础代码》、《GBT36351.2-2018 信息技术 学习、教育和培训教育管理数据元素 第2 部分:公共数据元素》对数据项和实体数据对标,比较容易获得被测评机构对数据质量欠缺和不足的一致认可,为下一步更好的开展工作,提供一个良好的基础。
本次测评已对各单位内部系统整合、提升数据内部共享交换、价值性与减少数据冲突等方面,提供初步评估结果。下一步应通过数据治理具体解决资源冲突、共享创新等问题。
具体建议为:大数据中心统一建立与维护公共数据元,依标准格式与数据段组合,对各单位的公用实体数据资源进行统一转换映射,提升资源总体标准化水平。
治理将分战略与治理保障、大数据管理和大数据应用与服务3 层级。具体框架如图4。
建议数据治理的目标为:
1.融汇国际数据治理的先进理论与实践,集成国际、国家、行业、地方等数据标准,形成标准公用数据元池。
2.动态跟踪汇集各领域新资源、新理念,开展语义描述,构建管理、关联、代码等层级的标签,实现数据标准化处理。
3.实现将各领域实体数据(主数据+参考数据)、元数据/数据元、职能数据、业务数据、管理数据等融合在一个标准资源平台,开展跨机构资源标准化与质量管控。
4.针对具体业务需求,实现跨机构数据比对与抽取、适匹与组合,构建新资源、支持动态分析与服务创新。
数据治理项目不单单是搭建一个集团级数据治理管理平台,而是一项长期而复杂的工程,涉及到数据管理体系、数据标准、数据治理管理平台、数据质量和安全、相关系统升级改造、数据清洗等多个方面,项目建设依据快速见效、急用先建的思路,先整体规划,以数据模型和数据标准为基础,以数据治理管理平台为载体,并开展数据治理专项工作,确保数据治理项目的成功,为实现有效的数据资源整合夯实基础。