胡方 顾晓光
摘要:数据治理系统作为大数据平台的核心基础支撑系统,旨在为数据仓库、数据服务平台、大数据基础平台以及实时共享交换平台,提供统一、便捷、高质量和价值最大化的数据资源,是数据应用和实现数据跨部门联通的基本保障。该文提出基于大数据平台的数据治理系统建设方案,为降低后续数据治理的改造成本、实现各部门互联互通和达到数据资源价值最大化,提供有效基础支撑。
关键词:数据治理系统;大数据平台;数据仓库;数据服务平臺;数据资源
中图分类号:TP303 文献标识码:A
文章编号:1009-3044(2021)30-0044-02
开放科学(资源服务)标识码(OSID):
Construction of Data Governance System based on Big Data Platform
HU Fang1, GU Xiao-guang1,2
(1.Henan Big Data Center, Zhengzhou 450003, China; 2.Nanjing University Business School, Nanjing 210093,China)
Abstract: As the basic support system of big data platform, data governance system aims to provide unified, convenient, high-quality and value maximized data resources for data warehouse, data service platform, big data basic platform and real-time sharing and exchange platform. It is the basic guarantee for data application and cross departmental data connectivity. In this paper, the construction scheme of data governance system based on big data platform was put forward, which provides effective basic support for reducing the transformation cost of subsequent data governance, realizing the interconnection of various departments and maximizing the value of data resources.
Key words:data governance system; big data platform; data warehouse; data service platform; data resource
1 引言
大数据时代数据是公认的一项重要资产。数据作为对真实世界的对象、事件和概念的被选择属性的抽象表示,由可明确定义的约定对其含义、采集与存储进行表达和理解[1]。数据治理是将数据作为资产进行管理,建立统一标准,检核数据质量,准确描述数据元属性,分析数据之间关联关系,形成数据资源目录,实现数据快速检索,对数据全生命周期进行管理的整套流程体系[2]。
数据治理系统作为大数据中心的核心基础支撑系统,旨在为数据仓库、数据服务平台、大数据基础平台以及实时共享交换平台,提供统一、便捷、高质量、价值最大化的数据资源。本研究从数据全生命周期的整体视角,通过统筹规划数据治理系统,在系统建设伊始就实现统一的数据高质量、高标准管理,有效避免后续为数据统一治理而带来的高昂改造成本,以实现数据资源互联互通和价值最大化。
2 基于大数据平台的数据治理系统设计
2.1系统目标
数据治理系统的目标是提高数据的质量(准确性和完整性),保证数据的安全性(保密性、完整性及可用性),实现数据资源在各组织机构部门的共享;推进信息资源的整合、对接和共享,提升组织的整体信息化水平,充分发挥信息化作用[3]。
2.2系统设计
数据治理系统所涉及的技术及功能主要包括数据标准管理、元数据管理、数据质量管理、血缘管理、影响分析、数据资产管理、数据目录管理、数据生命周期管理等,具体结构可见图1。
2.2.1数据标准管理
数据标准管理对数据进行全生命周期管控,支持数据标准的制定及审核。落地映射的标准数据进入系统,可供数据使用者对标准进行查询,同时提供标准版本管理。数据标准管理内容包含数据标准集成、数据标准映射、标准查询和标准版本管理。
2.2.2元数据管理
元数据是一种电子式目录,为了达到编制目录的目的,必须描述并收藏数据的内容或特色,进而达成协助数据检索的目的。元数据描述了数据属性的信息,用于支持如指示存储位置、历史数据、资源查找、文件记录等功能[4]。元数据管理主要包含元数据分析管理和采集管理,通过元数据管理可以降低了用户理解和使用数据的难度。
2.2.3数据质量管理
数据质量管理是通过统一的数据标准来提升数据质量,为政务数据的质量管控提供技术支撑。借助数据标准和元数据工具体系,可以有效识别各类数据的质量问题;针对质量问题,通过血缘管理和影响分析,可以快速定位到责任人,具体数据质量管理流程如图2所示。
2.2.4血缘管理
数据血缘管理以目标对象为起点、目标分析为终点,按照引用关系逐层扩展。为了能清楚地了解数据加工过程和更完善地处理数据更新机制,需要建立数据血缘分析功能,以使用户清楚数据生成的来龙去脉,并实现在数据产生、加工融合、数据流通到最终消亡等数据处理过程中形成关联关系集合。
2.2.5影响分析
影响分析,研究数据变更对业务逻辑、业务流程、数据标准以及平台技术层面的影响,提供为实现业务所写的程序代码等改变并输出评估报告,给数据更改方和受影响方等参考,帮助数据所有者判断是否必要进行数据的更改,以及提出受影响方需要做出的准备。
2.2.6数据资产管理
数据资产是能够为政府治理及社会服务产生价值的数据资源,而非所有的数据都构成数据资产。数据资产管理对数据资产进行分级分类,筛选出有效的数据资产。在资产权限管理的指导下,对内可进行共享和交换数据,对外可开放共享数据及提供API接口、供应用层访问,同时支持资产使用情况的调用统计。
2.2.7数据目录管理
数据目录管理实现数据目录从创建、发布、维护到对接的动态规范管理。通过对采集的数据源及元数据按目录层级进行存储,可存储表数据、图片和视频等数据资源及元数据,支持数据服务平台和上层应用展示,方便用户快速查找数据资源,同时支持政务信息资源目录的编制以及与各级目录平台的对接。
2.2.8数据生命周期管理
数据生命周期管理,是对信息系统的数据在整个生命周期内的流动进行管理(创建、初始存储、过期删除等)。数据生命周期管理支持将所涉及过程自动化,根据指定的策略将数据组织成各个不同的层,并基于关键条件自动地将数据从一个层移动到另一个层。
3 结论
本文从数据全生命周期的整体视角,设计基于大数据平台的数据治理系统。该系统在建设之初就为实现统一的数据高质量、高标准管理而设计,预期能够满足组织在数据治理方面的功能需求,并有效避免系统为实现数据的统一治理而带来的高昂改造成本,为数据资源互联互通和价值最大化提供支撑。
参考文献:
[1] 胡锐, 芮忠. 基于数据中台的高校数据治理系统的设计[J]. 电子世界, 2020(12):187-188.
[2] 安倩楠. 基于大數据技术的智慧校园整体构建研究[J]. 电脑知识与技术, 2021,17(17):94-95+107.
[3] 林海.数据治理在合肥市政府大数据平台中的应用和实践[J].电脑知识与技术, 2019,15(10):281-283.
[4] 姚洪.基于数据中台的数据治理系统的设计与实现[J].科学技术创新, 2020(35):74-75.
【通联编辑:王力】