智能化、可视化的大数据治理体系的研究与应用

2020-05-11 12:24张小晖郝洁
数字技术与应用 2020年2期
关键词:元数据数据治理大数据

张小晖 郝洁

摘要:随着移动互联网时代的来临,河北联通大数据平台的数据规模也呈现爆炸式增长,传统的数据管理方式早已无法适应现代化的数据需求。本文聚焦和分析了当前河北联通大数据平台存在的问题,构建了一套以元数据驱动、数据质量、数据安全、数据资产等领域统一、完善的大数据治理体系,实现了数据管理标准化、规范化,生产流程标准化和数据管控可视化。

关键词:数据治理;大数据;元数据;ETL

中图分类号:TP311 文献标识码:A 文章编号:1007-9416(2020)02-0027-01

1 方案的主要目标

在移动互联网高速普及,大数据体系快速发展的背景下,数据资源极速增长。海量级数据的积累对通讯运营商提出了巨大的挑战,如何利用大数据深挖数据价值,如何支撑企业精细化运营,如何释放数据红利,已经成为运营商的当务之急。在这其中,保障数据质量是前提。而传统的数据质量管理方式存在很多问题:对于企业数据资源“看不清,管理难”;无法对数据流转全过程进行管控;数据运维自动化、智能化程度低等等。

本着以数据质量保障、过程可视化、界面化流程监控为建设的宗旨,通过对数据质量管理现状的调研与问题需求分析,制定合理的技术方案,主要实现以下目标:

(1)构建企业全景数据视图,实现数据资源“看得清,易管理”。 对企业数据资源进行统一梳理和管控,通过元数据自动采集工具实现对数据资源的动态更新和维护,形成企业数据资源全景视图,使得数据资源“看得清,易管理”。基于元数据血缘关系,掌握指標数据生成的来龙去脉,实现对数据资源的深入洞察与分析,提高对企业数据运营的支撑能力。

(2)通过界面化监控视图,实现数据流转过程可视化。构建数据流转全过程可视化的监控体系,以图形化、流程化的展现形式,直观展示数据加工处理整体过程各环节的情况,支持从流程的任意节点入手,钻取获得任务的执行情况,使维护人员直观把握系统运行环境、数据加工处理状况,降低频繁操作后台对资源的消耗,实现支撑工作更准时、更稳定、更高效。

(3)通过自动化、智能化手段,提高数据运维效率。一是规范接口信息、流程调度、稽核规则、校验规则等内容的配置标准,在前台实现灵活配置,减轻维护人员后台编写代码的工作量。二是配置流程时,仅需配置节点任务的前置条件,通过定时扫描、自动执行的方式实现整个工作流的自动化组织,简化配置操作,优化资源利用,提高运维工作效率。三是根据数据血缘分析图,快速定位异常数据节点位置和具体原因,提高数据支撑能力。

2 方案的具体实践

为解决目前数据质量管理工作中存在的问题,需要构建一套规范标准、全流程、可视化的大数据治理体系。建设思路是借鉴资产管理的理论,把数据看作资产进行标准化的约束,并以元数据驱动,标准化数据质量管理、数据安全管理、数据资产管理等领域,形成统一、完善的大数据治理体系,实现数据管理规范化,生产流程标准化和数据管控可视化,不断提升大数据平台数据质量,达到调用便利、范围完整、质量可靠的要求,增强对业务发展、经营决策的支撑能力。

本系统对数据从采集、存储、加工处理到应用展现全流程进行端到端的数据管控,主要功能模块包括:元数据管理、ETL调度管理、数据质量管理、运营监控和工单处理等。各功能模块相互独立,且相互关联,在数据流转各个环节所管理的对象及流程。

元数据是关于数据的描述,存储关于数据的信息。元数据管理对数据资源进行识别、描述和追踪,它是数据质量、流程监控的基础,涉及数据治理体系的各个领域和环节,贯穿从数据采集、逐层加工与稽核、数据集市到最终应用与服务的整个流程。通过元数据管理,明晰了数据间的转换关系,实现360°全方位无死角的数据资源管理和端到端的异构数据流全面管控。元数据属性模板确定之后,采用自动化的元数据采集方式,通过设置扫描规则。通过既定规范,对系统中的指标进行来源分解,生成血缘关系,形成企业全景数据视图。

ETL(Extract-Transform-Load),用来描述将数据从源端经过抽取、转换、加载至目的端的过程,是构建数据仓库的重要环节。图1为ETL调度管理流程示意图。

本方案采用全新的任务流组织方式,配置流程时仅需配置节点任务的前置条件,任务流的实际运作关系,是在流程运行期间通过对每个节点任务的前置条件进行定时扫描,动态自行组织起来的。创建流程后,通过资源管理,将数据库与相应的流程建立关联,支持异构数据数据集成。通过流程监控实现对ETL过程节点级的数据监控查看流程状态。支持从流程的任意节点入手,钻取获得子节点的流程配置及执行情况。

数据质量管理模块实现端到端的数据全生命周期的自动化质量监控与质量稽核,保障数据的完整性、准确性、一致性、及时性等,提高数据质量。基于元数据对象(如数据表、视图),实现可视化的稽核规则稽核配置。

运营监控模块实现数据加工处理全过程端到端的透明化监控,并以图形化、界面化的形式展示,确保及时发现数据异常,并回显到数据质量管理模块进行跟踪处理。运营监控模块的主要功能如:数据的采集与监控、数据的稽核与监控、数据的加工与监控、指标监控。

3 结语

本方案采用全新的任务流组织方式,配置流程时仅需配置节点任务的前置条件,任务流的实际运作关系,是在流程运行期间通过对每个节点任务的前置条件进行定时扫描,动态自行组织起来的。新的任务流配置方式以智能化、自动化的方式实现任务流的组织,简化了流程配置操作,优化了资源利用,提高了运维工作效率,具有一定实际的推广价值。

Research and Application of  Intelligent and Visual big Data Governance System

ZHANG Xiao-hui,Hao Jie

(China united network communications limited Hebei Province Information Security Department, Shijiazhuang  Hebei  050011)

Abstract:With the advent of the Mobile Internet era, the data scale of Hebei Unicom's big data platform has also shown explosive growth, the traditional data management has long been unable to adapt to modern data needs. This paper focuses on and analyzes the problems existing in the current big data platform of Hebei Unicom, and constructs a set of unified and perfect big data governance system driven by METADATA, data quality, data security, data assets, etc. , it realizes the standardization and standardization of data management, Production Process Standardization and data management visualization.

Key words:data governance; big data; metadata; ETL

猜你喜欢
元数据数据治理大数据
大数据治理模型与治理成熟度评估研究
大数据时代城市治理:数据异化与数据治理