张新阳 张梅 马文 程永新
摘要:从大数据中心的数据管理通常面临的元数据获取困难、业务元数据缺失、影响度变更管理缺乏、数据标准化处理缺失等问题出发分析,提出了基于电力行业的大数据时代下元数据管理方法,并对方法中涉及的关键技术点进行了详细说明。通过元数据管理,可以达到解开大数据平台“黑盒子”的目的,清晰知道数据的来龙去脉,为后续数据质量、数据标准、数据安全等治理活动提供能力基础,为大数据时代下的电力企业提供一个更有效的、可控的数据管理手段及高质量的数据环境,真正指引和支撑企业的数据化运营。
关键词:大数据;数据治理;数据资产;元数据
中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2018)31-0258-03
Metadata Management Method in the Era of Big Data Based on Power Industry
ZHANG Xin-yang 1,ZHANG Mei 1,MA Wen 1, CHENG Yong-xin2
(1.China Southern Power Grid , JingKai,KunMing 650000, China; 2. New Century Network Company, Shanghai 200333,China)
Abstract: Based on the analysis of the difficulties of metadata acquisition, business metadata missing, impact change management missing and data standardization processing missing in data management of large data centers, a metadata management method based on large data era of power industry is proposed, and the key technologies involved in the method are discussed. Through metadata management, the purpose of unlocking the "black box" of large data platform can be achieved, the context of data can be clearly known, and the capability foundation for subsequent data quality, data standard, data security and other governance activities can be provided. It provides a more effective and controllable data management means and high quality data environment for power enterprises in the era of large data, and supports enterprise's data operation.
Key words: Big data; Data governance; Data assets; Metadata
2018年3月,南方电网公司评审通过了《中国南方电网有限责任公司“十三五”信息化规划》。《规划》提出围绕“提升客户体验、加强业务数据化、数据业务化、新技术与业务深入融合、信息化保障体系”五个方面,重点开展27项重点任务,坚守网络安全底线,升级完善信息系统、深化协同应用,强化数据资产管理,实现业务应用移动化、运营监控可视化、数据资产价值化、安全防御体系化,促进客户体验增强,公司运营效率提高,数据资产价值深度挖掘,业务需求响应速度提升,“十三五”末初步建成“数字南网”。
显然,数据已经成为我们企业的重要资产,如何发挥数据资产价值,是我们当下最重要的课题之一。随着一系列的大规模信息化建设,公司信息化水平得到明显提升的同时,数据规模、数据量也在逐年递增,我们企业已跨入大数据时代,近年来各电力公司纷纷构建大数据平台,以数据化运营业务。然而,在大数据中心进行数据管理的过程中,总会暴露出以下基本相似的问题:
1) 不同类型的大数据平台存在差异,抓取元数据的方法不一,获取完整的元数据信息困难。经过商业封装的大数据平台还具有一定的闭源性,导致大数据平台成为事实上的黑盒子。元数据对象、数据模型之间的关系、数据指标的统计口径等获取困难,可能会导致血缘关系断裂,不利于血缘分析、影响分析等工作开展。
2) 通过技术手段自动化获取的元数据只描述了技术相关信息,缺乏业务类的元数据信息,在大数据中心的数据提取或数据挖掘中起不到指引的作用。
3) 源系统数据模型变更,直接影响到大数据中心的数据质量,并且通常是事后才发现和分析处理。为了满足不断变更的业务需求,源系统随着应用上线不可避免的频繁变更数据模型版本,大数据中心需要根据具体的数据模型同步做出相应调整,否则会影响到从源系统的数据采集、清洗及转换等,直接影响到数据质量。
从这些问题之中亦反映了一个普遍存在的现实:企业在倾力建设大数据中心的過程中,忽视了数据管理的重要性,通常是在后期数据使用、数据分析和应用时才发现困难重重。数据管理与大数据平台应该并行建设,元数据管理作为数据管理的基础,清晰地描述数据的来龙去脉,是大数据中心建设过程中不可或缺的一部分。
1 正文
本文将从对大数据时代下元数据管理的角度出发,论述一种基于电力行业的大数据平台元数据管理方法,并说明该种方法实施后带来的效果。
由引言问题的分析和归纳,在数据管理这个范畴上,我们首先要解决的是企业自身对大数据中心的数据管理重要性的认识。尤其是元数据作为数据管理的基础,应该作为大数据中心同步建设的一个必备配置。
按照传统的定义,元数据是关于数据的数据。在数据仓库系统中,元数据可以帮助管理员和开发人员非常方便地找到他们所关心的数据,同时元数据还描述了数据与数据之间的关系,可以清晰地知道数据的来龙去脉,帮助解决数据质量定位问题和评估数据变更的影响度,是其他诸如数据标准、数据质量、数据安全等数据管理工作的基础条件,按用途又可分为技术元数据和业务元数据两大类。
在以Hadoop为主流的大数据平台建设进行企业数字化管理当下,电力企业必须建立起一个基本电力行业大数据中心的元数据管理方法。
1.1 元数据管理的实施方法
大数据中心的数据来源为关系型数据库,关系型数据库的元数据管理已比较成熟,本文不再次讨论,本文重点讨论大数据平台元数据管理方法。考虑到各种类型的大数据平台差异,尤其经过商业封装的大数据平台还具备一定的闭源性,我们将采取通用的日志方式来解决技术元数据中血缘信息的自动化获取和整理,并通过人工完善业务元数据,达到完整的元数据管理能力。
1.1.1元数据自动化获取
1.1.1.1 基础信息
一般情况下,大数据平台使用关系型数据库(如mysql、oracle)作为元数据库,来存储元数据信息。
主要信息存储情况如下:
TBLS存储Hive表、视图、索引表的基本信息
TABLE_PARAMS存储表/视图的属性信息
TBL_PRIVS存储表/视图的授权信息
可以使用JDBC/ODBC连接大数据平台存储库,获取3个元数据存储表中的信息,根据表间关联关系进行信息整合,获取表、字段、视图等技术元数据信息。
获取技术元数据信息后,使用业务表(Business Table)元模型和业务字段(Business Column)元模型来存储大数据平台的表元数据和字段元数据。
业务表元模型主要信息
业务字段元模型主要信息
1.1.1.2 血缘关系信息解析
血缘关系的管理和分析是元数据管理的重要功能,为实现此项功能首先需要从数据处理日志文件中提取数据流向相关信息,包括处理源、目标、处理逻辑、字段映射等。
主要分析流程如下:
1) 从数据处理日志文件中提取HIVE SQL数据处理信息
2) 利用数据处理关键字(INSERT、SELECT、FROM、WHERE 等 )对数据处理信息进行分块,形成逻辑子块
3) 从逻辑子块中提取处理过程中的源、目标、处理逻辑、字段映射等信息
最终,整合元数据基础信息、数据流向信息,形成血缘关系信息链。
在实际生产环境中,大数据平台数据处理日志文件数是比较多的,需要采用日志切分、多线程并发处理等技术手段,提高血缘关系信息的解析效率,方可满足实际生产的需要。
1.1.1.3 自动化执行
将元数据基础信息提取及血缘关系信息解析封装在任务中,通过调度平台对其进行调度执行,实现大数据平台元数据及血缘关系信息的周期性自动抽取及解析。
1.1.2补充业务元数据
为了让用户能够更方便快捷使用元数据信息,需要为每个元数据表、字段补充业务属性,包括业务名称、业务定义、业务描述等。
补充业务元数据时,采用EXCEL文件进行信息收集,通过对EXCEL文件解析,获取并更新业务元数据信息。
1.2 实施元数据管理获得的关键效果
1.2.1 血缘分析
血缘分析是对数据来源的分析,根据血缘关系信息,从所分析实体开始,往回递归分析,直到数据流的起点。可展示数据资产之间的关系与来龙去脉。利用血缘分析能力,解决了企业中数据质量的追根溯源问题,有效提高了大数据平台的数据质量。
1.2.2 影响分析
影响分析是对影响范围的分析,根据血缘关系信息,从所分析实体开始,往下递归分析,直到数据流的终点。一般用于量化企业范围的各种数据变化影响度、确定实体变化的影响范围。利用影响分析能力,解决了以往数据对象变更无法准确确定影响范围问题,确保了生产的稳定运行。
1.2.3 关联分析
关联分析是根据血缘关系信息,进行实体重要程度的分析。一般用于分析实体变化时的影响评估。开发、运维人员通过关联分析能够确定数据对象的重要程度,进行针对性优化,提升IT系统的运行效率。
1.2.4 全景视图
数据资产全景视图使用可视化组件、多媒体、三维动画展示等高级可视化手段,以图形化方式展示企业数据资产,提供从整体上描述系统间、业务线、数据域(分析主题)之间的关系,是宏观层面的元数据视图,可快速检索数据资产和直观感知数据资产的分布。
2结语
随着电力业务精细化管理的要求越来越高,信息化支撑能力不断提升,数据治理已成为业务应用集中建设、大数据应用、智能分析决策应用的重要基石。元数据管理作为数据治理所必须的基础能力,可为数据质量、数据标准、数据安全等治理活动提供基础信息,也可为大数据中心对外服务(如数据共享)提供必要的基础信息。在各电力企业纷纷建设大数据中心的当下,坚定建设“数字电网”的目标,以数据驱动业务,元数据管理能力建设势在必行,通过血缘分析保障数据质量、影响分析避免变更影响、全景视图实现数据资产的层层盘点,为企业提供一个更有效的、可控的数据管理手段及高质量的数据环境,真正指引和支撑企业的数据化运营。
参考文献:
[1] 陈彬.南网“十三五”信息化规划修编报告通过专家评审[N]. 南方电网报,2018-03-16.
[2] 贾福清.再接再厉全面推进“三集五大”体系建设[J].国家电网, 2013(2):50–51.
[3] 巨克真,魏珍珍.电力企业级数据治理体系的研究[J].电力信息与通信技术,2014(1).
[4] 郑悦.数据资产管理的关键点[J].IT经理世界,2015(1).
[5] 宿晓丹,刘太敏,毛军. 数据资产管理体系研究及服务平台架构设计探讨[J].信息与电腦(理论版) 2018(15):157-159.
[6] 高伟.数据资产管理[M].北京:机械工业出版社,2016.
[7] 甘似禹,车品觉,杨天顺,等.大数据治理体系[J].计算机应用与软件,2018,35(6):1-8+69.