李昌伟,王 凯,张立博
(中国绿发投资集团有限公司,北京 100010)
因不同开发商所开发系统的数据标准不一,导致各企业间难以进行数据共享,影响工作效率。可见,为实现新共享时代,数据标准管理的重要性非比寻常[1]。当前,多数数据标准管理方法和工具多针对单个行业、数据源或企业,即使是管理机制较成熟、管理方法和工具较多的金融行业也缺少面向各行业、跨越多种数据源的数据管理方法和工具[2-3]。从原理看,业务元数据是数据标准本体,从业务元数据出发管理数据标准可从本质上解决数据标准管理平台难落地的问题。基于此,本文将基于元数据搭建数据标准管理平台,以期为数据共享提供理论支撑。
现有数据标准管理问题包括[4]:(1)认知不足,站位不高,难以理解数据标准对实施信息战略和管理水平提升的重要性,积极性不足;(2)各单位工作目的和时间等不同,导致系统间同类数据的分类、信息及定义等均不同;(3)各系统、部门中虽然有多个数据主题在流动使用,但关注度及使用频率等不同,导致数据归属不一;(4)数据治理时,因数据业务处理中所遇到数据问题不同,导致业务流程运转及业务发展情况不同,存在业务口径多样、系统功能缺失及信息基础编码不同等问题。针对现有问题,文章搭建了如图1所示的数据标准管理体系。
图1 数据标准管理体系
1.1.1 企业数据标准存储
数据标准存储是数据标准系统的核心功能,其对业务与标准的结合、技术和标准的结合等都有影响。以元数据库作为存储方式,并以数据标准作为元数据库的业务元数据,有利于元数据库技术元数据与业务元数据的有效结合。
1.1.2 企业数据标准基础管理
企业数据标准基础管理模块包含数据标准的落地检核模块、生命周期管理模块、浏览与查询模块,三者共同构成数据管理系统的基础管理能力。
1.1.3 企业数据标准应用接口
应用接口的作用在于让数据标准有效落地,并为各系统提供相应功能。
从企业数据标准体系看,数据标准管理平台建设要求有:为企业数据标准咨询及咨询成果提供支撑作用和存储能力、根据现有数据标准管理各类数据、为上层业务应用及管理提供数据标准服务。从数据标准管理平台的对外服务及内在需求上,搭建如图2所示数据标准管理平台总体架构。
图2 数据标准管理平台总体架构
从数据标准应用、存储及基础管理3个模块设计数据标准管理平台的功能架构[5],具体如图3所示。
在企业数据标准存储模块中采集技术元数据和数据标准后,即可通过各类元模型将所采集的数据存储到元数据存储库中。
数据标准基础管理模块包括标准体系浏览、标准综合查询、标准生命周期管理和标准落地校核功能。标准体系浏览模块提供浏览数据标准的窗口,业务人员在标准体系浏览窗口中找到所需数据标准表述术语、值域代码等后,即可在标准综合查询窗口中找寻,可有效提高查找准确度;数据标准生命周期管理是数据标准基础管理模块的核心,标准的维护、审批和执行等均由其体现;数据标准落地校核的作用在于映射数据标准,以映射方式检查数据标准执行效果[6]。
数据标准应用模块的作用主要有:统一业务口径(使各类日常业务工作均遵守统一的数据标准定义)、辅助数据标准落地(通过检查数据标准落地情况确保数据标准落地)、辅助系统开发(指导设计新建系统模型,确保数据标准与业务系统模型保持一致)、贯通技术与业务(经由元数据结合业务、技术、标准,使业务人员可从数据标准出发明确业务标准)。
数据标准管理技术架构共5个层次,具体如图4所示。其中,采用HTML5技术搭建客户层,以确保客户端兼容各类浏览器;采用JavaScript/Ajax、Flash搭建展现层技术架构,确保符合用的户操作习惯,确保数据展现质量;借助Service接口以Json、XML等方式进行业务层间的通信,以完全分离展现层和业务层;集成层是技术架构的关键,共有两方面作用:一是数据供给作用,包括供给数据标准、技术元数据等;二是数据采集作用,包括各系统间的通信数据等,为确保集成层的高效运作,通过JNDI等技术搭建其技术架构;资源层含有各类数据资源,包括数据标准咨询结果、各系统数据库表、数据传输信息,以Database数据库搭建其技术架构。
图4 系统技术架构
元数据管理模块共4个结构层次,分别为数据源、元数据采集、元数据存储、元数据服务,具体如图5所示。
图5 元数据管理总体结构
2.1.1 元数据来源层
元数据来源类型包括库表结构和ETL工具。库表结构包括数据库(DB)、ODS数据模型和集市数据模型的数据库信息、表结构、表信息及模型关联关系等。ETL工具包括Mappings、Worklets、Targets和Sources等元数据和映射数据等。
2.1.2 采集适配器层
为提升系统的操作性和扩展性,便于业务人员连通各类型元数据接口,在元数据管理平台中单独设置采集层。元数据采集适配器可用于各类数据源数据的采集、解析、分析和存储,具备自动化获取和解析元数据的功能。不同类型的数据源对应不同的采集方法,针对异构数据源和较多使用的数据源,分别设计了ETL采集器和DDL采集器。ETL采集适配器设计如图6所示。此外,数据库采集方式共两种:一是从数据库管理表中采集的直连采集方式,该方式实时性较强,但需耗费连接池资源,且长期直连对数据库影响较大;二是从数据库定义的语言文件中采集,该方式可有效避免方式单一的问题,对数据库影响较小,建议采用第二种采集方式。
图6 元数据采集设计
库表采集适配器的整体流程为:定义语言脚本,制定采集策略,开发文件以匹配数据库所定义的语言脚本风格,形成Java类文件,在采集程序中调用该类文件以进行采集[8]。具体如图7所示。
图7 库表采集器采集逻辑流程
2.1.3 存储模型层
基于对象建模的思想,元数据存储模型层包括元模型定义模型和元数据存储模型。元模型定义模型通过OMF规范定义对象间关系和行为并进行分类,元数据存储模型按元数据类型分类存储数据对象[7]。元数据存储模型如图8所示。
图8 存储模型
基于数据标准自动化采集、统一管理及强扩展性的设计原则,为实现在数据标准出现结构变化时,只需简单配置即可采集新数据标准而无需改变数据标准存储结构性内容的目的,将数据标准存储划分成如图9所示的4个主要过程。
图9 数据标准存储过程
2.2.1 数据标准模板
数据标准模板可为数据整理提供指引,可采用Excel形式作为模板,具体如表1所示。
表1 数据标准模板
2.2.2 数据标准元模型
数据标准模板需经元模型采集才可进入数据标准管理平台。从数据标准定义看,数据标准元模型主要包括主题元模型和公共代码元模型。主题元模型强调主题的表达,包括主题分类和信息项元模型等,公共代码元模型则强调公共代码和代码值。
统一数据标准是提升大数据时代数据管理能力的必经之路。数据标准管理平台旨在助力尚未进行数据治理的企业巩固治理根基,实现数据标准化建设目标,这将为后续数据安全及质量提升等工作打下牢固基础,并为扩展新业务系统提供统一规范,对提升数据共享有重要意义。