吕军 郭健 罗旭
摘要:进入信息时代,随着数据产业的蓬勃发展,数字化建设如火如荼。“数字中国”“互联网+”等国家战略项目已在资源、可持续发展、环境以及行政办公等领域取得了良好的效果。数据是资产、资源,但如何把数据资产、数据资源转化为社会收益和企业利润,还需要多方探索。当前,机构和企业不再建设从源数据采集到分析应用的烟囱式系统,更倾向于数据集中采集、存储,并应用分层建设。这种方式一方面有利于应用系统的快速部署,另一方面也保证了数据的集中管理与运营,体现数据的资产、资源属性。数据中台的出现弥补了数据开发和应用开发之间由于开发速度不匹配而出现的响应力不足等问题。本文主要对数据中台的通用体系架构进行了简单的探讨,以供相关人员参考。
关键词:大数据平台 数据中台 数据治理 体系架构
Research on General Architecture of Data Center
LV Jun GUO Jian LUO Xu
(Sichuan Bangchen Information Technology Co., Ltd., Mianyang City,
Sichuan Province, 621000 China)
Abstract: In the information age, with the vigorous development of data industry, digital construction is in full swing. National strategic projects such as "Digital China" and "internet +" have achieved good results in the fields of resources, sustainable development, environment and administration. Data are assets and resources, but how to transform data assets and data resources into social benefits and corporate profits needs to be explored in many ways. At present, organizations and enterprises no longer build chimney systems from source data collection to analysis and application, but prefer centralized data collection, storage and hierarchical application construction. On the one hand, this method facilitates rapid deployment of application systems. On the other hand, it ensures centralized management and operation of data and reflects the asset and resource attributes of data. The emergence of data center makes up for the lack of response between data development and application development due to the mismatch of development speed. This paper mainly discusses the general architecture of data center for reference.
Key Words: Big data platform; Data center; Data governance; System architecture
大數据蓬勃发展的背景下,各行各业越来越重视大数据给企业带来的业务革新动力,希望借助数据驱动业务新发展。企业在此背景下积极探索数据管理和数据应用,完成了以“一体化数据中心、一体化数据管理、一体化数据分析”三个一体化为核心的数据中心建设,为各业务部门提供高质量的数据以及丰富的数据分析手段,为各级人员管理决策提供了有效支撑。[1]
但我们也应当看到,目前的数据中心,无论是专题、报表或取数,还是烟囱式数据生产模式或者是项目制建设方式,如果当初模型的扩展性设计的不好,或者时间太紧,或者出于系统稳定的考虑,致使数据模型扩展性较差。久而久之,数据得不到沉淀和持续发展,从而造成模型不能真正成为可重用的组件,无法支撑数据分析的快速响应和创新。
在这种情况下,通常的做法是另起炉灶,构建一套新的模型来满足当前的需求,这又导致了一个新“烟囱”的产生,长此以往,数据中心将演变为一个个的数据孤岛,不再具有对外提供统一数据服务的能力。因此,亟需建立企业的数据中台,构建中台的运营体系,真正做到打通数据孤岛并且以统一的标准进行建设,以达到技术降本、应用提效、业务赋能的目标。
1、数据中台概念
数据中台的概念由互联网企业阿里巴巴提出,是指通过数据技术对海量的数据进行采集、计算、存储和加工,并统一标准和口径。数据中台完成数据统一后会形成标准数据,然后再对数据进行存储,进而形成数据资产,为用户提供高效的优质服务。这些服务跟油田的业务有较强的关联性,是油田独有的且能复用的,它是业务和数据的沉淀,可以降低重复建设、减少烟囱式协作的成本。数据中台对一个企业起着至关重要的作用,可以让数据在数据平台和业务系统之间形成了一个良性的闭环。说到数据中台,不得不提到“前台”和“后台”两个概念。前台是由各个应用组成的前端系统平台,与最终用户直接进行信息交互。例如,企业搭建的电子商务网站、门户网站等都属于前台。后台是由各个业务管理系统组成的后端平台。每个后台业务系统管理了企业的一块业务,例如用户管理系统、生产管理系统等。后台往往并不能很好地支撑前台快速创新响应用户的需求,而中台要解决的才是前台的创新问题。[2]
2、数据中台应用价值
数据中台建设带来的效益及意义主要体现在全面实现企业级数据的数据标准化、数据价值化和数据服务化。
2.1 数据标准化
数据中台应解决新的数据结构下企业整体数据标准化问题,改变过去传统的数据关联为目标的传统架构设计理念,构建新的行业数据模型,对用于大数据分析的数据具有良好的模型扩展能力,结合企业数据建设新的数据主题域和标准体系,建设企业全域数据指标体系。
2.2 数据价值化
数据分析平台首先应建立主题关联模型,将分散到各系统,各数据域的同一主题数据进行算法分析和关联,形成基于业务域自然对象的主题模型。并基于该模型设计规划企业业务指标体系,使业务人员直接通过标签来进行业务分析和知识挖掘。标签体系中应融合业务场景需求,通过关联、预测和挖掘算法模型,实现对业务场景的实际指导,真正体现业务价值。
2.3 数据服务化
数据分析平台应实现数据智能在线化与服务化。通过数据标准化与价值化建设,需要将主题分析、挖掘结果以服务化接口方式共享出去,实现与应用前台的高效交互,将分析成果直接应用于业务流程,实现数据驱动运营。另一方面,通过基于数据中台理念与技术的数据服务化可以有效降低对同一主题对象的应用开发成本,实现上层数据分析应用快速开发,节省时间成本和人力成本,减少重复工作,保证数据分析的准确性和一致性。
3、数据中台系统定位
数据中台(Data Central-Platform)可以用来进行数据治理,利用数据中台实现业务数据的流转、数据流向的梳理、数据质量的清洗以及数据提供的能力。根据数据治理协会(Data Governance Institute,DGI)的定义,数据治理指的是对数据相关事宜的决策制定与权力控制。数据治理的目标是提高数据的质量(准确性、及时性、完整性、唯一性、一致性、有效性),确保数据的安全性(保密性、完整性及可用性),实现数据资源在各组织机构部门的共享,推进数据资源的整合、服务和共享,从而提升企事业单位信息化水平,充分发挥数据资产作用。技术上,数据中台是一种大数据架构,用来完成数据治理,进而支撑线上应用系统建设,挖掘数据隐含价值。
本文认为数据中台是一个物理存在的系统,是企业或机构需要建设的位于数据源与数据应用系统之间的一个中间平台。数据中台链接数据后台和数据前后,将无质量的后台数据汇集在一起,形成大数据,通过数据治理梳理出有效的数据。数据中台是数据三层结构中的中间层,主要负责数据汇集、数据治理和提供数据能力,为应用服务提供个性化数据服务。这里的数据中台并非指大数据平台,而是指通过数据技术对海量的数据进行采集、计算、存储和加工,并统一标准和口径。数据中台完成数据统一后会形成标准数据,然后再对数据进行存储,进而形成大数据资产层,为用户提供高效的优质 服务。
數据中台是众多数据应用系统中可集中建设与维护的一个共享数据平台,是数据生产系统中的一环。数据中台一定具有大数据平台的功能,但大数据平台不需要具备数据中台的功能。数据治理是数据中台及大数据平台不可或缺的核心功能,数据中台需要专门的数据治理子系统。
4、数据中台通用体系架构
4.1 数据存储框架
数据中台的核心是数据,数据通过采集系统获取,然后数据经过处理框架加工,并接受数据治理框架的管理,同时也要接受数据安全管理框架的管理,最后开放的价值数据将通过数据运营框架对外提供数据服务。数据中台的数据架构应该独立规划,并采用合理的技术架构对不同类型的数据进行存储。
数据存储框架中,无论数据采用对象存储、块存储还是数据库存储技术,各种中台数据可按照上图所示分类管理。对于不同数据的存储技术本文不再讨论。源数据主要由采集框架进行管理,数据治理框架按照数据特征把数据简单分为结构化和非结构化数据两大类,而规范化分域数据则是数据治理框架对全量数据的规范化分域整理。宽表数据是数据关联的结果,利用宽表数据可以对人、事、地、物、组等对象进行完整的数据画像,同时宽表数据也可以作为上层模型数据的中间层数据。元数据和标签数据都是对数据的描述,其中元数据用来对数据的客观属性进行表示,标签数据更倾向于管理者对数据的主观表述及等级划分,比如质量等级标签、安全标签、属性标签等。主数据需要在各系统间频繁更新、交换,且需要独立的存储空间进行维护管理。[3]
4.2 数据采集框架
数据中台的采集框架应对纳入数据中台的各种源数据进行统一采集管理。数据采集框架中应提供多种数据采集方式,如文件传输协议(File Transfer Protocol,FTP)采集、数据库采集、接口应用程序(Application Programming Interface,API)接入采集、流式采集及网络爬虫采集。同时采集框架应按照数据采集规范对源数据进行预处理,从而去除明显不需要的数据及多余数据,并对采集过程进行管理。虽然数据中台的体系架构没有统一模板,但各企业数据采集框架基本一致。
4.3 数据处理框架
数据处理是每个数据应用的基本环节之一,经典的数据抽取、转换和加载(Extract Transform Load,ETL)处理流程在数据采集预处理、数据整合、数据建模等多个地方均要使用。单独建设数据处理框架有利于数据处理工具组件的集中开发与管理,也有利于数据中台数据处理任务的协调与调度。数据处理框架专门负责数据处理相关的任务,包括批处理、流处理、人工智能(Artificial Intelligence,AI)分析、数据清洗、数据交换及查询,此外数据处理的相关工具组件可在处理框架中配置。任务调度模块在数据处理框架中处于居中指挥的作用,并对运行的数据处理任务进行监控及异常处理等操作。[4]
4.4 数据治理框架
广义的数据治理不仅包含提升数据价值的内容,如数据管理、数据目录、数据质量等,也包含数据安全管理及数据共享服务。数据安全管理与数据价值提升是一个矛盾体,如果由一个厂商或开发团队进行数据安全管理及数据价值提升相关软件的开发,则开发者的操作难免有所偏向,而且矛盾不容易公开,少了冲突也就少了优质的解决方案。另外,数据共享与数据治理的其他内容也存在相同的问题。数据治理框架包含数据目录、数据管理、模型管理和数据质量 4 个模块。数据地图、数据资产目录、知识图谱及数据血缘的主要作用是展示数据的属性及相互关系,因此都纳入数据目录模块。数据模型能提高数据中台对外部应用需求的反应能力,固化的中间模型数据需要专门管理。模型管理包括模型目录、模型血缘及模型地图等。数据管理又可以细分为元数据管理、主数据管理、标签数据管理及源数據管理。数据质量管理模块按照制定的数据标准及数据稽核规则对数据中台中的数据进行质 量管理。
4.5 数据安全框架
数据已经成为数据资产,数据安全框架是数据中台必不可少的组成部分。数据安全叠加在数据中台其他功能框架之上,数据采集、处理、交换、共享等每个环节均必须实施安全控制策略。安全框架可以分为日志管理、用户认证、权限管理及加解密等几个功能模块。此外,安全全门户也可以对外提供安全能力封装,展示数据中台的安全态势及安全视图。[5]
4.6 数据运营框架
数据中台的核心功能是综合众多数据应用的数据处理及数据治理功能,集中建设、集中管理、减少冗余、增加复用。数据中台的最终目的还是为其他应用或开发者提供数据服务,而对外数据服务功能将直接面向不确定的外部对象。因此单独建设数据运营,一方面有利于针对外部用户提供针对性功能;另一方面,数据运营模块作为用户与数据中台核心数据服务之间的中间层,可以有效隔离外部用户直接控制、接触核心数据及应用,可保护数据中台的安全性及内部功能的稳定性。综合以上因素,数据运营应配置运营门户、能力开放、数据开放及运营监控等功能。
(1)运营门户:对数据中台管理者提供管理门户,对开发者提供开发者门户。对内部应用提供内部应用门户,对外部应用提供外部应用门户。运营门户针对不同的用户提供不同的通道并开放不同的数据中台能力。
(2)能力开放:把数据中台的数据处理能力、数据分析能力等经过适当的封装后对用户提供服务,可以是微服务,也可以是 API 接口,或者直接提供二次开发能力。[6]
(3)数据开放:通过数据目录,数据 / 模型展示(可视化、数据视图等)为其他数据应用系统提供数据服务。
(4)运营监控:对数据中台的总体运营情况进行监控管理,包括硬件环境、软件环境,并且确定监控指标,按需求提供运营日报,处理告警 信息。
5、数据中台架构建设运营策略
数据中台的建设以“一切数据业务化,一切业务数据化”为终极目标,数据中台的建立不是一蹴而就的,每个企业都应该基于实际打造独有的中台能力,在这个过程中,需要遵循运营思维,主要包括:
第一,企业的组织架构及机制需要顺势而变,比如以前负责数据的部门或团队往往缺乏话语权,面对业务需求往往是被动的接受的角色,这让一切数据中台的想法化为泡影,需要为数据中台团队授权。
第二,要改变工作方式,现在很多企业的数据团队的主要工作内容就是项目管理、需求管理等等,当一个项目完成后又投入到下一个项目,做好一个需求后又开始负责下一个需求,这样的工作确实非常锻炼人的组织、协调能力,但这样能力的提升与工作时间的长短并不是呈线性增长的,虽然增加了项目和需求管理经验,但并不能在某一个专业领域得到知识和经验的沉淀,随着时间的流逝,越来越多的人会失去最初的工作积极性和创造性,事实上,数据分析人员只有深入的研究业务、数据和模型,端到端的去实践,打造出数据中台,才是最大的价值创造,才能使得持续创新成为可能。
第三,数据中台的团队要从传统的支撑角色逐步向运营角色转变,不仅在数据上,在业务上也要努力赶超业务人员,中台人员要逐步建立起对于业务的话语权,不仅仅是接受需求的角色,更要能提出合理的建议,能为业务带来新的增长点。
6结语
总而言之,建设数据中台,实现企业或机构数据资产的高效管理和数据价值最大化,为机构带来了数据平台化的运营机制,有望解决应用开发与数据开发速度不匹配的问题。利用数据中台,可以将机构的核心技术或团队凝聚在一起,建设机构内强大的数据开发、运营等团队,提升机构的团队的硬实力和软实力。虽然一个良好的架构对一个信息系统的后期扩容及运维有重要作用,但总体架构设计只是数据中台建设的第一步,每一个功能模块还有很大的细化空间,如不同类型数据的存储技术选型、数据安全合规审计技术、数据模型设计等。在具体项目中,数据共享与安全保护的平衡点、新技术的引用等,都需要进一步细化研究。
参考文献:
[1]刘晓.阿里巴巴:数据技术驱动媒体深度融合转型[J].国际品牌观察,2021(24):44-49.
[2]金亦武,张笃展.银行业数字化中台建设构想[J].中国市场,2021(24):180-181.
[3]吴建杰.基于数据“中台”模式的钢铁企业信息系统数据整合探索与实践[J].天津冶金,2021(4):38-40.
[4]李小庆.银行智能中台创新研究和实践[J].金融科技时代,2021,29(8):22-26.
[5]陈志. 搭建中台 挖掘数据 提升监管水平[N]. 东方烟草报,2021-7-22(003).
[6]杨敏, 何海涛, 张永强. 基于数据中台的校园数据体系设计与建设[J]. 深圳大学学报(理工版), 2020,37(S1).
作者简介:吕军(1976.12—)男,汉族,四川绵阳,本科,工程师,软件工程
通讯作者简介:郭健(1986.03—)男,汉族,四川绵阳,硕士,中级工程师,软件工程。1073544789@qq.com