数据中台的通用体系架构研究*

2021-06-22 01:58张宏远
通信技术 2021年6期
关键词:中台数据安全数据处理

张宏远

(上海邮电设计咨询研究院有限公司,上海 200093)

0 引言

进入信息时代,随着数据产业的蓬勃发展,数字化建设如火如荼。“数字中国”“互联网+”等国家战略项目已在资源、可持续发展、环境以及行政办公等领域取得了良好的效果。数据是资产、资源,但如何把数据资产、数据资源转化为社会收益和企业利润,还需要多方探索。当前,机构和企业不再建设从源数据采集到分析应用的烟囱式系统,更倾向于数据集中采集、存储,并应用分层建设。这种方式一方面有利于应用系统的快速部署,另一方面也保证了数据的集中管理与运营,体现数据的资产、资源属性。数据中台的出现弥补了数据开发和应用开发之间由于开发速度不匹配而出现的响应力不足等问题。

数据中台是国内学者提出的概念,起始于阿里的“大中台、小前台”概念。阿里的中台是从管理的角度出发,以中台事业部集中数据搜索,技术及产品,数据共享等多个部门的功能。其他组织或企业建设数据中台不一定需要成立中台事业部,但是数据集中治理与提升数据价值转换效率的思路是一致的。有学者提出了一种基于数据中台的数据治理系统,认为数据中台是一种大数据架构,用来完成数据治理[1]。也有学者认为数据中台并非指大数据平台,数据中台完成数据治理后会形成标准数据,再对数据进行存储,进而形成大数据资产,可以为用户提供高效的优质服务。

数据中台的作用已经在生产实践中得到普遍认可。阿里的线上商城离不开数据中台,运营商的项目投资建设、销售品管理及用户管理离不开数据中台,家谱管理也用到了数据中台[2],但迄今为止没有一个通用的数据中台体系架构能指导各行业的数据中台建设。本文从数据中台建设、管理、维护的角度出发分析数据中台的核心要素,梳理出一个通用的数据中台体系架构,提高数据共享能力,减少各子系统的功能耦合度,增加功能复用率,减少软件功能的重复开发与投资。

1 数据中台系统定位

数据中台(Data Central-Platform)[3]可以用来进行数据治理,利用数据中台实现业务数据的流转、数据流向的梳理、数据质量的清洗以及数据提供的能力。根据数据治理协会(Data Governance Institute,DGI)的定义,数据治理指的是对数据相关事宜的决策制定与权力控制。数据治理的目标是提高数据的质量(准确性、及时性、完整性、唯一性、一致性、有效性),确保数据的安全性(保密性、完整性及可用性),实现数据资源在各组织机构部门的共享,推进数据资源的整合、服务和共享,从而提升企事业单位信息化水平,充分发挥数据资产作用[4]。技术上,数据中台是一种大数据架构,用来完成数据治理,进而支撑线上应用系统建设,挖掘数据隐含价值。

本文认为数据中台是一个物理存在的系统,是企业或机构需要建设的位于数据源与数据应用系统之间的一个中间平台。数据中台链接数据后台和数据前后,将无质量的后台数据汇集在一起,形成大数据,通过数据治理梳理出有效的数据。数据中台是数据三层结构中的中间层,主要负责数据汇集、数据治理和提供数据能力,为应用服务提供个性化数据服务[1]。这里的数据中台并非指大数据平台,而是指通过数据技术对海量的数据进行采集、计算、存储和加工,并统一标准和口径。数据中台完成数据统一后会形成标准数据,然后再对数据进行存储,进而形成大数据资产层,为用户提供高效的优质 服务[5]。

数据中台是众多数据应用系统中可集中建设与维护的一个共享数据平台,是数据生产系统中的一环。数据中台一定具有大数据平台的功能,但大数据平台不需要具备数据中台的功能。数据治理是数据中台及大数据平台不可或缺的核心功能,数据中台需要专门的数据治理子系统[6]。以通信运营商为例,其数据中台定位如图1 所示。

图1 数据中台的系统定位

2 数据中台通用体系架构

不同的企业对数据有不同的需求。企业数据应用不断更新迭代,企业的中台系统也需要不断变化。因而,有些学者认为无法创建统一、规范的数据中台模板供其他企业借鉴与使用。企业需根据自身业务的需要,构建适合于本企业发展的数据中台[2]。但是从数字系统的核心任务分析,数据中台一方面对大量上层数据应用系统公共数据处理的部分功能集中建设,另一方面对数据进行治理,利用算法挖掘数据中的隐藏价值,提升数据质量并开放给其他数据应用系统,因此一个通用的数据中台至少应满足数据应用的中间处理与数据治理。从数据处理与数据治理两个维度出发,本文设计了一个解耦的数据中台体系架构。该数据中台体系架构具有一定的柔性,可按照企业应用需求进行组合,或者对单个模块进行扩充,能满足大多数企业数据中台建设的需求。

数据中台的通用体系架构如图2 所示。该中台体系架构以减少功能冗余和提高功能复用为原则,把数据中台解耦为6 个可以分别独立建设、演进的功能子系统。数据结构与数据处理子系统是数据中台体系架构的核心,数据治理是提升数据价值的重要手段。该数据中台体系架构的通用性表现在以下几点。

图2 数据中台体系架构示例

(1)该数据中台体系架构综合考虑了数据中台的各种要素,参考这个架构进行建设可以有效提升数据资产价值,提供数据及服务的共享。

(2)参考这个数据中台体系架构,企业可以一次规划、分步实施。首先建设处理子系统及数据存储子系统,然后根据业务发展需求,逐步补充数据采集、数据安全及数据治理子系统。

(3)该数据中台由6 个解耦的子系统组成。企业在立项建设时可以灵活组合,每个子系统单独招标建设,也可以把多个子系统合并招标建设。

数据中台通用体系架构包含数据存储框架、数据采集框架、数据处理框架、数据治理框架、数据安全框架及数据运营框架等6 大部分。

2.1 数据存储框架

数据中台的核心是数据,数据通过采集系统获取,然后数据经过处理框架加工,并接受数据治理框架的管理,同时也要接受数据安全管理框架的管理,最后开放的价值数据将通过数据运营框架对外提供数据服务。数据中台的数据架构应该独立规划,并采用合理的技术架构对不同类型的数据进行存储。

数据存储框架中,无论数据采用对象存储、块存储还是数据库存储技术,各种中台数据可按照上图所示分类管理。对于不同数据的存储技术本文不再讨论。源数据主要由采集框架进行管理,数据治理框架按照数据特征把数据简单分为结构化和非结构化数据两大类,而规范化分域数据则是数据治理框架对全量数据的规范化分域整理。宽表数据是数据关联的结果,利用宽表数据可以对人、事、地、物、组等对象进行完整的数据画像,同时宽表数据也可以作为上层模型数据的中间层数据。元数据和标签数据都是对数据的描述,其中元数据用来对数据的客观属性进行表示,标签数据更倾向于管理者对数据的主观表述及等级划分,比如质量等级标签、安全标签、属性标签等。主数据需要在各系统间频繁更新、交换,且需要独立的存储空间进行维护管理。

2.2 数据采集框架

数据中台的采集框架应对纳入数据中台的各种源数据进行统一采集管理。数据采集框架中应提供多种数据采集方式,如文件传输协议(File Transfer Protocol,FTP)采集、数据库采集、接口应用程序(Application Programming Interface,API)接入采集、流式采集及网络爬虫采集。同时采集框架应按照数据采集规范对源数据进行预处理,从而去除明显不需要的数据及多余数据,并对采集过程进行管理。虽然数据中台的体系架构没有统一模板,但各企业数据采集框架基本一致。

2.3 数据处理框架

数据处理是每个数据应用的基本环节之一,经典的数据抽取、转换和加载(Extract Transform Load,ETL)处理流程在数据采集预处理、数据整合、数据建模等多个地方均要使用。单独建设数据处理框架有利于数据处理工具组件的集中开发与管理,也有利于数据中台数据处理任务的协调与调度。数据处理框架专门负责数据处理相关的任务,包括批处理、流处理、人工智能(Artificial Intelligence,AI)分析、数据清洗、数据交换及查询,此外数据处理的相关工具组件可在处理框架中配置。任务调度模块在数据处理框架中处于居中指挥的作用,并对运行的数据处理任务进行监控及异常处理等操作。

2.4 数据治理框架

广义的数据治理不仅包含提升数据价值的内容,如数据管理、数据目录、数据质量等,也包含数据安全管理及数据共享服务。数据安全管理与数据价值提升是一个矛盾体,如果由一个厂商或开发团队进行数据安全管理及数据价值提升相关软件的开发,则开发者的操作难免有所偏向,而且矛盾不容易公开,少了冲突也就少了优质的解决方案。另外,数据共享与数据治理的其他内容也存在相同的问题。因此,本文建议数据中台的数据治理框架中不包含数据安全与共享的相关内容。

数据治理框架包含数据目录、数据管理、模型管理和数据质量4 个模块。数据地图、数据资产目录、知识图谱及数据血缘的主要作用是展示数据的属性及相互关系,因此都纳入数据目录模块。数据模型能提高数据中台对外部应用需求的反应能力,固化的中间模型数据需要专门管理。模型管理包括模型目录、模型血缘及模型地图等。数据管理又可以细分为元数据管理、主数据管理、标签数据管理及源数据管理。数据质量管理模块按照制定的数据标准及数据稽核规则对数据中台中的数据进行质 量管理。

2.5 数据安全框架

数据已经成为数据资产,数据安全框架是数据中台必不可少的组成部分。数据安全叠加在数据中台其他功能框架之上,数据采集、处理、交换、共享等每个环节均必须实施安全控制策略。安全框架可以分为日志管理、用户认证、权限管理及加解密等几个功能模块。此外,安全全门户也可以对外提供安全能力封装,展示数据中台的安全态势及安全视图。

2.6 数据运营框架

数据中台的核心功能是综合众多数据应用的数据处理及数据治理功能,集中建设、集中管理、减少冗余、增加复用。数据中台的最终目的还是为其他应用或开发者提供数据服务,而对外数据服务功能将直接面向不确定的外部对象。因此单独建设数据运营,一方面有利于针对外部用户提供针对性功能;另一方面,数据运营模块作为用户与数据中台核心数据服务之间的中间层,可以有效隔离外部用户直接控制、接触核心数据及应用,可保护数据中台的安全性及内部功能的稳定性。综合以上因素,数据运营应配置运营门户、能力开放、数据开放及运营监控等功能。

(1)运营门户:对数据中台管理者提供管理门户,对开发者提供开发者门户。对内部应用提供内部应用门户,对外部应用提供外部应用门户。运营门户针对不同的用户提供不同的通道并开放不同的数据中台能力。

(2)能力开放:把数据中台的数据处理能力、数据分析能力等经过适当的封装后对用户提供服务,可以是微服务,也可以是API 接口,或者直接提供二次开发能力。

(3)数据开放:通过数据目录,数据/模型展示(可视化、数据视图等)为其他数据应用系统提供数据服务。

(4)运营监控:对数据中台的总体运营情况进行监控管理,包括硬件环境、软件环境,并且确定监控指标,按需求提供运营日报,处理告警 信息。

3 结语

数据中台是近年来源于国内的技术概念,旨在利用数据技术对海量数据进行采集、存储、计算、加工、统一表示,形成规范后的数据API,进而提高数据的共享能力[2]。数据中台包含丰富的功能要求,其中数据治理、数据存储、数据处理、数据安全等都可以深入研究。在数据治理方面,国内学者[7]采用文献调研法对数据治理的概念、体系、内容和应用的相关研究进行述评,并指出“框架体系”“模型设计”是未来重点研究领域,而数据中台是数据治理的前提,因此做好数据治理的前提是建设数据中台[3]。本文从建设周期、投资与运维管理的角度出发,对数据中台的建设要素进行分析,设计了一个解耦的数据中台通用体系架构。

建设数据中台,实现企业或机构数据资产的高效管理和数据价值最大化,为机构带来了数据平台化的运营机制,有望解决应用开发与数据开发速度不匹配的问题。利用数据中台,可以将机构的核心技术或团队凝聚在一起,建设机构内强大的数据开发、运营等团队,提升机构的团队的硬实力和软实力[2]。虽然一个良好的架构对一个信息系统的后期扩容及运维有重要作用,但总体架构设计只是数据中台建设的第一步,每一个功能模块还有很大的细化空间,如不同类型数据的存储技术选型、数据安全合规审计技术、数据模型设计等。在具体项目中,数据共享与安全保护的平衡点、新技术的引用等,都需要进一步细化研究。

猜你喜欢
中台数据安全数据处理
认知诊断缺失数据处理方法的比较:零替换、多重插补与极大似然估计法*
基于低频功率数据处理的负荷分解方法
我国5G数据安全保护供给不足,“四步”拉动产业发展
中台是媒体转型必经之路吗?
——媒体中台建设的特点和误区
无人机测绘数据处理关键技术及运用
关于零售企业“中台”建设的研究
汽车制造企业质量中台研究
以技术开发中心为中台,数字化转型之见解
云计算中基于用户隐私的数据安全保护方法
建立激励相容机制保护数据安全