统一数据湖技术研究和建设方案

2021-02-01 11:56刘志勇何忠江刘敬龙阮宜龙孟照方
电信科学 2021年1期
关键词:企业级前置统一

刘志勇,何忠江,刘敬龙,阮宜龙,孟照方

(中国电信集团有限公司,北京 100033)

1 引言

随着信息技术、芯片技术、软件算法的高速发展,大数据、5G、云计算、人工智能(AI)等新技术正在成为驱动创新与实现数字化转型的重要力量,其中数据资源更是推动数字经济发展的“粮食”和“血液”。作为每天需要采集PB 级数据的企业,建设什么样的大数据平台才能以更少的投入发挥更大的价值,是电信运营商面临的重大挑战。

从技术趋势上看,近年来,为适应日益复杂的数据环境,加快数据应用部署速度,数据湖逐渐成为全球企业大数据运营管理的重要趋势和方向。数据湖的概念由Pentaho 公司的创始人兼首席技术官Dixon J 提出[1-2],指“未经处理和包装的原生状态水库,不同源头的水体源源不断流入数据湖,并为企业带来各种分析、探索的可能性”。其主要技术特点为,数据湖统一汇集和管理各生产系统的数据,提供统一的数据存储和访问服务,数据分析和开发人员可以各取所需,充分发挥数据价值。数据湖概念如图1 所示。

图1 数据湖概念

在数据存储方面,数据湖按照生产系统的原生模型存储企业数据,不仅简化了数据的处理过程,保证数据真实可靠,同时能对具有时效性要求的实时应用提供更好的支撑;在分析应用方面,上层应用可以通过数据湖的标准化接口获取数据,进行自定义的模型转换,能够更加快速地满足日益多样的分析需求;在数据治理方面,数据湖提供统一的目录管理、权限控制、编排调度、追踪溯源等功能,能够有效识别和管控各项数据及其处理过程,促进企业数据质量的持续提升。

2 电信运营商大数据平台面临的挑战

目前中国电信建设了集团和省两级大数据平台(部分省仍使用基于IOE 的DW/ODS 系统),各专业公司、各部门根据各自需要,也建设了部分大数据分析平台。大数据平台数据采集处理现状如图2 所示。其中,集团企业级大数据平台汇总了企业主要运营数据,开展精准营销、精确管理、精细服务、精益运营等“四精”应用探索,对接部分生产系统闭环注智,较好支撑了企业智慧运营转型。但两级建设的分散系统,导致数据重复存储、多头管理,数据质量问题多,给大数据应用进一步深化和推广造成极大困难。主要存在以下突出问题。

(1)数据重复采集、重复存储。同一份数据在多个系统进行存储,造成硬件资源浪费,建设和维护成本高。以DPI 数据为例,2018 年年初仅采集就存在:三套移动DPI 重复采、重复存,两套城域网DPI 存在多次分光、重复分流;数据格式不一致;各域、各系统数据采集、存储/处理、应用纵向绑定,无法端到端呈现全局数据,难以发挥大数据价值。

(2)数据采集处理环节多,海量原始数据跨省传输,占用大量带宽,同时数据采集时延较大,难以满足一些实时应用的需要。例如,占大数据资产超过90%的DPI/XDR、MR/CDR 等海量网络数据,2018 年年初已超过100 TB/天,而且每年保持50%以上的增长。这些数据在集团、省相关系统、大数据平台之间,层层全量传送、空中搬家,从网元产生到集团企业级大数据平台应用展现全流程超过数小时,而基于网络数据的实时事件营销、精准营销、新零售等大数据应用越来越丰富,要求分钟级时效。

(3)分散的数据共享缺乏有效机制,存在一定技术和管理壁垒,妨碍了跨专业和跨部门的全局性数据应用开展。

(4)各省各专业的数据源系统的数据标准不统一,数据模型缺乏有效管理,也涉及业务管理流程问题,数据质量问题溯源困难,数据质量提升难度大[3]。IT 系统除MSS 全国集中建设以外,BSS、OSS 31 个省级系统分省建设,且业务管理模式不同,数据模型标准、主数据千差万别,跨省、跨域、跨系统的模型标准统一困难,数据库之间是孤立的,主数据不同导致跨域之间基于原始数据的关联整合复杂。

随着运营商加速数字化转型需要,其数据业务化、端到端客户体验分析、端到端预防性维护、大数据资源配置等需求越来越强烈,需要拉通BSS、OSS,以数据贯通整个生产流程,注智MSS/BSS/OSS,构建开放的数字化架构,支撑企业的智慧运营,实现网络的集约、智能、自动化运维,支持新的数字化服务以及改善和个性化用户体验。这也对运营商的数据平台架构提出了新的要求,既要考虑到运营商特有的遍布31 省市的数据采集、处理和汇聚需求,又要解决数据分散、标准不统一、数据质量不高、跨域困难、数据实时应用支撑不足、开发工具缺失、应用创新灵活性不够等问题。

图2 大数据平台数据采集处理现状

3 统一数据湖建设思路

数据湖和边缘计算技术的出现为大数据平台建设提供了新的思路。中国电信遵循问题导向、先立后破、有序推进的原则引入大数据湖技术,最终形成数据一体化存储,平台逻辑统一、 物理分散、统一部署的全网统一的数据湖,实现数据统一管理、数据充分共享和开发应用。统一数据湖概念如图3 所示。

(1)针对大数据海量数据规模特点,采用逻辑统一、物理分散的集约数据湖架构。

图3 统一数据湖概念

对于海量网络数据采用省公司前置处理方式。集团核心节点与省份前置节点平台逻辑统一,网络数据前置预处理节点作为集团大数据平台有机组成部分,实行一体化部署,部署在省公司;组件一体化,平台组件集团统一版本(自主掌控)、统一运营、统一加载到天翼云;处理一体化,网络数据预处理规则集团统一定义,处理程序统一部署;安全一体化,安全能力统一建设;监控一体化,前置预处理节点开放北向接口,全部组件集中化监控。数据就近处理,减少无效采集,数据直接接入企业级大数据平台,构建“边缘计算+分布式存储”的前置预处理架构。数据质量全程管控,建立端到端数据质量管控体系和全流程的端到端运营体系。

对于存在潜在挖掘需求的数据,采取原生生产数据导入方式入湖。

对于明确需求的统计分析型数据,采取统一模型转换后入湖。

(2)明确数据入湖五项原则,持续推进客户资产数字化、业务资产数字化、网络资产数字化。

原汁原味、全量入湖:企业数据资产原生全量入湖,统一存储、统一整合、统一关联、统一共享,减少海量数据重复采集、重复存储和带宽消耗。

融通云网、统一交换:CT 域内、IT 域内以及跨域之间海量数据交换,统一由数据湖承载,原则上各系统之间交换不做网状关联(生产类的实时接口除外)。

完善数据标准、强化数据治理:统一制定国际领先的跨CT、IT 的企业级数据模型,规范各系统自身数据模型和数据标准,建立分工清晰、运作高效的企业全域数据治理体系。

端到端闭环运营、提升质量:聚焦端到端运营流程和用户体验,增加数据传输节点的控制信息,实现入湖数据溯源,提高数据质量保障能力。遵照数据入湖质量标准,清晰数据整合责任,保证主数据的联动统一。

(3)建立全生命周期数据目录,完善数据治理机制。在分布式系统架构基础上通过目录管理统一标识各项数据,通过编排管理统一调度模型转换过程,并对各项数据生成和使用过程进行跟踪记录,实现数据的溯源追踪。

(4)在大数据平台完善、丰富数据分析及建模工具,促进数据共享和应用开放,使用各类数据特点和数据应用需求,集成各类数据开发、自主分析、可视化、应用部署工具,提供一站式的数据开发和应用服务;通过应用沉淀,建立和完善共享的指标库、标签库、模型库并开放共享,形成良性循环的数据应用生态。

(5)数据湖汇聚企业全量数据,对信息安全提出更高要求。在演进过程中同步研究安全防护机制和管理制度,根据不同数据应用的不同特点,完善生命周期数据安全保障策略,防止数据越权访问、私自篡改、泄露毁坏等情况发生。

(6)基于当前应用系统逐步实现大数据在线与离线分析注智现状,对于集中、集约的基于云化、分布式处理技术架构的应用系统可以积极探索部分底层数据与集团大数据平台融合的系统架构,进一步减少数据的重复存储,并充分发挥大数据平台数据处理与跨域建模的强大优势,实现对应用系统的高效注智。

4 统一数据湖建设实践

经过两年多的建设,到2020 年下半年,中国电信初步建成了基于数据湖,采用数据一体化存储、平台逻辑统一、物理分散、统一部署等方式有自身特色的大数据平台,企业级大数据平台架构如图4 所示。

(1)超大规模集群

目前企业级大数据平台规模已超过万台,单集群最大规模超过3 000 台,日采集数据量500 TB。

(2)平台核心组件自主掌控、自主运营

企业级大数据平台自主研发三大类20多种开源组件,整体自研架构运行稳定、性能卓越,完全可承载基于海量数据的大规模应用开发。

(3)首次实现BSS、OSS、MSS、网络、业务平台、外部数据等全域数据统一汇聚和跨域关联

企业级大数据平台,经过多年的不断努力,数据覆盖全网5 亿多用户,包含客户、话单、产品/销售品、网络日志等数据。

图4 企业级大数据平台架构

(4)独创的网络数据前置预处理架构

企业级大数据平台前置节点能力视图如图5所示。通过在全国31 省市部署近3 000 台前置预处理节点和云网协同开通,实现了网络数据的前置采集、清洗、关联和处理,为将来应对5G 数据量爆发性增长建立了灵活的架构。前置预处理后无线网络数据相比原始数据总体压缩了44%;4G/5G 用户信令位置时延由30 min 缩短到5 min以内。而且在前置节点也形成与核心节点互为补充的对省公司的平台开放能力:

· D-PaaS 数据赋能,前置节点和省大数据平台共用详单数据存储,前置共享实时位置、DPI 业务标签能力等数据服务能力;

· I-PaaS 存储计算赋能,开放数据和资源,省公司基于前置租户,开展本省数据处理和和数据挖掘,处理后数据共享至省大数据平台;

· A-PaaS 能力开放,集团承接部分北方省大数据建模需求,在前置节点完成数据加工处理,形成服务能力,快速支撑省公司实时营销、位置应用、无线大数据应用等应用建设。

图5 企业级大数据平台前置节点能力视图

(5)先进的大数据+AI 一站式开发平台

基于全球主流运营商最新经验以及演进思路,基于统一数据湖在集团核心节点建设大数据+AI 一站式开发平台,为省公司、专业公司大数据应用赋能。企业级大数据平台专区能力视图如图6 所示。

基于平台和应用解耦架构,深度编排数据采集、数据地图、实时开发、离线开发等产品,满足专业数据开发团队数据汇聚、数据加工、数据分析、数据开放等场景需求。提供Web 应用开发的多场景全流程流水线作业,真正做到数据应用敏捷开发。

通过多租户体系进行开放,多租户体系能够充分利用计算存储资源,基于Hadoop YARN 的Resource Manager,实现存储、计算资源的复用,并确保各租户之间的隔离性。通过对集团企业级大数据平台上的计算/存储资源、优质数据、成熟工具进行组合和封装,向省公司和专业公司等用户提供数据采集、离线开发、可视化挖掘建模、OpenAPI 服务封装等共计30 个产品能力。

数据从汇聚到开放,资源从分散调度到统一调动的演变,逐步实现大数据能力全网开放,推动企业数字化转型迈向深水区,为企业数据生产与服务起到降本增效的作用。

图6 企业级大数据平台专区能力视图

(6)全方位、全生命周期的数据安全防护

为解决数据湖在数据汇聚和应用过程中的数据安全问题,通过数据分权分域管理、数据访问授权、数据加密脱敏、敏感数据识别、安全审计实时风险告警、集群多租户管理等大数据平台数据安全管理能力,为数据湖各集群提供必要安全防护和安全事件溯源能力。结合AI 建模算法,进行数据安全感知分析,对数据安全威胁预判、预处理。通过用户安全风险综合评分标准,结合数据资产、人员资产、主机资产三大台账管理,构建以人为核心的安全防护信息联动能力。大数据安全管理体系架构如图7 所示。

在数据湖数据采集存储过程中,落实数据分类分级要求,结合公司实际情况,从用户身份、用户服务、服务衍生数据、企业运营管理、网络运维5 个维度将数据分为五大类43 子类;依据数据敏感程度不同,将数据分为敏感级、较敏感级、低敏感级、不敏感级4 个;推动全网建立数据分类分级管理制度,对不同类别、不同级别的数据,做好数据标识,实施差异化管控要求;加强重要数据和敏感数据管控,对生产环境内的库、表、字段进行分级打标,其中所有用户个人信息定为最高等级;对数据进行稽核校验,保障结果的完整性、一致性和准确性;开启数据采集日志审计,实现对数据采集过程全流程操作可追溯。

(7)抗疫期间发挥巨大作用

新冠肺炎疫情期间,依托集约PB 级别的数据资产和数据湖架构,基于海量数据计算能力,迅速开发“翼知疫行”,实现亿级用户行为模式与行为特征的批量处理与实时关联,并针对疫情的发展提供数据处理、分析与能力输出能力。其中包含了区域风险查询、疫情预测查询、返城报告查询、行程查询、接触查询等功能,实现风险人员洞察、疫情防控便民服务、人员流动情况统计等能力;并以API 形式,提供给工业和信息化部通信行程码、电信短信营业厅、电信网上营业厅、海关等,为打赢全国的疫情防控阻击战提供有效支撑。

图7 大数据安全管理体系架构

5 结束语

数据湖成熟度大致可以分为4 个阶段。第一为初级阶段。企业未实施数据湖,生产系统拥有独立的数据库,部分数据导入数据仓库,提供给分析人员开展报表和分析工作。第二为数据湖引入阶段。企业建设了数据湖,并将生产系统数据导入数据湖,经过清洗和转换后提供给数据仓库,同时支撑其他独立建设的分析应用,分析结果也可以闭环反馈到生产系统。第三为数据湖成长期。数据湖成为企业数据长期存储的缺省设施,各生产系统通过数据湖交换数据,各分析应用基于数据湖构建,数据治理尤其是数据目录管理成为企业内数据管理的基本手段。第四为数据湖成熟期。各生产系统也基于数据湖构建,数据湖成为企业数据存储的单一平台,既支持操作型应用,也支撑分析型应用,并构建了完善的数据治理和安全体系[4]。目前大部分企业均处于数据湖的第一、第二阶段,中国电信统一数据湖处在第三阶段向第四阶段演进的过程中。完成核心节点+前置/边缘节点的分布式数据湖布局,实现CT、IT 全网数据汇聚以及跨域之间海量数据交换共享,打造了大数据+AI 一站式开发平台,算力、算据、算法全网赋能和数字化生态开发正在如火如荼地进行。

中国电信统一数据湖已经在“新基建”上做了有益的探索和实践,为31 省市大数据平台/数据仓库/ODS 建立了包括IaaS、PaaS、DaaS 能力的扎实“底座”,为集团“云改数转”进一步夯实了大数据原子能力平台基础,为开展全国大数据云平台1+N建设、各省大数据平台高质量迁转奠定了基础。下一步,将继续按照“云网融合、数据驱动、集成创新、合作共赢”的思路,积极推进1+N、推进上云用数赋智,真正实现从大数据平台向数据中台的升级,助力企业数字化转型和社会数字化转型。

猜你喜欢
企业级前置统一
企业级BOM数据管理概要
坚持严管和厚爱相统一的着力点
被诊断为前置胎盘,我该怎么办
前置性学习单:让学习真实发生
国企党委前置研究的“四个界面”
碑和帖的统一,心和形的统一,人和艺的统一
统一数量再比较
被诊断为前置胎盘,我该怎么办
基于慕课网的“企业级应用开发”课堂教学改革探索
企业级信息系统应用级灾备建设与应用