孙苑苑,赵 雨,张 晟
(中国移动通信集团江苏有限公司,江苏 南京 210000)
移动运营商不断探索和实践数据资产管理能力,发挥数据要素价值,以自主可控、架构先行、注智赋能为目标,在技术架构、数据治理和智慧中台3个方面持续演进;提升资产管理集中效能和数据开放共享能力,向政府及行业客户提供量身定制的信息化解决方案,实现大数据价值变现。
随着大数据技术的快速发展,企业存在数据资产来源多、数据规模大、数据标准不统一、各系统之间存在数据孤岛等问题,导致数据资产价值挖掘利用效率不高,在资产管理、资产加工、业务支撑、能力运营等环节面临挑战。针对上述问题,以下研究过程将从技术、管理、应用3个方面,建设运营商数据资产管理运营体系,优化数据处理架构,统一进行数据资产的汇聚、建设、治理、运营和应用,支撑市场运营、智慧营销、网格运营、行业变现等企业内外部大数据应用。
近年来,随着大数据技术的飞速发展,企业数据量成倍增长,数据形式多样化,数据资产来源多,散落在不同系统且资产结构复杂,数据标准参差不齐,各系统之间存在数据孤岛,导致数据资产的加工使用效率不高,因此在资产管理、资产加工、业务支撑、能力运营等方面面临挑战,亟须建立统一标准的资产管理运营体系,对海量数据进行统一的采集、存储、管理、开放。
本研究坚持“数据服务于业务”的理念,针对数据资产管理和运营过程中的痛点和难点,从技术、管理、应用3个方面入手,建设数据资产管理运营体系,拓展行业大数据服务,高效赋能大数据生态圈(见图1)。(1)在技术层面,建设批流一体数据处理架构,打造实时数据仓库;(2)在管理层面,以DataOps理念为核心,建设分层资产体系,构建数据资产管理平台,提升数据资产开发和管理效率;(3)在应用层面,建设数据中台能力服务体系,全面赋能企业内外部业务生态,促进数据共享,实现数据资产价值提升[1]。
图1 大数据资产管理运营体系架构
2.2.1 跨域汇聚内外部数据
规整集成移动运营商内外部各业务线、各类型的源数据,为形成企业级数据资产提供真实、完整的数据源基础。通过全局化的架构规划设计,完成跨领域、多系统的数据融合汇聚,采用大数据高效处理技术和机制,完成数据汇聚融合分析,产生1+1>2的数据价值。
2.2.2 实时数据仓库架构
基于Kappa+Lambda的批流一体化数据处理技术,实现了大数据平台的架构升级和业务边界的拓展。以流原生技术为底座,构建具备“统一模型、统一数据、统一计算、统一分析、统一存储”能力的实时数据仓库架构,实现对低时延数据及服务的全方位支撑(见图2)。该技术以Flink+Pulsar+Redis技术为核心,实现了实时和离线两种数据处理模式下数据模型、计算引擎、数据输入、数据存储、数据分析5方面能力的统一[2]。
(1)统一模型:基于统一数据模型分层设计原则和体系结构,实现离线和实时数据模型的统一;(2)统一计算:统一批流编码方式,减小SQL开发和运维负担,让应用专注于业务逻辑;(3)统一数据:统一实时和离线数据,可有效避免数据不一致、数据重复存储和重复计算;(4)统一存储:支持海量数据回溯能力,通过数据分级存储机制,降低存储成本;(5)统一分析:提供统一实时的数据查询与分析能力,快速支撑实时应用。
2.2.3 异构数据分层存储架构
根据数据时间周期与访问频率实施分级分层存储架构建设,有效实现对海量数据资产的长周期保存,为数据高效应用打下坚实基础(见图3)。针对数据的访问频率要求,采用对应的Hadoop集群、MPP集群和Redis集群实施分级存储,平均每T数据处理存储成本仅为传统方式(SAN存储)的35%。
图3 异构数据分层存储架构
2.3.1 数据资产分层体系
基于数据处理架构的建设扩充底层数据源能力,从业务角度构建数据资产分层体系,对数据资产进行组织和分类管理,细分基础资产、特征资产和应用资产,丰富数据资产层建设、持续夯实能力基础,更精确的支撑客户需求。
(1)形成基础资产:基础资产是围绕B、O、M各域中跨域、跨系统、跨平台的业务数据,可概括为个人、组织、家庭、资源、物联网、时间、区域设施、字典信息等主题域。(2)丰富特征资产:特征资产是基于基础资产按需加工处理,结合行业特征挖掘高可用的数据资产。基于客户关系、上网内容、位置3大类数据源进行融合分析挖掘,采用专业算法在数据特征资产的基础上构建标签体系和模型指标体系。(3)完善应用资产:应用资产是将业务条线上数据应用领域涉及的所有数据维度进行汇总,形成重要应用领域的数据资产。应用资产按运营商业务维度可分为个人客户、集团客户、家庭客户、竞争对手、终端信息、产品信息、校园客户、渠道、KPI、报表对内10大业务主题域;从支撑行业维度可分为旅游、金融、城市管理、交通、医疗、公共服务、安防、商贸8大行业主题域。
2.3.2 数据资产管理平台
建设以DataOps理念为核心的数据资产管理平台,融合元数据、数据质量、数据标准、数据模型、数据安全等9大管理工具,实现数据资产的需求、变更、建设、存储、应用、维护、安全等各方面的管理覆盖[3](见图4)。
图4 数据资产管理平台体系
(1)数据源管理:保障数据源质量要求,涵盖外部数据源引入管理、数据源分类、数据源配置等功能模块。(2)元数据管理:提升数据间关联性,涵盖数据资产创建、元数据多样化采集、信息标准化校准、元信息快速探查等功能模块。(3)数据质量管理:持续提升数据质量,形成良性闭环管理,涵盖资产信息稽核规则设置、稽核监控分析、问题预警等功能模块。(4)数据标准管理:提供全景可视化统一管控,涵盖存储介质管理、存储周期规范、建表规范、分区规范等功能模块。(5)主数据管理:提升数据资产管理水平,降低整体管理成本和运营风险,涵盖主数据标准化管理、数据创建、更新、清洗、发布等功能模块。(6)数据模型管理:强化数据模型管理能力,涵盖数据模型目录增删改、数据模型信息条件搜索、变更记录、版本查询等功能模块。(7)数据资产报告:提供可视化资产趋势分析,涵盖数据资产分布信息、数据资产变化趋势、统计指标与分析等功能模块。(8)数据共享服务管理:规范资产能力分享,涵盖数据目录管理和数据服务管理功能模块。(9)数据安全管理:实施双重安全管控机制,涵盖敏感数据扫描、定期全量数据敏感信息监控、动态监控、安全管控建议等功能模块。
基于数据资产管理运营体系,打造大数据开放中台架构,深度演进数据及业务中台,围绕数据资产化、能力服务化的总体思路,以数据开放、信息共享为基石,以融合、融通、融智为目标,对内重点建设数据中台及大数据资产管理平台,提升数据汇聚、数据治理、数据共享能力,对外向前台应用、业务中台输出核心资产能力,挖掘和发挥数据资产价值并促进持续增值,实现数据资产对内赋能[4](见图5)。
为满足业务需求及市场发展要求,实施中台架构演进。将公共业务能力、数据能力和技术能力下沉至中台,以服务化方式为行业客户提供强有力支撑,实现开发标准化,提升应用支撑效率;从技术架构、数据架构、应用架构3条线入手,打造“生产、运营、管理”3域协同的中台能力体系并持续运营,提升数据中台和业务中台综合效能。
中台服务技术主要通过服务封装的方式,面向应用提供数据和业务能力服务支撑,主要的技术包括:接口封装、界面封装、组件封装、模型封装等。
运用Pulsar+Flink流原生技术,演进“弹性扩展、多租户隔离、数据分层存储、数据在离线分析”的批流一体大数据处理架构,提高实时数据处理能力;构建“高效、实时、融合”的实时数仓,大幅提高了实时数据的处理能力,数据处理每秒达到千万级,并对低时延数据及服务的全方位支撑,满足实时业务需求。
根据数据资产价值,构建异构数据处理和存储架构,将数据分散到MPP、MySQL数据库和分布式存储上;采用x86化的MPP数据库实现基于海量标签的客群挖掘与计算,与传统Oracle相比,硬件成本降低了40%,数据处理分析效率提高了50%;实现了精确到分钟级的日数据实时展现。
通过建设数据资产管理运营体系提升数据资产全面管理能力,实施全方位资产管理流程,通过建设数据中台实现数据资产开放赋能核心业务,实现数据资产“可见、可用、可运营”;已覆盖个人、群体、企业、位置、AI五大类核心服务场景;面向政府、公安、医疗、金融等行业客户赋能大数据商机项目,通过提升能力使用程度、数量及范围,带动能力生态繁荣发展。
本文研究基于运用Pulsar+Flink流原生技术,演进批流一体化架构,提高实时数据处理能力;构建实时数仓,支撑客户规模化经营;通过Pulsar存储与计算分离功能,实现了弹性扩展能力,处理能力提升1倍,能够支撑每天5 000亿多的实时数据处理能力,高效支撑数据资产管理运营体系建设。通过构建数据资产分层体系,打造数据资产管理平台,实现资产全流程管控,支撑中台能力服务高效演进。此研究已广泛服务于旅游、交通、公安、金融、工商等重点行业,助力行业数字化转型,服务社会民生,提升了江苏移动企业影响力。
文章提出了基于运营商大数据能力及技术构建数据资产管理运营体系的研究成果。此研究成果依托大数据资产能力建设,面向行业客户提供智慧、高效的大数据产品服务和DICT综合服务,覆盖金融征信风控、景区游客洞察、城市规划、重大活动保障等大数据业务场景,取得显著的经济效益和社会效益。