靳志成 胡伟 卞雪梅
摘要:大数据作为新时代背景下推动社会生产要素整合的主要动力,本文从建设电信行业企业大数据平台角度出发,介绍了大数据平台建设思路、建设策略,并结合多个大数据平台项目落地实践中總结一套大数据平台建设五步法,以期全面启动企业数据化建设,并且让这个过程不断地持续运行,最终达到当前技术和方法所能支撑的企业全面数据化。
关键词:大数据平台;企业数据;平台建设
一、引言
电信业历经多年IT建设,已经具备大量数据和应用的成果与经验。随着企业级数据整合,海量数据处理和大数据应用建设等的需求不断增加,传统数据运营管理体系逐渐向大数据平台运营体系演进[1]。
2015年之后,企业级大数据平台时代到来。全面应用云化大数据处理技术,能够实现三域数据融合统一存储,同时处理的数据量级达80PB。构建企业级数据模型,以多租户方式为各类业务提供数据能力和分析能力的支撑,并能提供若干AI应用,实现大数据与人工智能的结合。
运营商开展大数据业务优势显著,它有独特的数据资产优势,庞大的用户资源优势,深远的品牌影响优势,但是它也存在一些问题制约,比如数据安全及隐私保护的问题,大数据发展水平、技术研发能力落后于互联网企业的问题。在大数据技术发展的新形势下,企业开始对信息化管理工作提出了新的要求,各大企业的数据中心在建立并不断完善,传统运营商也面临转型。各电信运营商依托于自身优势,借助于各大业务运营系统,收集海量数据,因地制宜,结合各省的数据流量以及业务拓展需求情况,构建相应级别的数据中心。但如何在传统业务之外利用大数据等新型技术处理和利用这些数据信息,构建更为全面的企业级大数据平台辅助诸如突发公共事件防控、优化业务运营策略等也是当下研究的主要任务。
二、电信行业企业级大数据平台建设思路
大数据平台作为海量数据的存储、运算和展示的平台,通过大规模并行处理(massively parallel processing,MPP)数据库、分布式、云计算等大数据技术,从多维数据中快速获取价值信息。大数据技术体系包含以下五方面:采集与预处理、存储与管理、计算模式与系统、数据分析与可视化、隐私与安全。
大数据处理的第一步是制作高质量数据集,即通过数据源采集样本数据进行预处理[2]和集成操作[3],第二步是通过分布式、访问接口和查询语言等技术满足数据处理的实时性和有效性,并对上层应用提供数据访问服务;第三步是根据数据集的不同数据特征和多样化的数据计算分析需求中建立抽象化的计算模型;第四步是针对大数据难以理解的多维分析结果,利用可视化、人工交互和数据起源等方式方便数据展示和用户理解。
大数据平台总体建设应以用户需求为中心,以业务运营为导向,深度分析挖掘用户的通信和互联网行为,依据行为结果建设基础平台集成和数据模型,将行为结果转化为营销商机数据,通过多渠道协同,推进智慧在线运营,打造企业差异化竞争能力。大数据系统体系架构采用云化混搭架构建设开放、可靠、易维护的大数据平台;以数据为基础,需求为导向,通过持续的模型、业务研究,构建对内、对外应用,支撑大数据战略的实现[4]。整个大数据平台总体上可分为功能域和管理域,其中功能域可以分为5个层次,分别是采集层、数据存储与处理层、服务目录层、应用层、展现层。总体架构如图1所示。
功能域的五个层次专注于数据从采集、处理到应用的整个生命周期,管理域则侧重对于数据的管理,包括元数据管理、数据质量管理、数据安全管理、安全管理等。在大数据的整个应用过程中,数据安全是极为重要的,它涉及用户个人信息以及隐私保护等问题,需要有一个强大不易被攻击的平台来管理、保护数据。
三、大数据平台建设策略和建设路径
建设企业级大数据平台需要一定的前置条件。本文认为需要从以下三方面进行考虑。
一是行业特性,大数据平台策略的产生是基于互联网背景之下,虽由电商行业兴起,但用户群体面向ToBs,用于打造产业生态链、衔接上游供应商、下游代理商/经销商业务,帮助企业前台贴近用户,提供更好、更人性化服务,提升用户体验、加快业务交互频率,中台和后台提供管控协调和技术支撑。在当前阶段,大数据平台在金融、银行、政府、能源等行业领域已经开始展开建设。
二是企业体量,大数据平台模式建设对企业体量有较高的要求,通常为龙头企业、行业翘楚,组织结构庞大而复杂,存在众多有实力的子公司或下级单位,并且整体业务上多元化:多板块、多业态。集团内部拥有较为充足的资金力量、能力较强的技术团队,良好的信息化基础设施建设,具备强大的能力去整合业务和上下游的业务和信息化系统。
三是技术实力,对于构建大数据平台业务模式的企业来说,内部需要具备一定的技术实力,首先要对自身业务领域及业务流程模式具备较深的了解,之后对大数据平台需要的技术/产品(开源的/非开源的)具备扎实的基础,以便后续对大数据平台成果维护的同时发现问题并进行改进,如果当前企业暂时不具备独立构建或维护大数据平台成果的能力,那么可以与一些技术实力强的厂商共同合作完成,在构建的过程中能够迅速地学习对方的能力。
(一)大数据平台建设路径
本文在多个大数据平台项目落地实践中总结出的一套方法论,大数据平台建设五步法。
一是数据资源的盘点与规划,数据化的基础是信息化或者信息化所产生的数据。这些数据本身具有数据化的含义,同时这些数据又会进入数据化框架体系,继续通过计算产出更多的数据和更大的价值。所以说对企业数据资源的盘点是数据化建设的前提和基础。一份完整、准确的数据资源是后续数据化建设的有力保障。同时,在进行数据资源的盘点与规划是需要对现有数据资源盘点和统计;对企业可以拥有或者应该拥有的数据资源进行规划;构建盘点体系并使用必要工具,保证盘点的成果能够始终与真实情况相符。
二是数据应用规划与设计,企业要基于现有的技术条件和方案,进行相对完整的数据应用规划。首先应从业务线、业务层级到最细粒度的岗位,梳理数据需求;其次围绕数据需求进行数据应用的整体规划和设计,構建数据应用;最后对数据应用建立评估模型,评估的维度包括数据应用是否可以实现、数据应用的业务价值、数据应用的实现成本这三个主要方面。通过评定结果,我们可以确定数据应用的实现路径。
三是数据资产建设,数据资产建设要依托数据中台的核心产品完成。数据资产是企业数据化建设的关键基础。所有的数据化建设最后都以数据资产为基础,并且围绕这个基础展开。数据资产将是企业在全面数据化建设前期中投入最多、见效最慢的基础层模块。关于数据中台的种种探讨和争议以及妥协的很大一部分原因是这个基础建设庞大、复杂和投入高。数据资产建设的内容包括技术建设、数据仓库模型构建、数据抽取和开发及任务监控与运维、质量校验、应用支撑,相应具体内容入如表1所示。
四是数据应用的详细设计与实现,数据应用的设计大体上都可以遵循传统信息化应用设计的过程和理念,如瀑布模型、敏捷开发模型等。数据应用中的数据开发一般在数据库或者数据仓库中完成。数据应用的内容展示可以采用BI分析工具展现,如可视化大屏或定制化开发应用。数据应用还可以通过API接口服务提供数据成果,让其他外部应用按需调用。在数据应用的开发过程中,应对数据源的内容与质量、数据开发与管理、数据结果验证、数据运维、数据成果运营等方面予以关注。
五是数据化组织规划,企业数据化是未来一个时期内具有企业战略高度的事情,数据化需要一个具有同等战略高度的组织负责推进。无论是从传统的IT部门转型还是由战略部门或者类似部门介入都是很好的选择。组织是保障数据中台顺利落地的一个核心,也是推动企业数据化进程的人员抓手。
(二)大数据中台构建模式
在满足上述五步之后,企业对于大中台的构建通常分为三种模式,一种为全部外采,外包给实施团队;一种为吸收开源融合业务,之后将成果开源;一种为自研、开源相结合,下面将具体阐述每种模式。
外部采购,忽略信息化团队的能力,使用该种模式的企业通常拥有雄厚的资金,或是在行业特性、业务方面与外采的大中台产品或技术框架有一定的相似度,业务内容具备较高的复用性,否则在独有业务定制开发方面会产生更多成本。对于外采模式,通常不会购入成品中台,而是购入开放的中间件平台类产品,如ESB、Portal、IDM、MDM、BI等作为技术中台、数据中台提供能力支撑。
基于开源,该种模式企业通常具备信息化团队,当然不排除一些企业注重时间成本而直接高薪聘请专业信息化团队打造大中台架构,对于底层技术,不需要花费过多时间去自研,使用开源框架及产品作为支撑即可,对于专有业务结合扩展开发,打造属于自身业务发展的大中台架构。部分企业基于这种模式,会将研究成果全部或部分开源出去,供其他类似行业使用借鉴。
自主研发,使用该种模式的企业同样具备信息化团队,在大中台技术架构上,只部分采用外部吸收的技术,也避免将平台后续的扩展与维护受限,在特有业务或主营业务方面的技术产品选择自研,底层通用框架方面选择当前开源的技术与产品为主,部分技术中台、数据中台中涉及产品选择外采,并基于在外部技术团队实施的过程中,吸收、学习产品使用的能力,后期维护扩展。
无论是微服务还是大中台理念,都是基于中国市场特有业务,根据传统架构模式演变而来,无论是构建成果还是发挥的作用都更加适应中国模式的发展,当前对大中台的构建也应该遵循中国市场独有的最佳实践。
大中台模式不仅对企业内部进行整体管控,还是商业模式的支撑手段及营销渠道,构建时应当注重对中台建设整体的管控能力,在具备充足人力、财力的情况下,也不必采用全部自建的模式,对于通用类软件在满足开发性前提下考虑外采,由原厂商提供技术支持,对主营业务建设则以自建为主,结合外采一些技术平台类产品、整体解决方案来实现,着重衡量产品的开放性、敏捷性、扩展性、维护性,实施团队的成熟度、专业性、知识传递性等,企业在建设过程中完成技能培训、知识转移,沉淀最佳实践,后续独立进行平台搭建、扩展、改造、维护,最终实现中台建设自主可控。
四、结束语
本文通过对电信行业数据进行分析,以当前主流大数据平台建设模式,提出了大数据平台建设五步法。在大数据平台项目落地中,可以根据具体项目情况对其中的一个或者几个部分的内容做重点的加强或者减弱,甚至可以只在其中一个方面做重点突破和攻关。
本文对数据中台建设五步法总结的目的是相对地规范企业数据中台建设的步骤和架构,五步法只是企业整体数据化建设的启动。本文希望通过这五个标准的步骤,全面启动企业数据化建设,并且让这个过程不断地持续运行,最终达到当前技术和方法所能支撑的企业全面数据化。
作者单位:靳志成 胡伟 国家计算机网络与信息安全管理中心新疆分中心
卞雪梅 新疆大学
参 考 文 献
[1]成欣, 喻朝新, 刘立. 通信领域大数据应用前景分析及模式场景探讨[J]. 现代电信科技, 2016,46(1):1-7.
[2] Li X, Dong X L, Lyons K, et al. Truth Finding on the Deep Web: Is the Problem Solved?[J]. Proceedings of the VLDB Endowment, 2015,6(2):97-108.
[3] Arasu A, Chaudhuri S, Chen Z, et al. Experiences with using Data Cleaning Technology for Bing Services[J]. Bulletin of the Technical Committee on Data Engineering, 2012(2).
[4]辛笛. 运营商大数据平台建设方案研究[J]. 电信工程技术与标准化, 2018,31(4):26-29.