林玉广
(中国移动通信集团福建有限公司, 福州 350003)
电信运营商企业级大数据运营探讨
林玉广
(中国移动通信集团福建有限公司, 福州 350003)
基于电信运营商企业级大数据平台多年的建设、运维实践经验,从大数据平台架构、平台运营管理、系统运维监控、跨部门协作等方面探索出创新性解决方案和优化改进措施,有效解决上述问题,并形成一套企业级大数据平台运营规范和体系,为建设高效协同、规范运营的企业级大数据平台提供了有力保障。
大数据; 企业级; Hadoop; 多租户; 运营
移动互联网业务的飞速发展和智能终端的不断推陈出新,促使电信运营商业务服务模式向以用户为核心进行转变,流量经营、智能管道成为转型重点。随着4G业务的大规模开展,数据流量业务呈现井喷式发展,如何将海量数据集中存储、计算分析并使其产生商业价值,成为电信运营商发展面临的巨大机遇和挑战[1]。
大数据技术被设计用于在成本可承受(Economically)的条件下,通过快速(Velocity)地采集、发现和分析,从大体量(Volumes)、多类别(Variety)的数据中提取价值(Value),是IT领域新一代的技术与架构。随着云计算、大数据等各类技术的不断成熟,企业级大数据平台建设成为深入挖掘大数据商业价值,进行数据商业智能应用的必由之路。
电信运营商在长期的内部精细化管理和精确营销服务的过程中,积累了大量的、相比其他公司独特的数据资产(如网络数据、用户数据、应用数据和市场数据等),具有清单类结构化数据、日志类半结构化数据、网页、GIS类非结构化数据、流式数据等丰富多样的大数据应用场景。利用大数据技术充分挖掘这些数据资产,走出大数据变现路线,不但可以使得自己的商业模式更加有竞争力,同时也可以帮助其他企业或行业的商业模式更加高效,从而提升整个社会的效率[2]。
目前,三大电信运营商都已搭建起企业级大数据平台,采用“统筹管理、两级运营”的大数据运营体系。中国移动按照“逻辑集中,物理分散”的原则构建全国统一的企业级大数据平台,以“1+N”方式在总部和部分省公司分别建设总部和省级节点[3];中国电信采用“省级数据汇聚、总部集中建设运营”模式[4];中国联通采用“总部统一平台(基于全国性31省的数据)+各省二级大数据平台”的平台架构[5]。不论是哪种建设模式,电信运营商构建企业级大数据平台的核心是为了“数据整合、能力共享、开放共赢”,总体目标是充分发挥数据价值,支撑以数据为核心驱动管理变革,实现“超细分”、“微营销”、“精服务”企业战略,并支撑更多数据运营、开放和数据资产变现场景[6]。具体地说,通过强化IT整合和数据洞察能力,实现对上、对下、对内、对外4个方面功能的提升。
(1) 对上:开展企业级应用建模和运营分析,助力企业经营决策。
(2) 对下:提供基于大数据的超细分、微营销能力,直接支撑生产一线的营销服务。
(3) 对内:整合跨域数据源,建设公共IT基础资源平台,降低建设及运维成本,提升IT敏捷支撑能力。
(4) 对外:提供数据信息产品及服务,创新业务模式。
2.1 系统总体架构
典型的企业级大数据平台架构如图1所示,主要由数据处理中心、数据存储中心、数据应用中心和数据服务管理平台、数据运营管理平台组成,采用“Hadoop+MPP+传统数据库”的混搭架构。其中数据处理中心负责快速采集和预处理B域、O域、M域和互联网等第三方数据;数据存储中心数据包括Hadoop明细清单库、MPP基础信息库(如GreenPlum)和传统中央数据库(如Exadata),分别对明细详单数据、轻度汇总数据和中高度数据进行加工处理,形成开放能力并汇聚到多租户数据库资源池;数据应用中心基于大数据能力实现各类营销、分析、行业等应用百花齐放。
2.2 存在问题和挑战
随着企业级大数据平台历经多轮建设,节点数、空间容量等规模的不断扩大,各域数据源的扩充和承载业务的不断丰富,电信运营商大数据平台运营遇到以下挑战。
(1) 企业级大数据平台的高复杂性。企业级大数据平台开放给多个部门使用,大数据平台运营需面对接口部门多、上层承载业务各式各样、厂家技能不一等问题。如何规范使用大数据平台,保证平台的稳定性和可用性。
(2) 随着大数据平台的建设和发展,平台承载业务不断丰富,运行任务也逐步增加,平台处理能力遇到瓶颈,“大数据分析日益增长的需求同大数据平台能力有限之间的矛盾”需要运营部门不断进行优化和调整,保时保质保量完成海量数据的采集、分析和处理。
(3) 企业级大数据平台经过多轮建设,新、旧集群版本不一,如何实现应用兼容,如何实现系统互为热备。
(4)数据质量是大数据分析结果有效性、准确性的基础,多域数据整合到同一大数据平台并不断有新类型数据接入,如何高效保障数据质量。
图1 典型企业级大数据平台总体架构
2.3 应对举措
本文在电信运营商企业级大数据平台多年建设、运维实践中,从技术、管理两方面积极探索和持续优化改进,有力保障了企业级大数据平台的高效、稳定和规范运营。技术上创新性提出了分布式采集、Hadoop集群内外网分离、租户任务灵活调度控制、全方位大数据平台监控等方案;管理上制定和落实企业级大数据平台规范、跨部门沟通协作和定期通报等机制。下一章节将以ETL、Hadoop集群为例进行详细说明。
3.1 架构设计优化
3.1.1 构建分布式采集系统显著提升海量数据的传输效率
海量数据采集是大数据的基石,传统技术架构已无法应对大规模、实时数据的接入,主要体现在如下方面。
(1)源端节点数据分布不均,波动性强。源数据通常是汇聚在多台服务器上,不同节点的数据很可能分布不均,同一服务器不同时间点的数据量也不一样。
(2)源端节点设备调整,采集集群必须相应调整。传统点对点或一对多采集方式,当源端设备新增或下线,采集服务器集群就得相应调整,而且调整后很容易造成采集节点负荷不均。
(3)ETL集群节点调整,采集策略需相应调整。如ETL采集节点宕机,则需调整节点补采宕机节点对应的源端数据。
本文在ETL集群基础上引入调度控制层,创新性提出了“调度控制+数据采集与分发”的分布式采集架构,实现大数据平台从容应对海量数据的快速采集和传送。调度控制层负责扫描源数据服务器目录得到文件列表信息,并根据调度策略将采集任务分发到各个采集服务节点。采集节点根据从调度节点接收到的文件信息,连接到源数据服务器,根据配置的采集策略进行数据采集,实现源端数据负载均衡采集到各个采集服务器。同时,采集服务器集群数据分布均衡也提升了预处理后的数据上传到Hadoop集群的效率。
3.1.2 内外网分离提升Hadoop集群稳定性和任务运行效率
Hadoop集群基于多副本机制实现数据的高可用,随着企业级Hadoop平台接入数据量、并发作业数的不断增加,集群的网络数据传送出现资源争用,很可能成为性能瓶颈。
传统解决方案是,设置合理的数据分布策略和作业调度策略,使作业尽可能优先访问本地节点的数据,减少节点间的数据传送,但更彻底解决的办法是将Hadoop集群升级为两对网卡,内部数据传送网络与对外通信网络分开。前端ETL、后端的MPP集群通过Hadoop集群对外通信的网卡与Hadoop平台交互数据,Hadoop集群内部通过另一网卡实现集群内部通信,避免外部数据传送影响Hadoop内部的通信。此方案创新性解决了Hadoop集群海量数据并发处理的网络瓶颈问题,不仅增加了集群网络带宽、减少数据传送延时,还提升了`Hadoop集群的稳定性和MapReduce任务运行效率。
3.1.3 解决多集群多版本兼容性实现集群资源负载均衡
和互备
经过企业级大数据多期的建设,形成了2套大数据平台版本,一期平台是Hadoop API 1.1接口,二期平台是Hadoop API 2.0接口,双平台上应用如何兼容和互备?为此,在二期平台上预留Hadoop API 1.1接口,创建与Hadoop API 1.1兼容的Application Consumer,实现一期平台的各个租户应用无需更改代码即可在二期平台上平滑运行,实现任务可在新旧平台上同时运行,进而通过集群间的任务调度控制实现各集群资源的负载均衡和互为热备。
3.1.4 合理的多租户资源管控策略解决资源的争夺和共享
企业级大数据平台承载不同部门各式各样的应用,如何有效地进行部门之间、部门之内的资源分配,避免资源争抢和资源浪费?
(1)企业级大数据中心多个部门使用,每个部门存在不同开发厂家,资源管控依此进行租户设计和资源分配,按部门划分租户和分配资源。
(2)在资源分配和使用上,首先做到租户间的资源相对隔离,但在租户资源闲置情况下,可临时共享给其他租户使用。
(3)划分单独的公共域租户,统一负责多个业务域所需的数据采集、加工和存储,并按需授权开放给相关租户使用。
通过多租户的资源隔离和共享,有效解决了大数据平台上不同部门之间的资源争夺和数据共享开放问题,并将空闲资源充分利用,提升作业效率,避免资源浪费。
3.2 平台运维及管理
3.2.1 制定和落实运营管理办法和流程规范,提升系统稳定性
首先是,构建一套企业级的大数据平台运营管理标准和体系,制定企业级大数据平台全生命周期管理办法和设备入网、资源申请及业务上线、大数据平台开发使用等流程规范。
其次是,增加应用层面的管控。开发人员要加强对Hadoop作业特点的学习,按照平台使用规范因地制宜设置合适参数,并在上线之前做好代码测试验证,加强对代码质量的管控。
3.2.2 优化MapReduce任务参数,提升运行效率
在大数据平台日常运维过程中,特别是Hadoop集群大规模应用上线后,结合业务特点有针对性地优化MapReduce任务参数和平台参数,可显著提升任务运行效率。如下面两种典型场景。
场景1:MapReduce任务CPU资源争抢。
监控发现Job里的Task错误增多,查看相关日志发现Task还没有运行完,计算资源就被回收。
通过统计Task任务的运行时长,合理设置计算资源回收等待时间(如由原来默认的120 s增加到600 s),避免计算资源过早被回收。调整后,Job里的Task正常完成任务,CPU争抢问题有效解决。
王蔷认为培养学生学科核心素养的教学要以活动串联学习内容,以活动驱动学习过程,以活动促进语言与思维的发展。所以在我们设计课堂教学时,整节课内容最好有一个大的主线,贯穿全文。笔者上7B unit 5 welcome to the unit时,把哆啦A梦作为主线,图片以及视频导入,fun facts呈现和哆啦A梦的互动活动等,给学生建构一个大的框架,紧扣本节课内容。当然并不是每一节课都可以恰到好处地的创设主线情景,我们教师应该因材施教。
场景2:通过切分作业粒度提升作业性能
监控发现某个租户的MapReduce应用执行非常慢,经分析MapReduce作业切分数据时颗粒过细,导致作业频繁调度系统CPU、内存和存储资源,且占用时间过长,效率低下。
通过加大MapReduce作业的数据切分颗粒,减少MapReduce作业Task数量,减少占用CPU数,同时加大作业并发度,作业性能提升明显,任务运行时长缩减一倍。
3.2.3 灵活的多租户任务调度控制机制,提升效率和稳定性
Hadoop集群陆续出现节点宕机,租户任务运行时间过长。经分析是由于每个租户调用的任务数过多占用了大量系统资源,后继发起的任务又在不断申请和等待资源,导致任务积压过多,不断“加塞”,进而引发系统宕机和集群处理性能下降。
为此,根据业务数据量和集群能力,控制每个租户并发调度任务数(如20个以内),减少Suspend任务数,避免调度过程中占用过多的系统资源,提升任务运行效率,减少系统资源被耗光引发的宕机。
3.3 全方位的大数据平台运维监控,预防和及时识别风险
企业级大数据平台涉及底层主机硬件、操作系统、节点进程、分布式文件系统、数据库、租户作业调度与资源分配、任务运行状况等,每个子系统都是相互依赖,牵一发而动全身。因此企业级大数据平台需要多维度监控,提前发现可能存在风险。本文在大数据平台运维过程中,创新性提出了从“节点→集群→租户→任务”等维度进行全方位监控的解决方案,如图2所示。
(1)加强对节点状态、进程、空间、倾斜度、健康度、资源使用的监控。由于大数据平台是对海量数据进行分析处理,中间产生的临时数据和最终分析数据会占用大量存储空间,当文件系统空间使用率达到一定阈值(如75%),需要及时进行数据的清理。
图2 自下而上全方位的运维监控体系
(2)增加网络专业的监控和应急处理能力。海量数据的加工处理对网络要求高,网络抖动对分布式集群影响极大,不仅需要加强网络状态的监控,网络参数调整和安全加固更需仔细审核和测试。
(3)加强对集群总体资源使用情况的实时监控。不仅限于单节点监控,更要侧重集群整体健康状况监控,如关注集群节点的数据和性能均衡度、节点间的通信状况,如图3所示。
(4)加强租户使用资源情况的监控,包括每个租户Job完成情况及当前所分配的资源情况,各个租户运行Job任务数和Job调度情况,进而合理安排各个租户的资源分配和任务调度。
(5)监控Job的运行状况,及时发现应用异常。
3.4 跨部门紧密协作,提升数据整合质量
企业级大数据平台涉及多个部门及外部数据,数据源不断扩充和接入到统一的大数据平台,如何保障数据整合质量,确保分析结果的有效性和准确性?需要从管理、技术方面双管齐下提升数据质量。
(1)管理方面:明确网管域负责O域数据采集和DPI,业务支撑域负责BOM三域数据采集;建立跨部门接口人,定期沟通数据质量问题;建立数据质量日报制度,定期通报数据质量加载报告;多部门共享同一份数据,通过多专业实际应用发现数据问题。
(2)技术方面:建立两级DPI,一级网络侧从分光数据进行DPI,二级业务支撑侧结合业务运营需要进行DPI增强,通过新增字段,保持一级DPI数据的完整性;建立数据处理流程的平衡性检查机制,从源系统、数据源采集、预处理、入Hadoop集群等多个环节进行数据平衡检查;建立流处理的异常抛出监测机制,及时发现数据源中的异常类数据字符,通过协同数据源改造或通过异常适配解决问题;定期通过指定指标进行各数据总量的波动性检查验证;各域数据交叉检查验证。如O域的MC口、GN口、LTE口数据和B域的计费话单比对;B域用户消费金额和M域财务收入做比对;结合业务数据特征,制定特定的数据质量检查方法,如拨测、抽样等。
图3 集群总体资源监控
随着企业级大数据平台规模的不断扩大和集群节点数的增多,如何保障平台的稳定性、高效性、集群间协同性和大数据分析的有效性将是大数据平台运营工作的核心。本文在电信运营商企业级大数据平台的运营过程中,制定了大数据平台管理办法和相关流程规范,总结了架构设计、平台运维、系统监控等方面的创新性解决方案和优化改进措施,有力支撑了大数据平台的高效稳定规范运行,以期为大数据运营领域的应用研究做出有益的探索。
[1] 司炜. 中国移动大数据平台实现研究[J]. 互联网天地,2016(1):27.
[2] 何鸿凌. 电信运营商数据资产及变现探讨[EB/OL]. 2014-12-13, http://www.bi168.cn/thread-4260-1-1.html.
[3] 陈志刚. 一文读懂中国电信大数据的布局和策略[EB/ OL]. 2015-12-25, http://www.cctime.com/html/2015-12-25/1120385.htm
[4] 范济安. 中国联通大数据的发展与规划[EB/OL]. 2016-04-23, http://mt.sohu.com/20160423/n445785076.shtml
[5] 金天骄. 整合分域数据平台能力构建公司级统一大数据平台[J].电信技术, 2015(9):35.
中国电信NB-IoT业务闪耀世界物联网博览会
近日,2016世界物联网博览会在无锡太湖国际博览中心召开,这是物联网领域规格最高、规模最大的国家级博览会。为了迎接博览会的召开,江苏电信携手华为在无锡提前部署了NB-IoT网络,并与水表和路灯等业务厂家合作,参会嘉宾可以切身感受智能抄表带来的便利体验,还可以通过手机APP或网络远程缴纳水费,市政路灯根据日照自动调整光照强度,更加节能环保。
在万物互联的大趋势下,中国电信将以NB-IoT为契机,在智能抄表、智能停车、智能追踪,以及智能家居、智能城市、智能制造等领域,创造社会与经济效益,推动物联网产业生态建设,促进物联网产业的整体繁荣。(摘自:C114中国通信网)
Analysis on enterprise big data platform operation of telecom operators
LIN Yu-guang
(China Mobile Group Fujian Co., Ltd., Fuzhou 350003, China)
Based on years of construction and maintenance on enterprise-level big data platform, the above problems were solved by using the method of optimization in big data platform architecture, operation management, system monitoring, inter-departmental coordination. Meanwhile, enterprise-level big data platform operating norms and systems was formed, which provides a strong guarantee for the effi cient collaboration and standardized operation of big data platform. Keywords big data; enterprise-level; hadoop; multi-tenancy; operation News
TN919.5
A
1008-5599(2016)11-0056-06
2016-09-10