基于Hadoop的运营商流量经营分析系统建设方案

2014-02-09 08:25
电信工程技术与标准化 2014年7期
关键词:海量集群运营商

(中国移动通信集团设计院有限公司,北京 100080)

基于Hadoop的运营商流量经营分析系统建设方案

常海防

(中国移动通信集团设计院有限公司,北京 100080)

随着移动互联网的快速发展,运营商的核心战略转向以智能管道为基础的流量经营。本文在对Hadoop平台和流量经营分析系统进行分析的基础上,提出了一种基于Hadoop平台的流量经营分析系统实现方案,以期有助于提升运营商的流量内容研究能力和智能营销支持能力,避免“量收剪刀差”的不断拉大。

运营商;流量经营;Hadoop;系统建设

近年来,随着移动互联网的迅猛发展,智能手机、平板电脑等3G/4G移动终端的快速普及,移动互联网流量以前所未有的速度高速增长。在智能终端、移动应用和服务为主的移动互联网时代,运营商的话音业务收入比重下降,数据和互联网业务增长快速。运营商的业务模式由传统的“话音+短信+增值业务”转变为“话音+流量+内容/应用”,运营商的核心战略转向以智能管道为基础的流量经营,以应对“哑管道化”、“去电信化”、“ 话音免费”等运营风险。在此背景下,运营商急需通过流量经营分析系统的建设,提升流量内容研究能力和智能营销支持能力,推进全网数据流量的精细化经营,加快实现用户流量、内容数据与运营数据的综合分析,研究客户偏好与需求,引导客户使用高附加值业务,为实现“智能管道”的运营目标提供智能运营支撑平台。

1 流量经营分析系统功能需求

目前移动数据业务和流量的爆炸式增长,网络承载呈现“两高两低”的现象,即GSM网无线负荷高、数据业务占用高、TD-SCDMA网利用率低、WLAN网络手机终端流量占比低,并且大量非价值数据流量业务占用了大量的流量资源。

为了应对所面临的挑战和需求,流量经营分析系统通过对网络侧和市场侧海量数据资源(包括客户流量、终端流量、业务流量、套餐流量、网络流量5者)的整合、分析和应用,研究客户使用流量过程中的营销机会,以客户流量特征为依据,定位目标客户。一个典型的流量经营分析系统应具备流量综合分析能力,流量内容研究能力,流量智能营销支持能力。

(1)流量综合分析:实现流量按客户、业务、资费、网络、终端等维度进行综合分析,为流量套餐设计优化、流量业务定价测算、TD-SCDMA/WLAN协同分析提供数据支撑。

(2)流量内容研究:依据上网用户的上网清单日志和URL内容分类结果,建立用户内容、时间、生活轨迹等偏好模型,为内容精确营销和客户服务工作提供支持。

(3)流量智能营销支持:深度洞察客户的流量使用特征、业务偏好、终端特征、位置活动轨迹特征等信息,挖掘客户上网需求,精确定位目标客户,为市场流量营销和网络流量控制策略提供分析依据。

2 Hadoop平台

Hadoop是Apache开源组织的一个分布式计算开源框架,广泛应用于海量非结构化数据的存储和分析。借助于Hadoop平台,用户可以在不了解分布式底层细节的情况下,开发分布式程序,充分利用服务器集群的优势高速运算和存储。它具有海量存储(能够处理PB级别的数据)、低成本(可以部署在廉价的x86服务器集群上)、高效率、高可靠性、高扩展性和高容错性等特点。Hadoop主要由分布式文件系统(HDFS,Hadoop Distributed File System)、MapReduce分布式计算框架和Hbase数据库组成。

2.1 HDFS分布式文件系统

HDFS是Hadoop分布式计算的存储基石,是一个可以运行在x86架构服务器集群上的分布式文件系统,为用户提供海量数据的分布式存储服务。HDFS采用了主从(Master/Slave)结构模型,从最终用户的角度来看,它就像传统的文件系统一样,可以通过目录路径对文件执行CRUD(Create、Read、Update和Delete)操作。但由于分布式存储的性质,HDFS集群是由一个NameNode和若干DataNode组成。NameNode可以看作是分布式文件系统中的管理者,主要负责管理文件系统的命名空间、集群配置信息和存储块的复制等。DataNode是文件存储的基本单元,它将Block存储在本地文件系统中,保存了Block的Meta-data,同时周期性地将所有存在的Block信息发送给NameNode。

2.2 MapReduce分布式计算框架

MapReduce是Hadoop平台用来进行海量数据并行运算的计算模型,MapReduce模型对数据的处理过程主要分成Map和Reduce两个阶段。Map就是将一个任务分解成为多个任务,Reduce就是将分解后多任务处理的结果汇总起来,得出最后的分析结果。在Map之前会对输入的数据有split(分割)的过程,保证任务并行效率,在Map之后还会有shuffle(混合)的过程,对于提高Reduce的效率以及减小数据传输的压力有很大的帮助。

2.3 HBase数据库

HBase是一个高可靠性、高性能、面向列、可伸缩的分布式非关系(NoSQL)数据库系统,适合于海量非结构化数据的收集、存储、管理和维护。HBase依托于Hadoop的HDFS作为存储基础,所有数据文件都存储在HDFS文件系统上。因此其结构也类似于Hadoop的Master-Slave模式,HBase Master Server负责管理所有的Region Server,但HBase Master Server本身并不存储Hbase中的任何数据。Region Server负责处理用户的读写请求,向Master Server上报自己的状态,并获取自己需要服务的Region。HBase逻辑上的Table被定义成为一个Region存储在某一台Region Server上。

3 流量经营分析系统架构方案设计

流量经营分析系统涉及大量的非结构化数据的处理与存储,主要来自于A接口、Gn接口、WLAN、DPI等用户流量日志数据,包含大量的与用户流量和行为相关的信息。运营商一个典型A类省公司大约有5 000万的用户规模,流量经营分析系统数据源月数据量规模在60 TB以上。这些数据是不方便用数据库二维逻辑表来表现的非结构化数据,而且伴随着移动互联网技术的发展,非结构化数据的数量将日趋增大。

根据运营商流量经营分析系统的特点,本文设计了两种系统建设方案:第1种方案采用比较稳妥的常规小型机+高端磁盘阵列进行组网的方案;第2种方案是基于x86服务器的Hadoop集群组网方案。

3.1 方案1:传统小型机和高端磁盘阵列

小型机是指性能和价格介于x86服务器和大型主机之间的一种高性能 64位计算机,通常采用精简指令集(RISC)处理器,运行Unix操作系统。在服务器市场中处于中高端位置。小型机具有区别x86服务器和大型主机的特有体系结构,基本上各厂家小型机使用自家的Unix版本和处理器。一般而言,小型机具有高运算处理能力、高可靠性、高服务性、高可用性、高成本等特点。

磁盘阵列是利用RAID技术,把多块独立的物理磁盘按一定的方式组合起来形成一个逻辑磁盘组,通过在多块磁盘上同时存储或读取数据来大幅度的提高磁盘阵列的I/O带宽。高端磁盘阵列具有大容量、高性能、高可靠性、高可用性、高成本等特点。

3.2 方案2:基于x86服务器的Hadoop分布式集群

Hadoop技术的发展,为流量经营分析系统的构建提供了另一种低成本、高可靠性、高扩展性的技术手段。

x86服务器通常采用复杂指令集(CISC)处理器,运行Linux或者Windows操作系统。企业级x86服务器普遍采用2~4个CPU结构,拥有独立的双PCI通道和内存扩展板设计,具有高内存带宽、大容量热插拔硬盘、较强的数据处理能力、优良的扩展性能等技术特点。

Hadoop分布式系统可以部署在低成本的x86服务器集群上,用于实现对海量非结构化数据的存储、运算和分析。

3.3 系统方案比较

根据上述分析,方案1和方案2的优缺点比较如表1所示。

Hadoop最适合的就是海量数据的分析,并行和串行结合的计算也可以很好地在分布式集群的资源下得以高效的处理。同时Hadoop系统具有很好的可扩展性,在系统资源扩展时,无需考虑暂停数据处理,原有资源继续进行数据处理,新增加的服务器接入后所有的数据会根据Hadoop架构在整体硬件资源内进行重新处理,并不会影响到整个系统的数据处理,以此保证集群的高效并发计算和线性扩展特性。

表1 系统方案对比

此外,采用传统小型机+盘阵方式需采购数据库软件,而Hadoop是开源的分布式计算平台,更加节省了第三方软件的采购。

根据上述方案特点的对比,本文建议采用方案2:基于x86服务器的Hadoop集群技术来构建流量经营分析系统。该方案通过基于x86服务器的Hadoop集群完成大量非结构化数据的高速处理分析,不仅很好地贴合了流量经营分析系统日志分析计算的业务场景,在节约投资的同时,其良好的线性扩展能力对后续业务发展起到很好的保障作用。

4 基于Hadoop的流量经营分析系统建设方案

4.1 业务功能架构

流量经营分析系统实现面向市场的3个主要应用:综合分析能力、流量内容研究能力和智能营销支撑能力。具体的业务功能架构可划分为3部分:采集层、数据处理层和应用功能层。

(1)采集层:作为流量经营分析平台的信息数据载体,为上层应用功能提供数据源包括WLAN数据、GPRS数据、日志类CMWAP网关日志、A接口数据、互联网类信息、业务类(用户资料)等数据接口;信息采集包括流量数据采集、网页信息采集(爬虫等)、接口文件信息采集(FTP)。

(2)数据处理层:主要完成对采集到的信息数据加工,完成信息整合,包括信息处理和信息管理。其中信息处理包括URL处理和匹配、用户偏好处理、内容语义解析、标签信息处理等;信息管理包括网页分词管理、网页标签规则、终端特征配置、应用特征配置、GPRS&WLAN热点配置等。

(3)应用功能层:主要在信息整合基础上,实现总体监控、综合分析、流量价值评估、配置管理以及营销支撑功能。总体监控包括流量发展总体KPI监控、流量套餐监控及价值评估等;综合分析包括网络分析、终端分析、应用分析、和用户偏好分析等;营销支撑包括流量营销服务应用和辅助流量业务策略等。

4.2 系统网络组网

随着分布式集群计算的广泛应用,传统的基于TCP/ IP交换机组网架构的缺陷和局限性日益突出,这种基于PCI架构的I/O技术已经不能满足移动互联网、电子商务、存储网络等大量的I/O需求。本文建议采用Infiniband交换机组网,在避开PCI架构上述问题的同时,提供了高带宽、低时延、低成本、扩展性强等特点。Infiniband在Hadoop多个节点之间提供了40 Gbit/s InfiniBand接入,良好地支持Hadoop集群部署的实现,有效支撑Hadoop集群和数据库处理平台内部的高速数据交互需求。

5 结束语

运营商开展流量经营所要解决的主要问题是“量收剪刀差”,即流量快速增长,占用了大量的网络资源,而收入没有同步增长,业务收入的增长曲线与流量的增长曲线产生了背离,数据业务的投入产出效益日益降低。流量经营分析系统的构建,将为基于流量经营的智能营销系统和新型营销模式,提供分析支持。该系统涉及大量的非结构化数据的存储与处理,采用x86服务器集群以开源Hadoop为基础平台构建流量经营分析系统,可以为运营商提供基于分布式环境的海量数据运算分析能力,完善流量分析监控手段,提升数据流量经营的支撑能力和水平,助力运营商流量经营工作的开展。

[1] 陈吉荣,乐嘉锦. 基于Hadoop生态系统的大数据解决方案综述[J]. 计算机工程与科学, 2013,35(10): 25-32.

[2] 全波,姚素丹. 移动互联网时代电信运营商流量经营探索[J].电信科学, 2012,28(7): 18-21.

[3] 翟岩龙,罗壮,杨凯,徐晟晨. 基于Hadoop的高性能海量数据处理平台研究[J]. 计算机科学, 2013,40(3): 100-103.

Study on the solution to the data traffic monetization analysis system of operators based on Hadoop

CHANG Hai-fang
(China Mobile Group Design Institute Co., Ltd., Beijing 100080, China)

With the rapid development of mobile internet, operators are now shifting their key strategies to the data traffic business via “intelligent channels”. Based on the Hadoop platform study, this paper introduces a implementation of the data traff c monetization system based on Hadoop. This paper sets out to provide insights to enhance the operators’ research ability of data traff c contents as well as their caliber to support“intelligent marketing”, which helps avoid widening gap between “quantity and revenue”.

operators; data traff c monetization; Hadoop; system construction

TN929.5

A

1008-5599(2014)07-0037-04

2014-06-16

猜你喜欢
海量集群运营商
一种傅里叶域海量数据高速谱聚类方法
海上小型无人机集群的反制装备需求与应对之策研究
海量快递垃圾正在“围城”——“绿色快递”势在必行
一种无人机集群发射回收装置的控制系统设计
Python与Spark集群在收费数据分析中的应用
勤快又呆萌的集群机器人
一个图形所蕴含的“海量”巧题
取消“漫游费”只能等运营商“良心发现”?
第一章 在腐败火上烤的三大运营商
三大运营商换帅不是一个简单的巧合