刘昭,张海峰,李玮,韦薇
(中国移动通信集团设计院有限公司,北京 100080)
运营商发展大数据技术及建设模式展望
刘昭,张海峰,李玮,韦薇
(中国移动通信集团设计院有限公司,北京 100080)
首先分析了互联网企业和国外运营商发展大数据的情况,接着结合大数据技术发展特性,对运营商大数据平台的架构和建设模式提出了建设思路,最后对大数据未来进行展望。
大数据;电信运营商;MPP;Hadoop
大数据是指对大量结构化和非结构化的数据进行分析处理,从中获得新的价值,具有数据量大、数据类型多、处理要求快和价值密度低等特点。随着云计算和大数据的发展,越来越多的企业和人们意识到大数据的巨大价值,也意识到大数据分析给传统数据分析和处理技术带来的挑战。
大数据应用在各行各业的发展呈现“阶梯式”格局:互联网行业是大数据应用的领跑者,金融、零售、电信、公共管理、医疗卫生等领域积极尝试大数据。
1.1 互联网企业
互联网是大数据应用的发源地,大型互联网企业是当前大数据应用的领跑者。搜索引擎作为最早的互联网大数据应用,其不断的发展推动谷歌在2000年左右提出了MapReduce/BigTable等技术,从此开启了大数据技术的新篇章。
国外OTT已经率先行动:谷歌、Facebook、亚马逊、Twitter等都已经实施大数据的战略;各类App通过免费方式收集用户的个人信息转卖给广告商。如Facebook对用户基本属性、行为习惯和兴趣等进行语义分析,为广告商提供基于数据挖掘的自助式广告下单服务系统。亚马逊利用大数据技术为用户提供社会化推荐、广播式个性化推荐等服务,加快了产品传播的速度。Twitter对提到产品的文本进行搜集并按规则打分,得到客户对产品的满意度评价。国内业界领先者百度、阿里巴巴、腾讯等在大数据方面已经先知先行,都围绕“数据”战略进行布局。
1.2 传统行业
大数据应用起源于互联网,正在向以数据生产、流通和利用为核心的各个产业渗透。目前金融、零售、电信、公共管理、医疗卫生等领域在积极地探索和布局大数据应用,主要呈现两种发展方向。
一是积极整合行业和机构内部的各种数据源,通过对整合后的数据进行挖掘分析,从而发展大数据应用。例如,一些新兴的大型百货商场利用大数据平台整合POS机、企业CRM系统、免费无线网络、客流监控设备等数据,对用户进行聚类分析,支撑客户习惯查询、客户群路径分析等应用,提高商场营销效率和营业额。基于大数据的智慧城市决策系统也是大数据应用的重要领域,可整合来自经济、统计、民政、教育、卫生、人力等政府部门内部数据和来自物联网、移动互联网等网络数据,设计经济社会运行分析模型,支撑智慧人口、智慧医疗、智慧教育、智能物流、智能环保等相关决策应用。
二是积极借助外部数据,主要是互联网数据,来实现相关应用。例如,金融机构通过收集互联网用户的微博数据、社交数据、历史交易数据来评估用户的信用等级;证券分析机构通过整合新闻、股票论坛、公司公告、行业研究报告、交易数据、行情数据、报单数据等,试图分析和挖掘各种事件和因素对股市和股票价格走向的影响;监管机构将社交数据、网络新闻数据、网页数据等与监管机构的数据库对接,通过比对结果进行风险提示,提醒监管机构及时采取行动;零售企业通过互联网用户数据分析商品销售趋势、用户偏好等等。
1.3 电信运营商
目前,电信运营商发展大数据主要体现在企业内部数据的整合且用于内部服务,如支持内部的客户流失分析、营销分析和网络优化分析等,对外的应用模式尚未成型,部分电信运营商开始尝试利用大数据进行数据的增值。
2012年,美国Verizon成立了精准营销部门,提供3方面的服务:精准营销洞察,针对商场、球场等特定的公开场所,提供商业数据分析服务;精准营销,提供广告投放支撑;移动商务,面向移动支付系统。
西班牙电信Telefonica成立了名为“动态洞察”的大数据业务部门,对某个时段、某个地点人流量的关键影响因素进行分析,并将洞察结果面向政企客户提供。
法国电信France Telecom开展了针对用户消费数据的分析评估,以帮助法国电信改善服务质量,如对通话中断产生的原因进行分析以完善网络布局。此外,还承担公共服务项目的IT系统建设,如承建了一个法国高速公路数据监测项目,对每天监测到的记录进行分析,为行驶于高速公路上的车辆提供准确及时的信息,有效提高道路通畅率。
德国电信和Vodafone在利用大数据为自身业务服务之余,已向商业模式跨出了一步。主要尝试是通过开放API,向数据挖掘公司等合作方提供部分用户匿名地理位置数据,以掌握人群出行规律。
运营商掌握丰富的用户身份数据、语音数据、视频数据、流量数据和位置数据,数据的海量性、多元性和实时性使其具有经营大数据的先天优势。随着智能手机和高速网络的普及,运营商能够获得的用户行为数据还将更为丰富,大数据应用前景更为广阔。
随着大数据正成为IT行业全新的制高点,各企业和组织纷纷助推大数据的发展,相关大数据技术在商业领域和开源领域都呈现出百花齐放局面。
大数据激发了数据库行业技术创新的热情,主要的驱动力是对处理性能的强烈需求。技术层面,大数据处理技术种类繁多,包括MPP数据库、Hadoop、NoSql技术等。
2.1 MPP数据库
从数据库的演进过程来看,数据库的架构经历了传统单机数据库、SMP( Symmetrical Multi-Processing,对称多处理)架构数据库及MPP(Massive Parallel Processing, 大规模并行处理系统)架构数据库,如图1所示。
MPP架构的主要特征是每个节点内的CPU都有自己私有的资源,如总线,内存,硬盘等,节点之间不共享资源。信息交互与节点本身的处理是并行进行的,因此MPP在增加节点时性能基本上可以实现线性扩展。
MPP 数据库通过Share Nothing的方式实现了大规模的并行处理,通过哈希运算将数据分布到不同的分区上,尽量使得计算在本地完成。MPP 将任务并行的分散到多个服务器和节点上,在每个节点上计算完成后,将各自部分的结果汇总在一起得到最终的结果。MPP数据库具备以下特性:
图1 数据库各类型架构
(1)无共享架构:无共享架构能充分发挥硬件的计算能力及I/O吞吐能力。使得数据分区分布、并行加载、并行处理都实现了高性能。
(2)开放及容错:基于x86平台,能降低建设成本,统一系统运维,未来扩容不受限于单一厂商。数据通过副本复制来保证故障频发情况下的高可用。
(3)标准化:支持标准SQL,减少学习成本,支持业界流行的第三方商业工具,方便系统集成和开放能力。
(4)线性扩展:基于开放的架构,基本能做到性能的线性扩展。
(5)列式存储:列式存储能有效提升数据检索速度,适合OLAP应用;列式存储还能提高数据压缩率,在大数据时代尤为重要。
2.2 Hadoop技术
Hadoop是一个开发和运行处理大规模数据的软件平台,属于Apache开源组织,Java语言开发,用于实现在大量计算机组成的集群中对海量数据进行分布式存储和计算。Hadoop特点是一个能够对大量数据进行分布式处理的软件框架,具有可靠性(多副本)、高效性(并行方式工作)、可伸缩性(能够处理 PB 级数据)的特点。
Hadoop最核心组件是HDFS、MapReduce、Hbase。其中HDFS是一个分布式文件系统,提供了海量数据的存储;MapReduce是一个编程环境,提供并行处理框架;Hbase是一个基于HDFS的NoSQL数据库,提供海量数据存储能力。
2.2.1 HDFS
Hadoop HDFS是新型分布式文件系统的典型代表,提供高可靠、高扩展、高吞吐能力的海量文件数据存储。其特性包括:
(1)有高容错性的特点,每块文件数据在不同机器节点上保存3份;
(2)整个系统部署在低廉的硬件上;
(3)分布式存储,数据按块分布在不同节点上;
(4)适合超大数据集的应用程序。
同时,HDFS本身也存在如下缺点:
(1) 无法响应低延迟访问;
(2) 不适合小文件存储;
(3) 文件系统接口不同,应用需要重新开发。
2.2.2 MapReduce
MapReduce是Google提出的并行计算架构,用于大规模数据集(TB级以上)的并行运算。此算法的计算能力,随着计算节点的数量而线性上升。
MapReduce计算处理过程可以简要分解为两部分,数据分块映射处理(Map)和数据结果聚合(Reduce)两个步骤。
Map过程:
(1) 将输入分片,每个分片并行处理;
(2) 将处理结果保存到本地文件系统中,供Reduce获取。
Reduce过程:
(1) 收集Map的结果,并汇总;
(2) 汇总工作可以并行。
2.2.3 Hbase
HBase是Google Bigtable的开源实现版本。数据存储在HDFS中,继承了HDFS的高可靠性、可伸缩架构,同时自己实现了高性能、列存储、实时读写的特性。
(1) 支持大数据量PB级数据;
(2) 分布式并发处理效率高,易扩展、动态伸缩;
(3) 利用Hadoop HDFS作为持久化存储,可在廉价PC 搭建大规模存储集群 ;
(4) Key-Value存储,但仅有单一索引,实时性要求一般;
(5) 适合于非结构化数据存储,无法支持复杂SQL和关联操作;
(6) 只提供数据最终一致性。
由于依据的理论和采取的技术路线不同,Hadoop和MPP两种技术有各自的优缺点和适用范围,两种技术以及传统数据仓库技术的对比如表1所示。
表1 Hadoop、MPP、传统数据仓库技术对比
综合而言,Hadoop和MPP两种技术的特点和适用场景为:MPP适合多维度数据自助分析、数据集市等;Hadoop 适合海量数据存储查询(详单存储和查询)、批量数据ETL、非结构化数据分析(日志分析、文本分析)等。
因此,未来的大数据平台架构一定不是传统的一种技术支持多种应用,而是多种技术支持多种应用,以混搭的模式实现大数据平台的整合。大数据平台目标架构如图2所示。
图2 大数据平台目标架构
目前,运营商的数据分散在总部和各省公司的B、O、M三域和业务系统中,分析型系统也多采用分域建设,用于满足各部门业务运营分析、统计报表等生产需求 ,难以进行跨域综合分析和全网端到端分析。大数据平台建设思路如下。
(1)模式1:全网集中建设大数据平台。
总部统一建设全网大数据平台,统一采集全网数据,统一进行数据标准化预处理,统一保存明细及汇总等各类数据,统一开展应用开发和数据分析服务,结合数据集市为总部及各省提供服务。
(2)模式2:总部及东部省建设大数据平台。
总部建设全网大数据平台,统一采集全网数据,统一进行数据标准化预处理,统一保存明细及汇总等各类数据,统一开展应用开发和数据分析服务,结合数据集市为总部及未建设大数据平台的省提供服务。东部省建设省级大数据平台,采集层将数据同时送给总部及省级大数据平台,独立采集省内个性化数据,省级大数据平台自行进行数据预处理,长期保存明细及汇总等各类数据,并以此为基础开展省内应用分析。
(3)模式3:总部、各省均建设大数据平台,分别支撑总部和各省大数据应用。
方案1集中化程度最高,数据成本(存储成本、应用开发成本、质量成本、安全成本等)最低,在集中化运营、数据一致性及成本节约方面具有优势,但需要集团大数据平台能够快速形成能力,技术与运营团队、服务与管理流程能够尽快建立,满足总部、省公司各部门需求。方案3与目前运营商组织架构及管理流程最匹配,对现有组织架构、人员配置、服务流程影响较小,可快速满足省公司生产需求,后续随着集团大数据平台技术与服务能力的增强,可逐步向方式一演进。 方案2兼顾协同性,可充分发挥东部发达省公司优势。
大数据平台建设将面临以下挑战:
(1) 企业数据统一建模、实现开放共享。数据统一建模涉及的数据范围广,数据模型复杂,重构难度较大。
(2) 企业数据集中存储,数据安全性、稳定性要求较高。大量数据源系统的接口对接工作量大,海量数据处理和存储存在诸多技术难度和风险。
(3) 依托云资源池,建立数据运营及应用开发模式,开发和建设经验缺乏,运维难度大。
考虑到大数据平台建设的复杂性,在大数据平台建设过程中,应采用分阶段逐步演进方式:
初期:搭建平台,按需引入数据,以支持新的分析应用、支撑跨域数据分析为主。大数据平台向上层应用提供数据由粗到细,即前期以提供明细数据为主,后期逐步提供精确数据(如汇总加工数据),积累大数据平台建设运维经验。
中期:逐步整合B、O、M等各域数据,原有分析系统及生产系统中的分析应用逐步迁移至大数据平台,优先满足移动互联网分析需求,积极探索对外提供数据产品和服务。继续优化大数据系统架构,建设统一ETL平台,实现对各域数据的清洗、转换、加载,统一数据建模,各域明细数据及汇总数据统一存储与处理,增强分布式实时处理能力,完善数据管理,加强数据服务开放能力建设, 构建面向移动互联网的大数据分析体系。
远期:实现企业内部数据全覆盖,按需加大外部数据引入,以全面支撑对内分析应用、实现数据价值最大化为目标,创新业务模式,扩展对外应用。实现数据和应用解耦,统一数据服务开放能力,为应用提供不同级别、详细程度、封装程度的数据共享服务,实现异地容灾建设,进一步提升数据安全性,以数据全生命周期管理为主线,数据分析为核心,业务支撑为目的,提升大数据对内、对外运营能力。
全球大数据产业日趋活跃,技术演进和应用创新加速发展,各国政府和企业也逐渐认识到大数据在推动经济发展、改善公共服务,增强企业竞争力等方面的重大意义。因此,运营商需要建立新型大数据中心,将现有的数据资源转化为发展动力,实现在互联网时代下业务模式的顺利转型。
Operators to develop big data technologies and construction mode prospect
LIU Zhao, ZHANG Hai-feng , LI Wei, WEI Wei
(China Mobile Group Design Institute Co., Ltd., Beijing 100080, China)
This paper fi rst analyzed the development of internet companies and foreign operators in big data, then combined with the high development of big data technology, put forward the construction ideas of operator’s big data architecture and construction mode. Finally, it prospected on the future of data.
big data; operators; MPP; Hadoop
TN915
A
1008-5599(2015)03-0012-05
2015-02-26