张金刚,王昕,耿辉
(中国移动通信集团设计院有限公司陕西分公司,西安 710077)
电信运营商省级公司大数据平台建设关键问题探讨
张金刚,王昕,耿辉
(中国移动通信集团设计院有限公司陕西分公司,西安 710077)
结合某电信运营商省级公司大数据平台建设方案,对大数据平台定位、平台架构、数据源的选择与接入、数据存储和计算技术的选择、数据共享、应用层要求、大数据平台与经营分析系统融合等关键问题进行探讨,为大数据平台建设积累经验。
电信运营商;大数据平台;关键问题
互联网产业在电子商务、定向广告、智能推荐、社交网络等方面积极应用大数据技术,取得了巨大的商业成功。这启发全社会开始重新审视“数据”的巨大价值,拥有大量数据的电信运营商也开始尝试这种新的理念和技术,但一些省公司建设的大数据平台存在平台定位不清、系统架构不合理、数据选择不完整、大数据技术选择盲目等问题,在此情况下,研究和讨论大数据平台建设的关键问题是非常必要和紧迫的。
2.1 大数据平台的定位
省级公司建设大数据平台的驱动分为两种—“被迫”和“主动”。“被迫”是指随着数据量的增加和应用复杂度的增大,基于传统架构搭建的经营分析系统存储、I/ O和计算能力成为瓶颈,不得以在经营分析系统中引入大数据技术(主要是分布式系统)。“主动”是指希望通过充分分析、挖掘自身所掌握的数据,支撑业务运营和寻找新的商机,因现有经营分析系统能力局限,而引入大数据技术。
某电信运营商对大数据的态度是要逐渐从网络运营发展至网络运营+数据运营。并提出近期大数据运营的目标是“初步建成‘大数据、超细分、微营销’体系,通过匹配营销场景的方式由易到难开展数据聚合和应用,由静态营销能力,快速过渡到准实时营销,逐步再实现实时动态营销能力”。由此可见,大数据平台的定位不仅要解决传统IT系统的瓶颈,更要支撑大数据运营的重任。不新建大数据平台或不全面的改造经营分析系统,只在经营分析系统数据处理层引入大数据技术,是不能满足未来大数据运营需求的。
2.2 大数据平台的架构
IT系统的逻辑架构都是一样的,都是按照数据的生命周期搭建,一般包括5个部分:数据源、数据采集、数据处理、接口和应用。某省公司大数据平台的架构如图1所示。
大数据平台架构层次虽然与传统的经营分析系统一致,但每一层都面临不同程度的挑战。
2.2.1 数据源
数据源将更加丰富,除了业务支撑域的数据外,还将引入网络管理域、管理信息域及互联网数据。数据格式、数据采集点、采集方式和采集技术也呈多样性。像数据格式可能涉及结构化数据、半结构化数据和非结构化数据;采集技术可能涉及DPI、爬虫等技术。
2.2.2 数据采集
与以往数据分析相比,大数据不仅数量庞大、格式不一,质量也良莠不齐。这就要求数据采集环节一方面要规范数据格式,便于后续存储管理,另一方面要在尽可能保留原有语义的情况下去粗取精。
2.2.3 数据存储
当前中国移动数据量增长非常快,随着4G业务的发展,数据量的增长速度将不断加快。大数据存储系统不仅需要以极低的成本存储海量数据,还要适应多样化的非结构化数据管理需求,具备数据格式上的可扩展性。
2.2.4 数据计算
海量数据处理要消耗大量的计算资源,对于传统单机或并机计算技术来说,速度、可扩展性和成本上都难以适应大数据计算分析的需求。
2.2.5 数据应用
图1 某省公司大数据平台架构图
大数据的价值体现在大数据的应用上,随着数据增加和丰富,以及大数据技术的引入,为更加多样性的应用产生提供了可能。
2.3 数据源的选择与接入
数据的选择是根据应用及业务的需求而定的。某省公司本期应用和业务需要提取用户终端所使用的应用(应用的名称、类型、频率等信息)、互联网浏览的内容、用户的终端信息(类型、厂商、型号等信息)、用户行动轨迹、用户活动范围内网络资源配置及性能。需要获取的内容以及获取方式、数据信息、数据源对应关系如图2所示。
由图2可见,大数据平台对应的数据源非常多,图中所展示的只是某公司本期工程所需要的数据源,后期可能还会涉及财务、供应链等管理信息域的数据。目前在网络中各省Gn口和Gb口数据采集系统至少有5套以上。公司认真分析了近期应用所需要的数据信息及格式,发现本期所需的Gn口和Gb口数据90%以上上网日志留存系统可以提供,因此避免了新建Gn口、Gb口数据采集系统,此作法值得借鉴。另外,有些公司在VGOP系统或经分系统互联网集市中已经建设了网页爬虫系统,大数据平台获取互联网网页信息时也建议共用爬虫系统。
图2 数据对应关系示意图
2.4 数据存储和计算技术的选择
在大数据存储和计算方面目前最常用的两种技术是Hadoop分布式系统和MPP数据库,Hadoop和MPP都部署在x86服务器上,并且存储系统采用x86服务器自带硬盘方式。Hadoop内部存储和计算是由不同系统负责的,数据存储及管理一般采用HDFS系统和HBase数据库;计算一般采用MapReduce分布式计算技术。MPP数据库则同时提供数据的存储与计算。Hadoop系统和MPP数据库主要特点比较如表1所示。
基于Hadoop和MPP的特点,一般建议大数据平台数据存储和计算部分采用Hadoop和MPP数据库混搭的模式。即MPP数据库适合大数据量、多并发的结构化数据关联汇总,宜进行深度的汇总、关联,推荐用于数据仓库主库;Hadoop分布式文件系统适合进行库外清单汇总以及历史数据存储等库外处理工作,推荐用于库外数据处理。做出以上建议还有一个非常重要的原因是,Hadoop作为开源系统对于人员的开发和运维能力要求较高,需求实现高度依赖开发厂家,数据仓库中有大量的核心信息,在运营商自身没有掌握技术的情况下,在Hadoop上部署数据库仓库,运营商将失去数据仓库的主导权。
虽然,Hadoop和MPP等分布式系统的数据处理能力比传统架构有成倍的提高,但由于它们采取的是“先存储后处理”的模式,数据处理时长不能满足实时推荐、位置服务等业务需求,为此业界提出了“边到达边计算”的实时流计算技术,目前应用案例最多的技术是内存化MapReduce。如果有实时要求极高的业务需求,在大数据平台数据处理层还需部署流计算系统。同时为了缩短数据处理时长,数据从数据源到流程计算处理系统时间越短越好,所经过的环节越少越好。
2.5 数据共享
经营分析系统由于数据和上层应用紧密耦合,造成系统非常封闭,应用由集成商一家公司开发,这对发挥数据的价值极为不利。因此,建议大数据平台实现数据和应用分离,使不同厂商开发的应用都能在平台上部署,实现应用层“百花齐放”。要做到这一点,数据共享层就必须具备数据开放、数据计算模型开放和接口开放。
表1 Hadoop系统和MPP数据主要特点比较
2.6 应用层要求
随着大数据平台的发展,以后将会有多个厂商各种各样的应用在平台上部署,因此应用层需要具备应用的管理能力,有4个方面:(1)为应用提供部署环境,方便应用快速的开发和部署。(2)对接入平台的应用软件提出接口、开发语言类型等明确要求。(3)要具备数据和计算模型的查询能力,使应用开发商能很容易的知道平台有哪些资源可用。(4)对应用的功能进行统计、分析,避免重复开发,鼓励相互协作,产生协同效益。
2.7 大数据平台与经营分析系统融合
大数据平台和经营分析系统作为两个作用十分相似的系统,有许多资源可以共用,在建设大数据平台时要充分考虑与经营分析系统融合。
2.7.1 数据融合
大数据平台与经营分析系统融合后可实现传统数据与互联网数据的充分融合,并通过关联计算实现统一数据展现。另一方面,通过模型重构,实现数据模型的融合。最终,通过统一任务调度,实现数据计算和存储的合理分布,发挥经营分析系统和大数据平台各自的优势,形成优势互补,实现处理融合。
2.7.2 架构融合
大数据平台数据处理层、经分数据仓库能够为上层应用提供基于融合的服务,实现按照数据价值选择在那个系统中进行存储和计算。
2.7.3 应用融合
大数据平台与经营分析系统的应用融合,应充分考虑应用的特点和资源需求情况,对于占用硬件资源较多、分析时间较长而不影响正常生产的应用应由大数据平台承载,从而降低经营分析系统的数据处理负载,同时提高数据分析的效率。
本文主要论述了电信运营商省级公司大数据平台的定位、整体架构和各层的主要需求,对于大数据平台建设的关键问题,下一步需要重点研究各层的主要实现方案和技术、以及适合于在平台上部署的应用,使大数据平台能真正落地、发挥应有的作用。
[1] 工业和信息化部电信研究院. 大数据白皮书[R]. 2014.
Discussions on some key issues of big data platform construction of telecommunication operator provincial company
ZHANG Jing-gang, WANG Xin, GENG Hui
(China Mobile Group Design Institute Co., Ltd. Shanxi Branch, Xi'an 710077, China)
In this article, combined with the construction plan of operator branch, location and architecture of large data platform location, the choice of the data source and data access, storage and computing technology selection, data sharing, application layer requirements, fusion of large data platform and operating system analysis and other key issues were discussed, and experience for large data platform construction will be accumulated.
telecommunication operator; big data platform; key issue
TN915
A
1008-5599(2015)03-0022-04
2015-02-18