陈雅静
[摘要]讲述大数据时代下,电信运营商该如何建设大数据平台,并利用大数据完成企业转型的华丽蜕变,同时详细介绍了大数据的特征,以及数据采集和分析的最新技术手段。
[关键词]大数据 企业转型 数据采集 数据分析 数据挖掘
[中图分类号]G250.74 [文献标识码]A [文章编号]1672-5158(2013)06-0010-02
近年来,电信市场竞争越来越激烈,除了运营商之间的竞争渐趋白炽化,在语音业务增长乏力的情况下,新兴互联网业务也在悄悄蚕食传统电信服务。电信运营商应如何应对市场环境发生的深刻变化?如何利用现有资源走出困局?
电信转型已势在必行
基于互联网和移动互联网业务的兴起,电信企业转型已势在必行。首先是传统电信市场趋向饱和,运营商新增客户数和离网客户数都很高,有的地方比例接近1:1,意味着净增客户已经很少,新增客户主要是重入网客户或者粘性不高的“摇摆”客户;有的地方即使出现了个别业务的增长,但随之而来的是增量不增收的尴尬局面。其次是在以智能终端为载体的移动互联网环境下,商业模式发生了巨大变化,以往增值服务提供商必须借助运营商才能向客户交付业务和收取费用,而现在从应用开发到支付都实现了开放,运营商不但不再是业务供应的唯一渠道,运营商反而成为新产业环境下的后进者。三是网络流量剧增带来网络质量变差,客户体验下降,而3G、WiFi等大量网络的利用率却并不高,反映了网络投资建设和优化的不协同、不均衡。
因此,电信转型的突破口就在于建立应对存量市场的运营体系。在以往的增量市场中,主要依靠发展新客户;而在饱和市场中,发展的新客户往往是重入网的客户,这种周转带来的其实是运营商的损失。以往利用收费平台、短彩信网关等做增值业务的模式被移动互联网、智能终端打破后,运营商需要重新加入和构建生态链,通过做APP应用、应用平台,或者盘活数据资产去开拓广告等新领域、以及进行精确营销等。以往通过建设扩容来提升网络质量,但故障率降低的重要原因是设备增加后“分母”增大了,客户的体验反而可能变差了;而且无休止的扩容,需要大量资金的不断投入,在目前电信行业效益普遍下滑的前提下,以网络为中心的运维需要向注重业务质量和客户感知转型。
什么是大数据
“大数据是现有工具无法在可以容忍的时间内对其进行抓取、管理和处理的数据集合。”
——Wikipedia.org
IDC将大数据的特征归纳为4个“V”:
*Volmne代表海量的数据规模,从TB级别跃升到PB级别,甚至是EB级。Google每天分析超过950PB数据;百度每天完成1.5PB数据的挖掘。
*Variety代表多样的数据类型,包括非结构化、半结构化和结构化数据。
*Value代表巨大的数据价值,但挖掘分析更加困难。
*Velocity代表动态数据的快速处理。Google Percolator可以在2秒内完成一个新网页的索引并上线。
电信运营商对大数据其实并不陌生,每天都会处理成百上千亿的订单、计费、清单等数据,而信令的数量级也是大得惊人,网络中更是存储和传输着海量的文字、语音、视频数据。过去运营商并没有有效利用大数据,一方面因为数据量大,各项成本和投资比较高;一方面因为数据分析技术不强,难以实现实时分析、语义分析等;更主要的是在原有商业模式下,定单、计费、基本客户信息等结构化数据的分析就足够了。但是运营商现在已经进入存量市场竞争时代,新的数据分析能力便成为实施电信转型的核心利器。
大数据的演进过程
对于电信运营商来说,现在大数据应用领域仍处于起步阶段,要实现最终的EDA(企业数据应用)架构,必须完成ODS(运营数据仓储)到EDW(企业数据仓库)的演进。如何采集好数据、管理好数据、挖掘应用好数据,是决定工作成败的关键。
ODS使命
ODS定位为统一准实时数据共享平台,承载统一客户视图的提供及展示,提供生产经营数据质量检查、生产经营报表统一的提供和展示、关键生产经营绩效指标与经营风险的监控等功能,以中间层及常规报表为主。目前在建系统多采用Oracle数据库,主要用户为一线生产运营人员及各本地网管理人员。
ODS建设首先应解决数据从何处来?随着CRM、计费、结算、服务开通、客服等核心IT系统建设的逐步成熟,以及客户品牌统领市场经营工作对IT固化生产流程的迫切要求,使得ODS成为承载企业数据模型及数据标准。但是要实施大数据项目,必须打通数据“竖井”,构建全域数据平台,因此除了采集上述系统数据外,还应采集资源类、基站等网络数据,以及代理商佣金、终端成本补贴等财务数据,逐步实现跨业务、运营、管理等各专业的数据共享。需要注意一点,大量数据仍处于“沉睡”状态是现实,不要因此而否认数据的价值,就不进行搜集、积累、存储。
其次,如何保证数据实时性?目前ODS数据按实时性要求可以分为3类,一类是实时要求比较低,基本上可以一天或多天采集一次的,如清单明细、产品配置、网络信息等,这种接口可以采取传统的方式,如文件传输、定时同步等;另一类是实时要求非常迫切,与生产系统基本上是实时同步的,这种接口一般采用DB_LINK的方式,属于典型的以性能换时间的方式,如果频繁访问对系统性能造成很大影响,须谨慎使用;还有一类就是实时要求比较高,但可以容忍短时间延迟的,如客户状态、缴费信息、销售订单等,推荐使用Golden Gate进行同步。Oracle Golden Gate软件是一种基于日志的结构化数据复制备份软件,它通过解析源数据库在线日志或归档日志获得数据的增量变化,再将这些变化应用到目标数据库,从而实现源数据库与目标数据库同步。而且可以在异构系统之间进行大量数据准实时复制,一般数据可以在一分钟以内实现同步,即使是大数据也基本不超过十分钟,对系统性能也不会造成什么影响。
最后,用什么手段提高数据质量?ETL(Extraction-TransformatioLoading的缩写)必不可少,只有经过数据提取、清洗、转换、异常处理后的运营数据,才能进XODS的核心数据层,而且实现统一编码格式。ODS还会根据主题报表加工需要,存储根据主题维度形成的企业统计、汇总数据。
EDW困局
EDW以支撑OLAP应用为目的,重点支撑决策支持和复杂的数据分析挖掘应用,主要用户为专业分析人员和企业中高层管理人员。与ODS相比,EDW的数据更全面、保存时间更长,主要数据来源为ODS及其他外部系统,超过3年的数据一般只保存在EDW上,是名符其实的大数据平台。针对上述特点,EDW在建设过程常常会遇到以下困难:
>非结构化数据处理手段仍比较欠缺
EDW的数据来源于不同部门、不同系统、不同环节,除ODS的数据已经过ETL外,往往还包含大量非结构化数据,如果用传统的手段进行转换,难以保证其实时性。基于Google搜索引擎基础研发的开源软件Hadoop系列是非结构化数据处理的最佳工具,具备成本低、易集成、并发性强、相关工具多的特点,目前被各数据仓库厂商广泛集成、应用。
>基础数据平台应对大数据能力不足
根据IDC研究报告,未来10年全球数据量将以40%的速度增长。早期建设的EDW平台架构基于传统数据库技术,在系统扩展性、可用性、性能等方面存在短板,面临扩容成本高,应用迁移代价大等问题。HBase是一个分布式的、面向列的开源数据库,不同于一般的关系数据库,它是一个适合于非结构化数据存储的数据库,另一个不同是HBase基于列而不是基于行的模式。而且HBase是一个高可靠性、高性能、可伸缩的分布式存储系统,可以在廉价PC Server上搭建起大规模结构化存储集群。
>数据源不完善
按照规划EDW应能承载企业内最大的数据集合,但实际上往往面临数据源提供不稳定、源系统数据不规范、源系统数据缺失、采集不完整等情况。因此一定要有高层领导的支持和推动,打破网运部门、信息化部门、市场部门、客服部门等各部门间壁垒,打破各个本地网之间的局限,共同加强数据源的管控工作,否则将难以推进。
>数据人才队伍建设急需加强
与先进的移动互联网企业相比,电信运营商的数据人才比较缺乏,在人才队伍培养、梯队建设方面也缺乏体系化规划,影响了数据应用的开展。加强大数据处理、数据仓库管理、数据挖掘等新技术的学习,加快懂业务、懂系统、懂财务的复合型人才培养已刻不容缓。
只有充分考虑到上述问题,并尽早进行积极部署,EDW的建设才能尽快步入正轨,为下一步的数据应用、挖掘等工作奠定基础。
大数据带来的价值
EDA是由ODS、EDW系统及承载在其上的数据分析应用组成,目标是提升企业商业智能,实现平台上的大数据从“数据→信息→知识→行动”的转化,增强电信运营商在网络智能化、精确营销、客户服务等方面的竞争力,更好的完成企业转型的华丽蜕变。
*提升网络服务质量,增强管道智能化。随着互联网和移动互联网的发展,运营商的网络将会更加繁忙,用于监测网络状态的信令数据也会快速增长。通过大数据的海量分布式存储技术,可以更好地满足存储需求;通过智能分析技术,能够提高网络维护的实时性,预测网络流量峰值,预警异常流量,有效防止网络堵塞和宕机,为网络改造、优化提供参考,从而提高网络服务质量,提升客户体验。
*更加精准地洞察客户需求,开展针对性营销。通过使用大数据分析、数据挖掘等工具和方法,电信运营商能够从各种不同的角度全面了解自己的客户,对客户形象进行精准刻画,以寻找目标客户,制定有针对性的营销计划、产品组合或商业决策,提升客户价值。例如通过手机终端属性、客户资料、受理的电信业务、ARPU值等分析定位客户的基本特征,利用清单数据对通讯行为、上网行为和地理位置信息深入分析,挖掘客户的行为特征,结合基本特征和行为特征圈定目标客户群体;以订购行为和上网行为交叉分析目标客户的偏好特征,并结合产品特征找到最适合向客户营销推广的产品内容;结合流量经营选择内容推送时机,达到个性化营销的最佳效果。
*灵敏觉察客户对企业产品、服务的感知,提升客户服务。当用户投诉时,通常客服人员会根据自己的理解对反映的问题进行归类和定性,有时难免不够准确,如果能够对客户投诉的内容等非结构化数据进行直接分析,将会更加准确的了解客户痛点,从而有的放矢的集中精力在典型问题上,并尽快解决问题。还有当发生网络质量问题时,比如发生掉话,用户更可能什么都不说,只在心里积累不好的印象。借助大数据分析,网络部门可以主动、快速地识别由于网络性能或障碍而受到影响的高价值客户,尽快向前端业务和客服部门反馈信息,以及时采取针对性维系、客户关怀等业务措施,从而消灭问题于萌芽,避免在用户已经达到临界点时再进行维挽工作,那时投入大且效果不佳。
我们正在进入一个令人敬畏的大数据时代,必将引领电信行业的新变革!