邓逸斌 张晓川
所谓大数据变现,就是通过构筑大数据能力解决提高流程效率与降低成 本、提升客户体验与价值以及产品创新等关键业务问题,将数据分析能力转化为竞争力。对运营商而言,其数据资产具有用户量大、数据量大、数据与业务强相关、时效性强、精确性高、数据价值高等特点,实现大数据资产的运营和变现,对内可以服务于业务运营决策与超细分精准营销,对外可以开拓包括广告投放、店面经营、企业选址、O2O位置营销、互联网精确营销等在内的产品化数据咨询蓝海,是实现从“电信网络运营商”到“信息运营商”转型的重要支点。
当前从管理到技术层面,运营商要实现从“管理驱动运营”到“数据驱动运营” 的转变都存在许多困难,包括O域(网络)/B域(计费营账)/M域(ERP)等各域数据的割裂、数据标准化程度低、管理流程长、传统IT架构及数据策略不适应大数据要求等。
跨域数据采集与整合
传统的电信经营分析系统主要处理计费清单、客户业务订购关系以及业务平台使用数据,采用文件批处理的方式进行数据仓库的ETL处理,不能适应整合接入毫秒级的网络侧海量信令与位置数据的要求。因此,需采用“分布式文件存储+分布式计算”技术,以Hadoop为基础构建端到端的云数据处理平台,基于通用X86平台端到端支撑ETL和主库外汇总计算,直接对开源Hadoop平台进行底层优化,支持数据迅猛增长。
在传统的B域数据(从BSS、CRM等采集)和M域数据(从ERP采集)采集平台基础上,还需实现对OMC/设备、参数、信令、拨测等数据的统一采集与管控,通过 Gn口采集数据业务信令合成xDR详单,对语音行为、位置分析则通过采集A口或MC口信令实现。
“平台+MPP数据库”等传统电信架构具有实时性高、研发成本低、可以实现复杂业务逻辑等优点,但关系数据模型固有的不能直接处理非结构化数据的缺点导致其不适用于大数据环境。
“高性能硬件 +SMP数据库”因成本昂贵和线性扩展能力差已较少在数据仓库环境下采用,“X86 平台+MPP数据库”则可与Hadoop分布式系统(X86平台+HDFS分布式文件系统)组成混搭方案,利用非关系模型编程灵活和分布式系统扩展能力强的优势支持高效低成本的系统搭建。
No SQL数据库抛弃了关系数据库复杂的关联操作、事务处理等功能,仅提 供简单的键值对(Key,Value)数据的存储与查询,换取高扩展性和高性能。可引入No SQL技术,把以写为主数据集中在RDBS里,以读为主的数据集中在No SQL数据库中,主数据库负责写操作,从数据库负责读操作,通过“读写分离”提高海量数据处理效率。
实时数据处理
从捕捉客户网络行为数据到触发营销推荐这一过程的时效性,运营商除了在采集、存储与处理环节运用分布式技术减少时延外,还可引入流计算技术和内存数据库,通过流处理和快速缓存将行为识别与营销推送时延缩短至分钟级。
Storm是一种开源的分布式实时计算系统,可简单、高效、可靠地处理大量数据流。Spark Streaming是基于Spark衍生的开源流处理工具,以类似批处理方式来处理这部分小数据。内存数据库是将数据存储在内存RAM中并进行计算和查询,充分发挥多核CPU能力的数据库管理系统,其和流计算配合用于状态和规则的存储,可优化客户群体的体验。
运营商大数据资产变现还需解决数据安全管控、应用私有加密内容识别等问题,任何一种单一技术都难以适应运营商全部需求,Hadoop、MPP、流计算、No SQL和内存数据库等多种技术并存才是发展趋势。