(中国移动通信集团广东有限公司,广东 广州 510623)
大数据(Big Data)指的是无法在可承受的时间范围内用常规软件工具进行捕捉、管理和处理的数据集合。通常用4个V,即Volume、Variety、Value、Velocity来概括大数据的特征。从应用的角度来看,可从资源属性和应用模式这2个维度来理解大数据。首先,大数据是一个规模巨大、结构复杂、类型众多的数据构成的数据集合,即大数据=海量数据+复杂类型数据。其次,大数据是知识发现的一种新模式,是采用云计算技术来处理数据的智能应用模式,即通过数据的整合共享、交叉复用形成新的智力资源与知识能力,即大数据=云计算+数据智能。
目前,互联网公司的大数据化进程较早、较成熟。依托其自身的数据优势,采取灵活、深入的方式进行数据挖掘、分析,并从中探索了相关经验和业务模式。如Google的盈利在于所有的软件应用都是在线的,用户免费使用这些产品的同时,将个人的行为、喜好等信息也免费地送给了Google,因此Google的产品线越丰富,它对用户的理解就越深入,从而达到了精准的广告营销的目的。
因此,不仅需要关注数据的获取、存储和分析能力,更需关注如何从海量数据资源中抽取信息、凝练知识,借以指导企业的生产和经营行为。今年以来,国务院印发了《关于促进云计算创新发展培育信息产业新业态》、《中国制造2025》等政策文件,正在制定并即将出台的“互联网+”推动计划将积极推动大数据、云计算、移动互联网等现代技术的融合发展,这一系列的政策举措将为ICT产业发展创造更加有利的环境和条件。
图1 国外运营商大数据应用历程
电信运营商详细记录了人们在现代化社会的信息指纹,获取的数据要比单一互联网公司的数据更丰富、更立体、更饱满。首先,电信运营商具有提供可管、可控的全程全网服务和端到端网络接入的能力。其次,电信运营商具有强大的用户聚合效应,电信运营商作为用户接入的第一接触者,具有更为直接的用户聚合能力。再次,电信运营商在网络、业务运营和提供服务的过程中感知、获取网络状态、业务状态。尤其是人口统计学(包括姓名、性别、手机号码、IMEI等)、用户位置(包括基站经纬度、所属Node B、SGSN IP等)、用户业务(包括类型、连接方式、访问记录等)、计费数据(包括用户套餐选择数据、资费数据、购买历史等)等特征数据。
然而,对于运营商来说,独特的大数据资源并未带来可观的收入,电信运营商在大数据领域的探索遇到了数据资产不明、应用需求不定、平台建设、技术路线、安全隐私等方面的挑战。如何依靠大数据解决方案避免哑管道化的危机是全球运营商需要共同探讨的话题。
大数据正在开启一次重大的时代转型,2014—2016年将是大数据的大发展时期,据英国电信与媒体市场调研公司Informa Telecoms & Media统计,电信领域大数据应用市场份额占据10%以上。放眼全球市场,电信运营商大数据发展仍处在发展阶段,如图1所示,但是一些发达国家运营商的经验值得我们借鉴,主要包括2个方面:一方面运营效能提升,基于大数据分析的网络故障诊断、网络优化和用户感知提升;另一方面对外价值变现,基于电信大数据开发面向政府、公共事业单位等产品,获取变现收益。
大数据的真实价值就像漂浮在海洋中的冰山,第一眼只能看到冰山的一角,绝大部分都隐藏在表面之下。在云计算出现之前,传统的计算机是无法处理如此量大、不规则的“非结构数据”。数据挖掘(Data Mining)是数据库知识发现中的一个步骤,就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用信息和知识的过程,具体如图2所示。数据挖掘通常与计算机科学有关,并通过统计学、数据库技术、可视化、机器学习、高性能计算、专家系统(依靠过去的经验法则)和人工智能等诸多方法来实现上述目标。
图2 数据挖掘过程
以云计算为基础的信息存储、分享和挖掘手段,可以经济、有效地将这些大量、高速、多变化的终端数据存储下来,并随时进行分析和计算。为了满足中国移动IT系统高性能、低成本、高可扩展性、高可靠性、高安全性的需求,自2007年起中国移动就在云计算方面启动“大云”研发计划。
当前,大数据的应用包含4个阶段,如图3所示。首先是数据收集与存储,包含ETL、数据融合与集成等;其次是信息提取,包含数据统计与查询、报表生成、数据可视化与服务化等;再者是知识发现阶段,包含机器学习与数据挖掘等;最后是智能应用阶段,包含基于知识的分析与预测功能等。
图3 挖掘系统逻辑架构
同时,大数据应用的目标是追求数据价值的最大化,要想实现这一目标,必须具备从海量数据资源中抽取信息、凝练知识的能力,即必须能够通过信息交换、数据整合、知识共享与交叉复用,形成新知识、创造新价值。
大部分的数据价值是潜在的,需要通过创新性的分析来释放能力。数据驱动企业运营使得数据的分析和应用无处不在,而数据的成功运用需要专业知识,这并不是IT擅长的,因此大数据管理通过数据共享平台实现。具体技术架构方面,电信运营商大数据平台可以依托开源项目,采用分层、模块化的思想对主要平台元素进行设计,各层相对独立,通过标准接口向外部应用系统开放,参考技术架构如图4所示。
其中,最底层为硬件平台层。将PC服务器集群、存储、网络等基础设施资源组合在一起,形成IaaS(Infras-tructure as a Service)硬件资源池,供上层应用系统使用。
第2层是分布式平台层。在物理平台的基础上部署分布式文件系统、分布式数据库、缓存服务、任务分解、资源调度等一系列分布式软件,把多台独立的PC服务器组合成具有超大规模计算和存储能力的系统。分布式平台屏蔽了分布式系统任务分解、资源调配等复杂的底层工作,简化了上层分布式应用的开发流程。
第3层是计算框架层。该层是一个集群管理器,提供了有效的、跨分布式应用或框架的资源隔离和共享,可以运行Hadoop、MPI、Hypertable、Spark。使用ZooKeeper实现容错复制,使用Linux Containers来隔离任务,支持多种资源计划分配。
第4层是能力开放层。在基础能力层上形成搜索引擎、位置信息、内容分发等功能更为完善的服务。这些服务独立于应用系统的业务逻辑,可作为应用程序的能力补充。
第5层是应用层。需要使用大数据服务的一系列电信应用系统,如大规模用户行为分析、全网流量分析等,通过调用平台的大数据服务接口快速实现大数据能力。
图4 大数据开放平台的逻辑架构
网络中传输着各种信号,其中一部分是需要的(如打电话的语音、上网的数据包等),而另一部分是不需要的(只能说不是直接需要),它用来专门控制电路,这一类型的信号称之为信令。
随着2G、3G、4G的逐步建设,电信运营商进入流量经营时代,信令数据作为网络优化必不可缺的环节。通过对信令进行监测,深层次支撑网络优化,精确故障定位,规划基站和热点的建设,还可以对已有基础设施的效率和成本进行评估,用以增减基站建设以实现更高的网络效率。
为了“先于用户发现问题,先于投诉解决问题”,支持网络管理业务的平滑过渡,为规划、建设、经营、维护、优化等部门工程人员提供所需的支撑数据,提出网络故障监控体系,具体如图5所示。基于独立组网S1/S6a/S11接口信令数据采集方案,采用高效数据挖掘方法(深度学习、高效学习、人机智能),建立准确的网络预警模型,对突变恶化的网元及时进行预警输出。
图5 网络故障监控体系
网络故障监控体系监控范围:
(1)云:网站、应用后台服务器。
(2)管:核心网(MSC、MSC Server、MGW、HLR、STP、智能网设备等)、无线网(RNC、Node B、UtranCell)、数据网(SGSN、GGSN、承载网、CMNET)等。
(3)端:智能终端OS(苹果、华为、联想等)、浏览器插码、APP SDK。
监控信息:
(1)告警信息:使用告警标准化后的网管告警ID、网元名称、告警设备厂家、设备类型。
(2)处理规则:告警智能预处理规则表。
(3)处理信息反馈:对设备输入指令后反馈的信息。
对于重要场景的保障,可以对用户、业务、小区进行综合保障和透视。同时缩短监控时间至5分钟。
目前电信大数据应用现状的不足及改进方向如下所示:
不足:数据预测准确性低,无法利用动态、多样、复杂的情境(时间、地点等)数据。机器学习方法效率低,数据挖掘算法庞杂,无法有效地选择集成算法。
改进方向:自学习模型、情景数据挖掘、深度学习和人机智能。
通过整合用户基本信息、终端、消费、行为、位置等8个维度,以变量为基础,构建能反映客户信用评价的子模型。如坏账风险预测模型、影响力模型、交往圈模型、内容偏好模型等9类模型,以实现用户各类特征的多维度洞察,并最终运用评分卡模型将用户各维度特征转换为分数,得到最终的信用评分。该信用评级模型的识别准确率较高,能够达到86%以上,识别覆盖率则高达91%。
基本应用:授信服务、信用担保、信用继承、高危用户风险控制。
目标客户:银行金融单位、互联网P2P公司、婚恋网站、二手交易网站、移动支付公司。
智慧足迹产品的监控模型,通过采集、解析移动通信网络中的信令消息,实现实时监测用户(匿名信息)所在地理位置,对人流聚集严重区域及时产生告警预防。人流监控平台结构模型如图6所示,其由信令分析系统和人流信息挖掘及预警2个模块单元组成。
图6 人流监控平台结构模型图
信令分析系统:后台负责实施采集、处理Gb、IuPS和S1等移动网络接口的用户信令消息,定位用户所在地理位置。
人流信息挖掘及预警:负责动态分析和呈现某地区人流量情况,对达到门限值区域及时产生告警。
智慧足迹产品:新店选址服务、银行卡风控服务、持卡人精准营销。
随着数据挖掘、云计算、物联网技术的逐步发展成熟,电信运营商面临着重大机遇。回顾国外电信运营商大数据业务的发展趋势,介绍数据挖掘及平台架构,探索基于大数据的业务模式分析,以帮助运营商在大数据时代积极调整策略,更好地顺应时代发展的潮流。
[1] Viktor Mayer-Schonberger, Kenneth Cukier. Big Data: A Revolution That Will Transform How We Live, Work and Think[M]. Hodder Export, 2013.
[2] 孙少陵. 云计算变革下电信运营商的机遇及中国移动云计算探索[J]. 移动通信, 2010(11): 44-46.
[3] 漆晨曦. 运营商大数据管理及应用体系发展策略[J]. 通信企业管理, 2012(10): 72-75.
[4] 晓镜. Sprint:运营商紧靠大数据就能生存[N]. 中国邮电报, 2012-11-21(5).
[5] Han, M Kamber. Data mining concepts and techniques[M].San Francisco: Morgan Kaufmann Publishers, 2012.
[6] 李政,李继兵,丁伟. 基于大数据的电信运营商业务模式研究[J]. 移动通信, 2013(5): 64-67.
[7] 祁昊颖. 大数据时代电信运营商文件系统新思考[C].2013年中国信息通信研究新进展论文集, 2014.
[8] 曹旭,曹瑞彤. 基于大数据分析的网络异常检测方法[J].电信科学, 2014(6): 152-156.
[9] 姚逴炯. 大数据在电信运营商市场分析及精确营销的应用研究[J]. 商业经济, 2014(15): 66-70.
[10] CL Philip Chen, Chun-Yang Zhang. Data-intensive applications, challenges, techniques and technologies:A survey on Big Data[J]. Information Sciences,2014,275(10): 314-347.