中国电信股份有限公司阜阳分公司 高 阳
所谓的大数据主要是指对海量数据的采集、计算、智能分析等,将数据向信息和知识进行转变,从而拓展其价值。在大数据背景下,电信运营商的通讯渠道也将被拓宽,利用该通讯渠道的应用软件数量逐渐增加,各维度数据量也呈现出爆炸式的增长。但是,由于受到以往传统通讯管理模式的制约,使其在互联网竞争过程中处于劣势地位,因此,建立大数据平台,充分发挥大数据价值显得十分必要。
电信运营商大数据平台建设的主要目的是将企业内外系统中各种类型的数据信息进行整合,进而实现对数据进行统一的采集、预处理、存储、计算、管控和服务。(1)数据源,主要包括业务系统数据源、B/O/M三域支撑系统等内部数据源和政府数据等外部数据源。(2)数据采集,主要作用是对各种渠道采集而来的数据源,根据数据的特征,采用适当的方式进行抽取和收集。(3)预处理,在这一环节中,主要是对采集来的数据进行转换和过滤,使其能够被有效的整合,与大数据平台中的数据做到规范和统一。(4)数据存储和计算,目标对象为大数据平台中的全部数据,以分布式的方式对其进行存储、计算、挖掘、加工处理等,使其能够与各类应用对数据服务的需求相适应。(5)数据服务,通过标准化的接口提供开放服务,主要包括资源开放、工具开放、数据开放等等,以此来满足企业的内外部需求。(6)数据管控,管控的目标是大数据平台中的全部数据,平台将对其全生命周期进行管控,例如数据安全、元数据、数据质量等功能[1]。
构建数据分层结构是为了提升电信运营商对于跨域数据模型的接受程度,使数据模型的使用效率得到有效的提升,做到不同粒度的数据都能够在各种类型的应用中被灵活且高效的访问。其中,数据粒度由细到粗在层次上的排列分别是,原始数据层→基础数据层→融合信息层→信息子层。在原始数据层中,能够对各种类型的数据源系统向大数据平台进行转存,但是这种保存只是暂时的,同时还能够对源系统的数据质量进行验证。在基础数据层当中,首先对原始数据层中的数据信息进行转换和清洗之后,使数据在命名、格式上变得更加标准和统一,能够充分符合大数据平台中的相关要求,有效避免由于源系统差异对数据质量产生的不良影响,然后根据事先划分好的主题域对数据进行存储,使数据访问的周期变得更长,信息变得更加全面。在融合信息层当中,在上述两个层次作用的基础上,对基础数据进行整合和计算,使其构成一个具有较强稳定性和可用性的中间数据层,使数据的使用效率得到极大的提升,例如业务办理信息归总、用户清单整合等。在信息子层中,能够为各种类型的应用提供直接的服务,针对基础数据进行加工和计算之后,构成数据层,包括KPI报表、标签库等等[2]。
对于不同的大数据技术来说,在应用的层次与场景配置方面也各不相同,在电信运营商中进行的平台架构,与以往传统的平台架构之间存在一定的区别,其属于一种集多种技术和应用于一身、通过混搭模式构建而成的大数据平台,对于平台中各项数据的构建如下所示。
在大数据平台中,其数据采集层主要是对网络管理支撑域、业务支撑域、管信支撑域以及互联网数据进行统一的采集,以此来保障大数据平台始终处于数据资产中心的位置,有效防止数据信息被重复采集、存储等现象发生。在数据采集层中主要包括两个部分,即互联网数据采集和内部数据采集。其中,在互联网数据采集中,通常是利用大数据平台中的爬虫服务器来完成的,该服务器被部署在平台的内部,依靠URL对网页进行下载和浏览,以此来采集到相应的数据信息。
在内部数据采集方面,通常是利用Flume采集方式,该方式具有较强的可靠性、可用性,能够通过分布式对海量日志信息进行采集、传输和整合,并且数据的发送方和接收方都可以进行相应的设置。这里所指的数据发送方为实时日志、静态日志等,数据的接收方为流计算、Hadoop等。对于离线应用场景来说,数据量较大且类型众多,具有十分庞大的非结构化数据,因此采用HDFS的方式来存储原始数据更为合适,具体的配置步骤为:源系统服务器静态日志→硬盘→HDFS;对于在线实时应用场景或者准实时场景来说,通常情况下,对于原始数据的存储不采用硬盘的方式,而是以源系统实时日志→内存→流计算队列→流计算的方式来实现,如若实际需要通过硬盘进行数据存储,则可以采用此种配置方式,即源系统实时日志→内存→流计算队列→HDFS[3]。
大数据平台中的数据处理层的主要目的是对电信运营商中的全部数据信息进行整合和管理,对所有的数据资产进行统一的预处理、存储、计算,进而分析和挖掘出更多的大数据价值,使内外部对数据的应用能力以及数据的服务能力都能够得到显著的增强。首先,在预处理方面,数据信息的预处理只能在离线的状态下进行,对于原始数据来说,需要在原始数据层中进行清洗与转换,然后获得基础数据,由于原始数据的信息量十分庞大,在数据类型上也多中多样,具有众多非结构化的数据,并且在计算方式上较为简单,因此对其进行预处理操作可以采用Spark的方式进行,并且在HDFS的基础上将数据存储到基础数据层当中。同时,还能够在实际需求的基础上,将部分数据传输到HBase当中,在高并发的查询场景中进行应用[4]。
对于基础数据处理层来说,其主要作用在于对各跨域应用模型的使用,其中的大多数操作均为汇总计算,由于受庞大的基础数据量影响,并且没有多表复杂关联情况,为了节省建设成本,主要采用Spark核心计算的方式,在HDFS的基础上将融合数据层中的数据进行保存。在融合数据层中,在对数据挖掘类应用或者是文本分析、日志分析等非结构类的应用进行处理时,在融合数据方面主要采用的是Spark核心计算引擎;在对结构化数据、多表复杂关联类应用进行处理时,可以先将融合数据导入到MPP当中进行处理。在信息子层中进行数据数据处理时,由于其能够作为一种高度汇总数据,可以直接应用到各种类型的应用当中,需要获得标准SQL支持,并且在统一性、实时性等方面的要求也十分严格,对此,可以采用传统关系型数据库、MPP等方式进行处理;在在线应用场景下,针对海量数据进行计算时,应对其进行实时或者准实时的分析,然后利用流计算等方式来满足需求,使其获得更加良好的效果。
在数据读物层中,主要作用是对大数据平台中的资源、工具、数据等进行统一且集中的使用和调度,利用标准化的接口提升其对外服务的水平,通过多租户的方式,满足公司数据资产按需服务与共享的要求。在数据管控层中,电信运营商的主要目的是为了能够实现平台的智能运维以及全生命周期的数据处理,以此来提升对数据的处理和使用效率,促进电信运营的现代化、信息化发展。
现阶段,最为典型的大数据应用是精准营销,主要作用是能够有效克服以往传统营销过程中,在目标客户、营销时机、营销产品中存在的问题,并且在尽量减少对客户进行打扰的基础上,使营销的成功率得到显著的提升。在此背景下,电信运营商可以利用大数据来提升自身的服务水平,通过电子化的沟通渠道来实现对客户的精准营销。本文将以电信运营商电子渠道精准营销为例,在大数据平台的基础上,对具体的营销流程进行设计,如图1所示[5]。
图1 通过电子化渠道进行精准营销流程图
根据上述精准营销的流程图能够看出,主要分为六个步骤:
标签计算,在大数据平台的基础上,对基础数据、融合数据进行充分的整合,按照不同的数据特点对标签进行定义和分类,通过MPP、Spark等对数据进行汇总,对其中的关联进行计算,最后获得每个客户在各个维度中的标签数据值,并且将其存储到传统关系数据库或者MPP当中。
换机模型识别,在换机方面首先需要对客户群体进行定位,搜索和选择曾经发生或换机行为的客户,将其当做是训练集,通过Spark的方式对该模型进行训练,并且对其中相应的业务指标,如标签属性等进行识别,进而从中发现潜在的换机群体,并针对这一业务特征进行识别。上述操作的具体应用方式可以利用决策树、逻辑回归等方式来实现。
目标客户的选择,通过换机模型的识别,对潜在的换机客户群体进行确定,在基础数据与融合数据的基础上,通过MPP或者Hadoop等对尚未换机客户的换机概率进行计算,并且根据专业人员进行的主观推断,确立门限值,如若某个客户的换机概率大于所设定的门限值,则代表着其将成为本次营销中的目标客户之一。
营销客户与产品推荐列表,在目标客户信息以及存在以往换机行为的客户信息基础上,采用Spark的方式进行协同过滤运算,进而获得营销目标客户与产品的推荐列表。
营销时机配置,在利用大数据平台进行实时精准营销的过程中,营销时机配置方面主要是:用户登录到网厅当中,并且搜索关键词“4G手机”“手机”“华为”等字样,这时网厅中的弹窗将会为客户提供所搜索到的相应产品信息。
实时在线推荐,通过Flume以及Spark等方式便能够通过大数据对用户的实时上网行为进行获取,然后通过Spark Atreaming对已经拥有此产品的用户和产品列表进行筛选,对此方面数据进行重新的分析和计算,使产品能够得到进一步推荐,并且提升其推荐的准确性。最后,通过电子销售渠道中的营销位,以弹窗的形式为客户显示产品的信息,最终完成整个电子渠道的精准营销过程。
H电信省公司的IP城域覆盖了全部地州,在2015年底,出口链路达到了3000G,其中省会城域网中的出口链路为1200G。目前,在IP城域网的出口部署了DPI系统,宽带监控能力为280G,主要的作用为全协议分析、多终端私接监控等等,但是在应用过程中却存在一些问题,主要包括覆盖面积较小,城域网的覆盖范围仅为9%,对于单地市不具备较为全面良好的监控能力;功能短缺,目前尚未实现网站识别、终端识别、应用识别等功能[6]。
在建立大数据平台的基础上,可以采用以下几种方案进行改造。第一种,全覆盖部署,在城域网进行出口部署,出口链路达到3000G,以此来实现全覆盖目标。第二种,在两地州与省会之间进行轮询部署,其中,地州轮询,在适当的位置处部署163骨干机房,将采集设备部署其中,在容量配置方面,两地州相加共计620G。省会轮询,将采集设备部署到省会CR机房当中,在容量配置方面,两县区相加共计为680G。第三种,采用一个地州和一个区县轮询的方式,地州轮询设备部署在163骨干机房,在容量配置方面为310G,省会轮询设备部署在省会CR机房,在容量配置方面为340G,轮询周期应超过一个月,以免由于过于频繁对大数据系统中的数据质量和可用性产生损害。上述三种方案只是在覆盖范围、资金投入方面存在一定的区别,如若在资金较为充足的情况下,建议采用第一种方案进行改造;如若投资较为紧张,则可以选择第三种方案进行轮询部署。
在方案具体实施时,首先需要新建一个分组域DPI,将其划分为采集部分和处理部分,主要针对3G、4G、AAA等数据信息进行采集,然后经过DPI的解析之后,将数据内容与大数据平台和其他相关平台共享。在大数据的基础上对目前现有的七号信令监测系统进行改造,对手机信令进行采集,并且通过A口获取到以下数据:采集区域内部手机主叫数据、关机被叫数据、手机短信数据、手机位置更新数据等。
综上所述,随着网络信息技术的不断发展,在大数据背景下,技术得到不断的演进,应用也不断的更新,电信运营商也紧随时代发展的潮流,在自身实际需求的基础上与大数据进行密切的联系,使全维度数据优势得到充分的发挥,在大数据背景下,实现自身的顺利转型,提升自身的运营效率和质量,为客户带来更加方便快捷的服务。
[1]袁涛,谢攀,赵清.基于大数据平台的数据分发机制研究[J].信息通信技术,2015,9(06)∶17-23.
[2]程烨.大数据背景下运营商IP城域网DPI系统部署方案探讨[J].电信网技术,2015,(09)∶32-37.
[3]赵晶.针对运营商的大数据建设方案研究[J].电信工程技术与标准化,2015,28(03)∶17-21.
[4]张金刚,王昕,耿辉.电信运营商省级公司大数据平台建设关键问题探讨[J].电信工程技术与标准化,2015,28(03)∶22-25.
[5]赵跃东,王隽峰,曾王平.电信运营商大数据应用系统建设方案研究[J].中国新通信,2015,17(04)∶81-82.
[6]冯明丽,陈志彬.基于电信运营商的大数据解决方案分析[J].通信与信息技术,2013(05)∶36-40.