大数据分析在宽带精准营销业务中的应用

2018-04-19 06:15任小强杨玉忠张仁轩王晓龙
电信工程技术与标准化 2018年4期
关键词:宽带聚类精准

任小强,杨玉忠,张仁轩,王晓龙

(中国移动通信集团甘肃有限公司兰州分公司,兰州 730030)

中国移动一直致力于推荐移动光宽带建设,将“宽带中国”战略落实,更是多次响应国家提速降费,将优质服务带去千家万户。近年来,宽带业务保持着快速发展,从全年数据看,2017年,中国移动的宽带用户已经接近1.13亿,移动宽带用户净增3 506.3万,平均每个月接近300万,相比4G业务,中国移动宽带业务还有很大市场空间,如何通过营销模式和策略的转变,抢占市场份额是一个新的挑战。未来营销已经与大数据分析的发展密不可分,谁掌握了更为先进的大数据分析方法,并与营销策略有效结合,谁就能抢占更多的市场份额。在这一背景下,营销专家菲利普·科特勒在2005年底提出精准营销(Precision Marketing)的概念,针对大数据的精准营销研究方面,文献[1-4]分别将大数据分析应用到电视综艺节目营销、情报领域、移动通信网络规划等领域中,取得了相应的效果。目前针对大数据下的精准营销模式缺乏系统性和应用研究不够深入,而且运营商目前的营销模式多为传统模式,对目标客户的把握不准确,造成营销效率较低、成本和人员投入较大等问题。本文通过对运营商大数据的概念和特点进行总结,应用大数据挖掘算法将精准营销模式运用在移动宽带业务营销中,以中国移动某地区宽带业务为例进行了验证。

1 大数据分析的相关算法

大数据是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合,业界通常用4个 V(即 Volume、Variety、Value、Velocity)来概括大数据的特征。适用于大数据的技术,包括大规模并行处理(MPP)数据库、数据挖掘电网、分布式文件系统、分布式数据库、云计算平台、互联网和可扩展的存储系统。大数据分析并不是简单的数据采编,更多需要一些算法技巧,比如分类算法、聚类算法、关联规则等,相关经典算法如表1所示,下面对本文应用算法的思想简单介绍。

表1 大数据分析相关算法

1.1 分类算法

宽带业务精准营销中,用户留存是很重要的一部分,但顾客流失走向我们是无法控制的,只能通过预测,这时就需要运用到分类模型。分类算法属于预测性模型,根据过去数据、分析来预测将来一段时间的行为过程。分类学习方法所使用的数据集称为训练集,训练集中每一个个体都有明确的类别,通过训练集中的数据表现出来的特征,为每一个类找到一种准确的描述或者模型分类算法有Logistic回归,神经网络、贝叶斯分类器、SVM等算法。

1.2 聚类算法

聚类分析算法以相似性为基础,在一个聚类中的模式之间比不在同一聚类中的模式之间具有更多的相似性,主要是按照样本、数据自身的属性去归类,用数学方法根据相似性或差异性指标,定量确定样本亲疏关系。核心聚类算法为K-means,主要思想为最小化所有样本到所属类别中心的欧式距离和,采用迭代的方式实现收敛,给定样本数据:

K-means算法的步骤如下:

(1)选取k个聚类中心点,分别为:

(2)求出样本i到类别中心的欧式距离,然后选择距离最小的类别 :

(3)根据类别j中所有样本特征和占类别j中样本个数的比例求解每一类别的中心:

(4)不断重复步骤2、3,直到所有样本到其类别中心的欧式距离平方和J(c,μ)收敛。

1.3 关联规则

关联规则是从大量数据中发现样本之间有趣的关联和关系,从而为用户需求有目的推送各种业务。关联分析主要用“支持度”(Support)和“置性度”(Confidence)两个概念衡量事物之间的关联规则。关联规则A→B的支持度Support=P(AB),指的是事件A和事件B同时发生的概率。置信度Confidence=P(B|A)=P(AB)/P(A),指的是发生事件A的基础上发生事件B的概率。此外关联分析还有期望可信度(Expected Confidence)和作用度(Lift)等概念,期望可信度(Expected Cconfidence)和作用度(Lift),期望可信度描述了在没有任何条件影响时,物品集B在所有事务中出现的概率有多大,作用度描述物品集A的出现对物品集B的出现有多大的影响。

2 基于大数据的宽带精准营销属性约简

运营商数据一般都具有复杂性、相关性、冗余性和大规模等特性,如果将大量数据直接进行分析,数据本身的特性导致分析方法的效率降低,通常需要耗费大量的时间,从而使数据分析任务变的不可行和不现实,此外由于数据中包含大量噪声,数据分析基数增大的同时准确度和可靠性都有所下降。因此在数据分析之前,先采用合理有效的方法对复杂数据的属性进行必要的简约和压缩,在尽量保留数据相关属性的前提下,降低数据复杂性,删除不必要的数据噪声,是对大规模复杂数据进行分析的前提条件之一。

常见的属性约简的算法有主成分分析法、因子分析法、非负矩阵因子分解NMF法等算法。这里以主成分分析算法为例,简单介绍算法的主要思想和流程,便于在宽带精准营销流程中对数据属性的约简。假设待分析数据为N个K维数据,主要成分分析(PCA,又称Karhunen-Loeve或K-L方法)即搜索q个最能代表数据的k-维正交向量,这里q≤k。这样将K维数据空间压缩为q维数据空间。

(1)将X1、X1、X2、X3…Xn构成的M矩阵标准化,记为Mb,计算Mb的相关系数矩,记为R。

(2)对于相关矩阵R,采用雅克比行列式方法求得特征方程[R-λI]的P个非负特征根:

λi对应的特征向量记为vi= (vi1,vi2,…vip),i= 1,2,…p并且满足下式:

(3)选择ω个主要属性,使得ω这个核心属性的方差占全部属性总方差的比例:

并使所选ω个核心属性尽可能多的保留原来P个特征的信息。

3 基于大数据的宽带精准营销基本流程

(1)数据集描述及约束条件:宽带精准营销的目标客户与约束条件密切相关,故应在具体的边界条件下进行研究。这里边界条件选为月均消费58元以上,一年内无欠费信息,入网时间1年以上,4G流量月均2G以上,年龄45年以下的数据进行分析。

(2)宽带小区GIS信息:宽带综合资源管理系统详细记录了移动宽带已经接入的居民小区的名称、数量、经纬度、小区规模、入住率、是否验收等信息。如果居民小区在“综合资源管理系统”中标记已验收的宽带接入区域,则表明该小区的客户可以安装中国移动的宽带。

(3)用户常住小区定位:在通信行业内客户住宅小区的定位方法和模型有多种多样,常用的基于GPS和基站定位技术确定用户常住小区信息。首先,通过同一基站下面的通话用户来进行一个粗略的位置确定,即划分同一小区用户时,先统计覆盖该小区的网络基站,然后统计在该网络基站下面经常通话的用户则判定为该小区用户,最后收集各住宅小区的物业电话、小区社区医院等具有公共性质的小区属性电话,结合只有同一小区用户才会拨打小区内同一属性电话的现实场景对该技术进行多次修正定位该用户的常住小区。

(4)用户是否办理宽带:这是宽带能否做到精准营销的一个最主要的问题,也是精准营销当中面临的一个最主要的难点问题。为此常用的就是采用排除法,采用VLAN标识识别用户产生的数据流量,首先排除中国移动宽带的用户,然后将采用4G流量和竞争对手的宽带业务的用户进行分组,分别采用不同方法处理数据。系统再自动对应出该客户一般交往圈的数据,取出这些已安装宽带的用户交往概率在50%以上客户作为该客户的家属,精准营销时要剔除掉目标客户的亲属。

(5)目标客户:基于大数据对用户手机上网信令和日志数据进行深度分析,从多个维度分析出用户不同时间段、不同位置的上网行为,识别出用户的流量使用偏好,进而识别出不同用户群的手机的时段上网偏好、位置偏好、应用偏好等,比如客户夜间流量较高,夜间存在游戏、视频、IPTV类等重度流量使用的用户。

(6)利用互联网爬虫技术找到搬家公司的电话号码,根据用户交往圈数据,根据大数据分析算法对数据进行聚类、相关和分类运算。

4 基于大数据的宽带精准营销实例

4.1 数据集属性描述及约束条件

这里为了说明问题,以中国移动某地区的10 000用户数据作为研究样本,首先利用约束条件剔除1 000用户,选择用户年龄、入网时间、月均消费、月均流量、终端类型、网络制式、腾讯产品流量、上网特征和行为特征、月均短信条数、订购业务量、积分、是否登录CRM系统以及登录次数等多个属性,利用主成分分析法进行上述属性约简,表2是应用该算法得到的属性分析表。

表2 用户属性权重分析表

表2中共列出13个属性权重百分比和累积权重百分比,通过表2看到,6个属性累积权重已经超过80%,这里称为核心要素,其它权重较少的称为辅助要素。这样将13个属性压缩为前6个属性,达到减少属性的目的,简化数据的分析、运算和处理。

4.2 目标用户聚类分析

通过数据属性选择、按照约束条件去除不完整数据来实现数据的预处理,然后利用K-means算法进行聚类。k-means聚类算法的基本思想是一般预先设定需要聚类的个数k,k一般取值5-13之间,且为整数,然后根据统计量将数据集划分到这k个簇中,将簇的均值作为簇中心,不断通过迭代算法使其收敛,最后选择合适的分类用户当做目标,得到结果如表3所示。

分析表中各个用户类的特征:A类用户为高价值用户,以流量业务为主(多为不限流量套餐用户),月均短信较少,通话时长较长,次数较少,入网时间较短,多为青年用户;B、C类用户为中价值用户,流量业务和语音业务较为平衡,入网时间较长,这两类用户为精准营销的目标用户;D、E类用户多为老用户,多数仍以早期业务(短信)为主,消费水平较低,入网时间最长,数据流量和通话时长都较少。

表3 用户属性的类别区间

4.3 用户数据的关联性分析

关联分析是在交易数据、关系数据或其它信息载体中,查找存在于项目集合或对象集合之间的关联、相关性或因果结构,即描述数据库中不同数据项之间所存在关系的规则。关联分析主要利用互联网爬虫技术找到注册游戏及视频账户、拨打搬家公司电话、拨打售楼公司电话、夜间存在游戏、视频、IPTV类等高流量用户,进行相关性分析。如通过用户上网日志,找到夜间(21:00点后至次日早上6:00前)每月有3次以上访问腾讯APP的用户,此用户我们定义为潜在目标客户。

图1 精准营销目标用户的提取

4.4 宽带精准营销实例整体验证

将上述按照约束条件删选出的数据样本,根据基于大数据宽带精准营销业务的基本流程,按照约束条件、常住小区、是否覆盖、是否办理、关联分析和聚类分析等过程,最后找到目标用户2 227,占比22%。具体如图1所示,针对这些目标用户进行精准营销,采用短信推送、外呼等手段进行营销,客户有意向办理1 536,最后成功办理宽带1 336户,营销成功率87%,与传统营销模式相比,节约了大量人力成本,对未来业务营销具有一定的参考意义。

[1] 任锦鸾, 李涛, 李波. 基于大数据的电视综艺节目精准营销[J].现代传播, 2015,37(5):95-98.

[2] 王浩宇, 孙启明, 胡凯. 信令大数据技术在精准营销中的应用[J]. 北京邮电大学学报(社会科学版), 2016,18(4):70-76.

[3] 张春磊, 杨小牛. 大数据分析(BDA)及其在情报领域的应用[J].中国电子科学研究院学报, 2013,8(1):18-22.

[4] 李梅, 杜翠凤, 沈文明. 基于大数据分析的移动通信网络规划方法[J]. 移动通信,2015(10):22-27.

猜你喜欢
宽带聚类精准
我国行政村、脱贫村通宽带率达100%
精准防返贫,才能稳脱贫
装宽带的人
精准的打铁
基于DBSACN聚类算法的XML文档聚类
精准扶贫 齐奔小康
精准扶贫二首
基于高斯混合聚类的阵列干涉SAR三维成像
一种新颖的宽带大功率分配器
一种层次初始的聚类个数自适应的聚类方法研究