随着3G时代的到来,国内电信市场竞争日趋激烈,电信运营商的经营模式逐渐从“技术驱动”向“市场驱动”、“客户驱动”转化。这就要求运营商要采取以客户为中心的策略,根据客户的实际需求提供多样化、层次化、个性化的服务解决方案。
电信增值业务是凭借公用电信网的资源和其它通信设备而开发的附加通信业务,其实现的价值使原有网络的经济效益或功能价值得到进一步提升,是运营商提供给消费者的信息服务。增值业务的种类很多,例如短信、彩信、手机上网、电子信箱、可视电话、手机电视等,多以语音、文字、图形、图像等多媒体形式生动、直观、形象地表示和传递信息。
增值业务是运营商提供给消费者的更高层次的信息服务,要求运营商提供的产品应符合不同消费群的个性化需求,这使得传统的电信增值服务行业的大众营销策略已很难适应新形势的发展要求。充分获取并利用相关数据信息,使用数据挖掘方法发现潜在客户并展开针对性营销,已成为运营商重点关注的市场拓展方法之一。
数据挖掘是从大量的、不完整的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先并不知道的、具有潜在价值的信息和知识的过程。它的出现为自动和智能地把海量的数据转化成有用的信息和知识提供了手段。
数据挖掘在电信行业的应用包括如下几个方面:
1)关联分析:其目的是挖掘出隐藏在数据间的关联关系。例如,订购手机视频通话包月套餐的顾客同时订购手机电视套餐的概率较高,这就是一条关联规则。
2)分类/预测:其目的是产生一个分类模型,该模型能把数据库中的数据项映射到给定类别中。分类数据挖掘主要利用历史数据找出规律,建立模型,并应用模型预测未来数据的种类、特征等,可用于电信行业的潜在客户发现。
3)聚类:聚类是把一组个体按照相似性归成若干类别,使得属于同一类别的个体之间的距离尽可能小,而不同类别个体间的距离尽可能大。聚类通常用于根据客户消费行为特征划分为不同的用户群,开展针对性营销。
4)偏差分析:从数据库中找出异常数据,如短信群发、欺诈行为的发现。
5)时间序列:从序列数据库中发现相对时间或者其他顺序所出现的高频率子序列。其最初是通过在带有交易时间属性的交易数据库中发现频繁项目序列,以发现某一时间段客户的购买活动规律。
增值业务精确营销是通过分析现有的增值业务订购关系数据,使用统计分析或数据挖掘方法找出针对不同业务具有潜在营销价值的目标客户。
数据挖掘方法可以从两个方面发现增值业务的潜在用户:
2.1 用户消费能力和消费行为差异角度
通过分析使用某增值业务的用户和未使用用户的消费行为数据,找出两者的消费行为差异,寻找和探索表征客户使用习惯的指标变量,以建立客户的特征模型。从现有未使用该增值业务的客户中筛选出符合此特征模型的用户群,并预评估其营销成功的概率,对其中营销成功概率较高的潜在用户开展有针对性的营销服务,使之发展成为该增值业务的用户。
2.2 增值业务交叉销售角度
交叉销售是一种以企业和客户的现有关系为基础去推销另一个产品的营销策略,是通过对现有客户扩大销售来增加利润的一个有效手段。运营商通过收集和积累客户大量的购买信息,并对相关数据进行处理、统计和分析,在全面掌握客户消费能力、消费习惯、信用情况等信息后预测客户下一步要购买的产品和服务,从而有针对性地向客户推荐特定的产品,以便提高产品的营销成功率。
增值业务交叉销售通过分析现有客户对增值业务订购和使用信息,分析同一业务不同产品之间的内在联系,掌握客户使用偏好,对于某特定产品筛选出具有潜在价值的客户,使营销服务更具针对性,扩大产品的用户群体。
以机器学习的观点,分类是一种有指导的学习,即每个训练样本的数据对象已经有类标识,通过学习可以形成表达数据对象与类标识间对应的知识。从这个意义上说,分类的目标就是根据样本数据形成类知识,并对源数据进行分类,进而预测未来数据的归类,可用于潜在客户的挖掘。
目前常用的分类器构造方法包括:基于决策树模型的分类器构造方法(如ID3、C4.5、IBLE、 SLIQ、SPRINT等)、基于统计模型的分类器构造方法(如贝叶斯方法)、基于神经网络模型的分类构造方法、基于遗传算法的分类器构造方法、基于粗糙集的分类器构造方法等。由于电信企业的用户资料存在非数值类型数据,相对于神经网络算法而言,使用决策树算法可免去许多预处理工作,且模型结果易于解释。针对电信业超大规模数据量,决策树C5.0算法具有很高的执行效率,并且在面对数据遗漏和输入字段很多的问题时非常稳定,故本文采用C5.0算法创建决策树。建模过程如图1所示。
图1 建模过程图
C5.0算法根据能够带来最大信息增益的字段拆分样本。其算法思想是:第一次拆分确定的样本子集随后再次拆分,通常是根据另一个字段进行拆分,这一过程重复进行直到样本子集不能再被拆分为止。最后,重新检验最低层次的拆分,那些对模型值没有显著贡献的样本子集被剔除或者修剪。
以某运营商“手机报潜在客户挖掘”为例,通过该运营商用户使用电信业务的一些基础数据资料,包括用户资料(如客户类型、入网时长等)、用户业务使用信息(如月均彩信条数、GPRS流量等)、用户消费信息(如ARPU、增值业务费用等),终端支持信息、用户手机报订购信息(是否订购手机报)等。这些数据清洗工作完成后,抽取连续三个月的数据进行数据探索,掌握各因子的数据分布情况,并结合业务经验设计反映预测结果且与结果直接、间接相关的衍生因子。然后,取10万名连续使用三个月手机报的在网用户和1万名最近两个月未使用手机报的用户作为训练集,使用C5.0算法对训练集数据建立预测模型,以“是否手机报用户”为输出变量,其余为输入变量。训练结果为用户手机报业务用户特征的决策树。
Apriori 算法是一种最具影响的挖掘布尔关联规则频繁项集的算法。其基本思想是把关联规则挖掘分为如下两步:
第一步:从事务数据库中找到所有支持度不小于用户指定的最小支持度阈值的频繁项目集。在数据挖掘中,支持度不小于用户给定的最小支持度阈值的项目集简称频繁项目集。
第二步:使用频繁项目集产生所期望的关联规则。关联规则的置信度不小于用户指定的最小置信度阈值。
以手机报深度营销为例(指向目前使用手机报的用户推荐其它不同类型的手机报),交叉销售挖掘的研究思路为:分析各种手机报之间的关联程度,筛选使用了较强关联中后项的用户。建模步骤如下:
1)根据客户的手机报订购关系,分析挖掘客户同时订购多种手机报的情况,根据关联度判定规则,对订购各手机报产品进行关联度计算,判断出哪些手机报之间具有较高的支持度和可信度。
2)从多种视角分析不同手机报之间关联度高的原因,例如哪类用户同时订购了新闻早晚报和凤凰时事周刊,为优化产品结构和捆绑营销提供支撑。
3)选择订购了某种手机报,但未订购和该种类型关联程度较高的手机报的用户,作为该手机报的潜在用户。
1)模型验证
分类模型的验证方法是对检验集数据应用模型结果规则集,用命中率、查全率、Gains图、Lift图等对应用结果进行准确性和模型效果评估。关联规则模型通过多期数据的支持度、可信度、提升度等指标衡量。此外也包括通过多期历史数据进行验证,以确定模型的表现是否稳定。模型的稳定性主要用于测试模型是否在未来具有较好表现,是否符合预期。
2)模型调优
模型调优的目标是根据模型评估结果,对模型进行优化,使检验指标具有较好的综合表现。模型调优可以通过设计合理的衍生因子、调整平衡节点、修改挖掘方案等实现。
3)营销效果评估
该某运营商“手机报潜在客户挖掘”案例为例,使用手机报数据挖掘模型从样本数据中发现8903名目标客户,通过客服人员电话营销,实际呼通4741人,实际订购1238人,营销成功率为26%。而此前该运营商手机报外呼营销成功率在9%-11%之间,挖掘模型提供的数据营销效果明显,营销成功率约是原来的2~3倍,取得良好的经济效益。
本文从用户消费行为差异角度和增值业务交叉销售角度建立了精确营销模型,分别应用于潜在客户的挖掘和对同一种增值业务不同产品的深度营销,在某地市的手机报营销中取得了预期效果。
在3G时代,增值业务已成为各大运营商市场争夺的焦点,使用数据挖掘方法实现增值业务精确营销已成为拓展客户的重要途径。然而数据挖掘的特殊性在于模型的调整、优化是一个持续改进的过程。随着增值业务产品的不断丰富,建立多种业务交叉销售的模型成为下一步需要重点研究的内容。
[1]段云峰,等.数据仓库及其在电信领域中的应用[M].北京:电子工业出版社,2005.
[2]王肇刚.基于网络拓扑约束的时序数据挖掘算法研究与应用.北京邮电大学,2009.
[3]娄兰芳,潘庆先.基于集合运算的频繁集挖掘优化算法[J].山东大学学报(理学版),2008.