基于C5.0算法的电信用户流失预警分析

2014-08-10 08:10:00张卫东
宜宾学院学报 2014年6期
关键词:通话决策树数据挖掘

张卫东,李 媛

(成都理工大学管理科学学院,四川成都610059)

基于C5.0算法的电信用户流失预警分析

张卫东,李 媛

(成都理工大学管理科学学院,四川成都610059)

稳定客户是电信企业提高竞争力的关键,将数据挖掘技术应用于电信企业的客户保有,采用基于客户行为的客户细分方法,运用信息熵增益的决策树算法,实现客户的细分.构建客户流失预警分析模型,为企业提供准确、可靠的决策指导,找出流失客户,帮助电信公司有针对性地改善客户关系,避免客户流失.

客户流失;C5.0;业务;预警分析

随着4G牌照的发放,电信行业的竞争势必更加激烈,中国电信行业的几次拆分重组更是把电信市场一块大蛋糕分成了三块,由中国移动、中国电信和中国联通三家企业共同分享.一家垄断的局面被打破,电信行业进入三国争霸时代,呈现出激烈的竞争势态.电信行业比较特别的是用户量的多少对运营商前期的资金投入影响不大[1].因此,运营商拥有的固定客户越多,其企业前期收入就会越高,企业的利润就越大.在日常的运营中,为了占据更多的市场份额,公司一直把存量运营和客户保有作为企业的核心工作,这对企业品牌建设、提高企业利润乃至以后的发展都有极为深远的意义.

数据挖掘在电信行业有着广泛的应用(如客户细分、市场细分、个性化业务定位、客户流失预警分析等).客户流失预警分析是通过数据挖掘,分析出客户的业务属性和行为轨迹特征,从而对流失客户进行定位,为电信公司挽留这类客户提供决策依据.对于一般的客户流失预测任务,使用如决策树、逻辑回归、支持向量机等数据挖掘算法模型均能获得理想的效果,而决策树比一些其它类型的模型更易于理解,模型推出的规则非常直观,比较容易从业务角度解释.本文主要通过决策树算法中的C5.0算法来实现客户流失的预警分析,找出离网用户的特征,帮助电信公司有针对性地改善客户关系,防止客户流失.

1 模型设计思路和研究方法

1.1 确定数据源

数据是数据挖掘的基础,因此首先要提取用户的部分通信数据,主要包括用户基本信息、捆绑信息、消费信息、行为信息和趋势信息.然后将客户分为正常用户和流失用户.正常用户定义为:在数据统计日状态为正常,包含统计日最近一周有通话行为,统计日当月为出账用户,统计日下月有通话行为,统计日下月月底状态为正常且出账,统计日第3个月底状态为正常且出账.流失用户定义为:在数据统计日状态为正常使用且非停机,包含统计日最近一周有通话行为,截至到统计日的下月月底,已经连续一周及以上无通话行为且3个月后状态为预拆机、拆机,或下月月底为不出账用户.提取的用户数据如下:

用户编号:用户电话号码.

入网时长:单位:月.本月入网,在网时长为1个月,上月入网,在网时长为2个月依此类推,本月入网本月离网,则在网时长为1个月,本月入网下月离网,则在网时长为2个月.1为入网一个月、2为入网两个月,依此类推.

是否流失:1是、0否.

手机卡类型:各运营商手机卡类型不同,如中国移动可分为:1全球通、2神州行、3动感地带.

付费类型:1预付费、0后付费.

账户余额:单位为元,指账户本金余额.

最后一次通话至统计日的天数:最后一次通话至统计日的通话天数,若统计日当天有通话,则天数为0.

近三个月平均ARPU:单位为元,统计日前三个月的ARPU平均值,如果客户入网未满三月,按照实际月出账算平均值,不包含入网月.

近一周主叫次数:统计客户拨叫时,发生通话的次数.

近一个月总通话次数:统计客户拨叫时和被叫时发生通话的次数之和.

总通话时长:单位为分钟.

总账单收入:单位为元.

手机上网:1是、0否.

集团客户:1是、0否.

客户在上个月有话费返还且上个月返还结束:1是、0否.

客户在本月有话费返还且本月返还结束:1是、0否.

捆绑剩余月数:指用户到期时间最远的合约剩余的捆绑月数,0表示未参加捆绑业务.

通话次数趋势值:统计最近四周.

主叫通话次数走势值:统计最近四周

被叫通话次数走势值:统计最近四周.

上网计费流量走势值:统计最近四周.

注:①以上取数日期,未特别说明均为统计日当天数据.

③部分字段处理:字段选择:将有大量不同取值且无量化操作符的属性依据业务经验进行删除(如客户姓名、身份证号码等),或将无量化操作符用其他属性替代(如手机卡类型、付费类型等).连续型字段属性进行离散化:表中的账户余额总通话时长、总账单收入等均为连续型数据构建的决策树太过茂盛,且处理速度过慢.为了加快处理速度,应对连续型数据进行离散化处理[2].

1.2 构造决策树

1.2.1 C5.0算法

1979年Quinlan提出了ID3算法,主要针对离散型属性数据,其后又不断地改进,形成C4.5,它在ID3基础上增加了对连续属性的离散化.C5.0是C4.5应用于大数据集上的分类算法,主要在执行效率和内存使用方面进行了改进.下面对C5.0算法[3]略作介绍.

C5.0算法选择分支变量的依据:以信息熵的下降速度作为确定最佳分支变量和分割阀值的依据.信息熵下降就意味着信息的不确定性下降[3].信息熵指信息量的数学期望,是信源发出信息前的平均不确定性,也称先验熵[4].

信息ui()

i=1,2,…r的发生概率P(ui)组成信源数学模型,

信息量(单位是bit,取以2为底的对数):

信息熵:

信息熵H(U)的性质:

H(U)=0时,表示只存在唯一的可能性,不存在不确定性.

如果信源的k个信号有相同的发出概率,即所有的ui有P(ui)=1/k,H(U)达到最大,不确定性最大.

P(ui)差别越小,H(U)就越大;P(ui)差别大,H(U)就越小.

决策树中熵的应用:

设S是一个样本集合,目标变量C有k个分类,freq(Ci,S)表示S中属于Ci类的样本数,|S|表示样本集合S的样本数.则集合S的信息熵定义为:

如果某属性变量T,有n个分类,则属性变量T引入后的条件熵定义为:

属性变量T带来的信息增益为:

C5.0基本算法可以描述如下:

%R表示判定对象属性,C表示目标属性,S表示训练集,Tree()是决策树生成的函数:

C5.0算法主要是对C4.5在执行效率和内存使用改进、通常不需要很长的训练次数进行估计,面对数据遗漏和输入字段很多的问题时非常稳健,与其他算法相比其模型易于理解,生成的规则有非常直观的解释;允许进行多次多于两个子组的分割.因此此算法特别适合于商业产生的大数据.

1.2.2 使用Clementine软件建模

SPSS Clementine是一款易操作、拥有高级建模技术的数据挖掘软件,能够帮助用户发现和预测数据中有用的关系,它提供了通向数据、统计量和复杂算法这一抽象世界的可视化窗口[6].每个步骤都由一个图标(即节点)表示,将各个步骤连接即可形成一个流,表示数据沿各个步骤流动.图形化的操作简单明了,易用性高[5].

提取C市电信BOSS、BASS、CRM系统数据,训练决策树模型数据流如图1.

数据流说明如下:

源:数据通过SPSS源节点导入数据流中.

图1 数据流

定义变量类型:是否流失定义为标志类型,入网时长、账户余额、近三个月平均ARPU、近一周主叫次数、近一个月总通话次数、总通话时长和总账单收入定义为范围类型,手机上网、集团客户和客户在上个月有话费返还且上个月返还结束、客户在本月有话费返还且本月返还结束定义为集类型,其余均为默认.

重新分类:是否流失、手机上网、集团客户、客户在上个月有话费返还且上个月返还结束、客户在本月有话费返还且本月返结束的是、否属性分别替换为1,0.

筛选字段:过滤客户姓名,用户编号,手机卡类型.

数据审核:缺失值插补,极值丢弃,离群值强制形成超节点.

离散数据:主叫通话次数走势值、被叫通话次数走势值、上网计费流量走势值按注②规则离散.

分区:随机抽取2/3作为训练集,剩下1/3作为测试集.

C5.0:以简单类型多次训练构建决策树.

评估:选择重合矩阵,验证模型准确率.

生成的变量重要性如图2.

图2 变量重要性

以2013年5月1日为统计数据日,抽取C州电信2013年3月28日日以前入网且正常使用用户2 785 109人,剔除公免用户4 594人、剔除电信员工19 099人、剔除行业应用235 237人、剔除无线宽带34 276人、剔除后剩余2 491 803人、近一周有通话行为1 319 383人、养卡用户7 530人、跳蚤用户5 001人、总筛选用户1 306 064人,对筛选出的用户利用训练的流失预警C5.0模型进行用户离网分析.利用此模型预测出离网人数79 841人,公司对这类人群针对性地进行关怀,其最终离网67 863人,保留用户11 978人可以看出用户流失预警分析在客户保有和提高公司利润方面起到了良好的效果.

2 总结

商业中的数据挖掘在数据选择过程中是基于业务知识,数据挖掘的目标是业务目标的映射;在数据理解过程中把业务知识与业务问题相关的数据结合起来,考虑它们是如何相关的;在建模过程中使用数据挖掘算法创建预测模型,同时解释模型和业务目标的特点,也就是说理解它们之间的业务相关性;在实施过程中是将数据挖掘结果用于业务实施.总之,没有坚实的业务知识,数据挖掘过程的每一步都是不切实际的,更没有“单纯的技术”步骤.业务知识引导过程产生有益的结果,并使得那些有益的结果用于商业实践.随着数据的日益增加变化,数据挖掘是一个长期反复的过程,业务知识是它的核心,驱动着结果的持续优化.

流失用户的保有在实际操作中是非常复杂的流程,运营商每个月都要对预警模型预测出的客户进行保有.可以看出,客户的保有工作是一个长期系统的工程,涉及的部门包括IT部门、市场部门、客户服务中心等部门.同时,它也是一个循环式操作,需要通过对挽留效果的分析及时优化模型.挽留效果与模型数据的质量,各地区的用户差异性,挽留的关键时刻选择、客服人员的沟通技巧等因素密切相关[7].各运营商自从3G时代以来就倾尽全力来防止其客户流失,在客户保有方面投入了大量的人力、财力.文章还有很多的细节不足,如没有对用户细分,不同客户群体的流失情况不同,不可一概而论,更要进行客户群体的细分,针对不同的流失客户群体,比如对高价值客户流失等要进行更深入的研究,使预警模型更全面实用.

[1]赵宏波.数据挖掘技术在电信客户关系管理中的应用[J].电信技术, 2001(12):10-12.

[2]邓松.数据挖掘原理与SPSS[M].北京:人民邮电出版社,2007.

[3]Soman K P,Diwakar S,Ajay V.Insight into data mining theory and practice[M].India:Prentice Hall,2006.

[4]曹雪虹,张宗橙.信息论与编码[M].北京:清华大学出版社,2004.

[5]廖剑平.数据挖掘原理与SPSS Clementine应用[M].北京:清华大学出版社,2011.

[6]薛薇,陈欢歌.CLEMENTINE数据挖掘方法及应用[M].北京:电子工业出版社,2010.

[7]徐懿瑾.基于数据挖掘的移动中高端用户流失预警分析[J].科技信息,2010(3):72-73.

【编校:王露】

Prewarning Analysis of the Telecom Customer Churn Based on C5.0 Algorithm

ZHANG Weidong,LI Yuan
(College of Management Science,Chengdu University of Technology,Chengdu,Sichuan 610059,China)

Holding customers is the key to raise competitiveness of a telecom company.The data mining method was applied to classify telecom customer segmentation.Customer segmentation classification is based on customer behavior analysis and the decision tree combined with information entropy production.Building the customer churn prewarning analysis will be helpful in providing precise and reliable information to enterprise decision makers,which can be used as reference for strategy making and finding out the characteristics of customer churn and help telecommunications companies improve the customer relationship, thus avoiding the customer churn.

customer churn;C5.0;business;prewarning analysis

TP301

A

1671-5365(2014)06-0119-04

2014-01-04修回:2014-02-28

张卫东(1989-),男,硕士,研究方向为数据分析与统计、数据挖掘最优化理论

时间:2014-03-28 17:12

http://www.cnki.net/kcms/detail/51.1630.Z.20140328.1712.004.html

猜你喜欢
通话决策树数据挖掘
探讨人工智能与数据挖掘发展趋势
一种针对不均衡数据集的SVM决策树算法
《戊戌元日与友人通话》
中华诗词(2018年5期)2018-11-22 06:46:08
决策树和随机森林方法在管理决策中的应用
电子制作(2018年16期)2018-09-26 03:27:06
基于并行计算的大数据挖掘在电网中的应用
电力与能源(2017年6期)2017-05-14 06:19:37
低成本视频通话APP
基于决策树的出租车乘客出行目的识别
一种基于Hadoop的大数据挖掘云服务及应用
基于肺癌CT的决策树模型在肺癌诊断中的应用
基于肺癌CT的决策树模型在肺癌诊断中的应用