基于数据挖掘的客户流失预测研究

2019-05-22 11:18李伟孙新杰陈伟
电脑知识与技术 2019年10期
关键词:决策树数据挖掘

李伟 孙新杰 陈伟

摘要:客户流失是企业要面临的重要问题之一,为了能够有效帮助企业预防客户流失,提出基于企业的交易数据库,通过数据挖掘方式来分析客户的消费行为,构建客户流失特征,采用CART算法构造决策树模型,编程实现程序来处理流失特征数据,以来对客户流失行为进行预测。实验运行结果表明,该方法对客户流失预测效果较好。

关键词:数据挖掘;客户流失;决策树;CART算法

中文分类号:TP391.3 文献标识码:A

文章编号:1009-3044(2019)10-0007-02

开放科学(资源服务)标识码(OSID):

Research on Customer Churn Prediction Based on Data Mining

LI Wei, SUN Xin-jie, CHEN Wei

(College of mathematics and information engineering, Liupanshui Normal University, Liupanshui 553004, China)

Abstract: Customer churn is the enterprise will face one of the important problems, in order to be able to effectively help enterprises to prevent customer defections, based on enterprise's transaction database, through the data mining methods to analyze customer's consumption behavior, building customer churn characteristics, by using the CART algorithm to construct the decision tree model, programming implementation program to process the data description, since to predict customer churn behavior. The experimental results show that the method has a good prediction effect on customer churn.

Key words: Data Mining; Customer Churn; Decision Tree; CART Algorithm

在當今市场竞争环境下,客户有了更多的消费选择和渠道,客户异动变得十分普遍,企业要保持好已经拥有的客户资源才能更好地盈利,因此如何提高客户的忠诚度来防止客户流程已经成为企业急需解决的问题。夏国恩等[1]研究了引入网络客户价值特征和情感特征,来构建基于客户行为特征分析的网络客户流失预测模型结构。于小兵等[2] 建立了客户流失预测模型,提出了改进粒子群优化算法,对电子商务客户样本进行实证研究。但是对于企业而言,在实践上还存在一些问题。

本文通过数据挖掘方式来分析客户的消费行为,选取客户流失的特征,采用CART算法构造决策树模型,来对客户进行流失预测,为企业管理客户流失提供决策依据。

1 相关技术

决策树[3]在ID3算法被提出了之后,在机器学习和数据分析领域更得到快速发展。决策树是一种树状结构,每个叶子节点代表一个分类,非叶子节点是在某个特征上的划分,根据样本数据在该特征上的不同取值划分成多个子集。当进行分类时,学习构造决策树是一个自上而下的过程。决策树是一种监督学习,构造它的关键问题是在每一步如何选择适合的特征来拆分样本。

CART决策树是一种高效的非参数分类和回归方法,已经广泛应用在统计领域和数据挖掘技术中。由CART 模型构建的预测树在很多情况下比常用的统计方法构建的代数学预测准则更加准确,当数据越复杂且变量越多,算法的优越性就越明显。CART决策树从训练样本数据中学习决策树,通过构建树、修剪树和评估树来构建二叉树。如果终节点为分类变量,那么该树为分类树,CART采用GINI值衡量节点纯度,GINI值的计算公式为:

[GINI=1-i∈Ip2i]

当GINI值越大时,代表节点越不纯,节点分类或者预测的效果就越差。如果终节点为连续变量,则该树为回归树,采用样本方差衡量节点纯度,回归方差计算公式为:

[σ=i∈Ixi-μ2=i∈Ix2i-nμ2]

当方差的值越大时,代表该节点的数据越分散,预测的效果就越差。

2 构建客户流失特征

客户流失是指客户与企业不再有交易的关系,客户流失的原因主要有产品因素、服务因素、竞争者因素和客户自身因素等。企业客户流失的特征主要体现在如下三个方面:消费次数越来越少、平均消费金额越来越低和很长时间没有消费记录,因此可构造的三个客户流失特征[4]有总消费次数(frequency)、平均消费金额(average)以及最近一次消费时间距离当前的天数(recently)。选取交易数据库中客户信息表和订单表,并对这两个表进行连接操作,通过分组聚合的方式进行查询得到每个客户的总消费次数、平均消费金额和最近一次的消费时间,以来构建预测客户流失的特征。添加一个表示客户流失类型字段type后,得到的新表模式为(UID,frequency,average,recently,type),并基于该表的数据进行客户流失预测。

3 设计实现

将构建客户流失特征后的数据分为训练集和测试集两部分,采用CART算法构造决策树模型,对准流失的客户进行预测。算法的程序流程如图1所示,当选择分裂属性进行分裂时,要遍历三个客户流失特征属性,并且选择每个属性的最优分裂方法,对比每个属性的分裂效果,最后选择该节点最优的分裂属性。比较最优的分裂属性需要计算每个分裂属性分裂后的GINI值或样本方差,前面已经给出它们的计算公式。构造完成决策树后,再采用代价复杂度(CCP)的方法,选择表面误差率增益值最小的非叶子节点进行剪枝[5]。

4 实验分析

执行编写的CART决策树算法程序,对构建客户流失特征表数据进行处理分析,得到表中每个客户的流失类型值。实验预测结果如表1所示,流失类型有三个值是非流失、已流失和准流失,非流失客户为还将有消费的正常客户,已流失客户为很长时间没有消费记录的客户,准流失客户为预测将要流失的客户。企业应对准流失客户引起高度重视,采取必要措施挽留客户,例如保证产品质量、提高服务水平和推荐新的产品等,以来更好地实现盈利目标。

5 结语

本文提出对客户的消费行为进行数据挖掘,构建客户流失特征,采用CART决策树算法进行编程,分析处理客户流失特征数据,对客户流失进行预测,为企业下一步的决策提供参考。未来工作中研究的重点是采用大数据技术对处理算法进行并行化改进,以来加快程序的处理速度。

参考文献:

[1] 夏国恩, 马文斌, 唐婵娟, 张显全. 融入客户价值特征和情感特征的网络客户流失预测研究[J]. 管理学报, 2018, 15 (3):442-449.

[2] 于小兵, 卢逸群. 电子商务客户流失预警与预测[J]. 系统工程, 2016, 34(9):37-43.

[3] Jiawei Han, MIcheline Kamber, Jian Pei.數据挖掘:概念与技术[M]. 北京: 机械工业出版社, 2012.

[4] 李伟, 秦鹏, 胡广勤, 张毓福. 基于商业大数据的客户分类方案[J].六盘水师范学院学报, 2017, 29(6):38-41.

[5] 李国和, 王峰, 郑阳, 吴卫江, 洪云峰, 周晓明. 基于决策树生成及剪枝的数据集优化及其应用[J]. 计算机工程与设计, 2018, 39(1): 205-211.

【通联编辑:王力】

猜你喜欢
决策树数据挖掘
一种针对不均衡数据集的SVM决策树算法
决策树和随机森林方法在管理决策中的应用
基于改进决策树的故障诊断方法研究
基于并行计算的大数据挖掘在电网中的应用
基于决策树的出租车乘客出行目的识别
基于决策树的复杂电网多谐波源监管
一种基于Hadoop的大数据挖掘云服务及应用
基于肺癌CT的决策树模型在肺癌诊断中的应用
数据挖掘的分析与探索
基于GPGPU的离散数据挖掘研究