决策树算法在客户流失建模中的应用

2018-12-03 08:03朱正键胡芬芬梅嘉玲
移动通信 2018年11期
关键词:剪枝通话决策树

朱正键,胡芬芬,梅嘉玲

(中国移动通信集团广东有限公司珠海分公司,广东 珠海 519015)

1 引言

客户是任何一个企业最重要的资源,保持良好客户关系和提高客户忠诚度是电信企业之间竞争的焦点[1]。有市场调研数据显示,在自然状态下一家企业的年客户流失率为10%~20%[2]。且另有研究表明,一个公司如果将其顾客流失率降低5%,利润就能增加25%~85%[3]。然而,目前运营商对流失用户行为识别仅仅通过综合业务管理系统中出账账单的量化指标进行泛化监控,没有结合用户对企业的贡献度考虑,对流失用户存在的潜在价值也未进行区分,导致挽留与维系成本增加[4]。本研究基于剪枝优化后的决策树建立客户流失分层预警模型,将具有不同流失概率的客户划分为不同群体,为制定营销策略提供参考。

2 研究方法及思路

本文通过客户行为及信息数据计算客户流失概率,所提取的数据维度丰富,但存在部分维度数据严重缺失的情况,因此本文选择数据适应性好、业务可读性强和易操作的决策树算法搭建客户流失分层预警模型。

2.1 决策树及剪枝算法

在决策树算法中,CART(Classification and Regression Tree,分类回归树)算法[5]是一种十分有效的非参数分类和回归方法,其结果以二叉树形式输出,易于理解、使用和解释。CART算法根据每一个变量对因变量Gini增益值的大小,采取具有最大Gini增益值的变量作为分裂节点。对于属性A及其i个属性值,其Gini增益计算公式如下:

其中pi为属于i类(例如:流失、未流失)的概率,Gini(S)表示分裂前目标变量Y的Gini,Gini(S|A)表示对自变量A分裂后目标变量Y的Gini。Si表示属性值A所属的数据集,ni为数据集的个数。

选择最佳分割阀值时,对于连续型或顺序型变量,将所有值从小到大排序,计算每个值作为临界点产生的子节点的Gini增益值,选择使Gini增益值减小程度最大的临界值作为最佳的分割点;对于分类型变量,列出划分为两个子集的所有可能组合,计算每种组合生成的子节点的Gini增益值,选择使Gini增益值减小程度最大的组合作为最佳分割点。

在生成决策树的过程中,若没有剪枝的操作,每一个叶子节点都是单独的一类,这是理想情况。但实际应用中,通过决策树很难分到完全纯的叶子节点。而且分类过细,叶子节点较多,会导致模型泛化能力较差。因此,需要对决策树进行剪枝优化,使得决策树模型泛化能力更强。

CART基于成本-复杂度最小(Minimal Costcomplexity Pruning)原则进行剪枝,其目的是使误差和决策树的规模都尽可能的小。节点T成本复杂度Rα(T)的定义如式(3)所示:

2.2 分析思路

本文先对原始数据中质量不符合建模要求的部分进行规范处理,使业务数据满足建模数据的质量要求。然后基于业务逻辑建立模型,根据实际情况进行模型优化并应用,具体思路如下:

(1)通过缺失值处理和相关性检验对因子进行筛选,结合过采样和欠采样方法对样本进行抽样以达到正负样本平衡,完成建模数据准备。

(2)建立基于决策树的客户流失预测模型,然后通过决策树剪枝方法对决策树进行优化,使模型更具有合理性和泛化能力。

(3)对客户流失分层预警模型进行评估,评估通过后则应用模型预测客户流失概率,以此划分客户群体,实现客户流失分层预警。

3 数据准备

本文的研究数据来自2017年7月移动公司双卡客户中随机抽取的15万数据,该数据包含34个维度,正样本(流失客户)占比3.6%,6个维度缺失达10%以上。由于数据维度丰富,且部分数据缺失较严重,所以首先需要对数据进行清洗、筛选。

3.1 缺失值处理

原始数据中,“职业”、“国内通话时长变化率”、“省内通话时长变化率”、“长途通话时长变化率”四个字段缺失值均大于30%,为严重缺失字段,因此从模型中剔除。考虑到有74%的客户样本都存在数据缺失,但决策树对缺失值容忍度高,因此不对缺失百分比低的缺失值进行处理。

3.2 因子选取

本研究需要选取与变量“客户是否流失”显著相关的变量,所以需要考察不同变量与“客户是否流失”间是否存在显著的相关性。对于数值型和分类型变量,相关性检验方法不同,具体如下:

(1)数值型变量因子的选取[6]

对于数值型变量,变量间的相关性通过双变量相关性检验来说明。该检验通过计算变量之间的Pearson相关性,考察其在0.05(双侧)的显著性水平上是否显著相关。分别将不同变量与“客户是否流失”进行双变量相关性检验,检验通过则说明该变量与“客户是否流失”存在显著相关;检验不通过则说明该变量与目标变量相关性不显著,即在0.05的显著性水平上,该变量对目标变量的影响很小,可以忽略不计,因此考虑剔除不显著的变量。该步骤从23个数值型变量中选取18个数值型变量作为模型因子。

(2)分类型变量因子的选取

对于分类型变量,通过卡方检验考察其与“客户是否流失”是否存在显著的相关关系。

卡方检验通过卡方统计量量化交叉表的期望值和实际值的差别,若差别较大则说明交叉表的行和列存在相关性,否则说明行和列不相关。根据卡方检验,除“用户ID”外的5个分类变量与“客户是否流失”均存在显著的相关性。

通过上述操作,最终从34个变量中选取了23个变量作为模型因子,具体包括:1)用户信息:用户年龄、用户性别、网龄、近两个月是否有停机记录,是否还在合约期内,剩余预存话费,是否为只有一个卡槽在用的双卡手机用户,用户套餐资费,手机价格;2)流量行为:DOU(流量)、套外DOU;3)语音行为:ARPU(账单收入)、ARPU变化率、产生套外流量收入;4)收入相关:MOU、本地通话时长、长途通话时长、省内通话时长、国内通话时长、工作日通话时长、非工作日通话时长、本地通话时长变化率,是否产生套外语音。

3.3 样本平衡

由于原始数据中正样本(流失客户)比例只占3.6%,正负样本比例为1:27,样本非常不平衡,所以通过采用过采样和欠采样两种方式进行样本平衡。对于正样本,采用过采样方法得到2017年7月流失客户共5 411人。根据决策树模型正负样本比例1:2.5为最佳,因此对于负样本,采用欠采样方法,随机抽取2017年7月未流失客户共13 528人,最终确定建模样本为18 939人。

4 模型建立及应用

4.1 模型实现

经过数据准备工作,预处理后的样本数据达到了建模数据质量要求,在此基础上采用CART算法建立客户流失分层预警模型,设置叶子节点包含的最小样本数为50,复杂度系数最小为0.000 1。

计算步骤如下:

(1)计算分裂前样本数据集的Gini值:

(2)计算单个变量的最佳分割点。以变量“MOU”等于属性值29.5为例,计算Gini增益步骤如表1所示,得Gini增益值为0.141 2。类似地,计算MOU其他属性值对应的Gini增益,经过计算选择Gini增益值最大的29.5作为变量“MOU”的最佳分割点。

表1 Gini增益计算表

图1 未剪枝的决策树模型

(3)选取最佳分割变量。对于样本集中的23个变量,循环步骤2,依次计算每个变量的最大Gini增益值。

计算得最大的Gini增益值对应的变量“MOU”和MOU=29.5,即为样本数据的最佳分裂变量和最佳分割点,并将其作为根节点。循环计算步骤1、2、3,不断地进行最佳分裂节点的选择,初步建立决策树。未剪枝决策树如图1所示。

在以上生成树的过程中,由于没有剪枝的操作,每一个叶都是单独的一类。节点数55个,末端节点数为28个,完全拟合训练集,但决策树复杂,且对训练集不友好,模型泛化能力差。因此,接下来采用剪枝优化算法,使得决策树模型泛化能力更强。例如同一个父节点下的两个子节点均属于同一类(框区域),将该类节点合并为一个节点,缩小叶子节点的数目提高模型泛化能力。剪枝优化后的决策树如图2所示。

剪枝优化后的决策树节点数为25个,末端节点数为13个,模型将样本数据划分为13个客户群体,其中7个客户群被预测为流失客户群体,6个客户群被预测为非流失客户群体。

4.2 模型评估

模型建立之后,通过混淆矩阵对模型质量进行评估,如表2所示,模型整体的准确率达89.1%,召回率为77.1%,表明模型效果优良,可通过之前选取的23个变量准确地预测用户是否流失。

表2 剪枝后的决策树模型混淆矩阵

4.3 模型应用

将训练好的模型应用到所有客户,则得到每个客户的流失预测及其置信度。置信度P越大,表示预测的准确性越大。因此,根据这两个指标定义客户流失概率如下:若流失预测值为1(即预测为流失),则流失概率=置信度;若流失预测值为0(即预测为不流失),则流失概率=1-置信度。客户流失预测情况如表3所示。

根据表3中客户的流失预测及置信度P,可以计算出客户的流失概率。依据流失概率的不同将客户分成不同的群体,从而实现对客户的流失分层预警,具体如表4所示。

图2 剪枝优化后决策树

表3 客户流失预测情况

表4 客户流失分层预警情况

5 结束语

本文成功搭建了基于决策树的客户流失分层预警模型,而且通过混淆矩阵对模型质量进行了评估。模型整体的准确率达89.1%,召回率为77.1%,表明该模型效果优良,对客户的划分是合理、准确的。在客户流失分层预警模型的基础上,应针对不同流失预警等级的客户,采取不同的营销策略,并匹配不同的推广渠道进行维系,从而达到精准营销的效果,降低客户的流失率,确保市场格局的稳定。

猜你喜欢
剪枝通话决策树
人到晚年宜“剪枝”
基于YOLOv4-Tiny模型剪枝算法
一种针对不均衡数据集的SVM决策树算法
《戊戌元日与友人通话》
决策树和随机森林方法在管理决策中的应用
剪枝
低成本视频通话APP
基于决策树的出租车乘客出行目的识别
基于肺癌CT的决策树模型在肺癌诊断中的应用
2013年11月通信业主要指标完成情况(一)