人工数据合成法下的通讯客户预警模型

2021-08-06 19:34余婉露
计算机时代 2021年7期
关键词:因变量通讯数据挖掘

余婉露

摘  要: 如何帮助企业提前识别高风险流失客户,已成为许多管理者关心的问题。许多数据挖掘方法用于通讯客户流失案例中时,存在因變量的分布不均匀导致算法精度下降的问题。文章采用人工数据合成法来解决该问题,提出四种客户流失预警模型:GLM-logistic回归模型,GAM-logistic回归模型,Sem-parameter GAM-logistic回归模型和随机森林模型。以AUC和覆盖率-捕获率作为评价指标进行比较,构建出最合适该案例的Sem-parameter GAM-logistic预警模型,以帮助企业减少不必要的客户流失及由此带来的企业损失。

关键词: 人工数据合成法; 预警模型; Sem-parameter GAM-logistic; 覆盖率-捕获率

中图分类号:O213          文献标识码:A      文章编号:1006-8228(2021)07-06-04

Communication customer churn prediction model with synthetic data generation

Yu Wanlu

(Jinshan College of Fujian Agriculture and Forestry University, Fuzhou, Fujian 350002, China)

Abstract: How to help enterprises identify high-risk customer churn in advance has become one of the concerns of many enterprise managers. When many data mining methods are used in communication customer churn cases, the uneven distribution of dependent variables leads to the decline of algorithm's accuracy. In this paper, synthetic data generation is used to solve this problem, and four customer churn early warning models are put forward, i.e. GLM-logistic regression model, GAM-logistic regression model, Sem-parameter GAM-logistic regression model and random forest model. And AUC and coverage rate-capture rate are used as evaluation indexes to build the most suitable Sem-parameter GAM-logistic early warning model for the case, so as to help the enterprise reduce unnecessary customer churn and the losses caused thereby.

Key words: synthetic data generation; prediction model; Sem-parameter GAM-logistic; coverage rate-capture rate

0 引言

随着大数据处理和分析技术的不断发展,客户选择产品以及服务的形式越来越多样化,所以,企业如何对客户数据进行深度挖掘,减少现有客户群流失且发现新的客户群体,显得十分重要。以通讯运营商企业为例,通讯企业想要在日益激烈的市场环境下稳定快速发展,并收获最大经济、社会效益,就离不开高质量的企业客户维系管理[1],因此,通讯客户流失量预测与分析成为各大运营商关注的焦点问题。

数据挖掘技术不断进步,越来越多的客户流失预警模型都用到了数据挖掘技术。在众多预警模型中,常用的数据挖据算法有逻辑回归模型、广义可加模型、支持向量机、决策树、神经网络、随机森林等[2-3]。正确选择以及处理预警模型对模型预测的准确性及效率有着很大影响。

本文深入分析和研究了一些常用客户流失预警模型的相关算法[4],比较各种模型的优势和不足。目前有许多数据挖掘方法还仅限于理论研究,在客户资源流失预测领域的运用仍存在着许多的缺失。①大多数现实案例选用的流失预警模型的算法单一,预测效果不佳,无法帮助企业精准识别高风险流失客户,也因此影响了客户流失预警模型的一般性。②客户流失量数据是一种典型的不平衡数据,流失客户为小规模用户,在客户流失预警模型的预测过程中,容易掩盖流失客户数据行为的大量变化特征,使得客户流失量预测的准确性降低。③针对客户流失预警模型的评价方法缺乏合理性。对模型采取的评价指标不同,会影响对模型效果好坏的判定,最终影响企业管理者对高风险流失客户的保护策略。

为解决上述问题,本文以通讯客户为案例,基于人工数据合成法的基础上,提出四种客户流失预警模型:GLM-logistic回归,GAM-logistic回归,Sem-parameter GAM-logistic回归模型,随机森林。

1 数据说明及处理

1.1 样本及其来源

文章研究数据来自某移动通信公司,随机选取5万个左右VIP(平均每月花费大于80元)客户,2014-2015年月度的基础通讯数据和通话详单数据为样本,数据来源于文献《自我网络特征对电信客户流失的影响》[5]。样本量为48393,随机取30000个数据为训练集;18393为测试集。

1.2 数据说明及处理

1.2.1 因变量说明及处理

文章研究的因变量表示客户是否流失,为1-0变量,1表示客户流失,0表示客户不流失,具体的因变量介绍见表1。

从表1可以发现,流失客户为小规模用户,在客户流失的预测过程中流失客户的数据行为的大量变化特征将被掩盖,不平衡数据使得算法精度下降,尤其对于小类的预测精度会很低,所以本文采用人工数据合成法(Synthetic Data Generation),解决数据的不平衡问题。该方法是利用生成人工数据,而不是重复原始观测来解决不平衡性。借助R语言统计分析软件[6]实现人工数据合成法,得到改善后的因变量见表2。

从表2可以看出,借助人工数据合成法(Synthetic Data Generation),客户流失率从1.34%提升到49.6%,有效解决数据的不平衡问题。

1.2.2 自变量说明及处理

文章研究的因变量包括在网时长、当月费用、费用的变化率、联系强度、个体的度、个体度的变化率、个体信息熵,自变量说明见表3。

自变量的生成方法以及推导过程,可参考文献[5]。由于自变量皆为连续变量,在后文的模型建立中,所有自变量数据作标准化处理。

2 通讯客户流失预警模型的实证研究

为了给通讯企业提供性价比高的客户识别方案,对于客户是否流失这样的分类问题,建立以下四种分类模型,来做分析比较。

2.1 GLM-logistic回归模型

GLM-logistic回归模型的一般形式如下:

[logitPY=1=logp1-p=β0+β1x1+β2x2+…+βmxm] ⑴

公式⑴可计算得出在给定一系列[X]取值时[Y=1]的概率,系数[βi]的大小可以用来反映用来反映因变量[Y]与自变量[X]之间的某种关联。针对本案例数据,GLM-logistic回归模型具体如下:

[logitPY=1=β0+β1tenure+β2expense+                     β3degree+β4tightness+β5entropy+]

[                     β6chgexpense+β7chgdegree] ⑵

使用该模型在测试集上的混淆矩阵结果见表4。

2.2 GAM-logistic回归模型

GAM模型是一种非参数模型,该模型相比参数模型的优势在于其不需要假设某种函数形式,只需要满足自变量对因变量的影响是独立即可。该模型的一般形式如下:

[gμ=β0+f1(x1)+f2(x2)+…+fm(xm)]  ⑶

其中,[μ=E(Y|X1,X2,…Xm)]。在客户流失的案例中,因变量通常表示客户是否流失,所以文章采用GAM模型与logistic回归分析相结合的方法,对通讯客户案例进行客户流失预警分析。GAM-logistic回归模型的一般形式如下:

[logitPY=1=logp1-p=β0+f1(x1)+f2(x2)+…+fm(xm)] ⑷

在公式⑷中,[fi(xi)]为平滑函数,[ i=i,2,…,m],用来代替有固定参数的传统线性项。针对本案例数据,GAM-logistic回归模型具体如下:

[logitPY=1=   β0+f1tenure+f2expense+                    f3degree+f4tightness+f5entropy+                   f6(chgexpense)+f7(chgdegree)]  ⑸

使用該模型在测试集上的混淆矩阵结果见表5。

2.3 Sem-parameter GAM-logistic回归模型

在现实的应用中,所有的变量作线性假设往往不太合理,为了增加模型的可解释性和灵活性,半参广义可加模型是基于统计模型方法的较好选择。综合考虑广义可加模型的回归结果,[entropy]、[expense]这两个变量线性成分明显,其他的变量非线性成分均明显,所以,在本部分分别将[entropy]、[expense]作为线性成分处理,其他变量均以非线性形式出现在模型中。

[logitPY=1=β0+f1tenure+β2expense+            f3degree+f4tightness+β5entropy +]

[            f6(chgexpense)+f7(chgdegree)]  ⑹

使用该模型在测试集上的混淆矩阵结果见表6。

2.4 随机森林

随机森林(random forest)是一种有监督学习方法,随机森林模型中可以同时生成多个预测模型,并汇总模型的结果以提升分类准确率。该方法的优势在于不存在过拟合问题,并且分类性能好[7]。本模型采用随机森林进行分析。利用R语言统计分析软件,可以得到变量的重要性度量,如图1所示。

由图1可以看出几个变量重要程度都较高,其中最重要的变量分别为个体的度和个体度的变化率,这说明客户通话人数对该客户流失与否的影响很大,通讯企业应重点关注客户这两个变量的情况。使用该模型在测试集上的混淆矩阵结果见表7。

3 模型评价

文章采取两个指标对模型进行评价,第一个指标是测试集上的AUC;第二个指标是在测试集上计算覆盖率—捕获率[5]。

3.1 指标1——AUC

在数据挖掘领域,AUC值是作为客户流失预警模型的常用评价指标之一。AUC值越大,效果越好。本案例中四个模型最终得到的AUC值如表8所示。

由表8可知,若以AUC值为评价指标,Sem-parameter GAM-logistic回归模型效果最佳。

3.2 指标2——覆盖率-捕获率

本研究还采用覆盖率-捕获率作为评判模型预测精度的指标。覆盖率-捕获率曲线指的是在给定成本下,我们根据模型或者随机选取一定的客户,能找到真正流失的客户占总流失客户的比例,这个值越高,表明模型越好。

假设通讯企业选取20%的客户进行保护,则采用不同预警模型抽中流失客户的比例也不同。具体结果如表9所示。

从表9可知,若以覆盖率-捕获率作为评判模型预测精度的指标,可发现半参GAM-logistic回归模型效果最好,GLM-logistic回归模型的效果最差。

4 结论

客户流失管理正越来越受到企业的关注和重视。客户流失预警作为一种有效的客户流失管理方法,对潜在流失客户进行预测分析,及时预警并采取相应挽留措施,可以有效减少不必要的客户流失,一定程度上减少企业损失。在这样的背景下,本文提出了基于数据挖掘的客户流失预警模型研究,通过对比模型的预测效果,发现无论是从指标1还是指标2来看,Sem-parameter GAM-logistic回归模型在是否流失的分类问题上,效果均显示较好。此外,无论使用哪种预测模型,预测效果均明显优于不使用模型的随机预测效果。

因此,建议企业可采取的措施有:借助客户流失预警模型,根据成本预算来选择不同的覆盖率,对客户进行预测,设定阈值,一旦预测的流失概率超过了设定的阈值,那么企业应重点关注该客户。

本研究还存在着一些不足和需要改进的地方,如所构建的四种流失预警模型的拓展性不强,当现实案例出现新的数据集时,预测效果缺乏稳定性。因此,我们下一步的研究方向是在不同领域寻找最优的客户流失预警模型算法。

参考文献(References):

[1] 罗彬,邵培基,罗尽尧等.基于预算限制和客户挽留价值最大化的电信客户流失挽留研究[J].管理学报,2012.9(2):280

[2] 盛昭瀚,柳炳祥.客户流失危机分析的决策树方法[J].管理科学学报,2005.8(2):20-25

[3] Hastie T,Tibshirani R, Friedman J. The Elements of

Statistical Learning Data Mining,Inference,and Prediction, Second Edition[M].世界圖书出版公司,2009.

[4] YANG Q, WU X. 10 challenging problems in data mining

research[J].International Journal of Information Technology & Decision Making,2006.5(4):597-604

[5] 周静,周小宇,王汉生.自我网络特征对电信客户流失的影响[J].管理科学,2017.5.

[6] 方匡南,朱建平,姜叶飞.R数据分析方法与案例详解[M].电子工业出版社,2015.

[7] LI X K, CHEN W, ZHANG Q, et al. Building auto-encoder

intrusion detection system based on random forest feature selection[J]. Computers & Security,2020.95:101851

猜你喜欢
因变量通讯数据挖掘
《茶叶通讯》简介
《茶叶通讯》简介
通讯报道
调整有限因变量混合模型在药物经济学健康效用量表映射中的运用
探讨人工智能与数据挖掘发展趋势
适应性回归分析(Ⅳ)
——与非适应性回归分析的比较
偏最小二乘回归方法
基于并行计算的大数据挖掘在电网中的应用
通讯简史
一种基于Hadoop的大数据挖掘云服务及应用