程昊 樊重俊
摘要:文章以C5.0、Neural Net和Logistic三种算法作为构建预测混合模型的基础算法。在实证研究过程中,分别采用品牌、地区、网龄和账单作为客户细分变量,构建了不同的客户流失预测混合模型,用命中率和接受者操作特性(ROC)曲线对预测结果比较评估,得到以地区为客户细分变量的混合模型预测效果最佳,以账单为客户细分变量的混合模型预测效果,其次以网龄和品牌为客户细分变量的混合模型预测效果较差的结论。省级电信公司在构建流失预测系统过程中,以客户账单(或客户消费层次)作为细分变量,对各地区客户单独构建流失预测模型;同时,要加强品牌管理,提高各品牌对客户的区隔效果。
关键词:决策树;神经网络;客户流失
客户是指与企业建立长期稳定的关系并愿意为企业提供的产品和服务承担合适价格的购买者。客户关系管理(customer relationship management)CRM是近年来比较流行的新兴管理概念,最早由著名IT项目系统论证与决策权威机构Gartner Group提出,是随着互联网与电子商务流入中国的管理理念之一。从科学管理的角度来观察,客户关系管理是由市场营销理论演化而来的,从解决问题的角度来观察,客户关系管理是利用高科技信息技术将现代管理理念和营销手段结合在一起应用到市场中,帮助企业解决难题,它凝聚了市场营销、销售管理、客户关怀、客户服务等要素在里面。
以品牌为细分变量将训练集X1分为全球通数据子集、神州行数据子集和动感地带数据子集,分别占比为7.2%、80.7%和12.1%。在对每个数据子集建模前再将数据分区为训练集和测试集两部分,分别占60.0%和40.0%;在训练模型前进行特征选择。然后,分别对每个数据子集采用C5.0、Logistic、Neural Net三种基本模型建模,选择ROC曲线下方面积AUC最大的基本模型作为对该数据子集的建模模型。各品牌数据子集分别采用三种模型的预测结果的AUC如表1所示。
由表1中测试结果可知,对全球通数据子集和神州行数据子集来说,都是Neural Net的预测效果最好;对动感地带数据子集说C5.0的预测效果最好。因此,得到混合预测模型如图1所示。
以地区为细分变量将训练集X1分为地区A数据子集、地区B数据子集和地区C数据子集,分别占比为52.5%、20.3%和27.2%。在对每个数据子集建模前再将数据分区为训练集和测试集两部分,分别占60.0%和40.0%;在训练模型前进行特征选择。然后,分别对每个数据子集采用C5.0、Logistic、Neural Net三种基本模型建模,选择ROC曲线下方面积AUC最大的基本模型作为对该数据子集的建模模型。各地区数据子集分别采用三种模型的预测结果的AUC如表2所示。
由表2中测试结果可知,对地区A、地区B和地区C数据子集来说,都是Neural Net的预测效果最好。因此,得到混合预测模型如图2所示。
以网龄为细分变量将训练集X1分低网龄数据子集、中网龄数据子集和高网龄数据子集,分别占比为22.7%、44.9%和32.4%。在对每个数据子集建模前再将数据分区为训练集和测试集两部分,分别占60.0%和40.0%;在训练模型前进行特征选择。然后,分别对每个数据子集采用C5.0、Logistic、Neural Net三种基本模型建模,选择ROC曲线下方面积AUC最大的基本模型作为对该数据子集的建模模型。各网龄层次数据子集分别采用三种模型的预测结果的AUC如表3所示。
由表3中測试结果可知,对低网龄数据子集和高网龄数据子集来说,都是Neural Net的预测效果最好;对中网龄数据子集来说Logistic的预测效果最好。因此,得到混合预测模型如图3所示。
以三个月的月均账单额为细分变量将训练集X1分为低消费数据子集、中消费数据子集和高消费数据子集,分别占比为54.4%、28.9%和16.7%。在对每个数据子集建模前再将数据分区为训练集和测试集两部分,分别占60.0%和40.0%;在训练模型前进行特征选择。然后,分别对每个数据子集采用C5.0、Logistic、Neural Net三种基本模型建模,选择ROC曲线下方面积AUC最大的基本模型作为对该数据子集的建模模型。各消费层次数据子集分别采用三种模型的预测结果的AUC如表4所示。
由表4中测试结果可知,对低消费数据子集来说,C5.0的预测效果最好;对中消费数据子集说Logistic的预测效果最好;对于高消费数据子集来说,Neural Net的预测效果最好。因此,得到混合预测模型如图4所示。
(一)命中率比较
各种细分标准的混合模型对测试集X2预测的命中率结果如表5所示。
比较表5中的数据可知,以地区为细分变量构建混合模型对测试集X2预测的命中率最高,达到86.1%;以账单额为细分变量构建混合模型对数据集X2预测的命中率次之,为85.9%;以品牌和网龄为细分变量构建混合模型对测试集X2预测的命中率较低,分别为81.2%和76.2%。
(二)ROC曲线比较
用SPSS15.0对各混合模型在对测试集X2上的预测结果构建ROC曲线,如图5所示。
由各混合模型ROC曲线计算曲线下方的面积(AUC)如表6所示。
比较表6中的数据可知,以地区和账单为细分标准构建的混合模型,对测试集X2的预测效果较好,AUC分别为0.888和0.855;以网龄和品牌为细分标准构建混合模型,对测试集X2的预测效果相对较差,其AUC分别为0.845和0.828。
本文分别以品牌、地区、网龄和账单为细分变量细分客户,以SPSS Clementine12.0中C5.0、Logistic、Neural Net三种分类算法模型作为基础模型,构建客户流失预测混合模型,分别采用命中率和ROC曲线对各模型预测结果进行评估,得到一致的结论:当以地区为标准细分时的预测效果最好,以账单为细分标准的预测效果其次,以网龄和品牌为细分标准的预测效果相对较差。因此,在今后的流失预测实践中,建议省级电信公司以客户消费账单作为细分变量,对各地区客户单独构建流失预测混合模型;同时,要加强品牌管理,提高各品牌对客户的区隔效果。
参考文献:
[1]武小军,孟苏芳.基于客户细分和AdaBoost的电子商务客户流失预测研究[J].工业工程,2017(02).
[2]叶志龙,黄章树.线上会员客户流失的建模与预测研究[J].管理现代化,2016(03).
[3]邵帅锋.基于BP神经网络对保险公司客户流失进行分析和预测研究[D].兰州大学,2016.
[4]高洁.基于灰色模型和神经网络的客户流失量预测[J].内蒙古师范大学学报(自然科学汉文版),2015(06).
[5]单其帅.基于粗糙集-BP神经网络的电信企业客户失风险预警研究[D].河北工程大学,2014.
(作者单位:上海理工大学)