白桐 赵钰
20世纪90年代,学者们才开始研究客户流失预测。我国的学者则是在21世纪初期才开始做的客户流失预测研究。从本质上讲,客户流失预测就是一个分类问题,根据已经分类好的客户指标,去判别未分类的客户属于哪一类或者哪几类。
1.第一阶段
第一阶段的客户流失预测在21世纪初期这一时间段,主要采用的传统统计学的预测方法。包括:决策树算法(Decision Tree)、逻辑回归(logistic regression)、贝叶斯分类器(naive Bayesian classifiers)以及聚类分析(clustering analysis)。这些模型的主要特点是可以分析连续性、离散型以及定类的客户数据,解释能力比较强。
邱义堂(2000)在《通信资料库之资料挖掘:客户流失预测之研究》中以台湾的某一家公司GSM系统移动电话的客户为研究对象,使用了C4.5决策树算法确立预测客户流失的模型,这一模型的主要作用是可以在10%的客户群体中预测50%以上的客户流失情况,可以用最少的数据预测更多的客户流失情况,实现了高效处理数据。
LOUIS A.C(2002)在《data mining and causal modeling of customer》中使用决策树模型与逻辑回归模型进行对比分析。
CARDELLN.S,GOLOVNYA。M,STENBERG.D在《churn modeling for mobile telecommunications》中采用的也是决策树模型,对美国的某个公司进行客户流失预测,其结果不仅有较高的准确率,并且研究出了有效客户的流失规则,便于对客户进行管理,以及尽可能的规避了客户流失的风险。
朱世武、崔嵬、谢邦昌在《移动电话客户流失数据挖掘》中使用的是CHAID决策树算法, 他们主要是对移动电话号码和电话类型进行了分析, 发现客户性别、年龄、籍贯及职业四个人口统计变量在不同的流失类别上有显著影响,为后续研究提供了理论基础。
盛昭瀚、柳炳祥在《客户流失危机分析的决策树方法》中,采用的是加权熵的 ID3 决策数算法,开创了客户流失预测模型的新算法,新思路。
王维佳、缪柏其、魏国省在《数据挖掘:电信客户流失分析预测》利用的是决策树算法和 RBF 预测算法,以分类和预测概率为目标, 对某公司的客户流失进行了调查研究, 分析了影响客户流失的主要因素。
QI Jia yin、ZHANG Yang ming、ZHANG Ying ying,在《tree logit model for customer churn prediction》中使用ADTree 和 logistic regression 相結合的模型, 与 TreeNet 预测模型进行对比分析,发现该模型的预测准确率会比较高。
LUO Bin、SHAO Pei ji、LIU Juan在《customer churn prediction based on the decision tree inpersonal handyphone system service》采用决策树算法, 改变数据集延迟周期, 对国内某电信公司的潜在流失客户进行了预测。
KM H.S、YOON C.H在《determinants of subscriber churn and customer loyalty in the Korean mobile telephony market》中使用的是逻辑回归算法,判定了用户流失和客户忠诚度间的相关因素。
YANG Yi ming、WANG Hui、LI Lei在《multi-dimensional model-based clustering for user-behavior mining in telecommunications industry》中采用的是序列聚类方法, 对客户流失情况进行了非监督分类。
以上研究方法均有以下不足之处:
(1)真实数据中的客户类别是非对称的, 极大的影响了预测效果。
(2)对数据量大、非线性关系、非正态分布以及时间序列的数据处理准确度较低
(3)缺乏灵活性,无法根据数据特性进行处理。
2.第二阶段
由于上述方法的种种不足之处,学者们将研究方法进行了更新,进入了第二阶段,这一阶段是基于人工智能的方法进行预测。包括:人工神经网络( artificial neuralnetwork, ANN) 、自组织映射( self organizing maps, SOM) 和进化学习( evolutionary learning, EL) 等的算法。
MASAND B、DATTA P、MANID R在《CHAMP:a prototype forautomated cellular》中,以及DATTA P、MASAND B、MANI D。R在《Automated cellular modeling and prediction on a large scale》中均使用了 CHAMP客户流失分析方法, 通过对美国 GTE 公司的客户流失证实发现, 神经网络预测模型能有效地预测客户流失概率,为公司的决策提供方向。
YAN Lian、MILLER D J、 MOZER M C《Improving prediction of customer behavior in nonstationary environments》中从多个时间窗口提取数据, 并引入 ANN 建立预测模型, 是的客户流失的预测的准确性有所提高。
AUW.H、CHENK C.C、 YAO Xin在《 A novel evolutionary data mining algorithm with applications to churn prediction》中采用的是 EL 算法对客户流失进行了预测, 并且与决策树 C4. 5、SCS 和 GABL 算法进行比较,得出EL算法预测客户流失的准确率最高。
MOZER M.C、WOLNIEWICZ R在《Predicting subscriber dissatisfaction and improving retention in the wireless telecommunications industry》中通过对数据进行过抽样, 利用 ANN 技术和引入收益计算方法,发现这一算法可以得到更大的收益。
JORGE B.F、ELLASCO M、PACHECO M A. 在《Data mining techniques on the evaluation of wireless churn》中提出了客户保留成本,通过对神经网络、决策树、遗传算法、模糊神经这一系列算法的比较, 得出神经网络所建预测模型预测结果更准确这一结论。
以上研究方法也存在不足之处,如下所示:
(1)采用训练的模式进行预测,使得预测结果并不稳定。
(2)这些方法的使用时建立在两类样本点损失的情况相同,即流失客户与非流失客户,但实际上不存在这样的数据。
(3)这些算法在使用过程中没有经过严格的证明,盲目的追求误差最小化。
3. 第三阶段
为了提高预测的精度以及稳定性,学者们的研究进入的第三阶段,这一阶段是基于统计学学习原理的预测方法。这一阶段主要使用的是支 持 向 量 机 ( support vector machine,SVM) 以及判别分析算法(Latent Dirichlet Allocation,简称LDA)。
赵宇、李兵、李秀 在《基于改进支持向量机的客户流失分析研究》中改进了 SVM 模型,以预测未来可能流失的客户, 这一模型预测客户流失的准确率较高。
SHAO Jin bo、 LI Xiu、 LIU Wen-huang在《the application of Adaboost in customer churn prediction》中使用了三种 AdaBoost 算法, 并且用SVM方法建立了预测模型,提高准确性,
夏国恩在多篇文章中选择使用结构风险最小化准则的 SVM 进行客户流失预测, 以提高机器学习方法的预测能力, 同时与人工神经网络、决策树、贝叶斯分类器等算法进行了对比, 得到这一算法的准确率最高,以及最为稳定。
参考文献
[1] 夏国恩,陈云,金炜东.电信企业客户流失预测模型[J].统计 与决策,2006(20):163-165.
[2] 夏国恩,金炜东.客户流失预测中两类错误的平衡控制研究 [J].营销科学学报,2006,2(4):1-7.
[3] 夏国恩,金炜东.基于支持向量机的客户流失预测模型[J].系统工程理论与实践,2008,28(1):71-77.
[4] 李萍,齐佳音,舒华英.移动流失客户挽留价值估算模型探讨 [J].北京邮电大学学报:社会科学版,2005,7(3):39-43.
[5] 夏国恩,邵培基.改进的支持向量機在客户流失预测中的应用 [J].计算机应用研究,2009,26(5):1789-1792.
[6] 夏国恩.基于核主成分分析特征提取的客户流失预测[J].计算机应用,2008,28(1):149-152.
[7] 龚文.畜牧企业客户流失原因分析[].中国牧业通讯,2007
[8] 任如.减低中低端大客户流失半[J].通信企业管理,2004
[9] 成爱武, 姚璐,王颖.大客户流失原因及其影响因素分析[J].西安工程大学学2009
[10] 张素珍.防范企业老客户流失的探讨[J].机械管理开发,2006
[11] 邬少清.邮政企业防止大客户流失对策探讨[J].邮政研究,2010
[12] 何安华.基于决策树的渠道客户流失风险预警[J].市场论坛,2008