张驭思,于明亮
(上海理工大学,上海 200093)
目前我国网络建设发展极为迅速,涉及到互联网经济的产业均迎来快速发展,线上客户数量的不断提高使得企业的经营重点逐渐从产品/服务本身向维持现有客户资源偏移。以酒店服务业务为例,目前的综合性酒店旅行服务企业大多通过线上APP 和网站以数字信息的形式为数量庞大的会员提供全方位的酒店旅行信息。通过对我国目前相关企业进行研究发现,目前针对线上酒店预定平台的服务调研主要聚焦在客户的满意度管理,有关交易行为和消费转化率等信息在一定程度上被忽略。
对于客户数据进行分析,进而对其流失倾向进行分析总结,能够企业的客户关系维护和管理提供理论指导与数据支撑。研究者曾采用支持向量机、神经网络和贝叶斯模型分别客户流失倾向进行分析和预测,通过与实际数据对比验证了模型的有效性。随后,有研究者开始在现有模型中添加插件模块以优化算法,提升预测精度,Xu等研究者将模糊语言和贝叶斯模型进行融合,将模糊信息以概率的形式精确呈现,使信息缺失、模糊的流失客户数据分析成为可能。近年来,模型间的耦合被证明在某些领域拥有比传统单一模型更高的预测准确性。Aron等人将逻辑回归模型和决策树模型耦合,通过实验及验证分析,表明耦合模型在精度和可靠性、可解释性方面均有着比各自独立模型预测结果更好的表现。在数据处理过程中,Sebastiaan 团队在数据前期处理中引入最大利润度这一概念,并作为模型的评价和分析指标,以该标准进化算法并驱动决策树模型,获得了同时考虑企业成本和利润的更合理且解释性更强的模型。
上述研究对在企业客户管理和运营方面的提升和完善具有十分积极的推进作用,但针对酒店线上客户流失的分析模型亟待构建。本文以线上综合服务型酒店对现有客户流失运营管理为主题,以高效预测客户流失为目的,通过对诸多算法进行比较,将数据挖掘、统计学理论融入管理理论,实现学科的融合,为线上酒店解决用户流失问题提供具有参考价值的理论模型和数据支持。
本文实验的原始数据来源于携程用户的脱敏访问数据,构建模型之前,需对原始数据进行数据清洗、整合与构建,最后按照既定标准进行格式化。
本次实验样本共有689 945 条数据,变量总结归纳为三类相关指标:订单、客户行为和酒店相关指标,如图1所示,除去标签列和id 列共有49 项特征。
图1 变量分类
1.2.1 异常值处理
在数据获取过程中往往会出现某些数据点的异常,这在后期建模过程中会影响模型的准确性,因此应提前进行筛选处理。本文以customer_value_profit 和ctrip_profits 为例将处理前后的数据散点图对比如图2所示。
图2 异常值处理前后的数据散点图变化
1.2.2 相关性分析及PCA 降维
在建模之前还需要对数据的相关性进行分析,进而降低建模过程的数据维度,根据图1我们可以看到订单相关指标只涉及四个小类且明显彼此间相关性不高,因此本文仅注重用户特征的相关性分析,相关性矩阵热度图如图3所示。
图3 用户特征的相关性矩阵热度图
我们将数据维度从最开始的(689 945,49)降至(689 845,41),数据条数未改变,将建模input 的变量维度从49 降至41。随后将数据标准化之后,开始建模计算。
首先我们采用逻辑回归模型对预处理后的数据集进行建模分析,得到模型的准确率为0.737 4,ROC 曲线如图4所示,AUC 值为0.7,精确度、召回率等信息如表1所示。
图4 逻辑回归模型的ROC 曲线
表1 逻辑回归模型相关信息
我们随后采用朴素贝叶斯模型对预处理后的数据集进行建模分析,得到该模型的预测准确率为0.637 1,ROC 曲线如图5所示,AUC 值为0.67,精确度、召回率等信息如表2所示。
图5 朴素贝叶斯模型的ROC 曲线
表2 朴素贝叶斯模型相关信息
我们继续采用支持向量机模型对预处理后的数据集进行建模分析,得到该模型的预测准确率为0.550 2,ROC 曲线如图6所示,AUC 值为0.49,精确度、召回率等信息如表3所示。
表3 支持向量机模型相关信息
图6 支持向量机模型的ROC 曲线
我们继续采用决策树模型对预处理后的数据集进行建模分析,得到该模型的预测准确率为0.881 8,ROC 曲线如图7所示,AUC 值为0.86,精确度、召回率等信息如表4所示。
图7 决策树模型的ROC 曲线
表4 决策树模型相关信息
我们继续采用随机模型对预处理后的数据集进行建模分析,得到该模型的预测准确率为0.925 0,ROC 曲线如图8所示,AUC 值为0.97,精确度、召回率等信息如表5所示。
图8 随机森林模型的ROC 曲线
表5 随机森林模型相关信息
最后,我们采用极端梯度提升模型对预处理后的数据集进行建模分析,最终得到该模型的预测准确率为0.925 0,ROC 曲线如图9所示,AUC 值为0.97,精确度、召回率等信息如表6所示,可以看出极端梯度提升模型的ROC 曲线和随机森林的ROC 曲线基本一致,具体比较将在下一节讨论。
图9 极端梯度提升模型的ROC 曲线
表6 极端梯度提升模型相关信息
通过对模型预测准确率的比较可以看出,随机森林和极端梯度提升模型的准确率最好,说明在本文客户流失信息预测方面随机森林模型和极端梯度模型具有更好的表现,而支持向量机模型的准确率最低,为0.550 2,说明该模型相对而言并不适合客户流失信息的预测研究。为了进一步比较,我们进将六类模型的ROC 曲线绘制于如图10 所示。
图10 六种模型的ROC 曲线
随机森林以及XGBoost 的的ROC 曲线表现最佳,但在训练过程中我们发现,XGBoost 明显更加耗时,且其准确率和AUC 值均低于随机森林模型,因此我们认为随机森林模型更适用于本文酒店线上客户流失的情况的预测和分析。
本文以酒店服务类综合性企业的现有客户流失情况为研究对象,以线上综合服务型酒店对现有客户流失运营管理为主题,以高效预测客户流失为目的,针对移动通信用户流失问题进行了定量分析。通过对逻辑回归、朴素贝叶斯、支持向量机、决策树、随机森林、极端梯度提升(XGBoost)等诸多算法进行比较,获得更适合客户管理的流失预测模型。通过不同模型运行结果对比分析,发现随机森林、极端梯度提升(XGBoost)比传统的逻辑回归、朴素贝叶斯、支持向量机、决策树模型在各项评价指标上均有较强的优势,为线上酒店解决用户流失问题提供支持。