陈宝华 柳炳祥 万川南
摘要:企业的客户关系管理工作好坏,直接影响到企业的核心竞争力,发现一个潜在的客户,往往比挽留一个客户所花费的成本要大的多,因此,发现睡眠用户,并做好相应的客户关怀,挽留住即将流失的客户,就显得非常重要。论文利用logistic回归模型,建立客户睡眠客户的预测模型,建模步骤分为变量分析、变量变换、模型建立评估。从实验分析和结果上看,模型效果拟合较好,评价logistic回归模型结果好坏的ROC、KS曲线验证了该方法的可行性和有效性,为睡眠用户的预测提供了一种分析的思路和方法。
关键词:睡眠客户 预测模型 logistic回归模型
中图分类号:F123.9 文献标识码:A 文章编号:1007-9416(2016)08-0069-02
1 引言
睡眠用户的定义和模型目标变量的选定息息相关,而目标变量是用模型确定业务问题的模型解释,这个过程本身就是业务问题转化统计模型问题过程。鉴于睡眠用户定义的重要性,睡眠用户的直接表现是停止交易,所以最后一次交易到无交易的时间是一个比较合理定义。为此从统计用户两次之间交易间隔来确定睡眠用户的定义。统计用户的最大交易间隔天数分布情况,从图1中可以看出,到当用户最大交易间隔天数在90天后,用户的最大交易间隔分布下降平缓,而且70%以上的用户的最大交易间隔小于等于90天。
发现睡眠客户对于企业的客户管理工作非常重要,论文采用logistic回归模型对睡眠客户进行分析,发现睡眠客户的特征,进而改善客户关系管理工作,提升客户价值。
2 数据处理
2.1 数据来源
论文数据来自于某第三方支付平台历史交易数据,对一些涉及商业机密的数据,如交易金额等进行线性变换,对用户个人隐私信息进行剔除。
2.2 数据预处理
在建立模型之前,对重复数据进行了预处理。首先从业务的角度上,对用户的交易是主动性交易与被动性交易进行整理,从业务的角度上理解主动交易更能反映用户的行为,所以数据删除被动交易记录。对文本字段转换成数值字段,时间字段转换成标准时间格式,即数据处理中截取、清洗、转换。
2.3 确定高价值客户
从业务的角度上,历史活跃度很低的用户,对企业的认可度可能更小,对这样的用户营销收益不高。所以建立模型时,要考虑确定什么样的用户是高价值用户。高价值的用户有一定的活跃度,而活跃度主要表现在交易次数上。而为了确定有价值用户的规则,筛选出在历史交易时期没有睡眠的用户,计算这些用户在6个月中的历史交易情况,并对整体用户的分布趋势进行汇总统计分析,数据处理结果如表1所示。
3 logistic回归模型在睡眠客户预测中的应用与分析
3.1变量选取
对于本次建立的睡眠用户,预测模型的变量选取,主要是客户属性变量与客户交易行为变量。其中客户属性变量有:CUSTOMER_NO,用户实名等级,注册时间;客户交易行为变量有:交易金额,交易类型,交易时间,每次交易前余额,每次交易后余额,交易类型(涉及商业机密数据,所以将金额数据进行线性变换处理),还有一些衍生变量。
3.2 变量处理
原始数据繁杂冗余,不能直接用于建模。数据处理过程包括缺失处理、变量类型转换、日期型变量处理、错误变量处理、异常值处理、相关性变量处理、变量选择。其中缺失值处理的方法是,当交易数据为缺失时,用零来代替,代表没有发生交易,是一个合理的解释。所以,本文的原始变量缺失则用零代替。变量的删减的方法是,删除变量是一个非常慎重的问题,但是若是存在较强相关性的情况下,logistic 回归结果是不满意的。因为变量过多,一次性进行变量相关性分析结果,显得过于繁杂,不利于找出其中的规律。为此,先进行变量重要性分析,将变量相关性分成两阶段进行。第一个阶段,先分析三个维度中变量的相关性分析。第二阶段,在完成第一阶段分析之后,剩余的变量全在一起分析变量相关性。
3.3 模型建立
按上面的分析,对变量进行选取及变量的处理后,进入建模阶段。实验所选变量主要体现用户交易行为变化、最近交易行为、用户身份特征来拟合用户是否会进入睡眠状态。将整理好的数据按50%比例随机抽样,分别得到训练集和测试集。实验模型是基于SAS软件中的PROC LOGISTIC过程来实现的。选取逐步回归估计的方式,模型估计结果如表2所示。logistic 回归分析的极大似然估计分析,如表3所示。
3.4 模型评估
评价logistic回归模型结果好坏,主要有K-S曲线、ROC曲线等方法,图2、图3是本次实验所建立模型的K-S曲线、ROC曲线。ROC 曲线横坐标为(1-特异度),纵坐标为灵敏度。特异度是实际上属于非目标事件的观测中被正确分类的比例;灵敏度十实际上属于目标事件的观测被正确分类的比例;K-S统计分布是用来衡量模型的辨识能力。sleep=0(非睡眠)曲线是模型预测值小于某个值时sleep=0(非睡眠)的累计观测数占比分布;sleep=1(睡眠)曲线是模型预测值小于某个值时sleep=1(睡眠)的累计观测数占比分布;D值在0 到1 之间,D 值越大,模型的辨识能力越强。此模型两条曲线的最大垂直距离,即K-S 统计值D=0.625,说明该模型辨识能力较好。
4 结语
通过对变量的标准化系数比较各变量的影响程度。最后一次交易后余额,最近三月消费次数,最近三个月消费笔数占比,最近三个月交易金额占个月总交易额百分比,最近三个月转账笔数占比,实名等级0,最近三月转账金额占比与最近4-6个月转账金额占比变化比例的标准化系数分别是-0.8781,-0.4041,0.3305,-0.2005,0.1773,0.1382,0.1036,即这些变量的影响程度呈现递减趋势。
从实际业务角度上验证,JinePChange3(最近三月转账金额占比与最近4-6个月转账金额占比之差)越大,表示最近三月转账金额增加,Pred 值变大,睡眠可能性增加。NumPercent32(最近三个月消费笔数占比)越大,表示最近三月消费相对增加睡眠可能性增加。NumPercent33(最近三月转账笔数占比)越大,表示最近三月转账相对增加睡眠可能性增加。Sum3P6(最近三个月交易金额占六个月总交易额百分比)越大,表示最近的交易相对之前更活跃,睡眠可能性降低。RealName等于0,表示非高级实名用户,相对高级实名用户睡眠可能性更大。Num32(最近三月消费次数)越大,表示消费频率较大,用户更不容易进入睡眠。AfterAmt(最后一次交易后余额)越大,表示用户的粘性更大,更不容易进入睡眠状态。
论文利用logistic回归模型,建立客户睡眠客户预测模型,建模步骤分为变量分析、变量变换、模型建立评估。从ROC、KS曲线上可以看出,模型效果拟合较好。实验中也有一些不足之处,首先是数据收集还存在不足,根据行为分析,对用户的行为特征除交易行为,还有个人偏好、性别、年龄、消费能力、学历等因素未考虑,直接影响到模型预测的精度,有待今后进一步完善。
参考文献
[1]赵小宁,李凤霞.因子分析法和聚类分析法在网上银行客户满意度研究中的应用[J].时代金融,2015(3).
[2]李凡.数据挖掘技术的研究与应用[D].西安电子科技大学,2002.
[3]杜建军,李海玉,马蓉等.数据预处理与决策树在客户行为分析中的应用[J].信息技术,2008(12).
[4]蒋斌.数据挖掘技术在客户关系管理中的运用[J].云南大学学报(自然科学版),2006 (12).
[5]郭立硕,王兆刚,李星.基于因子分析和聚类分析上市房地产公司的财务风险评价[J].中小企业管理与科技,2015(1).