基于生存分析的客户生命周期价值建模

2011-03-09 06:37张会荣

统计与决策 2011年12期

陈云，张会荣，2，朱萍

（1.上海财经大学公共经济与管理学院,上海 200433；2.云南曲靖师范学院物理系，云南曲靖 655000）

0 引言

随着信息技术的迅猛发展和企业竞争的加剧，产品和服务的差异越来越小。以产品为中心、以市场为中心的企业管理理念逐渐被以客户为中心所替代[1]。客户关系管理强调的是企业与客户长期的价值互动关系，最大化长期互动关系的效用，实现客户与企业的双赢。客户成为公司最重要的资产，成为市场竞争的焦点。谁能掌握客户的需求趋势、加强与客户的关系、优先挖掘和管理客户资源，谁就能获得市场竞争的优势，在激烈的竞争中立于不败之地。

客户生命周期价值计量，作为客户关系管理研究的核心内容之一，是企业识别价值客户的最有效的依据。如果度量不准确，企业将无法准确定位价值客户，更谈不上对其进行保留和发展，客户长期价值最大化目标更是无法实现。

1 国内外研究现状

Barbara bond Jackson(1985)奠定了这一领域研究的基础，指出客户生命周期价值有赖于客户在生命周期的每一阶段增加企业收益以及降低成本的能力[2]。Berger&Nasr（1998）在此基础上引入客户保持率参数，使CLV计量模型有了更实际的应用价值，公式如下[3]：

其中，π(i)是以时间i为自变量的客户利润函数；γ为客户保持率；d为折现率；n客户全生命周期时间。

然而目前利用此模型进行客户生命周期价值计量存在着以下问题：

首先，客户保持率的估计通常以常量客户保持率代替，或是仅以客户在企业中所处的时间进行粗略估算。

由于实际的客户保持率与常量客户保持率之间存在着较大的差异，用常量的客户保持率来简单的估计实际客户保持率会造成较大的误差，从而使客户生命周期价值的计量不准确[4]；若仅以客户在企业中所处的时间对客户保持率进行估计，虽可解决常量客户保持率的问题，却无法在客户生存时间的分布未知的情况下较为精确地估计出客户的动态保持率。

其次，在对客户全生命周期时间的估计中，现有文献大多假定其为某个常量值，并根据经验进行估计，缺乏科学性。

因此，在进行客户价值计量时，如何对动态的客户保持率和客户生命周期时间进行较为精确的估计，显得尤为重要[5]。

2 基于生存特征的客户生命周期价值计量模型建立

2.1 动态客户保持率参数的估计

生存时间是测量某事件出现的时间，生存时间的分布可用生存函数进行描述[6]。将生存函数引到动态的客户保持率上，客户保持率实际上就是客户生命时间的分布。

因客户生存数据包括许多协变量，且生存时间的分布未知，通过分析和比较发现，比例危险模型即Cox模型能很好地解决这一问题，运用客户的生存时间和客户的属性（如基本特征、行为属性等）来估计生存函数/危险函数。

比例危险（Proportional Hazard,PH）模型具有如下性质：不同个体的危险函数成比例，即两个伴随变量向量x1和x2下的危险函数之比h(t|x1)/h(t|x2)不随t的变化而变化。它以危险函数作为因变量，公式如下：

其中，x=(x1，x2，……，xp)为协变量；β1（i=1，2，…，p）为回归系数；h0(t)是x=(x1，x2，……，xp)均为0时的个体基本危险函数。

由危险函数与生存函数的关系知，基于Cox模型的生存函数为：

其中，r(t)为时刻t永久性流失客户的累积保持率；βj(j=1，2，…，p)为伴随变量xj(j=1，2，…，p)的回归系数；r0(t)为时刻t永久性流失客户的基准累积保持率（即无风险下t时的客户累积保持率）。此即为客户在t时期的动态保持率，可由Cox回归分析得到。

2.2 客户生命周期时间参数的估计

对客户生命周期时间进行估计。典型客户的客户保持率下降到50%时所经历的时间段即为该客户所在客户群的平均全生命周期时间。如图1：

图1 客户生命周期T的计算原理图

设T为所要求的细分客户的全生命周期时间，即典型客户的累积保持率下降到50%时所经历的时间段；ta为恰好小于T的生存时间；tb为恰好大于T的生存时间；S(ta)、S(tb)分别为客户在ta、tb的累积生存率，即累积客户保持率。则由线性内插法有：

由上述线性内插法得到的T即为典型客户的全生命周期时间。

假设客户在生命周期中经历三个阶段：发展期、成熟期、衰退期。对于t1和t2（客户生命周期中各阶段的转折时点）这两个客户生命周期中时间跃变点（如图2）

图2 客户生命周期框架下的客户利润曲线

相应的利润函数如下：

本论文通过式（5）中求解下列两方程来得到：

通过t1和t2这两个时间跃变点，可以很清楚地知道某客户当前所处在的生命阶段，从而可以区别出CLV随时间变化的不同阶段，进而使CLV模型的计算误差大大减小。

2.3 基于生存特征的CLV计量模型

根据上述方法求解客户生命周期价值计量模型中各参数，得到基于生存特征的CLV计量模型：

π1（t）、π2（t）和π3（t）为客户分别在发展期、成熟期和衰退期的利润函数，是对历史客户利润进行拟合得到的函数。客户利润函数反映了客户利润在客户生命周期的变化趋势，是CLV模型中的一个重要参数。d为折现率。

r(t)为由Cox回归模型得到的客户保持率函数。令r(r,t+1)表示客户在时间段[t，t+1]上的条件客户保持率，r(t)表示客户在时刻t的累积客户保持率，是由动态变量确定的各期客户条件保持率之积，即：

当客户利润保持不变时，累积客户保持率越大，此客户的生命周期价值就越大；反之，则越小。

T为客户生命周期时间，由上述公式（3）求得的解。T越大，说明客户生命周期时间越长，也即客户在企业内停留得越久，此客户的生命周期价值也越大；反之，会越小。t1和t2分别为客户由发展期进入成熟期、由成熟期进入衰退期的时间点，分别由式（6）、式（7）求得。它们可很好地定位某当前客户生命周期的所处阶段。

CLV模型的三个部分是随着时间的推移逐渐地加入到客户生命周期价值的计量中的，并且随着时间的推移，三个部分在CLV模型中的比例会逐渐发生变化，直至客户退出。

3 案例分析

3.1 数据准备

本案例所采用的数据集为某电信公司客户数据记录。抽取其中1000条记录组成本次研究的样本，对其进行分析。客户数据包含 42个属性，有 tenure、age、marital、address、ed、employ、retire、gender、custcat、ebill、internet、churn等。其中churn为状态变量，若其值为1，则表示该客户在观察期内流失；若其值为0，则表示该客户在观察期结束时未流失，仍然在企业内。

表1展示了全部属性中的一部分（因属性较多，此处并未展示全部属性）：

表1 部分客户属性及其解释

一般来说，原始数据是“脏”数据，不可避免地存在着一些空缺值、噪声数据、不正确数据等。直接采用“脏”数据进行分析，可能使建模过程陷入混乱，导致不可靠的输出，因此在对数据进行建模分析之前，需要对原始数据进行预处理，如属性规约、数据变换等。

通过对数据的预处理，删除了具有较强相关性的11个属性，其余31个属性进行生存分析。

3.2 客户生存数据分析

采用Cox回归分析法进行生存分析。在对数据进行模型建立前需要对成比例危险性假设进行检验。运用SPSS 13.0中的Analyze对各分层属性进行逐个检验，即在保持其他协变量不变的前提下，分别作出每层的累积危险性与时间对数曲线，并根据以下依据进行判别：若曲线之间是接近平行且垂直等距的，那么该协变量满足PH假设；若曲线之间相互交叉，则不满足PH假设。

判别结果所有属性都符合成比例危险性的假设，因此所有属性都将进入Cox回归分析。

运用SPSS 13.0进行Cox回归分析，得生存函数图和累积危险函数图，分别如图4、图5所示：

图4 生存函数图

结果表明，在最初的10个月里，客户的累积生存率基本为1，其累积危险率基本为0，两者在此期间没有太大的波动。表明在最初的10个月里，很少有客户会离开该电信公司。在随后的50个月里（由10个月到近60个月），客户的生存率急速下降，到60个月几乎为0，而累积危险率也急速上升。表明此时间段客户流失现象比较严重。60个月之后，客户的累积保持率曲线趋于平缓，如图4所示，这表明活过60个月的客户以后存活机会趋向稳定，但生存率非常低。

图5 累积危险函数图

同时，通过对数据的Cox回归分析，得到进入Cox回归模型的属性及其回归系数，如下表（表2）所示：

表2 方程中的变量

表2中，各协变量都是以0.05的显著性水平以逐步向前最大似然法（LR）筛选出来的。

表2中，address变量的风险度为0.574，而回归系数为负，可认为employ是一个保护变量，客户在现在住处所待的年数越长，在该电信企业中存留的可能性也就越高。同时，由表 2可知，address的风险度的 95%置信区间（CI）为：[0.335,0.928]。其他各协变量的解释以此类推。

故其危险函数的回归模型为：

其中，xi(i=1，2，…，7)依次表示表3中的协变量。如x1表示address、x2表示employ等；h(t)表示客户在时刻t的流失概率，h0(t)表示当所有危险因素都不存在时，时刻t的基准流失概率。

由表3可知，对式（10）、式（11）所表示的模型进行有效性检验，Sig.值多为0.000,以0.05检验水平，拒绝无效假设，因此该模型是有效的。

表3 模型系数检验(Step：6)

客户的动态保持率函数如下所示：

其中，t＞0，S(t)为客户在时刻的累积保持率；为典型客户在时刻的基准累积保持率，可由生存表Survival Table查得。

假设有某客户，其在现居住地已居住15年，在现被雇佣的公司待了10年，没有ebill业务，上个月的长途花费在取对数后为0.31，在除上个月的long distance、calling card花费之外的从进入该电信公司的所有的long distance、calling card花费在取自然对数后分别为1.52和1.63，需要求出客户在第13个月仍在该电信公司的可能性，或此客户的累积保持率。

将各协变量的取值及基准累积生存率代入式（11），有

此即为该客户在此电信公司能留存 13个月的生存率。与其原值（0.72111）相比，预测值只和它相差约0.0066，即误差百分比为0.9%。说明该模型的预测效果较好。

3.3 客户生命周期时间参数估计

由Survival Table可知：

表4 Survival Table的一部分

t1=45，r(t1)=0.504，t2=46，r(t2)=0.479。则由线性内插法知，当r(T)=0.5时，可得下式：

也即，

则，T≈45.2，即客户的平均全生命周期时间约为45.2个月，约为3.8年。

假设该企业典型客户生命周期利润函数如下：

由式（6）（7）可得，t1和t2分别为15个月（1.25年）和37个月（3.1年）。

3.4 基于生存特征的CLV计量

根据基于生存特征的客户生命周期价值计量模型，假设折现率为10%，则客户的生命周期价值为：

对于该电信企业，当某客户的具体属性的取值已知时，其在全生命周期下的CLV可由上式（14）求得。

4 结论

本文通过引入生存函数中的Cox回归模型，很好地解决了客户的生存时间分布未知的情况下，如何求解客户保持率的问题，并依据由此得到的客户保持率估计出了典型客户的全生命周期时间，最终得到了基于生存特征的CLV计量模型，并通过实例中分析验证了模型的可行性与适用性。

[1]Yun Chen,Guozheng,Zhang,Dengfeng,Hu，Shanshan,Wang.Customer Segmentation in Customer Relationship Management Based on Data Mining[J].IFIP International Federation for Information Processing(IFIP),2006,207.

[2]Barbara Bund Jackson.Building Customer Relationship that Last [J].Harvard Business Review,1985，（11～12）.

[3]Berger,P.D.，Nasr,NI.Customer Lifetime Value:Marketing Model and Application[J].Journal of Interactive Marketing,1998,12(1).

[4]齐佳音，舒华英，客户价值评价、建模及决策[M].北京：北京邮电大学出版社，2004.

[5]谭跃雄，周娜.基于动态客户保持的企业客户生命周期价值模型研究[J].管理科学，2004，(6).

[6]ELISA T.LEE.译者：陈家鼎、戴中维.生存数据分析的统计方法[M].北京：中国统计出版社，1998.