曲浩
(方正证券股份有限公司 北京 100020)
近年来,随着社会经济的不断发展,各类金融企业不断涌现,证券行业的竞争压力越来越大。在此背景下,相比获取新客户,老客户流失问题更需要得到证券公司的关注,因为挽留现有客户的成本比吸引新客户的成本低很多(夏国恩,2010)。因此,对于证券公司来说,在想办法吸引新客户的同时,也应尽力避免客户流失,对有流失征兆的客户进行提前干预,这对提高公司竞争力有重要的战略意义。此外,企业数据库中储存着海量的客户信息和客户行为等数据,如果能够充分利用这些数据,从中挖掘有价值的信息,进而建立科学的客户流失预警模型来指导业务,将会大大提升公司的服务和管理水平。为了有效解决客户流失预警问题,企业可通过基于大数据的策略设计和建立模型,从数据中挖掘流失客户的主要特征,并准确定位流失客户群体,实现对客户流失行为的监控和预警,尽可能地挽留客户,避免由客户流失造成的利润损失。
国内许多学者曾对客户流失问题进行了研究,现有研究主要集中在探讨电信行业客户流失的原因。例如,周静等(2017)着眼于客户流失影响因素研究,运用社交网络分析方法,通过构造与网络结构相关的变量进行影响因素探讨,运用逻辑回归方法构建客户流失预警模型。李季等(2020)利用某移动通信公司的客户消费数据和个性化营销实验,分析了客户在使用运营商的服务过程中,服务与需求之间的匹配程度及客户投入行为与客户流失之间的关系。此外,随着深度学习技术的发展,也有学者通过深度卷积神经网络的方法了解客户流失的原因。相比电信行业研究的如火如荼,证券行业的客户流失研究相对较少。郑宇晨和吕王勇(2016)从账户周转率、投资收益等反映客户交易情况的指标出发,采用K均值聚类获取客户流失状态,再通过逐步回归方法进行变量筛选,最终建立logistic客户流失预警模型。舒宏和李双宏(2021)基于大数据技术,深入挖掘客户的证券业务数据和行为数据,建立客户画像,进而融合大数据和人工智能技术,提出客户流失预测模型和实现步骤 。
通过文献回顾可以看出,对客户流失预警的研究大多是在海量业务数据的基础上,采用聚类、回归等统计方法和机器学习模型进行数据挖掘和预测。虽然该领域的研究成果颇丰,但目前相关研究多集中在电信行业,而关于证券行业客户流失问题的探索不但数量少,而且多围绕客户管理方面的宏观理论,结论以方法论的建议为主,并未产出可落地的预警体系应用于业务中。本文以某券商A的客户作为研究对象,结合业务背景,对大量真实数据进行分析探索,在得出研究结论的同时,将模型结果落地为一套代码,使本文的研究内容在具有理论意义的同时,还有很高的实用价值。
本文的最终目标是基于客户数据建立一套流失预警体系,能够对A证券公司的客户流失行为进行监控和预警。整个研究框架可分为三大模块:变量挖掘、模型建立和模型应用。
首先,变量挖掘部分包含潜在流失人群筛选及因变量和自变量的确定。根据A证券公司的业务要求,潜在流失人群的判定标准为若T-1时刻的净资产大于等于5000元,且T时刻净资产小于5000元,则判定该客户在T时刻是潜在流失人群。该客户将被持续观察60个自然日,如果在此期间该客户一直保持净资产持续低于5000元,则该客户在第T+60时刻被判定为流失客户。再基于A证券公司数据库导出的客户个人信息表、资产负债表、交易量表、佣金表、委托表、行为服产盈利表、回访情况表多源数据构建重要影响因素。
其次,在模型建立部分,由于上一步骤计算出的自变量数目较多,考虑到计算效率和模型的稳定性,本文将结合业务知识和BIC变量选择方法选取部分稳定有效的特征用于最终建模。基于逻辑回归模型,确定训练集和测试集的时间对应关系,再利用实际数据构造训练集和测试集并进行建模,并对模型的效果利用AUC指标进行评估。
最后,通过模型预测出每天的流失预警名单,进而将这些名单发布给前端业务人员,让业务人员对名单上的客户进行及时挽回。此外,本模型还可以输出每个客户的流失概率,据此划分人群的流失风险等级,使业务人员可以对不同风险的客户采取不同的干预策略,有助于对客户的精细化管理和运营。
本文使用的问题来自A证券公司经脱敏后的业务数据,时间跨度为2020年7月—2021年7月,涵盖大约12万名用户,涉及9张客户信息表共112个原始字段。由于商业信息保密的原则,我们无法在本文中公布这些原始数据字段,但在后续建模中会汇报最终用于建模的变量。
以2021年5月2日的所有用户为例进行说明,该批用户的观察期为包括5月2日在内的未来60天,即2021年5月2日—6月30日。对每个用户,记录其在观察期内的净资产情况,若60天内每天的净资产均小于5000元,那么该用户便被标为“流失”。因此,对于2021年5月2日的待观察用户,通过60天的观察期,可在2021年7月1日得到其流失情况。
(2)潜在流失人群定义。如果直接对所有用户进行流失预测,涉及的群体非常庞大,为提高预警工作的效率,本文对每天的所有客户都先从中筛选出部分潜在流失人群,这部分潜在流失人群相对其他人群来说具有较高的潜在流失风险。再对这部分人群进行预警建模,从中找出真正流失的客户,判断的标准是客户在观察期前是否已经表现出一些流失迹象。
结合公司的业务实践,我们以净资产的变化作为判断依据,对于第T日的第i个客户,若其在第T-1日净资产大于等于5000,并且第T日净资产小于5000,那么认为他属于第T日的潜在流失人群。仍以2021年5月2日的数据为例进行说明:对2021年5月2日的每个用户记录其在2021年5月1日的净资产和2021年5月2日的净资产,若5月1日净资产大于等于5000元,且5月2日净资产小于5000元,便将其纳入5月2日的潜在流失人群名单中。之后便以这一名单上的用户作为研究对象,继续观察60个自然日,判断其最终的流失标签。通过这种方法,每天都能筛选出一批潜在流失人群,这部分潜在流失预警人群也是后续建立流失预警模型的数据基础。
(3)自变量时间节点的确定。明确了如何筛选研究对象、如何计算流失标签后,接下来需要确定建模过程中自变量所需数据的时间范围。本文建模的核心思想是利用用户的历史信息对未来状态进行预测,即生成某日人群的自变量时利用的是该日之前一段时间的数据。用于生成自变量的时间段的长度需要合理定义,如果时间段太短,就会使得自变量信息提取不充分,难以准确预测未来情况;如果时间段太长,用到的数据太过久远,那么对预测未来的参考价值就不大,甚至可能造成干扰。本文结合A证券公司业务情况最终认为,30天是一个合理的时间长度。因此,对于第T日的第i个用户,将利用其在第T-30日至第T-1日的数据生成自变量。仍然以5月2日筛选出的潜在流失人群为例,这部分人在之前30天(即4月2日-5月1日)内的数据情况就是生成X的时间跨度,后续将利用这一时间段内的数据对自变量进行计算。
由于用户每天都有一个流失状态标签,一个直观的办法是采用逐日建立模型对客户流失状态进行预测。但由于日模型更新迭代的频率较快,且只使用一天的数据,如果当天的样本量较小,日模型的预测效果就会受到影响。因此,为了增加模型的稳定性,本文尝试建立7个交易日模型(简称周模型),7个交易日周模型以7个交易日的数据为训练集。
表1为7个交易日周模型在2021年4月15日和4月28日两组数据上的拟合结果。由表1可知,除了“总交易次数均值”在4月28日的模型中不显著之外,其他自变量在两个模型中均是显著的,且显著程度较高。此外,从系数结果可以看到,两个在不同日期建立的模型系数有相同的方向和相近的大小,说明选出的11个自变量在客户流失概率刻画过程中的作用较为稳定。从模型评估结果来看,4月15日周模型的AUC为0.846,精确率为66.4%,召回率为86.5%;4月28日周模型的AUC为0.822,精确率为72%,召回率为82.7%。由此可以看出,周模型具有一定的稳定性,且预测能力已经达到了较高水平。
综上所述,模型产生的一个重大应用价值就是基于流失风险的人群进行细分。具体做法如下:本文对客户的流失状态进行预测,根据模型预测出的流失概率将客户等量划分为10类。其中,前10%的客户有最高的预测流失概率,10%~20%的客户有次高的预测流失概率,以此类推。为了验证模型效果,可以计算每类客户的实际流失率,对比发现,拥有较高预测流失率人群的实际流失率也相对较高,特别是“前10%”和“10%~20%”的客户实际流失率分别高达92.43%和92.70%。因此,可以根据模型给出的预测流失概率对客户划分不同的流失风险等级,如“高流失风险”“中等流失风险”和“低流失风险”,并在实际业务中根据风险等级对客户应用不同的挽回策略。
该研究结果将在两个层面对A证券公司的业务系统实现支持:从策略支持的角度,本文最终将提供一套完整的客户流失因子影响度分析及客户流失预警逻辑体系。从技术支持的角度,本文最终将提供一套高效、稳定的程序代码,包含流失因子分析、流失预警及策略分析等部分,以便A证券公司的开发人员进行后期开发、部署和应用。