杜云生
(北京理工大学 管理与经济学院,北京 100081)
基于客户消费数据的信用卡持卡人细分研究
杜云生
(北京理工大学 管理与经济学院,北京 100081)
将逾期拖欠风险和疑似套现风险融入以RFM价值评估模型为基础的信用卡持卡人细分模型中,构建融合客户价值和风险因素的RFMDA细分模型,并利用RFMDA模型,通过实证分析某工商银行客户消费数据,将信用卡持卡人按照价值和风险分为9类,为商业银行对不同类别的信用卡持卡人开展市场营销策略提供方法和决策依据。
信用卡;客户细分;客户价值;信用风险;RFMDA模型
关于信用卡客户细分,国外学者和商业银行的研究主要集中在两个方面。一是对信用卡欺诈风险的关注,利用风险评估和监测等手段,将客户区分为有风险和无风险两类客户是一个主要的需求[1]。例如,Ramaswamy等(2000)采用KNN算法从大数据集中挖掘孤立点来发现存在欺诈的信用卡客户;Duman等(2011)[2]采用社会网络分析方法来发现在线的信用卡欺诈客户;Lesot等(2012)采用一种混合的增量聚类算法来发现欺诈客户;Subashini等(2013)[3]和Chitra等(2013)采用一些分类模型发现欺诈行为来实现信用卡的自动审批。二是在对信用卡客户价值进行评估的基础上对信用卡客户进行细分研究。例如,英国巴克莱银行集团利用客户带来的利润和客户价值将客户分为了四个等级;Wahab等(2012)对利用客户价值细分客户对CRM的影响进行了研究;Ekinci等(2014)利用客户生命周期价值模型对客户进行分类,用来指导银行的营销活动。随着发卡机构掌握的数据越来越多,对信用卡客户细分的方法也在不断发生变化。例如,Martins(2012),Ogwueleka(2012)和Rahman等(2013)都曾采用数据挖掘等手段,通过对客户的行为进行分析实现对信用卡客户的细分。国外信用卡市场经过一个世纪的发展,在信用卡客户细分方面已经有了较为成熟的经验和较深入的研究。
相对于国外,国内的信用卡发展时间短,目前主要集中于基于客户价值的细分研究和基于客户行为的细分研究两大方面。前者如陈明亮(2001)[4]根据客户全生命周期利润(Customer Lifecycle Profit,CLP)将客户分成四类,并提出相应的资源配置和保持策略;陈静宇(2007)[5]构造了客户潜在价值空间和潜在价值能力两类指标来衡量客户的潜在价值,并构建了客户价值立方体模型;贺昌政(2013)[6]在CLV(客户终身价值)两个要素(客户当前价值和客户流失预测)的基础上构造信用卡客户细分模型;邹鹏等(2011)[7]利用代价敏感学习技术扩展现有决策树模型,并将此方法应用在信用卡客户价值细分上。后者如梁昌勇(2005)和刘朝华(2012)[8]基于RFM模型分别对信用卡客户行为评分和客户分类进行了研究;王娜(2010)[9]采用相关度关联分类算法、董慧敏(2011)采用聚类算法、饶黎黎(2013)采用K均值聚类算法对信用卡客户交易行为进行研究并用来细分客户;许建生(2012)、陈为民(2012)[10]、王丛敏(2013)等从客户的风险行为对客户进行评价和细分。
从国内外研究现状来看,无论是哪种细分研究,大多数信用卡客户的细分研究还是关注客户的价值,缺少信用风险的考虑,这种方法可能造成错分类,而错分类会带来严重的代价,虽然也有一些研究从风险角度细分客户,但并没有考虑价值因素。为此,蒋庆军(2009)[11]提出应综合考虑客户的价值指标(大、中、小、无、负)和风险指标(低、中、高)来细分信用卡客户,然而他并没有进行实证研究。基于此,本研究利用信用卡客户消费数据构建了一个融合客户价值和风险因素的信用卡持卡人细分模型。
信用卡持卡人在用卡过程中通常主要可能产生两大风险:逾期拖欠风险和疑似套现风险。基于这两种信用卡风险,本研究在RFM模型的最近购买时间(Recency)、购买频率(Frequency)和总购买金额M (Monetary Value)三个变量的基础上,将信用卡持卡人的风险因素引入评价中,增加逾期拖欠风险(Default)和疑似套现风险(Arbitrage)两个变量,构建了RFMDA模型。利用RFMDA模型,将信用卡持卡人细分为9类,为信用卡持卡人的营销管理提供了更实用和有效的细分决策。
(一)信用卡持卡人的逾期信用风险及判定方法
商业银行在接受申请人的信用卡申请后,会根据申请人的信用状况为信用卡持卡人设定一定的信用额度。一般情况下,信用卡发卡机构给予持卡客户最高56天的免息周期。信用卡持卡人在透支消费后,如果在还款日前将透支消费的欠款还清,将不会产生任何利息及滞纳金。如果在还款日前没有还款或没有偿还最低还款额,将会产生利息或滞纳金。其中,利息是没有按照约定日期还款而产生的,一般按照所有欠款或未还款额征收;滞纳金是持卡人未能在到期还款日前偿还最低还款额(一般是应还款额的10%)产生的,例如按照最低还款额的未还部分的5%支付滞纳金。另外,信用卡持卡人在使用过程中,可能会产生超限费,超限费是持卡人在超过核定信用额度使用后,而未在超限当日归还超限部分所产生的,例如对超限部分按照5%支付超限费。因为高昂的利息、滞纳金和超限费,一般信用、财务状况良好的持卡人都会选择在规定日期之前还款。当然,也有个别的信用良好的人因各种原因忘记在还款日前还款,但这种情况很少出现,除此之外,产生利息、滞纳金或超限费的持卡人应该是存在逾期风险性的客户。如果在一个统计期内一个持卡人多次逾期,则该持卡人是高风险客户。
(二)持卡人的疑似套现交易风险判断方法
“信用卡套现”是指持卡人违反与发卡机构的约定,不是通过正常合法的手续(ATM或柜台)提取现金,而是通过POS终端或其他不正当的手段将信用卡中的信用额度全部或部分地直接转换成现金,表面上是在用信用卡刷卡消费,实际上以此来逃避信用卡提现的高额利息费用,同时又不支付银行提现费用的行为[12-14]。信用卡套现的行为,相当于持卡人获得了一笔没有利息的贷款,造成银行收益与风险不匹配,扩大了银行的经营风险,严重影响了信用卡市场的健康发展。因此信用卡套现是信用卡产业面临的一种主要欺诈风险,我国刑法和相关金融法规将其界定为一种违法行为[13]。
就目前来说,信用卡套现主要有两种方式:一种是通过商家POS机套现;另一种是通过淘宝网的支付宝套现[12]。不管通过哪种方式套现,信用卡持卡人受利益驱动,都是以尽量长时间、无息高额占用银行资金为目的。例如,一张卡经常在同一商户满额消费,同一商户经常固定的卡满额消费,一张卡在免息期前几天满额消费,经常在低费率商户满额消费,一张卡连续或多次逾期(即还款日未按时还款),同一商户在短期内(如每隔一分钟)连续发生交易,同一单位持卡人在同一商户同时发生大额交易等。
在银行的信用卡交易数据中,卡的逾期风险往往很容易发现,而信用卡套现行为相对隐蔽,不易发现。已有不少研究者提出了一些疑似套现交易的判定模型或指标。例如姜盛(2009)[13]提出了基于Logistic的信用卡套现侦测评分模型,周洋(2009)[12]提出了一个基于四个变量的加权评分判定方法,耿晨星(2011)提出了基于个人信用卡消费分析的客户分类指标来判断套现行为的方法。这里采用耿晨星提出的指标判定方法。这是一种相对简单有效的方法,通过持卡人占用银行资金的指标的计算和时间序列分析来判定疑似套现的交易行为。描述如下:
其在一个还款周期内对银行资金的占有率为:
如果一个持卡人的日消费序列为:K,0,0,…,0,则资金占有率μ=1,如果持卡人连续几个月的资金占有率接近1,则存在疑似套现行为。
(三)融入风险测量的RFMDA模型
RFM模型在客户的价值判定和细分上已被很多研究证明是有效的。本研究利用RFM模型,将信用卡持卡人在用卡过程中产生的逾期风险和套现风险考虑进来。如上所述,逾期风险是已知的风险,信用卡持卡人的拖欠金额是不同的,所产生的风险也是不同的,本研究用统计期内的拖欠总金额(Default Value)来表示逾期风险。疑似套现风险是隐藏的,只要信用卡持卡人在还款日前将疑似套现的金额还清,将不会产生利息或滞纳金,如果持卡人在统计期内产生了多次疑似套现现象,则其套现风险较高。因为不同持卡人的信用额度不同,本研究用统计期内的疑似套现总金额(Arbitrage Value)来表示这种风险。从而对于每一个持卡人可以形成5类特征,分别是R(最近消费时间)、F(消费频率)、M(总消费金额)、D(总拖欠金额)和A(总套现金额)。
持卡人5类特征的计算方法见图1。R、F和M三类特征的计算方法仍采用RFM模型中的方法。首先进行排序,然后将数据划分为信用卡客户数量相等的5个部分,并按照RFM模型的要求为每一部分的客户赋值1—5的数字。其中,按最近消费时间排序时,离现在时间最远的一组客户赋值1,然后依次赋值2、3、4,最近的一组客户赋值5,记赋值后的数据为R;对于消费频率和总消费金额,则排序后数值最小的一组客户赋值1,然后,2、3、4,频率和金额数值最大的一组客户赋值5,记赋值后的数据为F和M。这样处理后,R、F和M的取值范围都是{} 1,2,3,4,5,从而R、F和M越高的持卡人,其价值越高。
D和A两类特征的计算中,未产生拖欠的持卡人D值为0,未产生疑似套现交易的持卡人A值为0,其他的持卡人D、A特征值的计算采用RFM特征计算类似的处理方法,即按照拖欠金额、疑似套现金额从大到小排序,然后均分为5个组,金额最大的特征值为5,金额最小的特征值为1。这样,D为5的逾期风险最高,A为5的套现风险最高。
图1 RFMDA模型特征计算方法
基于这种特征计算方法,R、F和M值均高的持卡人为高价值客户,均低的为低价值客户;同样,D和A值均高的为高风险客户,均低的为低风险客户。基于信用卡持卡人的5类特征,构建如下的细分模型,见图2。
该细分模型工作流程如下:首先利用持卡人交易数据计算每一个持卡人的最近消费时间、消费频率、消费总额、拖欠总额和疑似套现总额,然后利用这些数据形成每个持卡人的R、F、M、D和A特征值,其中R、F和M的值是1—5之间,而D和A的值是0—5之间。利用持卡人的消费特征,调用K-means聚类算法将持卡人聚为9个簇。
图2 信用卡持卡人细分模型
(四)客户分类
利用RFMDA模型,本研究可以将所有的持卡人聚类为9个簇。每一个簇的质心同样对应了5类特征,通过这些特征的分析,可以按照客户的价值和风险将客户分为9类(见图3),即高价值-低风险、高价值-中风险、高价值-高风险、中价值-低风险、中价值-中风险、中价值-高风险、低价值-低风险、低价值-中风险、低价值-高风险。
图3 信用卡持卡人的细分类别
在细分后,发卡机构可针对不对类别的信用卡持卡人提供不同类别的服务,在有限的营销资源约束条件下,达到较好的客户服务效果。例如,“高价值-低风险”类持卡人是银行最优质的客户,当然要配以最好的服务,收取最低的费用;而“低价值-高风险”类持卡人是需要剔除出去的客户或者需要进行信用额度降级并收取高额管理服务费用的客户。
(一)数据获取
为了对模型进行验证,选择某商业银行的2014年1月和2月到期的信用卡数据,随机挑选了403张信用卡的用户信息,并从受到监控被降额的信用卡中随机挑选了50张风险信用卡的用户信息,然后提取了以上453张卡片两年的交易明细数据(2012年1月1日—2013年12月31日)作为分析的数据。
获取的信用卡持卡人交易明细数据中,与本研究有关的字段及说明如下:
根据借贷方向代码和交易描述字段,可以判断一项交易是否为信用卡消费交易。本研究对借贷方向代码为1(支出)的交易数据的交易描述(交易类型)字段进行了汇总,发现以下交易描述不属于消费类型的交易:
表1 信用卡持卡人交易明细数据中的相关字段及说明
ATM取款、柜面取款、跨行取款、转账、自助转账、ATM转账、POS转账、网上银行转账、代理业务转账、表内转表外、透支利息、冲减利息、滞纳金、冲减滞纳金、扣收滞纳金、分期付款到期扣款(分期付款扣款)、提前还款、年费扣收(年费及批量换卡费)、个人普通卡年费、个人账户转账、个结、个人同城汇款、购汇还款、收卡、挂失止付。
将以上交易类型的数据排除后,剩余的交易类型均是信用卡消费交易,这些交易的交易描述如下:网上银行消费、跨行消费、POS消费、预授权确认、自助消费、支付宝、预授权确认(跨行)、消费、跨行支付手续费、自驾定金、境外消费、费用、缴罚、PP卡收费、高速罚款、POS充值、订购消费。
在借贷方向代码为1的交易数据中,把交易描述为透支利息、冲减利息、滞纳金、冲减滞纳金、扣收滞纳金等的数据确定为拖欠金额统计数据,因为获取的数据中冲减利息和冲减滞纳金的入账金额用负号表示,因此在统计时不需另外处理。
从获取的卡信息数据中,包含每一个信用卡的信贷额度数据。在判断信用卡的交易行为是否疑似套现交易时,本研究没有采用满额度消费判断的方法,而是只要一个信用卡当月的消费交易金额超过了信贷额度的90%,认为该卡存在疑似套现的问题,并将涉及的金额作为疑似套现金额进行统计。
在经过以上处理后,对信用卡消费交易数据进行进一步处理,分别计算了每个信用卡持卡人的最近消费时间(Recency)、消费频率(Frequency)、总消费金额(Monetary Value)、拖欠总金额(Default Value)和疑似套现总金额(Arbitrage Value)五类数据。按照RFMDA模型的持卡人五类特征值数据生成的方法,生成了每一个持卡人的五个特征值,其中R、F和M三个特征值的取值为{1,2,3,4,5} ,D和A两个特征值的取值为{0,1,2,3,4,5}。
(二)RFM模型实验
为了证明传统的RFM模型在信用卡细分客户方面的缺陷,本研究以信用卡持卡人的R、F、M值为特征,调用K-means++算法进行了聚类。在这个细分中,不考虑客户的风险,将453名持卡人划分为高价值客户、中价值客户和低价值客户。在执行K-means++算法时,设聚类簇数k=3,将所有信用卡持卡人聚为3簇。聚类结果见表2,表中的R、F和M分别对应了三个簇的聚类中心特征值。
表2 RFM模型三类簇的中心特征值
按照RFM模型的数据处理方法,R、F和M越高,对应的客户价值越大,因此簇1聚类中心的特征值在三个簇中相比最低,RFM值都在1—1.4之间,代表了低价值客户;簇0聚类中心的特征值在三个簇中居于中间水平,RFM在2.7—3.2之间,代表了中价值客户;簇2聚类中心的特征值在三个簇中居于最高水平,RFM值在4.0—4.5之间,代表了高价值客户。本研究对各个簇包含的客户数量及包含的风险客户数量进行了统计,统计结果见表3。
表3 RFM细分模型实验中各类持卡人的数量及包含的风险客户数量
高价值类别持卡人数量共159名,50名已监控确定存在风险的持卡人中的43名(86%)被划分到该类别中,这些存在风险的持卡人占整个高价值持卡人的27.4%。中价值持卡人共171名,剩余的7名监控确定存在风险的持卡人则都被划分到该类中,占整个中价值持卡人的4.09%。低价值类别持卡人数量共123名,没有一个风险卡被划入低价值类别中。可以看出,如果不考虑风险因素,按照RFM模型进行持卡人细分,则大多数风险持卡人(86%)会被划入高价值持卡人类别中,风险持卡人几乎不会被划分到低价值持卡人类别。如按照这样的结果进行细分,不但可能造成银行营销资金的浪费,而且有可能造成很大的损失。进一步,本研究对三个聚类簇的纯度和整体聚类纯度进行了计算,结果见表4。
表4 RFM模型聚类效果的评价
可见,低价值和中价值持卡人类簇的纯度较高,分别为100%和95.90%,但高价值持卡人类簇的纯度只有72.96%,整体的聚类纯度为88.96%。
(三)RFMDA模型实验
以信用卡持卡人的R、F、M、D、A五类数据为特征值,调用K-means++聚类算法对持卡人进行划分。这里要按照价值的高中低和风险的高中低将持卡人划分为9类,设置聚类数量K=9,聚类后得到9个簇,各簇代号及聚类中心的5个特征值见表5。
表5 RFMDA模型聚类结果
按照五类特征值的定义方法,R、F和M三个特征值越高,持卡人的价值越大,反之价值越小;D和A两个特征值越高,则持卡人的风险越高,反之风险越低。通过各聚类中心的特征值,发现簇0、4和7的RFM值相比来说比较高,其中R值位于3.75—4.1之间,F值位于4.1—4.5之间,M值位于3.5—4.9之间,可以把这三个簇的持卡人认为是高价值客户。在这3个簇中,簇4的D值和A值相比较高,其中D值大于4.5,A值大于4.1,因此可以认为簇4为“高价值-高风险”持卡人;簇0的D值和A值居于中间,其中D值虽然小(0.21428571),但A值很高(4.41071429),因此簇0划分为“高价值-中风险”类持卡人;簇7的D值和A值均很低,划分为“高价值-低风险”类持卡人。基于类似的分析,可以把簇1、3和5划分为中价值类持卡人,再根据D和A指示的风险情况,把簇3划分为“中价值-高风险”类别,簇5划分为“中价值-中风险”类别,簇1划分为“中价值-低风险”类别。最后把簇6划分为“低价值-高风险”类别,簇8划分为“低价值-中风险”类别,簇2划分为“低价值-低风险”类别。需要说明的是簇6和簇8的划分需要根据银行的管理准则,因为拖欠行为是已知风险,而疑似套现是潜在风险,如果银行更关注已知风险,则会因为簇6的D值高(3.2962963)将该簇划分为高风险,而把簇8划分为中风险类别;如果银行更关注潜在风险,则会因为簇8的A值高(3.04255319)将该簇划分为高风险类别。这里采用的是前者,即重视已知风险。经过这样的划分后,各个簇对应的信用卡持卡人类别如下(表6):
表6 RFMDA细分模型信用卡持卡人分类及对应的聚类号
本研究对各个类别下的信用卡持卡人数量以及每个类别中已经确认监控风险的持卡人数量进行了统计,计算了风险卡在持卡人类别中的占比,以及各类别中风险卡占总风险卡的比例,结果见表7。
表7 RFMDA细分模型各类持卡人的数量及包含的风险客户数量
可以看到,风险卡没有1个被划分到低风险的类别中,大多数的风险卡被划分到“高价值-中风险”类别(31张,占比55.36%)和“高价值-高风险”类别(12张,占比42.86%),剩余的风险卡有5张被划分到“低价值-中风险”类别,1张被划分到“中价值-高风险”类别,1张被划分到“中价值-中风险”类别。这样的细分综合考虑了持卡人的价值和风险,为商业银行的管理提供了有用的信息,可以有效地避免将高风险持卡人单纯划分为高价值类别带来的营销损失和潜在的风险。
同样,为了和RFM模型实验结果进行对比,本研究对这9个聚类簇的纯度和整体聚类纯度进行了计算,结果见表8。可见,除了“高价值、高风险”和“高价值、中风险”的类簇纯度较低外,其他类簇的纯度较高。整体聚类纯度为90.29%,和RFM模型相比,纯度得到了提升。
表8 RFMDA模型聚类效果的评价
本研究的创新之处在于利用信用卡客户消费数据构建了一个融合客户价值和风险因素的信用卡持卡人细分模型。提出的模型以RFM价值评估模型为基础,将信用卡持卡人的逾期风险和套现风险作为细分变量引入,构建了RFMDA细分模型。为了对信用卡持卡人进行细分,研究选取了信用卡持卡人的5类交易数据,即最近消费时间(Recency)、消费频率(Frequency)、总消费金额(Monetary Value)、拖欠总金额(Default Value)和疑似套现总金额(Arbitrage Value),经过处理后形成信用卡持卡人的5类交易特征,采用K-means++算法进行聚类,根据每个聚类簇的质心的交易特征确定所代表的信用卡持卡人类别,按照持卡人的价值高、中、低和风险高、中、低,将持卡人分为9个细分类别,为商业银行对不同类别的信用卡持卡人开展市场营销策略提供依据。
通过将RFMDA模型与RFM模型进行对比,发现在不考虑风险因素时,RFM价值评估模型会将大多数风险卡划分到高价值持卡人类别中,给商业银行的管理带来威胁,可能给经营带来很大的损失。而考虑风险因素的RFMDA模型则将大多数风险卡划分到高价值-中风险和高价值-高风险类别中,未将风险卡划分到低风险类别中,这为银行开展有效的营销活动提供了有用的信息,能有效地防范风险。
但是本研究同样也存在一些缺陷,首先为了简便处理,本研究在价值和风险维度上只采用了高、中、低三级分类,并没有进行更细致的划分。其次在持卡人的风险上,本研究只考虑了逾期风险和套现风险,没有考虑别的风险,而且逾期拖欠风险、疑似套现交易采用了较简单的判定方法,没有采用其他的方法进行对比研究。另外,在数据处理上,没有考虑到持卡人消费后退货退款的情况,对一些数据进行了简单化处理。这些缺陷也是后续研究对模型和方法进行改进的方向。
[1]Saunders A,Ailen L.Credit Risk Measurement: New Approaches to Value at Risk and other Paradigms [M].USA:John Wiley&Sons,1999.
[2]Duman E,Atiya A.Using Social Networks for On-line Credit Card Fraud Analysis[J].Use of Risk Analysis in Computer-Aided Persuasion,2011,88:60.
[3]Subashini B,Chitra K.Enhanced System for Revealing Fraudulence in Credit Card Approval[J].International Journal of Engineering,2013,2(8).
[4]陈明亮,李怀祖.客户价值细分与保持策略研究[J].成组技术与生产现代化,2001,18(4):23-27.
[5]陈静宇.客户价值分析与客户价值细分模型研究[J].生产力研究,2007,(16):60-61.
[6]贺昌政,孔力.基于CLV要素的信用卡客户细分模型[J].统计与决策,2013,(11):183-185.
[7]邹鹏,莫佳卉,江亦华,等.基于代价敏感决策树的客户价值细分[J].管理科学,2011,24(2):20-29.
[8]刘朝华,梅强,蔡淑琴.基于RFM的客户分类及价值评价模型[J].技术经济与管理研究,2012,(5):33-36.
[9]王娜.基于相关度关联分类算法的信用卡客户细分模型研究[D].杭州:浙江工商大学,2010.
[10]陈为民,张小勇,马超群.基于数据挖掘的持卡人信用风险管理研究[J].财经理论与实践,2012,33(179):36-40.
[11]蒋庆军.信用卡客户分类探析[J].中国信用卡(专业),2009,(7):43-45.
[12]周洋.数据挖掘技术在检测信用卡套现上的应用[J].企业导报,2009,(5):189-190.
[13]姜盛.基于Logistic的信用卡套现侦测评分模型[J].计算机应用,2009,29(1):3088-1091,2095.
[14]岳东学.信用卡套现行为剖析及防范对策[J].金融科技时代,2012,(4):91-92.
(责任编辑:贾伟)
1003-4625(2014)09-0023-06
F832.479
A
2014-07-25
杜云生(1969-),男,河南叶县人,博士研究生,高级工程师。