信用评分模型在小贷公司中的运用研究

2017-09-20 08:30陈亮
时代金融 2017年16期

【摘要】本文以中国西南地区个人小额信贷真实数据样本为基础,通过建立申请信用评分模型,探讨小贷公司风控政策量化的可行性以及信用评分模型对中国中低收入人群的实用性。

【关键词】小贷公司 信用评分 logistic回归

引言

至2008年中国银行业监督管理委员会、中国人民银行颁布《关于小额贷款公司试点的指导意见(银监发〔2008〕23号)》以来,国内小贷公司迅速崛起,贷款余额逐年稳步提升。小贷公司以服务广大微小企业、中低收入人群为宗旨,已成为我国多层次金融体系中不可或缺的一环。

小额贷款业务金额小、笔数多,目前国内机构多采取“信贷工厂模式”进行运作,其特点是“人海战术”、“大数定律”,即依靠大量销售人员进行扫楼式营销,又配比相应风控人员进行准入审核,风险控制主要特点是不断扩大贷款余额,以减小逾期、不良率。此运营模式的症结在于人力成本奇高,经营效率相对低下,而风控效果完全取决于风控人员的个人经验,主观性较大,缺乏对整个市场客群的全面判断和对客户的标准画像,因此风险常常处于不可控之中。2014年下半年以来,随着国家宏观经济调整,小微企业生存环境恶化,以之为主要客群的小贷公司经营也举步维艰,贷款余额增速明显放缓,2015年3季度迎来拐点,贷款余额下降趋势开始显现,如图1所示。

与小贷行业的“瓶颈期”境遇不同,互联网金融、消费金融公司等新兴业态依靠大数据和先进的风控技术,采取“线上申请、自动审批、快速放款”运作模式,逆势蓬勃发展,赢得了市场的认可,其依赖的关键技术便是信用评分模型。信用评分模型运用现代数理统计技术,通过对信贷客户信用历史记录和业务活动记录的深度数据挖掘、分析和提炼,发现蕴藏在纷繁复杂数据中,反映信贷申请者风险特征和预期信贷表现的知识和规律,并通过评分的方式总结出来,作为管理决策的科学依据[1]。早期,国内信用评分模型主要应用于银行信用卡领域,原因在于银行信用卡用户数量庞大、而金额相对较少,且银行拥有完善的数据库系统、标准化的数据结构及字段,再加上银行系都能接入央行征信系统,模型的建立有着完备的物质基础。2010年前后,随着一大批海归金融从业者转战国内普惠金融市场,信用评分模型应用逐渐普及。以P2P为代表的互联网金融有着天然的技术基因,随着网络技术的不断升级,在客户数据获取方面优势明显;消费金融公司多数有着银行背景(如:北银消费金融、中银消费金融)或有着较强的产业背景(如:马上消费金融,海尔消费金融),可借鉴的历史客户数据存量本就庞大,所以也有着评分模型建立的物质基础。反观小贷,08年国家政策放开后,一度野蛮生长,却忽略了技术与人才的沉淀,采取粗放式的运营模式,再加上客群质量普遍较差,数据库建设滞后,鲜有小贷公司建立信用评分模型,并加以应用,因此在这方面国内的研究处于空白状态。本文以实证的方法,基于西南地区个人小额信贷真实数据样本,借助R语言平台,建立logistic回归模型,并建立申请信用评分卡,以验证小贷公司风控政策量化的可行性以及信用评分模型对中国中低收入人群的实用性等问题。

二、数据获取和清洗

數据样本取重庆地区某小贷公司2015年9月~2017年3月的部分业务数据,共计6581条;取审批通过的且有人行征信的,共计1804条。样本选取时间是2017年4月,所有客户表现期均在1月以上。由于获取样本数量的局限和方便数据处理等原因,特定义本模型的表现期为1月,坏客户定义为:任何逾期客户。

剔除掉缺省过多,或无法建模的字段,或不适用于申请信用评分建模字段,按需建立衍生类字段,建立数据集市字段如表1所列。

按照7:3的比例随机选择1263条样本作为训练样本,剩下540条样本作为检验样本。

三、模型学习

利用条件推断树函数smbinning对连续变量离散化处理并分箱,从决策树的原理可知,“无法分箱”的变量无预测能力,因此删除,分箱结果见表2。

对剩余变量进行woe转换,转化公式如下所示:

根据各变量的WOE值,发现有些WOE值出现无穷大,对变量不合理分箱进行临近分段合并。

然后进行person相关性分析,计算公式如下所示:

找出中等以上相关(correlation≥0.3)变量,见表3。

算出各变量的信息值,计算公示后如公式(3)所示:

对相关性较强的变量,为避免多重共线性,去掉信息值较小的或大于0.5的变量,见表4。

从图中可知,fend和estates的woe图形不符合经济规律,或有一定虚假成分,在后续回归中应该去掉;eductation从5开始不符合经济规律,尝试把5和4合并后,重新画图,如图3所示,随着学历的升高,坏客户概率相应降低,符合经济规律。

建立logistic回归模型,其中P为好客户的概率,Xi为自变量,βi为回归系数,如下所示:

通过逐步回归,排除了不显著变量cddraw_cddebttoltal,最终得到如下回归结果,其中sex(性别)、addr(住址)、incometype(收入发放形式)、cdcredit(信用卡总授信额度合计)、cdholdmob(信用卡最长持卡月数)、cdexpnum12(信用卡近12月现1上次数)、inquirynum6(近6个月累计查询数)在0.05水平以内显著,见表6。

Signif.codes:0‘***0.001‘**0.01‘*0.05‘.0.1‘

利用方差膨胀因子VIF检查各参数的共线性,计算公式如下所示,其中Ri为复相关系数:

经检验,所有参数的方差膨胀因子均小于5,表明模型不存在多重共线性。

下面,进行评分卡刻度的设定,设优比Odds{60:1}时的分值为600,PDO=20,算出B=28.85,A=481.86计算公式如下所示:endprint

用公式(7)进行评分卡的分值分配,其中Wij第i个变量第j个取值的证据权重;δij是二元变量,表示变量i是否取第j个值。

最终得到标准评分卡,见表7。

四、模型检验

(一)分数分布

根据训练样本及检验样本的直方图,发现波峰均向左偏移,表明客群质量总体偏差,与现实情况相符合,见图4。

(二)模型拟合

画出训练样本及检验样本的拟合曲线,训练样本和检验样本曲线基本重合,随着信用评分的升高,坏客户占比逐渐走低,符合预期规律,见图5。

(三)模型区分度

由训练样本的区分图可知,模型有一定区分能力;但检验样本量过小,区分度不明显,见图6。

(四)K-S统计量

训练样本K-S统计量为0.335,在0.3~0.5可接受范围内,而检验样本K-S统计量仅为0.237,低于可接受水平,见图7。

(五)Gini系数

训练样本Gini曲线明显下凹,Gini系数为0.444,在0.4~0.6可接受范围内,而检验样本Gini曲线相较平缓,系数仅为0.296,低于可接受水平,见图8。

五、结论

本文以实证的方法,基于中国西南地区个人小额信贷真实数据样本,建立申请信用评分模型,以验证小贷公司风控政策量化的可行性以及信用评分模型对中国中低收入人群的实用性等问题。从模型的logistic回归结果看,sex(性别)、addr(住址)、incometype(收入发放形式)、cdcredit(信用卡总授信额度合计)、cdholdmob(信用卡最长持卡月数)、cdexpnum12(信用卡近12月现1上次数)、inquirynum6(近6个月累计查询数)等7个变量在0.05水平以内显著,另4个变量在0.1水平内显著;从最终模型的检验效果看,模型分数分布符合现实情况,模型表现符合经济规律,训练样本各项验证指标均在可接受范围内,模型具备一定的预测能力。

从实证的结果看,相比银行、消费金融公司,虽然小贷公司客群整体质量偏差,比如中国西南地区低收入人群,但信用评分技术仍然适用,仍能通过申请人个人历史信息提炼出有价值的信息,对信贷的准入决策提供量化依据。这为小贷公司的技术升级提供了可行性依据。实践中,小贷公司可根据自身业务特点,统一数据库字段结构,做好客户数据的积累;另外,针对逾期客户,应根据自身风险容忍度及催收表现制定“好”、“坏”的劃分标准,以为后续信用评分模型的建立奠定物质基础。

当然,本文研究中部分问题还有待进一步解决,如:由于检验样本不足,导致检验样本区分度不佳,K-S、Gini等各统计指标低于理想水平,对模型的表现提出质疑。笔者将在后续研究中,不断积累样本数据,进行反复验证,待样本数据积累到一定程度后,重新建模进行验证,以求得更可靠结果。

参考文献

[1]陈建.信用评分模型技术与应用[M].北京:中国财政经济出版社,2005.

[2]Mamdouh Refaat.信用风险评分卡研究基于SAS的开发与实施[M].北京:社会科学文献出版社,2013.

[3]王济川,郭志刚.logistic回归模型——方法与应用[M].北京:高等教育出版社,2001.

[4]徐毅,陈丽萍主编.统计建模与R软件[M].北京:清华大学出版社,2006.

作者简介:陈亮(1983-),男,汉族,重庆渝中区人,毕业于重庆大学经济与工商管理学院,硕士,任职于重庆汇金小额贷款有限公司,金融研究员,研究方向:普惠金融。endprint