商业银行视角下小微企业区域性信用风险研究

2019-01-04 07:39

新商务周刊 2018年23期

1 引言和文献综述

当今，商业银行业务正在遭受着众筹、第三方支付、P2P等互联网金融形式的冲击。从现在银行的信贷数据显示，目前商业银行不良贷款核销每年都是在大量增加。违约金额极其惊人，尤其是小微企业贷款违约情况严重。其违约情况还具有一定的空间效应，因此对小微企业的区域性信用风险研究是极其重要。若充分利用银行丰富的数据资源，将实现商业银行区域性风险管理上的经济价值。

现有文献中，关于商业银行视角下小微企业的信用风险的研究，并没有涉及区域性因素。在这些文献中排除区域性因素外，有学者认为：商业银行小微企业信贷风险源自两个方面，一方面企业角度，另一方面银行角度（宋华苗凤，2018）。还有学者认为选取财务状况、经营状况、管理者个人素质状况和行业及区域发展状况四个维度构建小微企业信贷风险评价指标体系（胡心瀚等，2012）。

综上，本文将基于区域性信用风险研究的角度，结合银行内的小微企业的大数据，并对样本进行非平衡数据处理，基本达到平衡状态，以法人是否违约作为分类变量，用随机森林的方法对变量进行重要性评分排序，同时进行变量筛选，增加本文参数选取的精确性。再根据筛选后结果，建立区域性信贷风险评估的Logistic模型，挖掘影响小微企业违约的因素。

2 数据收集及处理

2.1 数据来源

我国商业银行一直以“吸收存款，发放贷款，获得利差”为主要盈利模式，但是随着现阶段国内金融界各种违约事件的频发，如何降低贷款违约风险成为现阶段学术界的研究热点。本文的数据来源于国内A商业银行提供的小微企业法人贷款详情，总计4452条，包含年龄、A行服务年数、是否贵宾卡客户、是否网银客户、是否理财客户、介质数量、贷前6个月月均贷方发生额等14个变量，具体见表1，其中关于变量“客户所属地区”，本文基于样本划分了3个水平，即低违约率地区、中违约率地区以及高违约率地区。低违约率地区为：杭州、绍兴和宁波；中违约率地区为：金华、舟山、嘉兴、丽水以及湖州；高违约率地区为：台州、温州和衢州。

表1 数据基本情况

2.2 数据预处理

本文收集的客户有效数据共计4452条。同时，由于13个自变量之间数量级差别太大，我们对贷前6个月月均贷方发生额、贷前6个月月均贷方发生笔数、贷记卡最近6个月平均使用额度、贷款最近6个月平均应还款这4个变量采取取对数的办法进行规范化处理。

3 基于不平衡样本的区域性信用风险评估实证分析

3.1 基于SMOTE算法的非平衡数据处理

在本文收集的数据中，存在违约现象的法人客户信息为200个，非违约法人客户数据为4252个，属于非平衡数据。由于类别的分布是不均衡的，传统的数据挖掘算法在处理这类数据时偏向于数据量偏大的一类，对数据量偏少的类别关注比较少（柳向东和李凤，20 16）。在银行信贷业务中，这类数据比较常见，基于A银行的客户样本数据，本文采用R语言进行非平衡数据处理，具体函数参数设置如下：少数类（违约客户数）N=200，多数类（未违约客户数）M= 42 52，向上采样的倍率取n= 10，向下采样的倍率 m= 1，用于产生新的少数类样本的最近邻数量 k= 10，平衡后的数据集中的少数类为2000个，多数类为2200个，基本达到平衡状态，运用于后续建立模型效果最好。

3.2 基于随机森林的变量筛选

本文以法人是否违约作为分类变量，用随机森林的方法对变量进行重要性评分排序，同时进行变量筛选。基于现有文献（徐婷婷，2017；吴金旺和顾洲一，2018），笔者发现：树的棵树（ntree）设置为500具有一定的客观性，图1也验证了本文参数选取的精确性。

图1 ntree的选取

3.3 区域性信贷风险评估的Logistic模型

本文将贷款最近6个月平均应还款、贷记卡额度占用率、贷款日前6个月存款日均3个变量进行了多元共线性分析，发现3个变量间并不存在明显的多重共线性（方差扩大因子VIF均显著小于5），即笔者认为可以选用贷款最近6个月平均应还款、贷记卡额度占用率、地区、贷款日前6个月存款日均这4个变量作为建立Logistic模型中的指标。

表2 参数估计结果

回归系数为正的时候，表示变量每增加一个单位值时，客户违约发生率会相应增加。当回归系数为负的时候，说明每增加一个单位时违约发生率会减少。从Logistic模型结果发现：（1）客户贷款日前6个月存款日均越大，则该客户违约的概率越小，即在其他变量不变的前提下，该变量每增加一个单位，违约概率降低9%。（2）客户贷款最近6个月平均应还款越大，则该客户的违约概率越大，即在其他变量不变的前提下，最近6个月平均应还款每增加一个单位，违约概率约增加62%。客户贷款最近6个月平均应还款大，客户还款的资金压力就会增加，违约概率越大。（3）贷记卡额度占用率越高，则用户的违约概率越大，即即在其他变量不变的前提下，该变量每增加一个单位，违约概率增大13%.（4）研究发现，第二类地区的违约概率要明显高于第一类地区，而第三类地区发生违约事件的概率也明显高于一、二类地区。

4 结论与展望

随着商业银行业务不断发展和数据规模的不断増加，商业银行的风险管理工作难度也不断提高。要想在激烈的市场竞争中有立足之地，商业银行必须拥有良好的信用风险管理能力。通过大数据建立的小微企业区域性信用风险评估模型，无论对传统金融机构，还是互联网金融机构，在授信审批、征信多元化、以及区域风险预警等方面，都有着广泛的应用前景。

本文采用R语言进行非平衡数据处理，基本达到平衡状态，运用于后续建立模型效果最好。本文以法人是否违约作为分类变量，用随机森林的方法对变量进行重要性评分排序，同时进行变量筛选，增加本文参数选取的精确性。再根据筛选后结果，建立区域性信贷风险评估的Logistic模型。同时，模型能在风险系数较高的区域中识别出信用能力好的企业。商业银行可以基于此模型的运行机制，结合大数据＋小数据的判断模式，采取可行性的放贷方案。