基于主成分分析法的Logistic回归信用卡管控模型

2017-01-21 01:01杨金英贾茹

呼伦贝尔学院学报 2017年4期

杨金英贾茹

（呼伦贝尔学院数学与统计学院内蒙古海拉尔 021008）

1.研究背景

中国的信用卡业务始于20世纪70年代末，在 1979年中国银行开展代办外资银行信用卡业务。1985年，中国银行发行了中国第一张信用卡。21世纪，中国信用卡业务进入迅速发展阶段，随着移动互联网的迅速崛起，尤其是移动互联技术的快速发展和广泛应用，为信用卡业务提供了前所未有的机遇，也带来了新的挑战。

一方面，中国信用卡业务发展迅猛。近期，由中国银行业协会银行卡委员会撰写的《中国银行卡产业发展蓝皮书（2016）》[1]（以下简称《报告》）正式对外发布。《报告》显示，2015年，银行卡产业仍旧在复杂的环境和形势下继续保持向前发展。2015年，我国银行卡累计发卡量达56.1亿张，较上年增长12.9%；累计活卡量为36.9亿张，比上年增长9.8%；人均持卡量为4.09张；交易金额为1420.8万亿元，比上年增长86.9%；交易笔数达852.3亿笔，比上年增长43.1%。我国银行卡交易总额占全国社会消费品零售总额的比重为48%，较2014年提高0.3个百分点。信用卡持卡数不断增加，中小城市占比逐渐上升，我国信用卡市场发展前景可观。

另一方面，信用卡风险问题也逐渐显现，如市场管理风险，个人诚信信用风险、资金流动风险等。尤其是信用卡作为无担保的信用贷款金融产品，虽然贷款基于消费，且基本为小额，但客户群体众多，审核手续简单，在银行对客户信息收集、信息筛选中都面临不对称信息问题。同时，由于客户收入变化，或是恶意拖欠，会造成较大的信用风险。即使存在有效的风险监控机制，事后逾期催收手段，也同样会面临较高的交易成本，严重影响了银行利润。据统计，信用风险所造成的损失占商业银行信用卡业务风险损失的 90%，因此信用风险是造成信用卡业务资产损失的主要原因，商业银行在开展信用卡业务时必须有效控制信用风险，从理论上、实践中对信用风险进行识别、计量是十分必要的。

因此，商业银行信用卡业务应从粗放型发展向集约型发展转变，提高系统有效评估风险，有效控制风险水平，保持信用卡业务健康可持续发展。本文基于银行信用卡客户分类特性，构建信用卡风险评价体系，用以判断客户的违约风险，同时构建银行风险评价模型，有效识别了潜在信用卡资产质量和坏账风险问题。

2.风险识别与模型建立

2.1数据选取与清洗

本文样本来自某银行信用卡交易数据，包含信用卡顾客编号、申请书来源、瑕疵户、逾期、呆账、借款余额、退票、拒往记录、强制停卡记录、张数、频率、户籍、都市化程度、性别、年龄、婚姻、学历、职业、个人月收入、个人月开销、住家、家庭月收入、月刷卡额、宗教信仰、人口数、家庭经济、血型、星座等诸多变量，各记录共计 65535 条，数据量适合、数据种类丰富，适合选为样本。

在数据预处理中发现两类不合逻辑的数据。一类为使用信用卡的频率为零（变量频率的取值为5），但刷卡金额大于2000 的记录，共发现2698条数据；另一类为个人月收入大于家庭月收入的记录，该类信用卡数据 4624 条。我们首先将这两类不合逻辑的数据进行删除。对剩余的 58213条数据进行分析建模工作。

2.2指标的选择和确定

要想将客户分类，首先要明确客户类型，识别出哪些是高风险客户，哪些是禁入客户。由于对于高风险客户的并没有一个明确的定义，所以本模型引入一个新的变量[4]：违约与否，数据类型为布尔型，以作为模型预测的因变量。

利用SPSS21.0软件将数据导入之后，先做“瑕疵户”、“呆账”、“逾期”、“强制停卡记录”、“拒往记录”、“借款余额”、“退票”7个变量的相关性。得到结果如下：

表2-1 相关矩阵

从表2-1的相关矩阵中可以看出变量相互间的强相关性。所以我们可以通过主成分分析从表2-1中的变量提取出新的变量——违约与否。

接下来，将“瑕疵户”、“呆账”、“逾期”、“强制停卡记录”、“拒往记录”、“借款余额”、“退票”7个变量输入到分析变量框，进行主成分分析。得到结果如下：

表2-2 解释的总方差

表2-3 成份得分

从表2-2和表2-3的主成分分析的结果中可以看出，第一主成分（简记为PCA1）已经能够解释87%以上的变异，且在PCA1上，7个变量的反映各自重要程度的主成分得分大小相近，以“强制停卡记录”最大（0.16），瑕疵户最弱（0.127），这也符合个变量的客观定义。所以，我们提取PCA1作为目标综合变量即新的变量——违约与否，并根据主成分得分对其重新编码，将PCA1>0的客户视为非违约户并取值为1，PCA1<0的客户视为违约户并取值为0。之后计算主成分得分判断哪些是违约用户，哪些不是非违约用户。以上就是定义违约与否用户的分析过程。

2.3风险识别建模

风险识别建模的整体思路为：

数据初步分析，了解新设变量“违约与否”与各变量之间的关系，作为建立评分模型的参考；判断用户是否违约，利用主成分载荷矩阵与主成分得分系数矩阵判断；.求得非违约概率，运用二元 Logistic回归分析来计算每位用户的非违约概率P；计算KS值[5]，在求得了每位客户的非违约概率后银行可以根据自身所能承担的风险状况来决定适当的概率分割点，作为客户的是否发放信用卡的标准。

2.3.1基于SPSS21.0的Logistic回归模型

（1）数据初步分析

将各变量与变量“违约与否”利用 SPSS21.0进行交叉分析与独立卡方检验，以初步了解“违约与否”与各变量之间的关系，作为建立评分模型的参考。

在卡方检验中，结果的统计学意义是结果真实程度（能够代表总体）的一种估计方法。P值为结果可信程度的一个递减指标，P值越大，则越不能认为样本中变量的关联是总体中各变量关联的可靠指标。P值是将观察结果认为有效即具有总体代表性的犯错概率。

由附录一中的各变量与“违规与否”的独立卡方检验可以看出，除了变量“都市化程度”χ2检验的显著水平（0.136）高于0.05以外，其余变量χ2检验的显著性水平均小于0.01。故变量“违约与否”与除“都市化程度”以外的剩余变量都存在依赖关系，这些变量都会影响客户的违约情况。

（2）判断用户是否违约

根据2.2的分析，可以得到以下结果。主成分载荷矩阵与主成分得分系数矩阵如下：

表2-4 成份矩阵

表2-5 成份得分矩阵

在得到上面两个表的同时，SPSS21.0软件已经在原来的数据中生成了因子得分，接下来根据公式：

主成分得分=因子得分*主成分方差的算术平方根[6]

得到了每个客户的主成分得分之后判断用户是否违约，如果该主成分得分大于0，该客户不违约，并将数值记为1，如果主成分得分小于0，该客户违约，并将数值记为0；将数据计入原始表中。

（3）求得非违约概率

采用逐步回归法选择对模型影响较大的变量和剔除影响较小的变量。分析结果如下：

① 归模型方程及分析

表2-6 参数估计

[住家=6][家庭月收入=0][家庭月收入=1][家庭月收入=2][家庭月收入=3][家庭月收入=4][家庭月收入=5][家庭月收入=6][月刷卡额=1][月刷卡额=2][月刷卡额=3][月刷卡额=4][月刷卡额=5][月刷卡额=6][月刷卡额=7][月刷卡额=8][宗教信仰=1][宗教信仰=2][宗教信仰=3][宗教信仰=4][宗教信仰=5][宗教信仰=6][宗教信仰=7][人口数=1][人口数=2][人口数=3][人口数=4][人口数=5][人口数=6][人口数=7][人口数=8][家庭经济=1][家庭经济=2][家庭经济=3][家庭经济=4][家庭经济=5][血型=1][血型=2][血型=3][血型=4][星座=1][星座=2][星座=3][星座=4][星座=5][星座=6]0b 0b.298-.681-.948 0b 0b 0b-1.804-2.146-1.888-1.905-2.594-2.729-2.539 0b.815 1.179.987 1.729-.456.522 0b 18.896 17.435 17.093 17.218 17.193 17.248 17.398 0b 1.134 1.509 1.148.513 0b-.323-.864-1.670 0b.960-.464.010.034.694-.135...186.185.203....127.118.115.116.122.130.138..060.072.124.126.160.060.457.905 457.905 457.905 457.905 457.905 457.905 457.905..106.095.087.092..035.041.132..073.098.082.081.072.088..2.577 13.566 21.888...202.327 331.579 268.303 271.177 454.559 437.699 338.737.182.057 269.486 63.302 188.425 8.128 75.285..002.001.001.001.001.001.001.115.284 251.809 175.532 31.171.85.478 447.411 158.888.171.820 22.262.014.176 92.019 2.367 0 0 1 1 1 0 0 0 1 1 1 1 1 1 1 0 1 1 1 1 1 1 0 1 1 1 1 1 1 1 0 1 1 1 1 0 1 1 1 0 1 1 1 1 1 1...108.000.000....000.000.000.000.000.000.000..000.000.000.000.004.000..967.970.970.970.970.970.970..000.000.000.000..000.000.000..000.000.907.675.000.124..1.348.506.387....165.117.151.149.075.065.079.2.260 3.251 2.682 5.636.634 1.686.160913465.561 37308498.330 26505243.897 30052096.589 29306940.455 30964717.016 35945462.798.3.109 4.521 3.151 1.671..724.422.188.2.611.629 1.010 1.035 2.002.873...936.352.260....128.093.121.119.059.051.060.2.007 2.824 2.104 4.403.463 1.498..000.000.000.000.000.000.000.2.527 3.752 2.659 1.395..676.389.145.2.262.519.860.882 1.737.735..1.940.727.576....211.147.190.187.095.084.103.2.544 3.742 3.420 7.215.867 1.897..c.c.c.c.c.c.c.3.824 5.447 3.735 2.000..775.457.244.3.014.763 1.186 1.213 2.307 1.038

[星座=7][星座=8][星座=9][星座=10][星座=11][星座=12].780.084.777.875.383 0b.072.083.073.069.077.118.876 1.029 113.208 161.991 24.757.1 1 1 1 1 0.000.310.000.000.000.2.182 1.088 2.175 2.400 1.467.1.897.925 1.885 2.097 1.261.2.511 1.279 2.510 2.746 1.706.

表2-4所列数据是逐步回归Logistic回归模型的估计结果。接着我们将附件中所有对应的项改为表2-6中的B值，将截距与每个客户对应变量的数值相加得到每位客户的Y值。

②模型参数显著性检验

采用了似然比检验[8]，似然比检验通过比较包含与不包含某一个或者几个待检验观察因素的两个模型的对数思然函数值得变化来进行。检验结果如表2-7所示：

表2-7 似然比检验

表2-8 模型拟合信息

由表2-7可以看出，Sig值远远小于5%的显著性水平，则应拒绝零假设。因此该模型中的所有回归系数不同时为0，全体自变量与因变量的线性关系显著。

（4）计算k值

利用Logistic模型来构建信用评分模型。我们已经球得了每一个客户的非违约概率，之后银行可以根据自身所能承担的风险状况来决定适当的概率分割点，作为客户的是否发放信用卡的标准。我们通过计算最大的 KS值来获得模型的最适分割点。KS值是由Logistic模型估计得到全体样本的非违约概率值后，违约户的累计百分比减去非违约户的累计百分比所得到的绝对值，计算方法如下：

KS=|违约户累计百分比-非违约户累计百分比|

KS值越大表示违约户和非违约户的累计百分比在该分割点或区间的差异越大，该分割点或区间就能有效地分辨出客户违约风险高低，故可以来决定最适分割点，以判断禁入类用户和高风险类客户。计算结果如表2-9，累积百分比如图2-1所示：

表2-9 非违约概率分布表

图2-1 累积百分比

从表2-9可以发现，KS达到最大值0.551612的非违约概率区间为[0.15,0.2]，因此本模型设定0.155为信用评分模型的最适分割点C。

综上所述，当判断出该客户为违约用户后，如果该客户的P值小于或等于0.155，则银行可以直接拒绝发放信用卡即为禁入类客户（详见附录三）；如果该客户的P值大于0.155则可以发放信用卡，但是银行必须承担相应的风险即为高风险类客户（详见附录二）。

3.风险评估与风险管控

3.1风险评估

以下是信用卡发放模型风险识别结果。违约模型中系数为正的变量所代表的因素就是与违约客户影响呈正相关，而系数为负的变量就是代表该因素与违约客户影响呈负相关。以下是通过模型得到的结论：

1.当申请人当初的申请书来源是通过亲签手段的话，该客户的违约概率就高。

2.当申请人持有3张信用卡时，该客户的违约概率增大。

3.当申请人的刷卡频率保持在天天刷卡时，该客户的违约概率会降低。

4.当申请人是中部户籍时，该客户的违约概率小于其它地区。

5.当申请人为女性时，该客户的违约概率就越低，这与一般性的商业信誉惯例一致。

6.当申请人的年龄在30-34岁之间时，该客户的违约概率高。

7.当申请人是已婚状态时，该客户的违约概率高于未婚状态。

8.当申请人是专科学历时，该客户的违约概率高。

9.当申请人的职业为学生时，该客户的违约概率高其它职业。

10.当申请人个人月收入在一万元以下时，该客户的违约概率高于其它金额的个人收入。

11.当申请人每月的个人开销在2万到3万元之间时，该客户的违约概率低。

12.当申请人常住地址是宿舍时，该客户的违约概率低。

13.当申请人的家庭月收入在2万到4万元时，该客户的违约概率高。

14.当申请人月刷卡额在2万元以下时，该客户的违约概率低。

15.当申请人信仰天主教时，该客户的违约概率高。

16.当申请人共同居住的人口有6人时，该客户的违约概率高。

17.当申请人家庭经济等级在中上水平时，该客户的违约概率高。

18.当申请人的星座为牧羊座时，该客户的违约概率高。

上述的模型建立和检验可以得知违约模型是有效的。并且可以通过转化函数变成实际现实中的含义，得到每个单一变量的评分模型，这样就可以找到可以使用的评分标准。

3.2风险管控

3.2.1信用卡资产质量评价

商业银行风险管理的出发点应该是防止或减少损失,以保障商业银行经营活动得以顺利进行。因而对于信用卡的风险管控环节，对客户信用卡资产质量的评价显得尤为重要。首先基于上述模型的参数估计表的分析结果，建立个人信用等级。

根据影响个人信用等级的主要因素建立系统的递阶层次结构以后，需要运用层次分析法确定各评估指标的权重，大体步骤为构建判断矩阵、判断矩阵的一致性检验、计算层次单排序及总排序。本文运用AHP小程序得出各层次的综合判断矩阵的权重值 W 如表 3-2所示。通过运行结果知，分析满足一致性检验。

表3-1 个人信用评价等级

表 3-2 综合判断矩阵的权重

按照各个变量代表的不同含义以及所得的综合权重值，给每个变量赋分值如表3-3 所示。

表3-3 变量赋分值

变量与银行关系张数频率瑕疵户分数与银行关系权值 10 3.6 2.8 2变量张数 1 张 2 张 3 张分数张数赋分 3.6 1.2 1 0.8变量频率赋分 2.8 0.2 0.3 0.5频率天天用经常用偶尔用变量瑕疵户是瑕疵户不是瑕疵户分数是否瑕疵户赋分 2 0.5 1.5变量逾期逾期没有逾期分数是否逾期赋分 1.2 0.4 0.8变量强制停卡有无记录分数是否强制停卡赋分 2 0.5 1.5变量个人月收入1个人月收入2个人月收入3个人月收入4分数个人月收入赋分 20 22.5 17.5 11变量职业7、18 职业5、9、12、14、19职业赋分 0.5 3 4 5.5职业2、3、11、15、17职业4、6 10分数变量家庭月收入1家庭月收入2家庭月收入3家庭月收入4分数家庭月收入赋分 17.5 8 4 12变量家庭经济1 家庭经济2 家庭经济3家庭经济4分数家庭经济6 11 8 4赋分变量住家1 住家2 住家3 住家4分数住家赋分 6 2 3 4.5变量人口 8、9 人口 1 人口 2、6、7人口 3、4 5分数人口赋分 1 2.5 1.9 1.4变量学历 1 学历 2 学历 3 学历 4分数学历赋分 5.5 4.2 3 7.2变量婚姻 1 婚姻 2 婚姻 3分数婚姻赋分 5.6 4 2变量年龄 1 年龄 2 年龄 3 年龄 4分数年龄赋分 1.2 3.2 2.8 4变量户籍 1 户籍 2 户籍 3 户籍 4分数户籍赋分 1.6 2 1.2 2.4变量性别 1 性别 2分数性别赋分 0.4 0.8逾期强制停卡记录0.4大于4 张0.2 1没用个人月收入6个人月收入7 8 4、家庭月收入6 12住家6 1年龄 6 年龄 7 年龄 8 年龄 9 3.6 1.6 0.8 2 1.2 4 张0.4 0.8很少用个人月收入5 14 7.5、职业1、8 13、家庭月收入5 12家庭经济5 12.5住家5 7.5、学历 5 2年龄 5 2.4

下面根据信用卡资产质量评价函数 Q 的取值范围给出信用卡资产评级表

表3-4 信用卡资产评级表

3.2.2风险管控建议

从上述的风险评估可以看到，信用卡的发放一定程度上受对应变量的影响。所以对客户的信用卡发放管控应该结合实际，并且综合起来按照研究结果进行调整，建议如下：

（1）对于模型判断为不会违约的用户，可以结合实际情况分别发放不同额度的信用卡。对于那些信用水平很高的用户，银行的目的就是要尽量留住这些高信用客户，那么可以增加个人类的金融产品，发放高额度信用卡，增强用户粘性。

（2）对于模型判断为违约类用户，可以进一步判断用户属于哪一类风险用户，如果是禁入类用户则直接不予发放信用卡；如果是高风险用户，还需要看用户是否有能力还清债务，从而决定发不发放信用卡给该用户。

[1]高一村.中国银行卡产业发展蓝皮书(2016)在京发布[J].中国社会组织, 2016(16)：61-61.

[2]盛骤,谢式千,潘承毅.概率论与数理统计,第四版[M].北京：高等教育出版社,2008.

[3]吴芃,蔡秋萍,吴应宇.我国上市公司财务危机预警实证研究——基于主成分分析模型、线性判别模型和逻辑回归模型的比较分析[J].河海大学学报(哲学社会科学版),2007, 9(4)：31-34.

[4]阿明翰,张达敏,李伟.逻辑回归在信用卡风险评估模型构建中的应用[J].内江科技, 2016,37(09)：41-42.

[5]罗昊，韩瑞珠.基于自适应 LASSO变量选择的Logistic信用评分模型研究[J].商, 2016(04)：161-162.

[6]罗先文.主成分分析(PCA)和聚类分析(CA)方法在SWB数据分析中的应用[J].玉溪师范学院学报，2004,20(12).

[7]王梦佳.基于Logistic回归模型的P2P网贷平台借款人信用风险评估[D].北京：北京外国语大学， 2015.

[8]刘锋,陈敏,邹捷中.部分线性模型序列相关的经验似然比检验[J].应用数学学报,2006,29(04)：577-586.