基于数据挖掘的信用卡信用评分模型

2014-08-16 01:08:38刘武成谈超洪

网络安全与数据管理 2014年9期

刘武成，谈超洪

（1.广西大学计算机与电子信息学院，广西南宁 530004；2.广西经济信息中心，广西南宁 530022）

银行通常运用判断技术或信用评分模型来决定是否接受一个客户的信贷。大部分银行采用基于性格、资金、抵押品、能力和条件的3C、4C或5C的判断方法。而对于信用卡申请客户，银行使用信用评分或者预测模型对申请人分类。通常，线性判别分析和Bayes判别是两种在信用评分模型中常用的统计方法[1-5]。但是，随着信息与计算机技术的发展进步，数据挖掘的新技术不断出现。SAS/EM和SPSS等数据挖掘工具不但提供经典的方法，同时支持一些新兴的预测模型和分类技术，例如决策树、神经网络、支持向量机（SVM）和 K-临近值（KNN）。参考文献[5]将神经网络模型应用在评估埃及银行的信用风险并比较其与判别分析、概率值分析和逻辑回归的传统的技术的性能。一个大型的信用卡供应商每年必须评估数万甚至数十万的信用卡申请人。因此，统计方法和自动化申请程序是极其必要的。数据挖掘软件的出现，银行可以方便地部署一个预测模型快速而有效地分析大量申请人。此外，一个好的信用风险记分模型可以让管理者在处理信用卡申请人时做出更好更正确的决定。本文的目的是提出一种信用卡申请人分类的信用评分模型，以解决现有信用评分模型难以适应大规模非结构化数据、缺失数据等问题，并比较该信用评分模型下分类回归树模型（CART）、Bayes模型和神经网络模型（NN）在信用卡申请人分类预测中的性能表现。

1 信用评分模型的基本方法

信用评分模型能够将信用卡申请人的未来行为以量化形式进行预测，使用指标形式清晰地表示，可判断申请人在未来特定时间里违约的概率。信用评分模型广泛使用在银行、信贷公司、事业单位、保险公司等涉及消费信用的企事业单位中。信用评分模型运用先进的数据挖掘技术，通过对申请人的人口特征、信用历史记录和行为记录等大量的数据进行系统分析，挖掘数据中蕴含的行为模式、信用特征，捕捉历史信息和未来信用表现之间的关系，预测申请人今后的信用表现。

根据大量可量化的借贷人特征，信用评分模型评估借贷人的信贷风险，即贷款人按照承诺偿还贷款的可能性。近些年来，信用评分模型已应用在住房贷款、小型企业贷款、保险的申请和续延[4]。信用评分是一个基于统计和数据挖掘研究方法的分类过程。一直以来，判别分析和线性回归是构建信用评分模型应用最广泛的技术。除此之外，还有 Logistic回归、概率单元分析、非线性平滑方法特别是K-临近值、最优化理论、马尔可夫模型、递归划分、专家模式、遗传算法和神经网络等[1]。

构建一个信用评分模型，首先获取申请人填写的客户相关资料和银行提供的内部信息，接着对信息进行量化处理，然后选用合适的数据挖掘技术，建立信用评分模型，对数据进行分析验证，得出客户的综合信用评分，设定一个合理的阈值，判定客户是否通过申请。其流程如图1所示。

图1 信用评分模型流程图

一个预测效果好的记分模型需要先前发放贷款或申请人的历史数据和借贷人特征数据，实现对于信用良好的客户评定的分数高，对于信用欠佳的客户评定的分数低的结果。个人信用评分模型的重要指标可以大体划分为人口、经济、就业和行为指标[3]。人口指标包括年龄、性别、婚姻状况、地址所属区、民族、家属人数。这些变量典型地反映了很多区域、性别和其他相关差异。经济指标包括月收入、财产等；就业指标包括工作年数、工作技能等；行为指标包括借贷历史、借贷数目等。模型的重要指标可以帮助更好地分辨好/坏的申请人[3]。举例来说，年长女性的风险通常低于年轻男人。通常情况下，年纪越大，违约风险越低，已婚申请人的家属的违约风险较高。

从文献综述和银行信用卡中心部门的可靠数据可知，选用典型合适的指标构建模型，其具体描述如表1所示。

不同指标对信用评分的结果影响不同。因此，本文提出根据指标对结果的相关性，对指标进行量化处理时，将不同指标乘上相应的影响因子，以便达到更准确的评估判别结果。其表达式为：

其中，xi表示指标i量化后的值，δi表示归一化后的指标i的影响因子，yi表示修改后的指标的量化值。δi=1，n表示指标数。本文中n为14。

表1 变量描述

2 基于数据挖掘的信用评分模型

2.1 三种数据挖掘方法

分类回归树是基于统计理论的非参数的数据挖掘技术[6]。基本思想是从根节点开始采用自顶向下的（Topdown）的递归方式在每个节点上对样本集按照给定标准选择分支属性，然后按照相应属性的所有可能取值向下建立分支、划分训练样本，直到一个节点上的所有样本都被划分到同一个类，或者某一节点中的样本数量低于给定值。其特点是在计算过程中充分利用二叉树的结构，即根节点包含所有样本，在一定的分割规则下根节点被分割为两个子节点，这个过程又在子节点上重复进行，成为一个回归过程，直至不可再分成为叶节点为止[7]。本文CART采用“二分法”进行分支，其定义公式为：

贝叶斯（Bayes）判别分析方法是在信用评分模型中常用的统计方法。其思路是基于贝叶斯统计理论，根据已获得的每个类别的样本数据，分析并总结客观事物分类的规律性，建立合适的判别函数，然后利用判别函数对新样本所属类别进行判定[8-9]。贝叶斯定理求出某类总体的后验概率，即：

其中，qj是 j类的先验概率，pj（x）是 j类的概率密度分布函数，k为类的个数。

神经网络是对人脑或自然的神经网络结构和功能的抽象和模拟，主要由输入层、隐藏层和输出层构成[10]。BP神经网络的主要思想是采用Delta学习规则的权值修正策略，把学习的过程分为两个部分，一部分是信息流经过输入和隐含层的处理计算输出，另一部分是利用输出层误差估计前一层的误差，再用这个误差估计更前一层的误差，形成误差值的反向传播，借此调节网络的权重[11]。本文神经网络隐藏侧节点采用的激活函数为tansig函数，表达式如式（4）所示，输出层及诶单的激活函数为logsig函数，表达式如式（5）所示。

2.2 基于数据挖掘的评分模型

SPSS是一款应用十分广泛、集成度非常高的数据挖掘软件，它提供了新兴的预测模型和分类技术。本文选取分类回归树、Bayes判别和神经网络3种方法，运用SPSS软件平台，分别构建分类回归树模型、Bayes判别模型和神经网络模型。具体步骤如下。

（1）数据输入和抽样。去除缺失数据，把未缺失数据作为输入数据。

（2）数据转换。信用评分模型的目标变量是申请人状态，即一个具有接受或拒绝两个状态的二进制变量。即设置目标变量 Tar，如果 Tar=0，说明为坏客户；反之Tar=1，说明为好客户。

（3）数据属性调整和设定目标变量。设置Tar为定位目标变量，其他为输入变量。

（4）数据集划分。把样本集合划分成训练集和验证集，训练样本数据用来训练模型，验证样本数据用来验证所建模型。样本数据分为训练样本（65%）和验证样本（35%）。

（5）选择数据挖掘方法。本文选取了分类回归树、Bayes判别和神经网络3种方法。在模型中分别运用分类回归树、Bayes判别和神经网络进行分析验证。数据样本包括3 610个信用卡申请人，其中 1 083（30%）申请人被拒绝，2 527（70%）申请人被接受。

首先，步骤（1）提出了缺失数据，这是由于海量信用信息数据中，直接剔除缺失数据，并不会影响数据集的整体完备性；步骤（2）及步骤（3）可以保证对非结构化数据的有效处理；步骤（4）可以保证利用已有数据进行分析训练和后继的验证；步骤（5）可以验证本信用评分模型在3种数据挖掘方法下的性能表现，选出最适应本信用评分模型的数据挖掘方法。

3 实验分析

在SPSS数据挖掘工具中构建分类回归树、Bayes判别和神经网络的信用记分模型，并分别对应相应的模型输出。将分类回归树、Bayes判别和神经网络3个预测模型被连接到计算准确率的节点进行运算，同时利用评价节点进行分析评估。

3.1 分类回归树实验结果

决策树易于理解并且可以简单转换成一组规则；另外，它不需要先验数据就可以对范畴数据和数值数据进行分类。由于具有以上优势，决策树方法广泛应用于分类与预测。分类回归树是剪枝过程中基于最小成本原则的决策树方法。根据实验结果分析，分类回归树模型有5条判别申请人状态的规则，具体如表2所示。

表2 申请人状态规则

3.2 Bayes判别模型实验结果

Bayes判别是线性判别中一种常用的方法。考虑各样本总体出现概率的大小，预报的后验概率及错判率的估计以及错判之后造成的损失，是Bayes判别应用于分类与预测的主要优势。

在SPSS工具中，选择Mahalanobis距离逐步判别法，得到两个线性判别函数的变量和相关系数。应用Bayes判别模型，在预测申请人状态里采用9个具有统计意义的输入变量，分别是年龄、性别、就业、财产、贷款数目、住房、家庭电话、期限和贷款历史。表3的两个线性函数分别对应两个申请人状态，每一列数字都是个判定方程对应自变量的系数。

通过计算样本在每个判定函数的判定方程的值，根据最大函数值来确定该样本所对应的级别。判别结果表明女性和年长的申请人被接受的可能性更大。更大数目和更长期限的申请人很可能被拒绝。

表3 Bayes判别结果

3.3 神经网络模型实验结果

采用一个具有以下特征的BP神经网络模型进行信用卡申请人分类。

用于构建NN模型的13个输入变量：年龄、性别、婚姻状况、财产、工作、现居地址、住房、家庭电话、期限、借贷历史、借贷数目、就业，借贷次数。

只有两个值的一个输出变量：1表示接受，0表示拒绝。

神经网络模型中，输入层有29个神经元输入，隐藏层有3个神经元输入，输出层有1个神经元输出。在神经网络中，没有数学模型，只有重要性按降序排列的输入变量如表4所示。最重要的5个变量是借贷历史、期限、贷款数目、现居地址和现存贷款数目。

表4 神经网络输入变量

3.4 各模型之间的比较

在提出的模型条件下，为了选出预测申请人状态效果最佳的模型，对3个模型进行比较。训练样本和验证样本的准确率如表5所示。相对而言，神经网络模型预测准确率较高。

表5 各模型比较

数据挖掘技术包括传统的统计方法以及在机器学习和人工智能方面的非传统的方法。非传统的统计学方法中最重要的两种方法是神经网络和决策树。这两种数据挖掘技术比传统的统计学方法更能模拟复杂的非线性和交互作用。本次研究的重点是构建和评估包括逻辑回归、决策树和神经网络在内的3种信用记分模型，旨在进行信用卡申请人分类。结果显示神经网络模型具有相对稍高的预测准确度。信用评分模型的性能取决于数据结构，数据质量和分类的目的。

成熟的技术，如 ANNS，MARS和 SVM，已经证明只能稍微提高分类准确率。在实际应用中，用户更加喜欢相对容易理解的分类方式，如决策树和逻辑回归。随着数据挖掘软件的发展，越来越多的银行已经意识到数据挖掘模型易于部署并能够有效增加其竞争优势。

[1]VEDALA R，KUMAR B R.An application of Naive Bayes classification for credit scoring in e-lending platform[C].International Con-ference on Data Science& Engineering（ICDSE）， 2012：81-84.

[2]MARIKKANNU P，SHANMUGAPRIYA K.Classification of customer credit data for intelligent credit scoring system using fuzzy setand MC2-Domain driven approach[C].Electronics Computer Technology（ICECT），2011（3）：410-414.

[3]HE JING， Zhang Yanchun， Shi Yong， et al.Domaindriven classification based on multiple criteria and multiple Constraint-Level programming for intelligent credit scoring[C].IEEE Transactions on Knowledge and Data Engineering，2010，22（6）：826-838.

[4]VOJTEK M，KOCENDA E.Creditscoringmethods[J].Czech Journal of Economics and Finance， 2006，56（3-7）：152-167.

[5]ABDOU H， POINTON J， EL-MASRY A.Neural nets versus conventional techniques in credit scoring in Egyptian banking[J].Expert System with Applications， 2008（35）：1275-1292.

[6]董连英，邢立新，潘军，等.高光谱图像植被类型的CART 决策树分类[J].吉林大学学报，2013，1（1）：83-89.

[7]冯少荣，肖文俊.基于样本选取的决策树改进算法[J].西南交通大学学报，2009，10（5）：643-647.

[8]胡国胜.入侵检测的 Fisher、Bayes和 MSE识别算法及等价性证明[J].计算机应用与软件，2012（4）：293-296.

[9]董文娟，朱远鑫，万明刚，等.沉积环境判别与分类的Bayes判别分析法[J].成都大学学报，2011，2（30）：139-142.

[10]周玉，钱旭，张俊彩，等.可拓神经网络研究综述[J].计算机应用研究，2010，1（27）：1-5.

[11]王燕妮，樊养余.改进BP神经网络的自适应预测算法[J].计算机工程与应用，2010，46（17）：23-26.