基于数据挖掘的持卡人信用风险管理研究

2012-07-13 04:51陈为民张小勇马超群
财经理论与实践 2012年5期
关键词:支持向量机信用风险数据挖掘

陈为民 张小勇 马超群

摘 要:目前的信用卡信用风险研究主要是如何提高模型的预测准确率。针对银行信用卡数据的异质性和信用数据的高度非线性,本文提出了对持卡人信用风险管理的混合数据挖掘方法。该方法包含两个阶段,在聚类阶段,样本数据被聚成同质的类,删除孤立点,不一致样本点重置标签,使样本更具有代表性;在分类阶段,基于样本进行训练生成支持向量机分类器法,对待分样本分类。基于实际数据进行了数值实验,并根据各类样本的特点提出了相应的风险管理策略。

关键词: 信用风险;风险管理;数据挖掘;聚类;支持向量机

中图分类号:F832.479;TP391文献标识码: A 文章编号:1003—7217(2012)05—0036—05

一、 引 言

面对国际金融机构的竞争,国内企业和个人的信用有效评估,银行的信贷与项目融资和投资等正面临着巨大的挑战,对信用风险的有效监控和管理已十分迫切。信用评估是政府、金融机构、企业界以及学术界都高度关注的问题。

目前的研究都集中于提高信用评分模型的准确率,对持卡人的信用风险管理很少涉及。一般的信用评分模型的出发点是是否接受申请人的申请,把申请人分为“信用好”和“信用差”两类:把能及时还款的客户归为“信用好”的客户;可能拖欠或违约的归为“信用差”,这些客户的申请将被拒绝[1]。对于信用评分,已有很多研究,如文献[2—7]。

Thomas[8]和Crook等[9]分别对各种模型进行了总结。由于信用数据的高度非线性和经济形势的影响,分类错误不可避免,信用评分模型准确率的提高空间十分有限[8—10]。迟国泰等构建了信用卡信用风险评价指标体系,并确定了划分信用等级的阈值,将根据申请人资料计算出的个人信用综合得分和阈值比较,把客户分为三类:“授予金卡”、“授予普通卡”、“拒绝授予信用卡”[11]。针对持卡人的信用风险的管理,Hsieh提出了集成数据挖掘模型,把客户分成不同类型,并用关联规则挖掘客户特征与所属类型的关系,为决策提供帮助[12]。

由于银行信用卡信用数据的异质性和信用卡数据本身的高度非线性,建立准确率高、鲁棒性强的信用评分模型是一个有挑战性的任务。本文针对信用卡信用数据的特点,提出了两阶段混合数据挖掘方法。该方法在聚类阶段把信用数据聚成同质的类,删去孤立点,不一致点重置标签;在分类阶段用支持向量机进行训练,建立多类支持向量机分类器,把客户分为多组。聚类过程使样本数据的代表性更强,为建立高准确率的分类器奠定基础;分类阶段采用支持向量机方法,这是目前适合小样本数据的最有效方法之一。该方法既可以用于判断是否接受客户的申请,也可以用于信用卡客户的风险管理。判断是否接受客户的申请时,根据事先设定的阈值,把申请人分为相应的类(如授予金卡、授予普通卡和拒绝申请);对已接受申请的信用卡客户,设定阈值把客户分为几类,实行不同的风险管理措施。二、相关理论基础(一) 自组织神经网络

自组织特征映射(Self—Organizing Map, SOM)神经网络是无教师学习网络,具有自组织功能。SOM中竞争层神经元通过竞争激活,最终仅有一个神经元作为竞争的胜利者被激活,与该神经元的连接都向对其竞争有利的方向调整。这样,SOM可以很好地模拟大脑的功能区域和神经元兴奋的刺激规律,具有神经元自调节结构和自稳定能力、实现实时学习识别向量空间中最有意义的特征、抗噪音能力强等特点,被广泛地应用于分类、聚类模式识别等。

1. SOM 网络的结构。SOM将任意维度的输入转换成一维或二维的离散映射,以拓扑有序的方式实现这个变换。自组织神经网络的输入层和输出层之间全部互连,没有中间层。若输入层有n个神经元,输出层有m2个神经元,输出层的m2个神经元安排在二维网格中。对给定的输入,通过竞争以若干神经元输出,获胜的神经元g的邻域Ng内的所有神经元都有不同程度的兴奋,而邻域之外的神经元被抑制。这里的邻域一般是对称图形,形状可以任意,但是随时间增大而减小。输入神经元应经历足够的输入次数,确保自组织过程能够实现。

财经理论与实践(双月刊) 2012年第5期

2012年第5期(总第179期) 陈为民,张小勇等:基于数据挖掘的持卡人信用风险管理研究

2. SOM 学习过程。对输入向量U,SOM计算它与每个权重向量W的距离(如Euclid距离),最接近输入向量的神经元mc称为最佳匹配单元(best瞞atching unit,BMU),即获胜神经元:

‖U—mc‖=min i‖U—mi‖

(1)

确定获胜神经元后,权重向量更新,获胜神经元向输入向量移动。

如果SOM的输入为Uk=(uk1,uk2,…ukn)T,k=1,2,…,N, 竞争层神经元j的输出为Vj,j=1,2,…,M,连接权重Wj=(w1j,w2j,…wnj)T,第t次迭代获胜的节点R的邻域节点构成集合Ng(t),则SOM学习过程如下:

步骤1 初始化

对wij,学习率η(0)、Nk(0)和学习次数T赋值,wij∈[0,1],η(0)∈(0,1)

步骤2 归一化处理

输入归一化k=Uk/‖Uk‖=(k1,k2,…,kn)T ,‖Uk‖=(UTk/Uk)1/2

权重归一化,计算同输入归一化相同

步骤3 确定获胜神经元

计算权重向量Wj和输入向量之间的Euclid距离dj=‖k—j‖,j=1,2,…M,若dg=min j{dj},则神经元g获胜。

步骤4 调节权重并归一化

wj(t+1)=

j(t)+η(t)(k—j(t)) j∈Ng(t)

j(t) 否则

j(t+1)=j(t+1)/‖j(t+1)‖

步骤5 返回步骤2处理下一个输入模式,直到第N个

步骤6 更新η(t)和Ng(t):η(t)=(1—t/T)η(0),Ng(t)=int [Ng(0)exp (—t/T)]

这里int[]是取整函数。

步骤7若t

统计学习理论(Statistical learning theory, SLT)是小样本机器学习理论,支持向量机(Support Vector Machine, SVM)方法是统计学习理论的一种实现方法,是小样本机器学习方法,也是一种前向型神经网络。SVM方法通过非线性映射h,把样本空间映射到一个高维乃至于无穷维的特征空间(Hilbert空间),在特征空间中可以应用线性方法解决样本空间中的高度非线性分类和回归等问题[13]。它较好地实现了结构风险最小化思想,可以说通过核函数代替内积运算避免了维数灾难,采用了最优化的思想,是集优化、核函数、推广能力于一身,因此越来越受到重视。

分类问题可描述为:对n维数据模式xi∈X=Rn和类标签yi∈Y=—1,1构成的训练集T={(x1,y1),……(xn,yn)}∈(X×Y)n,寻找一个把Rn上的点分成两部分的规则,也就是找到X=Rn上的一个实值函数g(x),对每一个x,有唯一的y=f(x)=sgn (g(x))。两类样本点如图1所示,按最大间隔原则找到把两类样本完全分开的直线,l1,l2 之间的距离为分类间隔。若l1,l2的法方向为w,样本归一化后,直线l1,l2的方程可分别写为:

(w·xi)+b=1和(w·xi)+b=—1

这里(w·xi)是w与x的内积,l1,l2之间的间隔为2/‖w‖。该分类问题可表示成优化问题:

(2)

若(2)的最优解为w*,b*,则(w*·x)+b*=0对应的是图1中的直线l,是最优分类线,称为最优化分超平面,决策函数为f(x)=sgn ((w场x)+b常。此时l1,l2上的训练样本点称为支持向量。一般应用时,把优化问题(2)写成如下对偶形式:

(3)

如果训练集线性不可分时,任何超平面都不可能完全正确的划分。引入松弛变量ξi≥0,把分类约束条件yi((w·xi)+b)≥1放松为yi((w·xi)+b)+ξi≥1,∑ni=1ξi是经验风险,即错误划分程度。此时我们的目标是间隔最大,并且经验风险尽可能小,这样就得到了对线性不可分问题的划分方法:

(4)

图1 最优分类超平面

(5)

这里C为惩罚参数。令其最优解为α*=(α*1,…,α*n)T,并且b*=yj—∑li=1yjα*iK(xi,xj), 则决策函数为f(x)=sgn(∑ni=1yiα*iK(xi,x)+b*)。

对于非线性分类问题,通过核函数把特征空间影射到Hilbert空间,从而用线性化方法解决非线性问题,这也是SVM方法的主要优点之一。在应用时,核函数的选择非常重要,常用的核函数有线性核函数、多项式核函数、Gauss径向基核函数(RBF)、Sigmoid核函数等。三、两阶段混合数据挖掘方法的风险管理模型

针对银行信用卡信用数据的异质性和信用卡数据本身的高度非线性,本文提出了两阶段混合神经网络信用卡客户信用风险管理模型,包括自组织神经网络聚类和支持向量机分类两个阶段,其流程如图2所示。聚类过程使样本数据的代表性更强,为建立高准确率的分类器奠定基础;分类阶段采用支持向量机方法,这是目前适合小样本数据的最有效方法之一。(一)自组织神经网络聚类

建立信用风险管理模型要以银行的实际数据为样本。银行的信用记录中客户已经分为“信用好”和“信用差”两类,但是由于种种原因,可能存在孤立点或不一致样本,比如登记时出现了笔误等,这给建立高准确率的分类器带来了极大挑战。先把数据聚成同质的类,然后构建评分模型能提高模型的预测效果[14,15]。

图2 信用卡风险管理模型流程图

在聚类阶段,把信用卡数据聚成同质的类。如果有孤立点,必须把孤立点删去。这些点很可能是登记错误或是一些客户的异常行为,不具有代表性。不一致点是指如果某一类中只有部分数据点与其它数据点的信用状态不同,原因可能是多方面的,为防止信息丢失不能直接删去,要认真区别。(二)支持向量机分类

SVM是目前处理小样本分类和回归问题最好的工具之一,因此本文用SVM作为分类器。采用SVM要解决的三个问题:(1)确定输入特征;(2)选择核函数;(3)确定相关参数。本文用SOM聚类结果中的样本特征作为输入特征;RBF核函数能够较好的拟合非线性关系,是文献中用得最多的核函数,因此本文采用RBF核函数;为得到最优参数对训练集用格点搜索法(grid瞫earch method)确定SVM惩罚参数和核函数的参数,初始参数C=2—5,2—3,…,213,σ,γ=2—13,2—11,…,25,10—折交叉验证准确率比较高的格点附近进一步细分,重新训练,直到有满意的准确率或准确率不再增大为止。

为了获得更好的风险管理措施,我们把持卡人分成更多的类型,而不是一般文献常见的分为“信用好”和“信用差”两类。四、实证分析(一) 数据

本文用国内某银行的信用卡数据进行数值实验。该数据共有2000个样本,每个样本点有14个特征,分别是地区、证件类别、电话、性别、年龄、出生地、婚姻状况、家庭人数、受教育程度、住宅状况、就业状况、单位性质、年薪、是否本行客户。类标签是客户的信用状态,即按时还款还是违约。数据的80%用于确定模型参数,20%用作检验集。

对信用数据进行了预处理,名义变量进行了数值化处理;数值变量进行了归一化,由于电话和出生地对信用状况没有影响,删除了这两个特征。

(二) 信用数据的自组织神经网络聚类

信用评分模型的性能和样本有很大关系,经过聚类的样本能提高网络的预测准确率。本文用自组织神经网络聚类对信用数据进行处理。为使样本更具代表性,信用数据进行了多次聚类进行比较,结果表明聚成3类的情况比较满意,聚类结果见表1。聚成3类时1600个样本中有132个孤立点,类1、类2、类3中“信用好”的样本数分别为24、183、675个,“信用差”的样本数分别为371、168、51个。孤立点被删除,类1中“信用好”的样本数量很少,我们对这些样本重新定义为“信用差”;类3中“信用差”的样本重新定义为“信用好”;类2是样本不一致的类,不予考虑。信用数据的空间分布见图3。

表1 信用数据聚类结果

图3 信用数据的分布

(三)分类与建议

目前的信用评分模型基本上是把信用数据分为“信用好”和“信用差”两类,目的是提高评分准确率。但是准确率的提高空间有限,实际应用时效果值得商榷。尤其对第二类错误,造成的损失是巨大的。目前仅有迟国泰、许文和孙秀峰把客户分为三类,阈值t<0.6414时拒绝申请,0.6414≤t<0.8144时授予申请人普通卡,t>0.8144时授予申请人金卡[11]。由于篇幅限制,本文不再讨论判断是否接受客户的申请,仅以已接受的信用卡客户的风险管理为例进行多类分类,这里阈值根据银行的管理人员建议设置。

临界点的设置:对“信用好”和“信用差”的样本具有很高的准确率;对分成3类的情况,类1和类3分别是“信用好”和“信用差”的样本,其它的归为类2;对分成4类的情况,类1和类4分别是“信用好”和“信用差”的样本,其余两类采用了最常用的临界值(0.5)。

对分成3类的情况,类1的样本信用很好,银行可以给他们更高的信用额;类2是必定不能履行义务的,要禁止这些客户的透支;类3的信用状态不确定,发生改变的可能性较大,要加强监督,并降低信用额。对分成4类的情况,类1和类4分别是“信用好”和“信用差”的类;类2履约的可能性较大,他们的信用额不便或适当降低;类4违约的可能性大,要降低信用额。另外,银行对类2、类3的客户重点监控,追踪消费行为,及时规避风险。四、结 论

对信用卡申请人的信用进行准确评价是许多学者和银行界一直关注的问题,目前的研究基本上是致力于提高评分准确率,由于信用数据的高度非线性和经济形势的影响,提升空间有限。

本文的目的在于通过对银行信用卡数据库进行挖掘,将持卡人分成不同的组,针对不同组持卡人的特征提出风险管理措施。该方法首先把信用数据聚成同质的类,删去孤立点,不一致点重置标签;然后用支持向量机进行训练,得到分类器,把客户分为多组,最后提出相应的风险管理措施。

参考文献:

[1]Hand D J, Adams N M. Defining attributes for scorecard construction in credit scoring [J]. Journal of Applied Statistics, 2000, 27(5): 527—540.

[2]Lee, T S, Chiu C C, Lu C J, et al. Credit scoring using the hybrid neural discriminant technique[J]. Expert Systems with Applications, 2002, 23(3): 245–254.

[3]Lee T S, Chen I F. A two—stage hybrid credit scoring model using artificial neural networks and multivariate adaptive regression splines [J]. Expert Systems with Applications, 2005, 28(4): 743—752

[4]Huang Z, Chen H, Hsu C J, et al. Credit rating analysis with support vector machines and neural networks: a market comparative study [J]. Decision Support Systems, 2004, 37(4): 543—558.

[5]Chen M C, Huang S H. Credit scoring and rejected instances reassigning through evolutionary computation techniques [J]. Expert Systems with Applications, 2003,24(4): 433–441.

[6]Huang Z, Chen H, Hsu C J, et.al. Credit rating analysis with support vector machines and neural networks: a market comparative study [J]. Decision Support Systems, 2004, 37(4) 543—558.

[7]Chen W M, Ma C Q, Ma L. Mining the customer credit using hybrid support vector machine technique [J]. Expert Systems with Application, 2009, 5 (36), 7611—7616.

[8]Thomas L C. A survey of credit and behavioural scoring:forecasting financial risk of lending to consumers [J]. International Journal of Forecasting, 2000, 16(2): 149—172.

[9]Crook J N, Edelman D B, Thomas L C. Recent developments in consumer credit risk assessment [J]. European Journal of Operational Research, 2007, 183: 1447—1465.

[10]Hand D J. Classifier technology and the illusion of progress [J]. Statistical Science, 2006, 21(1): 1—14.

[11]1迟国泰,许文,孙秀峰. 个人信用卡信用风险评价体系与模型研究[J]. 同济大学学报(自然科学版),2006,36(4):557—563.

[12]Hsieh N C. An integrated data mining and behavioral scoring model for analyzing bank customers [J]. Expert Systems with Application, 2004, 27:623—633.

[13]Vapnik V N. The nature of statistical learning theory [M]. New York: Springer睼erlag, 1995.

[14]Berry M. Mastering data mining [M]. New York, NY: John Wiley & Sons, Inc, 2000.

[15]Lim M K, Sohn S Y. Cluster瞓ased dynamic scoring model [J]. Expert Systems with Application, 2007, 32: 427—431.

(责任编辑:王铁军)

猜你喜欢
支持向量机信用风险数据挖掘
探讨人工智能与数据挖掘发展趋势
浅析我国商业银行信用风险管理
基于并行计算的大数据挖掘在电网中的应用
动态场景中的视觉目标识别方法分析
论提高装备故障预测准确度的方法途径
基于熵技术的公共事业费最优组合预测
基于支持向量机的金融数据分析研究
京东商城电子商务信用风险防范策略
一种基于Hadoop的大数据挖掘云服务及应用
个人信用风险评分的指标选择研究