基于改进支持向量机的消费信贷中个人信用评估模型

2010-05-18 08:04:34王润华
统计与决策 2010年11期
关键词:消费信贷个人信用向量

王润华

(湖南城市学院,湖南 益阳 413000)

0 引言

伴随着我国经济的高速发展,信用消费已经逐步浮出水面,例如住房按揭、消费信贷、汽车贷款、信用卡、教育贷款等多种消费贷款的规模越来越大[1]。在消费信贷越来越热的形势下,大部分商业银行都把大力发展消费信贷看作未来发展战略的一个重要的组成部分。但是目前国内商业银行对消费贷款的风险管理水平较低,管理手段与方法均较落后,其中缺乏一套有效的个人信用评估方法是阻碍了个人消费信贷业务进一步开展的主要因素之一[2-4]。公民信用历史资料的信用评估和完全交流,也为贷款人(如各商业银行)提供了客观的、一致的评估方法[5-8]。

个人信用评估是消费贷款的制约因素[9-11]。与国家的政策大力推动和商业银行开展消费信贷业务的热情形成对比的是,消费信贷在实际运作中并没有出现人们预期的火爆场面。业内人士指出,问题的症结是个人信用的评估问题还没解决[12-13]。我国对企业的信用评估才刚刚起步,个人信用制度还几乎是完全空白,银行对个人的真实收入情况、信用水准很难掌握。为了化解风险,消费信贷的门槛不得不提高,步骤也比较繁琐。

目前,国外商业银行信用评估中应用最为广泛的是多元统计分析方法。统计模型的最大优点在于其具有明显的解释性,存在的缺陷是过于严格的前提条件。随着神经网络技术的突破性进展,许多学者将其应用于信用评估中。由于神经网络是一种对数据分布无任何要求的非线性技术,它能有效解决非正态分布、非线性的信用评估问题,但其缺陷是:“黑箱性”问题,即不具有解释性;结构确定的困难性、训练效率低下等,因此实际中神经网络往往被作为一种“校验性”的辅助方法。支持向量机是在统计学理论基础上发展起来的,是借助最优化方法解决机器学习问题的新工具。支持向量机在其理论研究和算法实现方面都取得了突破性进展,在解决小样本问题中表现出许多优势,开始成为克服 “维数灾难”和“过学习”等传统困难的有力手段。目前,支持向量机在许多领域都获得了成功的应用,逐步成为新的研究热点。

1 改进支持向量机模型

假设训练样本集合为:(X1,y1),(X2,y2),…,(Xm,ym)

这里,yi=1表示个人信用不好,yi=-1表示个人信用良好。m个样本可看成是n维空间中的点,如果存在一个超平面 ωX-b=0(ω,X∈Rm,b∈R)将这 m 个样本点分开,则对于新的数据,就可以采用下列的函数判别它的类型:

f(X)=sgn(ω·X-b)

设非线性映射为:

φ:Rn→Rl(l>n)

则在高维特征空间中的判别函数为:

f(X)=sgn(ω·φ(X)-b)

其中,ω·φ(X)-b是空间Zl中的超平面。

对于训练样本来讲,我们假设:

ω·φ(X)-b>1,if yi=1

ω·φ(X)-b<-1,if yi=-1

接下来需要寻找距离最大的两个超平面,也就是要求解这样一个二次规划问题:

约束为:

应用拉格朗日乘子法:

其中ai为拉格朗日乘子。根据一阶必要条件可知,在鞍点上,解(ω*,b*,a*)满足:

即系数a*必须满足:

最优超平面是训练样本在高维空间Zl中的线性组合:

由kuhn-Tucker条件可知,最优超平面的充分必要条件是:

支持向量ω*也可表示为支持向量的线性组合:

约束为:

表1 特征变量的分组结果

这里,Xi是支持向量,是拉格朗日系数,b*是最优超平面的截距:

2 实证研究

模型构建是基于统计样本的,在构建SVM模型之前,必须选取合适的SVM模型变量,然后根据所选取的变量进行相关的数据收集、数据整理和数据统计工作。

2.1 数据收集

本文基于以下步骤来完成数据收集工作:(1)根据从银行获得的实际数据,标出履约和违约客户,统计履约与违约客户的个数。通过统计,发现有80万个履约客户和5万个违约客户;(2)抽取履约和违约客户数据。按照时间顺序将账号进行排序,从每8千个履约客户中选取1个样本,得到1千个履约客户样本;从每50个违约客户中抽取1个样本,得到1千个违约客户样本;(3)列出抽中样本的名字、账号和客户属性信息(履约客户或违约客户);(4)将所有选中账户所对应的申请表和征信表汇总起来,最终得到建模样本。

2.2 数据整理

数据整理的主要目的包括:初步分析具有某种特征变量的客户的信用行为和对特征变量进行合理分组。根据现有的研究成果:如果某些特征项所包含的样本数目较少,则基于这些数据建立起来的模型的稳定性较差;如果一些特征项的“发生比”差别较小,则具有此类特征的客户信用行为很相似,可将这些特征项进行合并。本文使用交叉表分析方法来完成对样本数据的整理工作。采用交叉表分析方法可得到特征变量的以下指标:特征内履约客户的分布情况、特征内违约客户的分布情况和履约客户发生比。根据得到的具体指标对特征变量进行重新分组。分组方法是:对样本容量少的特征项进行合并;将“发生比”较接近的特征项予以合并。经过处理后得到的特征变量的各对应特征项分组如表1所示。在表1中,本文选取7个特征变量建立SVM模型,但这7个特征变量中性别、教育程度、单位性质、职业、婚姻是定性变量,由于SVM模型只能处理数值型变量,所以需要将定性数据进行量化处理。特征变量属性值量化表如表2所示。

2.3 数据统计

为了SVM建模的需要,还要将样本数据转化成SVM模型需要的格式:对于输出结果,即信用良好(履约)还是信用不好(违约)分别采用1和-1来表示;输入变量如下:x1表示性别,x2表示年龄,x3表示教育程度,x4表示月均收入,x5表示单位性质,x6表示职业,x7表示婚姻状况,由此就可得到符合SVM模型识别的训练数据。个人信用评估的SVM模型如图1所示。本文选取1000个样本作为训练样本,1000个数据作为测试样本;同时针对不同的核函数,比较不同的核函数的分类效果的差异。

表2 特征变量属性值量化表

本文分别用线性核、多项式核、高斯核进行分类试验,分类精度如表3所示。计算结果表明线性核的分类效果很不理想,说明消费信贷中的个人信用评估一般都不是线性可分的。应用多项式核来实现分类的结果较好;随着多项式次数的增加,则训练数据的精度不断增加,测试数据的精度却呈现减少的趋势。就本文实例来看,采用高斯核得到的分类效果没有多项式好,其原因就在于参数的选取比较困难,尤其是推广能力上还不够理想。

表3 分类精度表

3 结束语

本文的主要创新点:建立了基于改进支持向量机的消费信贷个人信用评估模型,并利用部分数据对消费信贷中个人信用评估问题做了实证分析。

实验结果表明:(1)一般情况下,消费信贷中个人信用评估不是线性可分的问题,采用线性核的分类效果不是很理想;(2)由于参数的选取难以做到恰到好处,就本文选取的实例来看,采用高斯核的分类效果不如多项式好,特别是在推广能力上不够理想;(3)采用多项式核来执行分类的效果较满意,随着多项式次数的增加,则训练数据的精度不断增加,测试数据的精度却呈现减少的趋势。

未来值得进一步研究的方向:(1)SVM采用一种“黑盒”学习方法,仅能得到分类模型;在信用评估领域,银行更需要向客户进一步解释SVM模型的结果;如何对SVM模型进行解释是未来值得研究的一个方向;(2)本文的分类结果仅限于“不好”和“良好”两个等级,而银行实际是将客户分为多个等级;如何快速、有效地利用SVM模型进行多值分类是未来值得研究的一个方向;(3)SVM模型的分类性能在很大程度上依赖于核函数的选择,如何选取一些合适的核函数也是未来值得研究的一个方向。

[1]朱小宗,张宗益,耿华丹.现代信用风险度量模型剖析与综合比较分析[J].财经研究,2004,(9).

[2]陈东海,谢赤.关于信用风险管理模型的比较分析[J].社会科学家,2005,(3).

[3]王磊.商业银行个人消费信贷的风险分析与对策研究[J].企业经济,2006,(11).

[4]黄弈铭.支持向量机在雷雨天气预报中的应用[J].广东气象,2006,3(1).

[5]王晓丹,王积勤.支持向量机研究与应用[J].空军工程大学学报,2004,5(3).

[6]余艳芳,高大启.一种改进的最小二乘支持向量机及其应用[J].计算机工程与科学,2006,28(2).

[7]邹淑雪,王岩等.一种基于支持向量机的模糊分类系统研究[J].小型微型计算机系统,2006,27(4).

[8]马海英,郭钰.数据挖掘技术在信用风险评估中的应用[J].现代管理科学,2006,(11).

[9]赵晓翠,王来生.基于主成分分析和支持向量机的商业银行信贷风险评估[J].统计与决策,2006,(7).

[10]黄儒靖.建立我国商业银行个人信用评估体系的思考[J].云南财贸学院学报,2004,20(3).

[11]张学工.关于统计学习理论与支持向量机[J].自动化学报,2000,26(1).

[12]胡延平.商业银行个人消费信贷面临的问题及对策研究[J].消费经济,2006,22(3).

[13]周玮,杨兵兵.商业银行信用风险管理基本要素[J].经济理论与经济管理,2002,(11).

猜你喜欢
消费信贷个人信用向量
后疫情时代个人消费信贷对消费结构的影响研究
商展经济(2022年17期)2022-09-14 14:31:00
向量的分解
消费信贷对江苏省经济增长的影响研究
——基于期限结构视角
聚焦“向量与三角”创新题
基于HPSO-BP神经网络的个人信用评估
个人信用信息何以应由宪法保护?——一个制度论证的进路
法大研究生(2020年2期)2020-01-19 01:43:22
消费信贷对我国经济增长的影响研究
消费导刊(2018年23期)2018-07-14 14:37:35
严重交通违法行为将直接与个人信用挂钩
汽车与安全(2016年5期)2016-12-01 05:22:05
向量垂直在解析几何中的应用
向量五种“变身” 玩转圆锥曲线