李响军
摘要:随着社会经济的快速发展和信贷业务的增加,贷款人的信用评估也成为商业银行信贷的重要组成部分。文章基于某商业银行客户信用数据集,建立支持向量机分类模型,先对数据进行预处理以后,训练合理高效的信用评估分类器,根据改变SVM模型中的核函数和训练样本量,对比研究发现,SVM模型对个人信用风险的评估具有良好的分类效果,向商业银行提出合理有效的建议,对推动我国信用制度的建设和社会主义市场经济的发展有着重要的现实意义。
关键词:商业银行;信用贷款;信用评估;支持向量机
一、信用风险产生的原因
随着我国经济的蓬勃发展,更多的人选择投资来获取经济利益,然而在实际生活当中投资者往往会面临投资资金短缺等问题,此时就需要向银行进行贷款,进而信用贷款业务也是逐年增加,使得全国各地商业银行和金融机构得以迅速发展。商业银行是通过发放信用贷款、吸收存款等业务盈利性金融机构,在资金供需平衡和资金流通等方面起着举足轻重的作用。信贷业务的发展加速了我国经济社会的发展,然而信用贷款往往会产生信用风险,信用风险的存在会给商业银行业务的发展带来不利的影响,而相当一部分信用风险往往是因为银行在发放贷款时的判断失误导致的,所以建立一套科学合理有效的信用评估体系对于银行的发展至关重要。传统的信用评估往往是人为进行或者是利用简单的信用评估,不仅评估的工作量巨大,并且极容易由于人的主观因素的影响。随着市场经济的多样化发展,信用风险的形式也变得复杂多样,使得信用的评估也是越来越具有挑战性。全世界范围内都存在着信用风险,有相当一部分的商业银行和金融信贷机构破产的重要因素之一就是信贷风险的存在。
全球范围内各个国家的银行早就开始慢慢进行信用风险的评估,也制定了各种信用风险的管理办法,但随着银行业务的增加和多样化发展,信用风险也在增加,在各种信用风险中,个人的信用风险显得非常重要,个人信用风险表现为个人向银行进行信用贷款后因为各方面因素无法按时还款而带来的违约风险。所以信用风险评估体系的研究是一项重要而且意义重大的任务,其中个人信用风险的评估也显得尤为重要。
由于信用风险越来越受到银行的关注和重视,所以出现了一系列信用风险评估办法,比如,将判别分析、线性规划应用于信用风险的评估,随着科技进步和理论的发展,信用风险的评估逐渐迈入机器学习的时代,深度学习等一系列信用风险评估模型开始发展。
数学规划法是将信用评估问题进行转化,根据数学知识分析求解,大致过程是将数据集中的样本分为两类,不妨计为I类样本和II类样本分别有N1和N2个,其中每个样本都包含有k个评價指标,分别是xi1,xi2,…,xik,再根据相应的数学理论求出一个可以进行分类的阈值H和权重,根据阈值H和权重w=(w1,w2,…,wk)来进行分类判别,I类样本经过加权计算后其值大于设定的阈值,即:
w1xi1+w2xi2+…+wkxik>H,i=1,2,…,N1
II类样本经过加权计算后其值大于设定的阈值,即:
w1xi1+w2xi2+…+wkxik>H,i=1,2,…,N2
但在实际的数据分类应用中上式一般情况下是很难成立的,此时就需要引入一个非负的变量ai,将上面的问题转化为数学中的条件最优化问题:
目标函数:
约束性条件:
w1xi1+w2xi2+…+wkxik≥T-ai,1≤i≤N1
w1xi1+w2xi2+…+wkxik≥T-ai,N1ai≥0,i=1,2,…,N2
此分类过程在信用风险评估中过程简单也便于理解,但是后续进行目标函数的最小化计算时需要专业的数学理论知识。
还有其他一系列的信用风险评估方法,由于支持向量机在分类方面有着良好的优势,虽然有国外专家将支持向量机应用于信用风险的评估中,但信用风险的评估还一直在发展研究当中,本文以某商业银行信用数据进行信用风险评估。
本文将介绍SVM模型的原理和理论基础,根据预处理后的数据进行训练SVM分类器,并在测试集上验证模型的分类正确率。
二、某商业银行信用数据
本文所采用的数据是某商业银行的个人信用数据,是贷款人向银行申请信用贷款时提交的个人信息,该信用数据集中有1000个样本,在样本数据集中最后一列是贷款客户的信用分类,若该客户信用良好用“1”表示,反之用“2”表示,其他数据是客户的信用指标数据,数据集中的其他数据表示客户的信用指标的数据。对于商业银行来说,更愿意为信用较好的客户发放贷款,拒绝为违约风险较高信用较差的客户发放贷款。对信用数据集中的两类客户进行正确区分是个人信用风险评估的重点内容也是本文所研究的内容。
(一)信用指标的描述性分析
为了解释数据集中各样本数据的信用指标来解释该指标对样本分类结果的影响,并给出一定的解释和得到合理的评价指标,先来看个别信用指标对个人信用风险评估结果的影响。下面就该客户历史信用记录的五个属性值:无不良信用记录(A30)、所有贷款已付清(A31)、有尚未到期的信用贷款(A32)、有信贷延迟还款记录(A33)、信用记录较差(A34),再结合其他信用指标银行对该客户做出的信用评价之间的关系
再根据表1中的数据画出更为直观的柱状图1。
由表1和图1可以看出,对于无不良信用记录和所有贷款已付清的客户而言,结合其他属性后被判别为劣质客户的可能性稍大,这也许是因为这些客户的信用记录空白或者其他因素,对于历史信用记录稍差的客户而言,大概率是要被判别为劣质客户的,结合其他因素后分析,该客户还是有可能被判别为优质客户的。
由以上分析得到,商业银行在进行贷款客户的个人信用风险评估时,需要结合多种因素,利用科学的数学模型进行理论的判别分析。
(二)信用指标数据的预处理
在贷款时客户向银行提交的个人信息包括年龄、工作、住房、现有资产等情况,现有资产、贷款数额等数值型指标可以根据实际数额来进行分析,但对于住房情况、工作情况等字符型指标采用直接赋值的方式进行赋值,比如,就共同贷款人、担保人情况中的A101(表示:无)、A102(表示有共同贷款人)、A103(表示有担保人)可以直接分别赋值数字1、2、3。由于只涉及分类,赋值后的数值型指标在数学模型中只是为了方便计算,所以可以进行人为赋值,并不影响分类的结果。
将数据进行赋值以后数据集中的指标属性均是数值型的,但是由于各指标数据不在同一个数量级上,比如银行存款数值和赋值的数值之间量级太大,为便于计算,在原始数据不变的前提下根据以下方法进行数据的归一化处理,使得归一化后的数据在区间[0,1]之间:
其中,x 表示归一化后的样本数据集中第i个样本的第j个信用指标数值,max(x )、min(x )分别表示第i个指标中所有属性值的最大值、最小值。
由于数据太多,在表2中只先列出前样本数据集中前5个样本通过归一化处理后的数据结果。
三、信用风险评估的SVM模型
20世纪末Cortes和Vapnik提出了支持向量机(SVM),随着支持向量机理论的发展和应用上的广泛性,使得支持向量机已经被广泛应用于机器学习中的各类数据分类问题,就支持向量机而言,既可以分析处理小样本数据,又可以处理非线性可分的数据和高维数据,根据有限的样本数据训练出在模型的复杂程度和模型的学习能力上找到最佳折中从而降低模型的推广能力。在实际问题中,数据复杂多样,对于样本训练集来说,可以训练出在样本训练集上有很好的判别能力,但是这样训练出来的模型在样本测试集上的学习能力较差,根据统计学理论,训练出良好的模型就需要结合经验风险的最小化和模型的学习能力,最后寻求一个折中,使得模型中实际的期望风险最小化,也就是结构风险的最小化,结构风险包含经验风险和置信风险。
在机器学习中的结构风险包含经验风险和置信风险,经验风险是在训练分类器的过程中训练器在训练样本上的误差,置信风险指的是训练分类器在测试样本上的误差,也就是分类器在测试样本上的学习能力。经验风险在根据训练样本进行训练分类器时可以直接计算出来,而置信风险跟样本量和模型的VC维有关,相较来说大样本量的数据训练出来的训练器模型的学习能力较好,训练器模型的VC维越大,学习能力也较差,也就是置信风险越大。
训练器模型就是寻求经验风险最小的函数,由于经验风险大部分情况下会随着训练器函数的VC维的减小而增加,而VC维的增大一般情况下经验风险会减小但是置信风险会增加。寻求结构风险最小也就是经验风险和置信风险之和的最小,如图2所示。
二分类问题是支持向量机所研究的问题中的一个最基本问题,根据数据集中各样本的属性值将其划分为两类,比如假设有n个训练样本,每个样本用(xi,yi),i= 1,2,…,n表示,样本中的xi∈Rn是一个维向量,用来表示该样本的n个属性值,yi={-1,+1}表示的是样本的分类类别,可以寻求一个可以将两个类别的样本正确分类的超平面,该超平面两侧就是两类样本点,如图3所示。
当样本可以被线性划分时,其实可以找到很多条直线都可以满足样本的分类要求,分类器的函数为g(x)=wx+b,其中w表示分類超平面的法向量,b是位移向量。需要找到最优的那个超平面,使得分类间隔最大,所谓分类间隔就是样本点xi到超平面的间隔δi=yi(wxi+b),这样的分类超平面既可以满足需求也可以尽量减小置信风险。如图4所示。
虽然与直线H1与直线H2平行且位于他们之间的任意一条直线都可以将两类结果正确分类,位于直线H1与直线H2上的样本点称为支持向量,两条平行线之间距离两条直线都相等的直线H称为在该支持向量机下的最优超平面,这样的最优超平面同样也可以找到很多组。
在多组最优分类超平面中,再选择支持向量到H的距离最大化原则,也就是H到H1之间的距离δ= 要最大化,这样就可以使得最优分类超平面更加准确区分两个类别的属性。
经过推测可以得到最优分类超平面。
f(x)=sign(w*x+b*)
=sign α y x x+b
上面是线性可分的,当然也有非线性可分时的分类器。如图5所示。
对于有这样异常点的样本数据集,可以引入一个孙驰变量ξp≥0进行求解,但是,更多的时候样本数据集复杂多样,是非线性可分的,所以线性和近似线性可分的模型已经不再适用,这时可以考虑将数据集映射到高维数据集中,使其线性可分,再寻求最有分类器。由于高维数据计算涉及计算量大的问题,所以需要引入核函数K(xi,xj),一般和函数有线性核函数、多项式核函数、高斯核函数和Sigmoid核函数。引入核函数之后训练分类器过程为:
1.选择核函数和惩罚因子C>0,构造约束优化问题
αiαjyiyjK(xi,xj)- αi使得 αiyi=0, 其中0≤ai≤C
2.再利用SMO算法求解目标函数中α*向量最小值。
3.根据α*求解w*= α yi?覬(xi)。
4.寻找支持向量,也就是满足0<αs 得到分类超平面为: α yiK(x,xi)+b*=0 最后得到SVM模型的分类决策函数为: f(x)=sign( α yiK(x,xi)+b*) 四、实证分析 考虑到训练分类器过程中会受到训练样本量和函数的影响,因此在实验过程中利用交叉对比,假设固定核函数,取不同的训练样本量和不同的核函数进行实证分析,分析结果如表3所示。 根据表3中的结果可以得到,不同的训练样本量会导致不同的结果,随着训练样本量的增加,模型的正确率也会增加,就商业银行而言,第I种分类错误会导致银行的盈利相对减少,但第II类分类错误会直接导致银行需要承担这些劣质客户违约的风险,所以需要找到分类正确率更高的模型。 由上面的对比分析,训练样本量为800时分类器的正确率已经很高,下面就以训练样本量为800时改变模型的核函数,对比其预测结果: 表3中的结果明显能够对比三种核函数在该模型中的对测试样本数据的影响,当训练器中的核函数为多项式核函数和RBF核函数时,分类器对测试样本的正确分类率影響不大并且都有良好的分类效果。 为了更加直观观察分类器对测试样本分类情况,取训练样本量为900,核函数选取RBF核函数时分类器对测试样本的分类结果如图6所示。 根据图6可以看到,在训练器对测试样本进行分类时,该样本是否被正确分类,测试样本的符号与分类器判别分类后的符号重合时,说明该样本点已经被正确分类,反之该样本被错误分类。分类器对样本数据的判别分类正确率很高。 五、总结与建议 1. 对数据集中的数据进行赋值和进行和归一化处理后,数据的可识别度有所提升,模型的分类效果有着良好的效果。商业银行和信贷金融机构也需要在进行信用风险评估信息统计时,在评价指标上进行筛选,准确统计每位客户的信用指标的属性值,也要对指标进行筛选和甄别,并且务必做到客户信用数据的准确性,信用指标属性数值的准确性将直接关系到信用风险模型的准确性和学习能力,还会造成商业银行的经济损失。 2. 不同的训练样本量会影响模型在测试集上的准确程度,不同的核函数也会对影响模型在测试集上的准确程度,商业银行在进行个人信用风险评估时可以通过比较选择适合自己的分类器模型。 3. 不同的商业银行在进行信用风险评估时选择的指标也不一样,所以在进行模型中核函数的选择时应该根据自己的情况进行选择,也可以根据需要更改核函数中的参数,提升模型的准确程度。 4. 商业银行的发展在我国经济社会快速发展的今天,对推进区域经济社会发展等方面产生了重要的作用,是我国社会主义市场经济体制中不可或缺的一部分,在其发展过程中,还需要在贷款策略和风险管理等方面作出合理评估。优先选择向信用表现良好的优质客户发放贷款,对于信用评估较差的劣质客户进一步进行审核,并且还可以向劣质客户增加约束性条款,必要时要求其抵押等价值或者更高价值的抵押物。 参考文献: [1]徐长荣.巴塞尔新资本协议与我国商业银行信用风险管理对策研究[J].商业研究,2005(03):143-145. [2]荆浩,刘垭,唐金环.基于多变量支持向量机的供应链需求预测分析[J].系统工程,2018,36(11):121-126. [3]郭保苏,吴文文,付强,吴凤和.基于支持向量机分类策略的多晶硅电池片色差检测[J].计量学报,2019(06):1013-1019. [4]高钦姣,张胜刚,贾晓薇.基于支持向量机的股票价格预测模型研究与应用[J].课程教育研究,2016(28):227. [5]Bellotti T.Crook J.Support vector machines for credit scoring and discovery of significant features[J].ExpeR Systems with Applications,2009,36(02):3302-3308. [6]Harris T.Credit scoring using the clustered support vector machine[J].ExpeR Systems with Applications,2015,42(02):741-750. *基金项目:海军工程大学2020年教学改革建设项目。 (作者单位:海军工程大学)