P2P视角下的个人信用风险评价研究

2017-01-16 08:03:20张闻洲

甘肃科学学报 2016年5期

关键词：信用风险准确率神经网络

贾湖,张闻洲

(天津大学管理与经济学部,天津 300072)

P2P视角下的个人信用风险评价研究

贾湖,张闻洲

(天津大学管理与经济学部,天津 300072)

在分析P2P网贷征信特征的基础上,建立了具有明显行业特征的个人信用风险评价指标体系;使用支持向量机和GA-BP神经网络法来对个人信用风险进行评估。实证分析表明支持向量机有着更高的分类准确率,同时也验证了该评价模型在实际中能较为准确地得到个人信用风险评价结果,有助于提高P2P平台的风险控制能力。

P2P;个人信用风险;支持向量机;GA-BP神经网络

P2P(Peer to Peer)网络借贷是基于互联网的一种金融模式的创新,在此模式下网贷平台将贷款需求者与贷款提供者联系到一起,分别实现了双方的融资和理财需求,平台在此过程中收取一定的手续费或者利息差作为其利润来源,比传统借贷更为方便、快捷。自2005年以来,以Zopa、Lending Club、Prosper等为代表的P2P贷款模式在欧美兴起,之后迅速在世界各地蔓延。2006年传入中国后,迅速发展,截止至2015年12月,正常运营的平台共计2 595家,交易额约1 400亿元[1]。国内由于理财途径的欠缺,利率市场化较为落后,个人投资者对理财有着庞大的市场需求,直接导致了P2P网贷在我国的迅猛发展。但是由于监管问题和我国个人征信机制不完善,使得P2P平台的坏账率远高于传统金融机构,这就要求我们对个人信用风险重新进行研究和评估。与传统的银行贷款相比,P2P贷款具有以下优点:借贷双方准入门槛较低;个性化交易合约;收益率大幅度超过银行理财产品。但是这些原因也客观上导致了监管难,平台风险较高的问题。高风险产生的坏账率也是该行业为人所诟病的原因,所以平台的风险控制体系就成为其核心竞争力,而基于互联网技术的数据产生、数据挖掘以及在此后的技术处理则是每一个风险控制者需首要关注的问题。因此,P2P平台如何在信息化时代准确利用已知信息,识别和评价个人信用风险、还款能力,值得继续深入研究。

目前对个人信用风险的研究主要分为两部分,评价指标体系的研究和评价方法的研究。中国建设银行于1999年首先提出了基于信用卡的个人信用等级评定办法,该体系赋予了三大类14个具体指标不同权重,可以对借款人的信用状况做出量化评价,但评价系统设计应用均基于银行系统,并不适用于其他机构。迟国泰等[2]将个人信用风险评价体系分为贷款能力和还款意愿两大类,共15个指标,并设计了负债情况等三项双重影响指标,完善了个人信用风险评价模型。陈美蓉等[3]研究了电子商务和个人信用风险,提出了包括静态指标和动态追踪指标的评价体系,建立了基于电子商务的个人信用风险评价方法。王楚珺等[4]研究了大数据对于P2P平台控制风险的重要性,提出了包括社交网络状况等基于大数据控制风险的指标体系。

在评价方法研究中,熊熊等[5]使用了因子分析和Logistic回归方法分析了供应链金融模式和传统商业银行模式下企业信用评级的不同,并且较为准确的评价了业务的真实风险;王振华[6]针对Hopfield神经网络的自联想特性,提出一种新的带有粒子群优化过程的Hopfield分类算法(PSO-HOP)处理了分类问题,并且通过实验验证了该方法的较强鲁棒性和分类准确度;迟国泰等[7]构建了人的全面发展综合评价指标体系,建立了基于支持向量机的人的全面发展评价模型,通过正交设计以及AHP法解决了缺乏训练样本输入、输出数据情况下如何应用支持向量机进行回归以得到评价结果的问题。张艳华等[8]通过文本分类实验,验证了SVM法在高维空间下比传统方法有更强的泛化能力。

1 GA-BP神经网络和SVM算法

BP神经网络是一种按误差逆传播算法训练的多层前馈网络,解决了模式分类与非线性映射问题。遗传算法是一种仿照生物进化规律而形成的随机化搜索方法。传统优化算法BP神经网络是从单个随机初始值开始迭代寻求最优解的,这样的特性导致它极易陷入局部最优解,而GA从串集开始搜索,可以寻找全局最优解。在GA优化BP神经网络的过程中,主要可以对神经网络的网络权值进行优化。支持向量机(SVM,support vector machine)算法基于统计学习理论,是一种专门研究小样本下的机器学习理论。它避免了人工神经网络方法中的网络结构选择、过学习、欠学习以及局部最小问题。最初, SVM主要用于解决二分类问题,后来在多分类领域也取得了良好的效果。

SVM算法[9]的核心思想就是在N维空间中找到一个超平面作为决策曲面,使得空间中的点被隔离,从而实现数据的分类问题。显然,一个点和超平面之间的距离可以表示分类的准确度,SVM就是要使这个距离最大化,分类原理见图1。

图1 SVM分类原理Fig.1 SVM sorting principle

在训练样本(xi,yi)N中,xi是输入样本,yi∈〈－1,＋1〉是样本标签。在线性可分的情况下存在超平面可以将样本完全分类,设用于分类的超平面方程为

其中:“·”为点积;w为可调节权值向量;b为偏置。

最优超平面是使得每一类数据与超平面之间的距离最大的平面,根据式(1)可设最优超平面方程为

求该间隔最大化问题可以转化为解其对偶问题:

该问题可以使用lagrange乘法来解决,最优解可表示为

对于非线性可分的样例,我们可以将其映射到高维空间来计算,计算过程可以由上述过程推理。在计算中引入了核函数,在处理分类问题中,有多种核函数可以使用,在具体计算中我们将一一试用以找到最合适的核函数。在计算非线性可分的过程中,还引进了惩罚因子,在计算分类问题中主要有两类,即C-SVC和V-SVC。

2 建立风险评价体系

传统银行渠道中,个人贷款主要以车贷、房贷、装修贷款等有抵押标的贷款为主,纯信用贷款很少,以交通银行为例,信用贷款需要提交工作证明、收入证明等一系列材料。但是以人人贷为例,在2012年所有贷款中,约有66.7%借款的目的是资金周转,创业投资、个人消费紧随其后,分别占10.0%和7.4%[1]。可以看出传统银行贷款渠道没有满足大部分人的贷款需求,而且传统银行贷款主要考察现有资金偿还贷款能力,其评价体系中银行账户资金流水、房产等占据绝对权重,这不符合P2P行业借款人的实际情况。虽然在P2P借款中这些条件也很重要,但并不是必要条件,如果借款对象其他条件符合资质,仍然可以授信借款。基于以上原因,建立一个符合P2P行业的个人信用风险评价体系对于促进行业发展很有必要。

FICO体系是国外最知名的个人信用评分体系,主要涉及五个评价指标,分别是违约历史(35%)、债务负担(30%)、信用历史(15%)、信用种类(10%)、新申请信用(10%)[10]。

国内个人评分机构主要是芝麻信用。其核心评价体系主要涉及五方面:身份信息(15%)、信用历史(35%)、履约能力(20%)、人脉关系(5%)、行为偏好(25%)。而腾讯征信则主要考虑四个方面:守约指数、安全指数、财富指数、消费指数。国内知名P2P平台人人贷在借款时有四项核心材料需要提交,分别是身份证信息、工作认证、收入认证和信用报告。此外人人贷还可以通过一些补充材料提高信用评分,包括房产认证、技术职称认证、结婚证明、购车证明、学历认证、手机实名认证和微博认证等。

综合上述资料,结合P2P网贷行业的特征,在设计指标体系时应当注意以下原则:(1)征信过程简单化,P2P行业主要采用线上征信,个人信用的评价依据很多都来源于用户在网站上的注册信息,简单的征信过程可以提高用户体验;(2)需要提交的材料必须容易获得,并且提供获取途径;(3)获得的材料必须能够充分反映客户的信用状况。结合以上资料,研究提出具有P2P特征的个人信用风险评价指标体系,如表1所列。

表1 具有P2P特征的个人信用风险评价指标体系Table 1 Person credit risk assessment system with P2P

研究数据来自加州大学欧文分校(University of CaliforniaIrvine)提出的用于机器学习的数据库——UCI数据库中的German数据集。该数据集中共包含1 000组数据,其中好客户700组,坏客户300组。随机抽取70组好客户和30组坏客户作为检验模型准确度的验证数据。指标体系中与之不一致的其他数据由于无法获得,使用随机数据模拟而成。在检验二分类模型结果时,直接使用最终数据;而在三分类中,把原有好客户再随机分类为两级,以检验模型在多分类下的效果。

模型计算过程如下:

首先是归一化数据:对训练数据的归一化使用了Matlab中的Premnmx函数;对验证数据的归一化使用Tramnmx函数。

在使用Libsvm之前首先要设置惩罚因子C,由于Libsvm只有径向基函数的参数寻优程序,所以使用该程序来寻找最优的C,结果C为128。

在SVM计算中,使用了Libsvm作为Matlab程序工具箱。该工具箱的输入语言如下:

模型建立:Model＝svmtrain(train_label, train_matrix,[‘libsvm－option’]);

预测结果:[predict_label,accuracy]＝svmpredict(test_label,test_matrix,model),

其中不同核函数可以导致不同的预测精度,具体见表2。

由表2可见,核函数为linear时准确度最高,为85%。此时,程序默认的SVM模式为C-SVC,将其变为V-SVC再次运算,结果为83%,可以看出,使用SVM预测,结果的精度最高,可以达到85%。

表2 二分类四种核函数预测精度比较Table 2 Four kinds of kernel function prediction accurac comparison table in binary classification

在神经网络中,由于理论上三层的神经网络就足够实施分类,所以研究采用三层神经网络。经过试验,在隐藏层为13时,网络的预测精度达到最优。采用的学习函数为trainlm,传递函数为tansig。使用GA优化下的BP神经网络见图2,BP神经网络运算结果见图3。

图2 GA-BP神经网络Fig.2 GA-BP neutral network

图3 BP神经网络Fig.3 BP neutral network

由图2、图3可知,GA优化下的BP神经网络在23次迭代以后即达到预定精度,训练结束;而BP神经网络在经过55次迭代以后,训练结束,仍然没有达到预定精度。用训练好的神经网络分别对数据进行预测,由于神经网络初始权值不同,所以准确率有所波动,研究分别记录了五次运行结果,取其平均值作为最终预测结果,准确率如表3所列。

表3 两种神经网络预测精度比较Table 3 Comparison of two neural network prediction accuracy table

由表3可以看出,GA-BP神经网络分类准确率为79%,要高于BP神经网络的73%,这也符合我们对神经网络优化后的预期效果;而SVM的准确率为84%,明显高于两种神经网络方法。

在三分类问题中,使用和以上内容相同的归一化方法,然后利用Libsvm寻找最优惩罚因子,C＝8 192,如图4所示,可以看出C的值很大,有过拟合的趋势,这可能和三分类中每一类型的数据较少有关。

图4 Libsvm-Matlab参数寻优结果等高线Fig.4 Parameter optimization result contour map of Libsvm-Matlab

三分类中不同的核函数同样可以导致不同的预测精度,具体见表4。

表4 三分类四种核函数预测精度比较Table 4 Predicting accuracy comparative sheet of three sorting and four kinds of neutral network

由表4可见,和二分类问题相同,使用Linear法作为核函数要优于其他方法,此时SVM模式仍然为C-SVC。

在神经网络模型中,为表现对比,同样采用三层神经网络,其中隐含层节点数为13,传输函数为tansig,学习函数为trainlm,使用GA优化下的BP神经网络见图5,BP神经网络运算结果见图6。

图5 GA-BP神经网络Fig.5 GA-BP neutral network

图6 BP神经网络Fig.6 BP neutral network

由图5、图6可知,GA-BP神经网络在36次迭代后达到预定精度,训练结束;而BP神经网络在经过58次迭代后,由于Validation checks＝50而结束训练,未达到要求精度。同样,我们使用了五组数据,并用其平均值作为预测准确率结果,见表5。

表5 两种神经网络预测精度比较表Table 5 Predicting accuracy comparative sheet of two kind of neutral network accuracy table

由表5可以看出,BP神经网络和GA-BP神经网络在三分类问题中的分类准确率几乎相同,约为50%, SVM预测的最高准确率为59%,和随机预测的准确率33%相比具备一定预测能力,但是仍然很低。神经网络的预测精度虽然比较低,但是并没有出现过拟合现象,而SVM的最佳惩罚因子明显较高,有过拟合趋势。由于样本数据中含有部分随机数,而且三分类样本是用二分类样本产生的,也产生了一些误差,客观上影响了结果的准确率。

3 结论

如今,已有一些信用评价机构在商业模型开始试用SVM,并且取得良好效果。我们使用BP神经网络、GA-BP神经网络、支持向量机三种方法分别对个人信用风险中二分类和三分类问题进行研究,可以看出SVM明显要比两种神经网络的方法准确率高,有更强的学习能力。此外神经网络的方法在三分类问题中都存在精度较低的现象,然而在具体P2P网贷平台的应用中,作为一种高度个性化的交易平台,客观上需要将个人信用分为很多级,每一个级别对应不同的融资利率,所以在目前信用风险评级飞速发展的情况下,如何在多分类问题中提高模型的准确率是进一步研究的主要方向。

[1] 李钧.中国P2P借贷服务行业白皮书2015[M].北京:中国经济出版社,2015.

[2] 迟国泰,许文,孙秀峰.个人信用卡信用风险评价体系与模型研究[J].同济大学学报:自然科学版,2006,34(4):557-563.

[3] 陈美蓉,刘晓红.电子商务个人信用评价分析[J].统计与决策, 2005,15(14):38-40.

[4] 王楚珺,刘会芳,尉丽丽.大数据在控制P2P网贷风险上的应用[J].中国商贸,2015,9(3):84-86.

[5] 熊熊,马佳,马文杰,等.供应链金融模式下的信用风险评价[J].南开管理评论,2009,12(7):92-98.

[6] 王振华.基于Hopfield神经网络的数据分类[J].计算机应用, 2011,31(S2):92-96.

[7] 迟国泰,程砚秋,李刚.基于支持向量机的人的全面发展评价模型及省份实证[J].管理工程学报,2012,26(1):98-105.

[8] 张艳华,王海涌,郑丽英.基于支持向量机的文本分类技术研究[J].甘肃科学学报,2006,18(3):72-74.

[9] Chang C C,Lin C J.LIBSVM:A Library for Support Vector Machines[EB/OL].http://www.csie.ntu.edu.tw/～cjlin/libsvm,2011.

[10] 姜琳.美国FICO评分系统述评[J].商业研究,2006,25(20):81-83.

Study on Personal Credit Risk Assessment from P2P Perspective

Jia Hu,Zhang Wenzhou
(College of Management and Economics,Tianjin University,Tianjin300072,China)

On basis of analyzing P2P internet loan credit investigation,personal credit risk assessment index system with obvious industry characteristics has been built;this text uses vector machine and GA-BP neural network method to assess personal credit risk,the empirical analysis shows that supporting vector machine has higher sorting accuracy and verifies that this assessment model in practical can get accurate personal credit risk assessment result and contributes to improving anti-risk ability of P2P.

P2P;Personal credit risk;Support vector machine;GA-BP neural network

F832.479

:1004-0366(2016)05-0130-06

2016-03-07;

:2016-05-09.

贾湖(1963-),男,天津蓟县人,博士,副教授,研究方向为工程经济、项目管理、项目评价.E-mail:jh4374＠iju.edu.cn.

张闻洲.E-mail:zwz_tju＠126.com.

Jia Hu,Zhang Wenzhou.Study on Personal Credit Risk Assessment from P2P Perspective[J].Journal of Gansu Sciences,2016,28(5):130-134,147.[贾湖,张闻洲.P2P视角下的个人信用风险评价研究[J].甘肃科学学报,2016,28(5):130-134,147.]

10.16468/j.cnkii.ssn1004-0366.2016.05.028.