基于支持向量机的网贷借款人违约风险评估

2020-05-07 01:05黄建琼郭文龙陈晓峰
科技和产业 2020年4期
关键词:借款人网贷向量

黄建琼, 郭文龙, 陈晓峰

(1.福州外语外贸学院 理工学院, 福州 350202; 2.福建江夏学院 电子信息科学学院, 福州 350108)

随着互联网金融的发展,P2P网络贷款(简称网贷)平台作为一种新型的互联网金融模式于2007年开始兴起并迅速发展壮大。网贷平台因其便捷、低门槛、高效等优势,迅速成为商业银行和民间借贷之外的第三方小额资金供求平台。截至2019年11月,全国共有网贷平台6 575家,而出现平台跑路、平台诈骗、平台失联等停业及问题平台则高达5 796家,正常营业的网贷平台仅为779家(占比11.85%)。虽然政府监管部门已出台相关政策打击逃废债、违约等行为,但网贷平台违规及网贷借款人违约等问题仍然频发,这严重制约了互联网金融尤其是网贷行业的健康发展。利用网贷平台运营数据,采用智能机器学习算法,建立网贷平台的信用风险评估模型,可为投资者进行项目投资时提供决策支持,也必将为政府监管部门提供科学依据,进而促进网贷行业健康发展。

目前,国内外学者对网贷平台的信用风险评估研究主要分为两类:一是网贷平台风险评估;二是网贷借款人信用评估。在网贷平台风险评估方面,王丹等运用层次分析法和模糊综合评价法建立了P2P网贷平台风险评价模型[1];张杰等建立P2P网贷平台风险评价的因子体系,对80家主流P2P网贷平台进行风险评价排名[2];孟毅等利用支持向量机模型,对网络贷款平台的等级评价方法进行研究[3];文献[4]则提出了一种基于K-Means聚类和支持向量机的非均衡分类方法的P2P网贷平台风险模型;严武等在动态预警框架下研究网贷平台全生命周期内各模型的动态预警效果[5]。在网贷借款人信用评估方面,国外学者已有系统的研究[6-7],国内也有一些学者对此进一步展开研究。许艳秋等结合层次分析法和支持向量机对数据进行分类[8];李迅菡等利用支持向量机(SVM)建立借款人逾期预测模型[9];李昕等则建立基于BP神经网络的信用风险评估模型,并进行实验仿真[10];文献[11]通过Probit回归模型和Logistic回归模型比较,分析借款人发生逾期行为的影响因素,并建立借款人逾期率的概率模型;文献[12]通过多重学习器,构建基于Stacking集成策略的评估模型来预测P2P网贷中借款人的违约风险,预测性能较好。

上述关于借款人信用风险评估的文献主要关注的是借款人是否逾期,而借款人在还款过程中出现逾期行为,最终不一定会违约。因此,文章以网贷借款人借款项目的最终状态判定借款人是否违约,即项目状态为“已垫付”的视为“违约”,其他状态均视为“非违约”。并以借款人的项目状态是否违约作为目标变量,借款人的基本信息(年龄、婚姻状态、性别、学历、收入、房产、房贷、车产、车贷、工作年限)和贷款信息(年利率、还款期限、信用分数、信用评级、申请贷款笔数、成功贷款笔数、逾期次数)等17个核心变量作为解释变量。同时,因实验数据维度较多、非线性且样本量较少,故采用智能化的监督学习算法——支持向量机,建立P2P网贷平台借款人违约风险评估模型。最后,通过设计实验对此评价方法的辨识度与稳定性进行验证。

1 研究方法

1.1 支持向量机原理

支持向量机[13](Support Vector Machine, SVM)是由VAPNIK等人于1995年提出的一类半监督学习算法,是一种对数据进行二元分类的广义线性分类器,适用于小样本、高维度数据的机器学习 。

设有样本数量为n、维度为p的二分类数据训练集D:

(1)

在线性分类问题中,支持向量机通过在p维空间中找到一个能够实现二元分类的最优超平面H(满足wTx+b=0,w和b分别为最优超平面的权值和阈值),并且能够使得两类中距离最近的点间隔尽量大,如图1所示。

图1 最优超平面

其中,H0(满足wTx+b=1)和H1(满足wTx+b=-1)与H平行,且分别经过两类样本中距离H最近的样本,则对于任意点xi满足式子(2)的条件。

(2)

s.t.yi(wTxi+b)≥1,i=1,2,…,n

(3)

对式子(3)引入拉格朗日乘子法,将其转化为对偶问题:

(4)

在上式中,ai为拉格朗日乘子。求得最优w和b后,可得决策函数为:

(5)

而在非线性分类问题中,则通过多项式核函数、径向基核函数、线性核函数等核函数将数据映射到高维空间,进而在高维空间中将非线性问题转化为线性问题。其最优超平面用wTφ(x)+b=0,核函数记为K(xi,xj),则得到决策函数如下:

(6)

选择不同的核函数,产生的支持向量机也会不同。

1.2 模型分类性能评价

利用支持向量机对数据进行建模分类时,通常可用数据的总体分类准确度作为模型的分类性能评价指标。但是,P2P网贷平台的借款人项目是否违约的类别分布是不平衡的,也就是项目状态为违约的类别数量为少量,而项目状态为非违约的类别数量为大量,属于不平衡数据。在不平衡数据分类中,少量样本的有效识别比大量样本更有价值。因此,不能仅用总体分类准确度来衡量模型分类性能的优劣。

在不平衡数据分类中,把数量为少量的类别称为少数类,而把数量为大量的类别称为多数类,且少数类样本的分类准确率往往更重要。因为对P2P网贷平台而言,若借款人实际“违约”而被分类器判定为“非违约”的比实际“非违约”而被分类器判定为“违约”所造成的损失更大。对于支持向量机模型的分类结果,实际是少数类的“违约”样本被正确分类的用TP表示,被错误分类的则用FP表示;而实际是多数类的“非违约”样本被正确分类的用TN表示,被错误分类的则用FP表示。可用混淆矩阵来表示支持向量机的分类结果,如表1所示。

表1 分类结果混淆矩阵

因此,可以分别用召回率(Recall)、精确率(Precision)和准确率(Accuracy)作为P2P网贷借款人违约风险评估模型的分类性能评价指标。其中,召回率(Recall)、精确率(Precision)和准确率(Accuracy)分别用如下公式表示:

(7)

(8)

(9)

1.3 网贷借款人违约风险评估模型

在其他文献研究中,一般将网贷借款人出现逾期行为的判定其违约,但有逾期行为的借款人最终不一定会违约。因此,本文将网贷平台的借款人数据中的项目状态为“已垫付”的视为违约,其他项目状态(还款中、已还清、已逾期)视为非违约,且选取项目状态为目标变量,选取借款人的性别、婚姻状态等基本信息和信用评分、信用等级、逾期次数等借款信息作为解释变量,并利用支持向量机建立P2P网贷借款人违约风险模型,具体流程如图2所示。

图2 评估模型流程图

2 实验数据来源及预处理

本文使用Python语言编写爬虫程序抓取某网贷平台公布的投资列表数据,剔除“已流标”的项目数据,共获取1 973条样本数据,每条数据包括借款人的借款ID、年龄、学历等27列数据,违约项目(项目状态为已垫付的)为122个(占比6.18%),非违约项目1 851个(占比93.82%)。选取借款人的信用评分、信用等级、逾期次数等17个变量作为模型解释变量,而将项目状态作为目标变量并对数据进行量化,如表2所示。

表2 变量和变量量化说明

3 实验过程及结果分析

实验编程语言环境为RStudio-1.1.463平台,使用R语言中的e1071包对数据建立基于支持向量机的P2P网贷平台借款人信用风险模型。实验随机选取80%样本数据作为训练样本,剩下的20%样本数据作为测试样本。

3.1 模型建立

由表3可知,数据分类的准确性较高,表明该模型具有较好的识别度。其训练集的分类召回率和分类准确率平均值分别为100%和99.89%,测试集的分类召回率和分类准确率平均值分别为96%和99.04%,说明模型具有较好的稳健性和泛化能力。

表3 训练集和测试集的分类结果分析表

3.2 对比实验

同时,通过分类决策树(Classification and Regression Trees,CART)和随机森林(RandomForest,RF)对实验数据进行建模,并取5折交叉验证的平均值为实验结果。三种算法的分类结果如表4所示。

表4 三种算法的分类准确度

由表4可见,决策树模型的召回率较低,随机森林模型是决策树的加强分类器,因此,各方面表现总体优于决策树,而利用支持向量机建模的平均分类召回率、精确率和准确率总体最高,分类效果最好。

3.3 实验结果分析

通过实验建模及对比实验可以发现,决策树虽然可直观地显示分类规则,且随机森林具有较强的容错能力和稳健性,而支持向量机在实验数据维度较多、非线性且样本量较少的情况下在平均分类召回率、精确率和准确率上,总体表现更佳。

同时,本文在综合分析各类文献的基础上,剔除了网贷借款人信息中与违约行为相关度较低的特征,选取了17个核心特征作为模型的解释变量;以项目状态为“已垫付”视为“违约”,其他情况均视为“非违约”,这样处理更符合实际情况。因此,训练集的平均分类召回率高达100%,平均分类精确度和准确度也较高,可以为网贷平台做好风险防控提供有力支撑。

4 结论与讨论

论文通过爬虫技术获取某P2P网贷平台借款人信息,以借款人的基本信息和贷款信息中的17个核心变量作为解释变量,以贷款项目状态作为目标变量,对网贷借款人违约风险展开研究。文中将项目状态为“已垫付”的项目视为“违约”,其他项目状态视为“非违约”,并分别量化为1和0。利用支持向量机建立借款人违约风险模型,采用5折交叉验证对违约风险评估模型进行验证,并与决策树和随机森林建立对比实验,实验结果表明该方法得到的训练集和测试集的平均分类召回率、精确率和准确率总体最高,说明该违约风险模型具有较好的稳定性和泛化能力,有助于P2P网贷平台进行有效的风险评估和风险预警,并提前做好风险防控,进而促进平台的良性发展。文章将贷款项目状态分为“违约”和“非违约”两类,暂未对“非违约”中的各种情况进一步分类,在后续的研究中,将增加分类数量,以期为网贷平台提供更多的决策支持。同时,网贷平台根据借款人填报的信息进行实地核实,并给出相应的信用评分和信用等级。但信息不对称可能会造成部分信息失真,所以,在下一阶段的研究,将结合借款人的履约情况建立动态的信用评分,并重新设置等级,有助于网贷平台做好借款人违约风险预警。

猜你喜欢
借款人网贷向量
向量的分解
聚焦“向量与三角”创新题
浅论借户贷款情形下隐名代理的法律适用
P2P网贷中的消费者权益保护
小微企业借款人
网贷平台未来亟需转型
网贷十年:迎来“去伪存真” 时代
热词
向量垂直在解析几何中的应用
向量五种“变身” 玩转圆锥曲线