基于贝叶斯网分类器的互联网借贷风险评估

2018-12-05 18:01
北方经贸 2018年6期
关键词:贝叶斯网络结构借款

黎 月

(南京邮电大学经济学院,南京210023)

一、前言

“互联网+”和大数据的时代背景下,信贷行业在数据挖掘和云计算的技术主题下呈现爆发式增长。它促进资金优化配置,缓解市场信息不对称等问题,满足中小微企业对融资服务的需求。信贷领域的信用体系是互联网金融发展的核心,也是亟待解决的重大问题。金融市场尤其是信贷业务中个人信用涉及的领域广泛,主要集聚在信贷交易、信息消费和道德规范等方面。2014年6月,中国国务院发布的《社会信用体系建设规划纲要(2014-2020)》中提出信用建设的目标,信用风险评估是借贷体系建设的关键环节,需要学术界和业界不断地创新性研究。[1]金融体系面临资本和技术脱媒的双重难题,通过评估体系反映借款人的信用评分,利用庞大的借贷用户行为数据建立信用体系及等级问题,具有重要的现实意义。

二、互联网借贷风险评估的文献综述

经济学界“理性人”假设,网络信贷平台认为借款人大部分时候是理性的。主要基于收入、信用、借款及个人状况等因素来反映违约风险。Shen,Krumme&Lippman (2010) 及 Collier&Hampshire(2010)以P2P为例实证:借款人的信息、信用及利率影响违约风险的程度。李渊博等(2014)研究表明借款期限、借款等级和个人信息情况对毁誉风险因素影响显著,而借款金额未通过显著性检验。

从交易结果出发,借款人的人口特征和身份地位也会影响借贷风险。Pope&Sydnor(2008)、Iyeret al(2009)和Ravina,E.(2015)都指明信誉越高其借贷风险越低,种族、年龄和性别等人口特征通过利率影响借贷状况。个人信息、信用水平和记录、收入、就业、年龄和房屋所有权等会影响借贷成功率。吴小英等(2012)实证分析显示学生群体的借款成功率比一般借款低3.4%。[2]朱浩(2014)以拍拍贷的研究发现结构型社会资本对利率的影响不显著,也有学者(2016)认为显著,关系型社会资本能够降低借款利率。

三、贝叶斯网络

(一)贝叶斯理论

在所有相关概率都已知的情形下,贝叶斯考虑的是基于这些概率和误判损失来选择最优的类别标记。[3]对每个样本x,选择能使后验概率P(c|x)最大的类别标记。[3]若使决策风险最小化,首先要获得后验概率 P(c|x)。其中,P(c)是类“先验”概率,P(x|c)是相对于类标记c的类条件概率,而P(x)是用于归一化的“证据”因子。[3]贝叶斯网络考虑朴素贝叶斯分类器要求所有变量都是独立的问题,[4]给定父节点集,令B=<G,Θ>,即假设属性xi在G中的父节点集πi,则Θ包含了每个属性的条件概率表θxi|πi=PB(xi|πi)。通过评分函数,衡量备选贝叶斯网和训练数据的拟合优度。

(二)基于登山算法的网络寻找

因变量节点多,集合庞大等问题,登山算法从网络结构出发,每增加或者减去一条连接边,计算一次评分函数,直到不再减小为止。主要设定五个步骤:(1)选取一个网络结构作为初始状态N;(2)根据计分函数计算N的得分,赋值给score<-score(N);(3)改变N的结构(增减一条边)得到更新状态N’;(4)If score(N’)>score(N);Maxscore<-score(N’);(5)Return(Maxscore);可以找到一个“最优”(也可能是局部最优)的贝叶斯网络结构图并且训练出各节点处的条件概率参数。

四、基于贝叶斯分类器的互联网借贷风险评估的实证分析

(一)研究方法和实验脉络的选择

采用多维的随机变量建立朴素贝叶斯模型,由假定参数的先验分布来计算后验分布。采用“半朴素贝叶斯分类器”放松变量间独立性的要求,计算联合概率构建网络结构和多维属性间节点关系,根据网络关系图来构建互联网借贷信用评估模型并进行预测。

(二)基础变量选取及处理

数据集中Pub-rec(毁誉记录P)为被解释变量,可取值为0,1,2,将0纳入履约范围,将≥1值视为违约。Term(借款期限H)、Loan-amount(借款金额A)、Annual-inc(年收入 C)、Dit(负债 /收入比率D)、Purpose(借款目的 N)、Application-type(申请类型 R)、Total-acc(信用账户总数 F)、Deling-2yrs(逾期次数O)和Open-acc(公开信用账户E)为第一组解 释 变 量 ;Install ment( 分 期 付 款 B)、Total-il-high-credit-limit(银行信用卡总额限度G)、Charge off-within-12mths(12个月内销账的数量S)和Initial-list-status(清单初始状态Q)为第二组解释变量;Grade(借款等级 I)、Emp-length(工作年限J)、Home-owership ( 房 屋 所 有 权 K)、Verification-status(收入认证 L)、和 Loan-status(借款状况M)为第三组解释变量,因涉及变量较多,将变量名简化为括号内A-S共19个大写字母。

(三)数据选取及预处理

数据源于美国lending club公司官方网上数据库的数据集。选取2017年第一季度共96700条借贷数据,履约人数为77674约占总体的80%,违约人数19105约占总体的20%。对9个连续变量通过信息熵离散化表明:借款金额、利率、分期付款、年收入、负债/收入比率、公开信用账户、信用账户总数和银行信用卡总额限度的分割点为6750,0.11,317,92000,10,12,30和54000;将低于分割点的为1,高于分割点为2。通过10折交叉验证来训练模型,得到10个贝叶斯网络,分别计算每个网络模型的误判率得到平均误判率。

(四)网络结构的确定及节点关系分析

采用AIC评分函数,利用R语言”bnlearn”软件中的登山算法的”hc()”函数搜索得到最佳贝叶斯网络结构图。[4]响应变量P(是否毁约)节点落在网络结构的末端,节点P存在三个父节点即I(指定借款等级)、O(逾期次数)、H(借款期限)直接影响响应变量,尤其是I(指定借款等级),该节点存在6个子节点,两个父节点,处于整个网络结构的核心位置,说明借款等级能够在很大程度上说明用户大部分信用特征。节点I(借款等级),在较长的借款周期内不能有效判断违约可能性。样本中存在属性节点O(逾期次数),会提前给债权人警报信息,即使客户之前的借款等级优,债权人也会担心客户能否在到期日之前清款。

一般情况下,借款等级对违约概率的影响表明:贷款等级为G-A,对应的借款等级对违约概率的影响系数分别为:0.26153、0.25622、0.25841、0.22474、0.22718、0.24850、0.10629。贷款等级越高(从G-A越来越高)客户违约的概率也会越小,同等条件下贷款分等级G的客户要比A客户的违约概率高出1.45倍。10折交叉验证得到的贝叶斯网络模型的预测结果,模型的履约预测准确率为0.92,违约的预测准确率为0.64,模型的综合预测准确率为0.86,综合误判率为0.14。根据样本计算的履约的先验概率为0.82。说明贝叶斯网络关系在先验概率的基础上提高了0.04的准确率。

五、结论与对策解析

基于实证结果,可以从资金的贷方立场提出几点对策解析:第一,重点监控核心指标,能够更快更及时地给借方发出警报信息;第二,互联网借贷为金融领域提高金融服务效率、降低交易成本、满足多元化投融资需求、提升微型金融的能力,[6]发挥政府、借贷平台和借款人的主体作用;第三,根据借款者情况全面的评估信用等级,综合借款期限、分期付款和借款等级考虑;第四,实现个体之间的信息沟通、资源共享、资金流动,为部分融资者提供了一条新的融资渠道。作为网络金融创新模式,P2P网络信贷是完善金融体系、填补信贷空缺、弥补中小企融资缺口、缓解民间投资需求的重要工具,它带来的长尾效应引起了世界范围内的高度关注。[6]

[1]黄国平,等.P2P网贷平台风险评级与分析[M].北京:中国社会科学出版社,2015.

[2]周志华.机器学习[M].北京:清华大学出版社,2016.

[3]吴喜之.复杂数据统计方法-基于R的应用[M].北京:中国人民大学出版社,2015.

[4]张 超.公司违约概率模型及其在商业银行中的应用[J].华北金融,2010(4).

[5]ScottA.Zonneveldt,KevinB.KorbandAnnE.Nicholson.Bayesiannetworkclassifiers forthe German credit data[D].Monash University(Australia),2010(1).

[6]伍旭川.互联网借贷:风险与监管[J].金融市场研究,2014(2).

猜你喜欢
贝叶斯网络结构借款
微信上小额借款 请务必通话确认
妻子的借款该如何认定债务关系呢
基于AutoML的保护区物种识别①
基于贝叶斯网络的海盗袭击事件影响因素
租赁房地产的多主体贝叶斯博弈研究
租赁房地产的多主体贝叶斯博弈研究
贝叶斯公式的应用和推广
带通信配网故障指示器故障监测方法及安装分析
一般借款利息费用资本化金额确定之我见
非常规突发事件跨组织合作网络结构演化机理研究