对P2P平台信用风险的评估与预测
——基于决策树模型

2017-09-22 06:53邵蔚
北方经贸 2017年9期
关键词:决策树信用风险神经网络

邵蔚

(华南师范大学,广州510006)

对P2P平台信用风险的评估与预测
——基于决策树模型

邵蔚

(华南师范大学,广州510006)

对P2P平台运营模式的国内外研究进行梳理和阐述,利用决策树模型对样本进行是否跑路的预测,对其信用风险做量化评估,发现决策树预测方法准确度可达77.08%,为相关投资者提供决策依据。

P2P;信用风险;决策树

引言

2017年全国两会指出,要促进互联网金融健康发展,让金融成为一汪活水。可见,目前,国互联网金融业在新兴金融网络全球化的浪潮下一步步蓬勃发展,与此同时,P2P网络信贷作为一种微型金融领域与网络技术创新借贷模式快速发展。

近两年,P2P平台数量在国内迅速增长,以拍拍贷、红岭创投、陆金所等网络融资平台作为领头羊逐渐风靡全国,截至2017年2月底,我国P2P网络信贷公司平台数量已达到2335家,数量巨大。目前,我国的P2P行业发展尚处于起步阶段,仍然存在不少需要完善的地方。信用风险评估体系不完善、无准入门槛、无行业标准、无机构监管以及P2P平台上演“跑路”戏码等问题,皆为问题平台层出不穷的原因,P2P发展势头虽好,却也警钟频传。

一、国内外研究综述

(一)国外研究综述

1.P2P网贷信用指标研究。传统的商业银行要求企业必须拥有较高的信用等级才能够贷款,但是小微企业无法满足这点要求,因为这个原因就把其推进了P2P市场,也是促使这一市场发展的契机(Agarwaland Hauswald,2008)。Ravina(2008)通过平台的交易记录来研究借款人生理特征对其借款的影响,结果发现借款人种族和相貌对其是否能借到款项以及借款利率有着显著影响。Weiss和Stiglitz指出在P2P平台上高利率不意味着高回报,而利率越高、借款人质量越差,投资人承担的风险越大。Siegel研究了信用风险在金融交易中的作用,即使是法律很健全的情况下,信用风险也仍然存在。Michaels(2012),Larrimoreetal(2011)的研究表明借款人的信息披露以及贷款人和借款人之间的交流情况对项目能否成功获得融资具有重要影响。

2.国外P2P信用评估研究方法。Angelini(2008)开发了两个神经网络系统来进行信用风险评估,并使用意大利企业数据得到实证;Sung(2010)构建了Kohonen神经网络模型和Cox比例风险回归模型的混合模型,结果是该模型是能取得不错的预测效果;Jagric等人(2011)利用学习矢量量化神经网络构建了信用评估模型,利用Slovenian银行的真实数据进行实证,也是取得不错的效果;Capotorti和Barbanera(2012)提出了基于粗糙集,条件概率评估和模糊集的混合算法,研究结果表明该算法提高了在信用风险评估中标准粗糙集理论的分类性能;Mandala等人(2012)对某家不良贷款率达11.99%的农村银行进行信用风险研究,实证结果表明利用决策树模型的C5.0算法进行信用评估,该银行的不良贷款率能够下降至低于5%。

(二)国内研究综述

相对于国外的研究成果,显然我国起步较晚,会稍微落后一些,相关的成果会比较少,目前更多的是关注于网络监管问题。

但是P2P网贷作为新兴的互联网模式,行业发展迅速,因而学术研究也在如火如荼进行中。一些传统的信用评估方法也得到了创新和应用,如李旭升等人(2008)提出并设计了扩展的树增强朴素贝叶斯网络信用评估模型;李晓欢(2009)构建了基于粗糙集和神经网络的中小企业信用评估体系及模型;范彦勤(2013)等人研究了基于贝叶斯分类器的个人信用评估模型,提出了新的属性加权朴素贝叶斯分类模型和改进树扩展贝叶斯分类模型;杨胜刚等人(2013)构建了决策树方法与BP神经网络模型相结合的两阶段组合模型,研究表明,基于决策树和神经网络构建的个人信用评估组合模型在分类预测精度方面高于单一的BP神经网络模型。

本次研究采用的是决策树模型,利用SPSS MODELER进行C5.0决策树算法进行实证分析,弥补国内在此类实证分析方法的空缺。

二、实证模型分析

(一)数据来源

研究初始使用爬虫软件对网贷天眼平台的索引系统进行了数据爬取,并对多个页面不同数据按照平台名称进行合并数据。网贷天眼给各个公司开通了信息披露窗口,数据均由各个P2P平台上传,样本量为106。

(二)数据挖掘

1.决策树模型原理。决策树(Decision Tree)是在已知各种情况发生概率的基础上,通过构成决策树来求取净现值的期望值大于等于零的概率,评价项目风险,判断其可行性的一种决策分析方法。在机器学习中,决策树是一个预测模型,它代表的是对象属性与对象值之间的一种映射关系,Entropy=系统的凌乱程度,使用算法ID3,C4.5和C5.0生成树算法使用熵。信息熵表示的是不确定度。均匀分布时,不确定度最大,此时熵就最大。当选择某个特征对数据集进行分类时,分类后的数据集信息熵会比分类前的小,其差值表示为信息增益。信息增益可以衡量某个特征对分类结果的影响大小。研究以此来挑选每层的特征,每次都选取信息增益大的作为分类特征,生成决策树。

最后,研究将对决策树进行剪枝,因为在分类模型建立的过程中,很容易出现过拟合的现象。过拟合是指在模型学习训练中,训练样本达到非常高的逼近精度,但对检验样本的逼近误差随着训练次数而呈现出先下降后上升的现象,过拟合时训练误差很小,但是检验误差很大,不利于实际应用。

2.调用SPSSMODELER中的C5.0决策树算法进行数据挖掘。研究把获得的106条数据随机一分为二,58条数据作为训练集,48条数据留空作为测试集,以便为最后研究通过对比原始数据跟预测数据,并以此得到训练集和测试集预测的准确率做准备。

研究先把数据导入SPSSMODELER,然后过滤掉一些不需要的数据列,并把平台状态标记为目标,最后选用C5.0进行模型训练,并得到预测结果。

图1 决策树流程图

经过训练,得到以下决策树:

图2 P2P平台决策树概览

从托管方面来看,分为deposit、无托管、第三方托管三种情况,接着根据平台背景、平均利率、人均借款金额等来进一步判断,得到预测结果如表所示。

表决策树预测结果

研究所进行的数据训练集的正确率为93.10%,测试集的正确率为77.08%,模型结果较为理想。

3.模型结果分析。由模型结果可以看出,托管方式指标的信息增益最大,第三方托管比起银行托管和无托管的平台要更加稳定;其次重要的是平台背景。银行托管和无托管的平台中,有上市公司背景的平台运营比较稳定,民营企业、VC/PE背景和国资背景的平台一定程度出现问题;而在民营企业中,平均利率也是一个重要的判断因素,平均利率高的平台往往伴随着比较高的风险,这也是符合研究实际的逻辑。

三、研究结论与建议

决策树模型的一个最大的优点在于,它能够在预测P2P平台是否跑路的优势下,还能够找出其中的关键性因素,对于投资者和各方利益相关主体来说,P2P平台的“托管方式”因素是影响P2P平台信用风险的最重要因素,另外平台背景、平均利率等要素也是重要影响因素。

(一)托管方式——最重要的关键性因素

由本次数据挖掘得到启示,在影响P2P平台是否具有可持续运营能力的众多因素中,“托管方式”是最重要的因素。一般来说,有资金托管的平台比没有资金托管的平台有着更高的信用,而第三方托管的平台则比银行托管的平台更值得信赖。所以在对P2P平台规范化的相关措施中,应该以“平台托管方式”的突破口,着力促进平台资金的管理,避免平台形成“资金池”,降低出现问题风险,才能促使P2P行业更加稳定地发展。

(二)平台背景、平均利率等——重要因素

对于投资者,选择P2P平台的时候,主要通过托管方式、平台背景、平均利率等有关因素来判断投资风险。另外,投资者不能盲目追求太高的平均利率,而承受较大风险。投资者应合理选择利率,以规避平台跑路或者停业给自己带来经济上的损失。

在现实生活中,广泛利用决策树模型对P2P网贷平台进行信用等级以及托管方式精心一系列的核查、调研,能够在最大程度上提升预测的正确率,从而提高企业违约率判断的准确性,实现对于P2P平台信用高低与否的高准确率预测。

[1]李旭升,郭春香,郭耀煌.扩展的树增强朴素贝叶斯网络信用评估模型[J].系统工程理论与实践,2008(6).

[2]杨胜刚,朱琦,成程.个人信用评估组合模型的构建——基于决策树—神经网络的研究[J].金融论坛,2013(2).

[责任编辑:谭志远]

F830.599

A

1005-913X(2017)09-0103-02

2017-06-07

邵蔚(1996-),女,广东东莞人,本科学生,研究方向:金融学。

猜你喜欢
决策树信用风险神经网络
基于神经网络的船舶电力系统故障诊断方法
MIV-PSO-BP神经网络用户热负荷预测
基于改进Hopfield神经网络的对地攻击型无人机自主能力评价
大数据背景下的电子商务信用风险预警方法
简述一种基于C4.5的随机决策树集成分类算法设计
基于神经网络的中小学生情感分析
基于模糊层次分析法的农户信用风险评级研究
基于模糊层次分析法的农户信用风险评级研究
决策树学习的剪枝方法
决策树在施工项目管理中的应用