摘 要 从网贷之家网站上公布的6422家P2P网贷平台的数据,选取平台的运营数据(参考收益、投资期限、是否进行存管银行、是否跑路)以及用户对平台的评价(提现评分、站岗评分、服务评分、体验评分),进行分析并构建一个预测P2P平台是否跑路的数据模型。
关键词 P2P平台 是否跑路 支持向量机 预测模型
一、引言
1983年格莱银行创建,主要业务是通过小额信贷业务来帮助穷人摆脱贫困,这是P2P最初的线下雏形。2005年英国ZOPA公司,借助网络将个人借贷业务直接在互联网上进行对接,从而形成了摒弃依赖传统金融行业的新模式。2007年国内首家P2P网络借贷平台在上海成立,让很多敢于尝试互联网投资的投资者认识了P2P网络借贷模式,其后一部分具有创业冒险精神的投资人随之尝试开办了P2P网络借贷平台。一些具有民间线下放贷经验同时又关注网络的创业者开始尝试开设P2P网络借贷平台,同时一些软件开发公司开始开发相对成熟的网络平台模板。经过3年爆发试增长,一些平台已经出现提现难的问题,以2015年12月e租宝倒台为标志,行业风险逐渐被大众关注。
随着P2P网贷的投资人群越来越多,投资金额越来越大,并且爆发e租宝事件。国家相继出台了3大规范文件,要求P2P网贷平台合规发展,进行详细的信息披露、资金介入银行存管等待,但是随着今年全国经济政策的缩紧,一些风控能力较差的P2P网贷平台开始出现暴雷现象,逐渐影响了整个行业引起了一波暴雷潮,仅7月份前半个月暴雷的P2P平台就高达131家。如何在暴雷不断的P2P行业中进行投资优化,从中优选出来资质较好、运营较稳定的平台,是摆在投资者眼前的一道不可不面对的门槛。本文收集网贷之家上公布的6422家P2P网贷平台的数据,整理投资者比较关注的P2P网贷平台数据,使用支持向量机对网贷平台是否跑路进行分析预测,构建出一套用于预测平台是否跑路的数据模型。
二、相关研究
随着P2P网贷模式在国内的兴起,我国学者也对P2P网贷平台进行了大量的研究分析,但都集中在P2P网贷平台业务以及后期风控研究,主要可以分为两类。一是从P2P网贷业务运营进行研究,郑国良(2018)当前P2P网贷平台业务分析,并提出了P2P网贷平台的选择策略。姜琪(2018)中国P2P网贷平台效率差异及成交量影响因素研究[1]。段锞(2018)我国P2P网贷行业的发展现状、存在问题及对策[2]。二是从P2P网贷运营中遇到的监管及借款人信用风险进行研究[3]。马亮(2014)P2P网贷的风险分析及防控对策[4]。陈伟; 涂有钊(2016)美国P2P网贷的发展、困境、监管及启示[5]。李玺; 李應博; 马一为(2018)我国P2P网贷监管中政府治理创新研究[6]。
目前我国对P2P网贷平台投资策略中筛选优质高利率的平台研究较少。因此本文以网贷之家公布的6422家P2P网贷平台数据为例,从平台运营数据、用户评价数据出发,选取相关的样本数据,通过支持向量机进行回归分析构建出用于预测P2P网贷平台是否会跑路的数据模型。
三、理论依据
支持向量机(SVM)是一种常见的判别方法。在机器学习领域,是一个有监督的学习模型,通常用来进行模式识别、分类以及回归分析。主要思想可以概括为两点:1、它是针对线性可分情况进行分析,对于线性不可分的情况,通过使用非线性映射算法将低维输入空间线性不可分的样本转化为高维特征空间使其线性可分,从而使得高维特征空间采用线性算法对样本的非线性特征进行线性分析成为可能。2、它基于结构风险最小化理论之上在特征空间中构建最优超平面,使得学习器得到全局最优化,并且在整个样本空间的期望以某个概率满足一定上界。
在使用SVM进行计算时有可能会产生“维数灾难”,即再把样本向高维空间做映射时会增加计算的复杂性,维度越高,复杂性就越大。为了解决“维数灾难”这一难题,SVM引入了核函数。应用核函数的展开定理,就不需要知道非线性映射的显式表达式;由于是在高维特征空间中建立线性学习机,所以与线性模型相比,不但几乎不增加计算的复杂性,而且在某种程度上避免了“维数灾难”。SVM常用的核函数有以下4种:1、线性核函数K(x,y)=x·y;2、项式核函数K(x,y)=[(x·y)+1]^d;3、向基函数K(x,y)=exp(-|x-y|^2/d^2);4、二层神经网络核函数K(x,y)=tanh(a(x·y)+b)。
四、数据选取与模型训练
1.数据选取
本文研究的是基于用户评价数据下,构建P2P网贷平台的可信度数据模型。因此,本文以网贷之家公布的P2P网贷平台数据为研究对象,爬取网贷之家上公开的6422家P2P网贷平台的用户评价数据以及平台运营数据,作为样本数据。
2.变量选取与模型构建
网贷之家上给用户对每个P2P网贷平台的评分共分为四个维度分别是:提现评分、站岗评分、服务评分、体验评分。除此之外,网贷之家针对P2P网贷平台还有很多其他维度的数据,我从中选取了投资人比较关注的三个维度的运营数据:参考收益、投资期限、存管银行。
由于爬取的数据有部分缺失值以及不规则,我对各项变量进行了如下处理。对于用户四个维度的评分数据,先进行计算各自的中位数,并使用中位数进行填充数据为空的变量。由于我国监管机构要求P2P网贷平台进行银行资金存管,因此对于未进行银行存管的P2P网贷平台不建议不进行投资,所以对于没有收集到存管银行名称的的均按照未进行银行存管处理,并对其数值化为0和1,0代表未进行存管,1代码已进行银行存管。对于平台是否跑路,由于网贷之家公布了P2P网贷平台的跑路时间,因此我根据是否有跑路时间作为平台是否跑路的参考,对其进行数值化为0和1,0代表未跑路,1代表跑路。由于参考收益和投资期限均能爬取到且都在正常区间内,并无异常值,因此这两个字段的值无需进行复杂的清洗,仅仅对参考收益中的百分号进行去除操作,以便于模型进行计算。
数据清洗后的部分数据如表四所示。
使用sklearn包中的模型选择model_selection对样本数据进行划分,分为训练数据集和测试数据集两部分,并使用sklearn包中的支持向量机SVC对样本数据中的训练数据集进行训练,再使用测试数据集进行测试验证。在使用支持向量机进行分类时核函数的选择较为重要,选择不同的核函数,可以生成不同的SVM。本文中在使用线性核函数进行计算分类时达到了较好的效果,训练及验证部分代码入表五所示。
在对模型进行评价时,训练数据集得到了0.95分的好成绩,测试数据集也得到了0.93的成绩,因此认为该模式是较为可信的。为此我假设了部分数据来验证该模型是否可行,结果如表六所示。
五、结论与建议
本文以网贷之家公布的6422家P2P网贷平台的数据作为分析基础,统计了7个维度的数据,包括用户对P2P网贷平台的评价以及P2P网贷平台日常运营的数据。运用线性核函数的支持向量机模型对P2P网贷平台是否跑路进行了实证检验,研究结果表明参考收益与平台是否跑路呈正相关,投资期限与平台是否跑路呈负相关。用户评价对平台是否跑路影响较小,并且当评分较高时平台跑路的风险反而增加,考虑到可能是平台存在水军刷分的情况。而对于P2P网贷平台是否进行银行资金存管对P2P网贷平台是否跑路具有较大的相关性,平台已经进行资金存管的跑路概率笔未进行资金存管的概率要小的多,为此我对投资人选择P2P网贷平台进行投资时有以下建议。
1、投资时一定要选择进行了银行资金存管的P2P网贷平台。
2、选择具有合理的投资收益回报率P2P网贷平台,较为合理年化收益的区间是6%到12%之间。
3、选擇具有合理的投资期限P2P网贷平台,较为合理的投资期限的区间是6个月到24个月之间。
4、选择用户评价口碑较为适中的P2P网贷平台进行投资,较为适中的评分在3.5到4.0之间。
参考文献
[1]郑国良.当前P2P网贷平台业务分析.中国社会科学院上海研究生分院.2018(11).
[2]姜琪.中国P2P网贷平台效率差异及成交量影响因素研究.数量经济技术经济研究.2018(06).
[3]段锞.我国P2P网贷行业的发展现状、存在问题及对策.时代金融.2018(02).
[4]马亮.P2P网贷的风险分析及防控对策.金融经济.2014(06).
[5]陈伟;涂有钊.美国P2P网贷的发展、困境、监管及启示.西南金融.2016(12).
[6]李玺;李应博;马一为.我国P2P网贷监管中政府治理创新研究.西南金融.2018(03).
作者简介:王锦,对外经济贸易大学高级研修班。