汤璇
(湖北大学 数学与统计学学院,湖北 武汉 430062)
Logistic回归模型在P2P平台风险评估中的应用
汤璇
(湖北大学 数学与统计学学院,湖北 武汉 430062)
在“互联网+”计划提出后,P2P网络信贷蓬勃发展的同时,平台跑路事件也层出不穷。这一现象严重阻碍了P2P网贷行业的健康发展,因此有效评估P2P平台的风险,成为了互联网金融行业关注的重点。本文基于拓尔思公司提供的样本数据,利用Logistic回归模型对平台数据进行实证分析,以期为有效监控P2P网贷平台风险提供参考依据。
P2P网络信贷;Logistic回归模型;平台风险
P2P网贷是借款人和投资人在互联网平台完成借贷交易的新兴融资模式。P2P网贷凭借其低成本、高收益、分散风险、高效率等独有优势,在国内融资市场发展迅速。据银率网数据库统计,2015年全国新成立 P2P平台共 1862家。截至2015年12月底,全国P2P平台累计达4329家。[1]但是,网贷行业在互联网金融迅猛发展的同时,由于监管政策的缺失、管理者经验的匮乏以及不良分子的恶意欺诈,P2P网贷平台频频出现跑路、提现困难、停业等系列问题。这些问题不仅影响了整个金融行业的规范和发展,更动摇了投资人的信心,破坏了我国金融市场的稳定运行。
目前,对于P2P网贷这一新兴行业,冯旭日,张晶晶[2]收集“网贷之家”网站49条影响网络贷款平台信誉等级因素的相关样本数据,建立了基于主成分分析的网络借贷平台信誉等级预测的Fisher判别模型,验证了Fisher判别法在网络借贷平台信誉等级的预测中具有较低的误判率,其误判率仅为1/12。陈建中,宁欣[3]基于人人贷平台的3148条交易数据,采用多元线性回归分析了个人信息对借贷成功率的影响,结果表明了个人信息对借贷成交结果有着显著影响。在国内,关于P2P网络借贷的研究主要集中在P2P网络借贷平台发展现状、借款者信用风险评估、影响借贷成功率因素这三个方面,而对于P2P网贷平台经营风险预测的研究较少,因此,本文将用Logistic回归模型对处理过的50个平台样本数据进行判别,判别P2P网络借贷平台是否跑路,并用其对剩下20家测试数据进行预测,以期为P2P网贷平台风险监控提供可行思路,为促进我国P2P行业规范发展提供有意义的借鉴。
(一)变量的选取
1.问题描述及数据来源
目前,我国互联网金融尚处于发展阶段,行业没有形成统一的规范。因此,平台在发展的过程中也出现了不少问题,如平台自融、诈骗、平台跑路等。其风险情况始终触碰着投资人的神经,破坏了我国金融市场的稳定运行。而P2P平台的风险主要是在运营过程中产生的,与运营数据有着密不可分的关系。因此本文旨在构建出P2P网贷平台的经营风险模型,对P2P平台的风险进行预测,以期为促进我国P2P平台又好又快的发展做出贡献。
本文研究数据来自于拓尔思(http://www.yiban.cn/project/ 2015ccf/)提供的数据,数据分为训练数据和测试数据两部分,训练数据为50家P2P网贷平台的运营数据,其中含20家暂时未出现跑路现象的平台,30家已经跑路的平台。测试数据为20家P2P网贷平台的运营数据。每个平台提供的数据包含交易项目基本信息(项目名称、项目金额、项目说明、期限、年化收益率、还款方式、担保公司等)、借款人基本信息(姓名、性别、年龄、学历、婚姻状况等)以及回报率。
2.数据处理
由于数据来自不同平台,大部分数据格式不统一,有些数据保存格式不同打开会出现乱码情况,还有一些数据缺失值较多,这些情况都导致数据“标准化”过程较为复杂。因此,对数据的处理过程主要如下:
(1)将各个平台的变量类别统一。如将平台项目状况类别统一成正在募集项目、还款中项目、已经还款项目;将平台项目担保(BONDING_COMPANY)统一为有担保项目情况和无担保项目情况;将项目还款方式统一为一次性还款付息、分期还款。
(2)把数值型变量的单位和格式统一。如把项目贷款时间中以月为单位的时间统一转化为以天为单位的时间。把年化收益率中后面有加额外奖励利率的部分去掉。
(3)根据变量计算代表平台信息的统计量。如该变量为分类变量时,计算整个平台中该变量每个水平的比例;如果该变量为数值型变量时,算其变量在整个平台的统计量,如最大值、最小值、平均值、总值等。如果该变量为字符型变量时,如项目说明,则算其项目说明的平均字数。
3.变量的定义
根据该互联网P2P借贷平台的运营数据,要构建出P2P网贷平台的经营风险模型,需要从该数据中找出对预测具有参考价值的指标,通过查询相关资料,在查阅相关资料的基础之上,本报告对原始数据进行数据清洗、数据处理,整理得到与风险预测相关的新变量。用于模型预测的新变量如下表1:
表1:新变量及变量符号
(二)Logistic回归模型构造
对二分类变量做预测的数据,可以用随机森林、Logistic回归、决策树等模型进行预测,这三类模型都是研究因变量为二分类或多分类观察结果与影响因素(自变量)之间关系的多变量分析方法,可以将因变量为二分类的结果进行归类,文中训练数据分为跑路和未跑路两种结果,用这三类模型可以预测数据结果,并进行归类。以上三种方法中,决策树模型预测的平均绝对误差为0.2007143,随机森林模型预测的平均绝对误差为0.12858,Logistic回归模型预测的平均绝对误差几乎为0,因此本文采用Logistic回归模型进行预测。
Logistic函数是由比利时学者维尔玉斯特(RF.Verhulst)于1838年第一次提出。Logistic回归方法主要应用于对因变量为二分类结果的分类和预测,该方法在分类变量预测的应用已经非常广泛。Logistic回归模型基本形式如下:
Xi是自变量,βi是回归系数,pi可以表示为:
(三)参数估计
通过随机森林模型筛选影响风险值的重要性变量,并通过logistic回归模型的参数估计来估计出对平台风险值有显著性效果的变量。从下表2可以看出,这些变量对平台的风险值有显著性影响,这些变量主要是从贷款时间、贷款金额、年化收益率、项目状况、回报率提取出来的新变量。
表2:参数估计表
(四)实证结果分析
1.训练数据实证分析。Logistic回归在二分类预测问题中的应用已经相对成熟,因为它可以克服其他统计学模型的很多缺点,所以它被认为是诸多统计学方法中精确性、适用性和稳健性较好的模型。因此,我们运用Logistic回归模型预测训练数据跑路与未跑路分类的准确性,运用Logistic回归模型得到的结果为下表3,从表中可以看出Logistic回归模型对跑路和未跑路两种平台的评判的准确率为100%,评判效果很好。
表3:平台1-50是否跑路评判结果
2.测试数据实证分析。由于利用Logistic回归模型对训练数据预测效果很好,因此利用该模型对测试数据集中20个P2P平台是否跑路进行评判,评判结果如下表4所示。
表4:平台51-70是否跑路评判结果
该结果表明测试数据集中的P2P网贷平台出现跑路的比例大于未跑路的平台比例,因此,加快P2P网贷平台风险控制的步伐迫在眉睫。
由Logistic回归模型得到的研究结论有:(1)Logistic模型对P2P平台风险的评估有较好的适用性;(2)从贷款时间、贷款金额、年化收益率、项目状况、回报率提取出来的新变量对平台的风险值有显著性影响;(3)P2P网贷平台出现跑路的比例远大于未跑路的平台比例。这一研究结论,为制定有效的P2P平台风险控制体系提供了理论的参考依据。本文认为结合其他模式的运营特点,可以将该模型应用推广到互联网金融其它模式的风险评估中,并参考国外较成熟的风险评估体系,构建出有中国特色的互联网金融风险评估体系,从而推动我国的互联网金融行业健康发展和稳定运行。
[1]http://toutiao.com/a6250537890208825602/.
[2]冯旭日,张晶晶.基于Fisher判别法的P2P网络借贷平台信誉等级评价模型[J].金融理论与实践,2014,(11).
[3]陈建中,宁欣.P2P网络借贷中个人信息对借贷成功率影响的实证研究——以人人贷为例[J].财务与金融,2013,146(6):13-17.
[4]钱金叶,杨飞.中国P2P网络借贷的发展现状及前景[J].金融论坛, 2012,193,(1):46-51.
[5]温小霓,武小娟.P2P网络借贷成功率影响因素分析——以拍拍贷为例[J].金融论坛,2014,219(3):3-8.
[6]王梦佳.基于Logistic回归模型的P2P网贷平台借款人信用风险评估[J].北京外国语大学,2015,(6).
[7]http://www.yiban.cn/project/2015ccf/.
[8]熊亚骅,熊一鹏,李婷.互联网金融网贷客户违约风险研究进展[J].金融经济,2015,(12).
[9]吴晓光,曹一.论加强P2P网络借贷平台的监管 [J].南方金融,2011,(4):32-35.
汤璇(1991-),女,湖北黄冈人,湖北大学数学与统计学学院研究生,主要从事专业应用统计学研究。