张颖+黄洁婷+贺正楚
摘要:针对P2P網贷平台现金流较大、利润率较低和财务数据获取困难的特点,构建基于平台交易真实数据的危机预警评价指标体系和组合预测模型。将传统的财务评价指标转换成网贷平台交易数据指标,运用邻域粗糙集属性约简的方法对采集的数据指标进行降噪和约减处理,再基于机器学习理论引入神经网络、支持向量机和Logit回归等模型对数据进行训练。通过分组进行单模型和组合模拟预测,提高了新的破产指标下各模型预测的准确率。
关键词: P2P网贷;危机预警;组合模型;神经网络;支持向量机
中图分类号:F832;F424文献标识码:A文章编号:10037217(2017)06002306
一、导论
P2P网贷平台作为一个新兴的个人对个人的投资借贷平台正处在一个快速成长阶段,现有监管大多为事后监管,对于事前预测特别是基于网贷平台外部数据的科学预测理论和应用准备不足\[1\]。网贷平台具有挤兑风险,贷款逾期发生时,P2P网贷平台会出现暂时的流动性不足,一旦放款人之间协调失败就会导致平台出现挤兑风险[2,3]。P2P网贷平台陷入经营困境的整个过程是动态发生的,若能在P2P平台陷入经营困境早期就发现征兆,并能预测生存状况恶化的一系列动态过程,这对于平台的经营者、投资者和行业监管者,都将有着非凡的意义。
现有文献当中,潘庄晨等梳理债权产品和产权产品的信用风险评价模型,认为互联网金融企业更加适合偏重定价功能的产权产品风险评价模型\[4\];周少甫对2 193家网贷平台使用Logit模型进行研究,认为网贷平台能够提供良好的资金保障、具备健全的资金托管制度和流动性较高的债权转让方式,可有效降低平台出现重大经营问题\[5\]。常用的风险预警模型主要有多元判别分析、Logistic回归模型、神经网络、FR模型、STV截面回归模型和KLR信号分析模型等。由于Logistic回归模型对变量的分布、变量之间的协方差没有过多的假设要求,因此被广泛用在信用风险预警,且国外的许多研究都表明Logistic回归模型比较有效\[6,7\]。庞素林等利用Logistic回归模型构建风险预警模型,并以实证研究证明模型的高效性\[8-10\]。
现有文献对P2P平台经营困境的预警研究较少,具有一定的研究价值。本文主要研究通过使用最新的前沿信息技术,构建科学的评价体系和危机预警模型,识别问题网贷平台,预测P2P网贷平台的危机风险。
二、P2P网贷平台危机预警指标选择与约简
本文针对P2P网贷平台的特点,提出基于真实交易数据的评价思路,以交易数据代替财务数据保证数据真实性。一方面,从理论基础、国内外文献及国内主管部门监管指导意见选择能反映P2P网贷平台运营和风险的相关指标;另一方面,根据P2P网贷平台所具有的互联网大数据特性,通过业内门户网站、网贷之家、网贷天眼收集。同时,将数据指标进行科学处理,并对结果进行检验,从而尽可能的保证风险评价指标的科学性、可信性。力求用最少的可观测指标,尽量多的反映平台运营风险信息。
(一)危机预警原始评价指标选择
本文将能够观测到的P2P网贷平台微观指标纳入评价范围,尽量确保评价指标的完整性。使用的各项指标数据来源于P2P网贷平台第三方统计
网站,所有数据都能够做到逐月更新,其中大多数数据能够做到逐日更新,保证了经过建模处理过的风险值能够每月(每日)连续输出。在数据采集过程中,抓取的信息包括:平台每日成交量、平均利率、投资人数、平均贷款期限、借款人数、累计待还金额等指标作为破产预测的客观抓取指标,如表1所示。
(二)单个预测及组合模型预测
1.Logit回归预测。
根据上文的模型介绍,应用IBM SPSS Statistics V21.0中的二元Logistic回归预测进行分析,将80个选定的模拟样本录入SPSS工作表格中,10个指标属性值为协变量,问题情况(即前文提及的决策属性,问题取值为1,正常取值为0)作为因变量。用EXCEL编辑函数来计算概率P,并最终计算得出Logit模型预测结果的准确率,如表5所示。
由表5可以看出,经过测试样本的检验,所建立的Logit回归模型总体预测准确率仅为56.98%,这个水平属于偏低的预测正确率,这个正确率还有很大的水平可以提高,因此,此Logit模型不是一个理想的预测模型。
2.神经网络预测。
运用SPSS 软件中的BP神经网络的多层感知器预测方法来实现P2P平台问题与否的预测工作。选用样本的原则与上文一致,即选择80个样本为模拟样本,86个样本为测试样本,共166个样本。模型训练完成后,生成的神经网络模型对测试样本数据测试后与实际比较的结果正确率如表6所示。
从H表中可以看出对于P2P实际出现问题的正确率为73.2%,而P2P实际运行正常的正确率为64.4%,综合正确率为68.6%,预测结果较Logit回归预测准确率高,但仍然有很大的提高空间。
3.支持向量机预测。
已有研究表明,高斯核函数支持向量机模型的预测准确率最高,而核函数的选择是构建支持向量机模型的关键[14],因此高斯核函数被本文采用。通过对数据结果的比较,当高斯核函数的阈值δ2=0.7时,支持向量机程序的准确率最高。利用libsvm工具箱在MATLAB2014a中运行得出检测样本的实际预测结果如表7所示。
由表7可以看出,经过测试样本的检验,支持向量机总体预测准确率为68.6%,介于Logit回归分析预测的准确率和BP神经网络预测的准确率之间,同样不是很理想。
(三)基于贝叶斯算法的投票式组合预测
通过上面的分析,根据上述三种模型的预测结果,结合上文中的方法,应用EXCEL得到基于贝叶斯算法的投票式组合endprint
由表8可知,基于贝葉斯算法的投票式组合预测中只有13个预测错误,其中 P2P问题平台只有5个预测错误,而且问题平台与正常平台的预测之间并没有显示出明显的差异。
上文所述的三种预测模型各有其优缺点,其预测结果准确率也有较大差异,Logit模型预测为传统统计模型,而神经网络和支持向量机应用人工智能和机器学习等新兴的学习方法进行预测分析,对比各模型准确率,如表9所示。
由表9可以看出,传统统计模型Logit模型的预测准确率最低,其次为支持向量机预测方法,而预测准确率最高的为BP神经网络,从这一结果可以看出人工智能领域预测方法的优势之处,传统的统计模型因其多个弊端无法准确预测数据的正确率。而结合三种预测方法的投票式组合预测方法在本文的应用过程中发挥其优势,综合了三种预测模型的利弊,得出相对较好的准确率,且稳定性良好。
五、结论
本文针对当前P2P网贷平台内部财务信息不透明的现状及政府、投资者对网贷平台风险评估预测的现实需要之间的矛盾,创新性地提出基于网贷平台公开交易数据的危机预警新方法,通过运用数据采集、去噪技术,结合支持向量机、神经网络等机器学习方法进行数据训练,得到了较好的预测结果。通过研究,得到以下结论:
1.构建了基于网贷平台公开交易数据的危机预警指标体系。论文在直接抓取的数据中选取平台每日成交量、平均利率、投资人数、平均贷款期限、借款人数、累计待还金额等指标作为危机预警的指标,通过领域粗糙集进行指标约简后得到相应指标体系;
2.结合机器学习技术,对选择的P2P网贷平台变量和数据进行约简、建模、预测。本文选取了三个准确率较高的模型:Logit回归,神经网络和支持向量机模型。采用分别建立相应的模型,并将采集的数据在预处理后分别代入各单一个模型,以检测各模型的效果,最后将三个模型的实际输出结果作为输入,结合贝叶斯算法构建投票式组合预测模型,使各模型之间可以相互补充,提高预测的精度和稳定性。
3.对166家主流P2P网贷平台进行实证研究。通过跟踪采集“网贷之家”等P2P监测网站交易数据组成模拟样本进行模拟和测试,验证本文提出的P2P网贷平台危机预警新方法的准确性。从预测结果来看,采用本文提出的P2P网贷平台危机预警新指标体系,结合组合式预测模型,能得到较好的预测效果。
参考文献:
[1]肖萍.互联网金融与中小企业融资困境的化解途径\[J\].河南师范大学学报(哲学社会科学版),2015(4):77-80.
\[2\]蒋玉.互联网金融的特殊风险和法律规制\[J\].广西财经学院学报,2015(4):41-46.
\[3\]朱宝.普惠金融体系下互联网金融风险溢出效应研究\[J\].广西财经学院学报,2017(1):78-85.
\[4\]潘庄晨,邢博,范小云.信用风险评价模型综述及对我国P2P网络借贷平台的借鉴\[J\].现代管理科学,2015(1):33-36.
\[5\]周少甫,李逸翔,裴逸杰.P2P网贷平台资信因素对正常经营影响的实证分析\[J\].武汉金融,2016(1):34-36.
\[6\]Vijayakumar P, Naresh R,Deborah L J,et al.An efficient group key agreement protocol for secure P2P communication\[J\].Security and Communication Networks,2016(9):3952-3965.
\[7\]Khan U,SchmidtThieme L,Nanopoulos A.Collaborative SVM classification in scalefree peertopeer networks\[J\].Expert Systems with Applications,2017(1):74-86.
\[8\]庞素琳.Logistic回归模型在信用风险分析中的应用\[J\].数学的实践与认识,2006,36(9):129-137.
\[9\]卢永艳.基于面板数据的上市公司财务困境预测\[D\].大连:东北财经大学,2012.
\[10\]陈晓兰,任萍.基于Logistic混合模型的企业信用风险评价研究\[J\].山东财政学院学报,2011(2):90-93.
\[11\]王锦虹.互联网金融对商业银行盈利影响测度研究——基于测度指标体系的构建与分析\[J\].财经理论与实践,2015,36(1):7-12.
\[12\]Rogers Chris,Clarke Chris. Mainstreamingsocialfinance:the regulation of the peertopeer lending marketplace in the United Kingdom\[J\].British Journal of Poliltics & International Relations,2016(18):930-945.
\[13\]Pokorna Martina, Sponer Miroslav. Social lending and its risks\[J\].19th International Conference Enterprise and Competitive Environment,2016(20):330-337.
\[14\]Khan U,SchmidtThieme L,Nanopoulos A. Collaborative SVM classification in scalefree peertopeer networks\[J\].Expert Systems with Applications,2017(1):74-86.
\[15\]王效俐,刘潇,苏强.邻域粗糙集融合贝叶斯神经网络在医疗决策中的应用研究\[J\].工业工程与管理,2016(5):141-147.
(责任编辑:钟瑶)
Abstract: Based on the characteristics of assetlight, large cash flow, low profit and difficulty in financial data acquisition, evaluation index system and the combination prediction model for crisis prediction based on the real data of platform transaction were constructed. The traditional bankruptcy financial evaluation index was transformed into the net loan transaction data index and the collected data was reduced by the method of neighborhood rough set. On this basis, the data was trained with the machine learning theory which introduced neural network and support vector, logit regression machine model and so on. Finally, the data was divided into single group and combination group for predictive simulation and the accuracy of each model under the new bankruptcy index was obtained.
Key words:P2P; crisis prediction; combination prediction model; neural network; SVMendprint