余华银,雷雅慧
(安徽财经大学 统计与数学学院,安徽 蚌埠 233000)
基于决策树与Logistic回归的P2P网贷平台信用风险评价比较分析
余华银,雷雅慧
(安徽财经大学 统计与数学学院,安徽 蚌埠 233000)
P2P网贷行业在中国发展迅速,其背后的风险不容忽视。文章旨在研究P2P网贷平台存在的信用风险,参考银行对中小企业的信用风险评价方法以及国内相关文献的评价指标,构建了P2P网贷平台信用风险评价指标体系。运用两种决策树模型和Logistic回归对529家网贷平台进行了实证分析,建立了网贷平台的信用风险评价模型。结果表明,3种模型都具有较好的信用风险预测能力,其中决策树的预测能力更优,具有更好的应用前景。
P2P网贷平台;决策树;Logistic;信用风险
长期以来,我国中小企业和个人贷款难度高、大众小额理财的需求量大,在这种背景下,近年来P2P网贷的优势日益突出,在国内得到了迅速发展。P2P网贷融入互联网技术,给民间借贷带来了新思维,受到了借贷双方的普遍欢迎,成为互联网金融领域的代表模式之一。然而,我国投资者普遍风险意识较弱、投资缺乏理性,很容易被网贷华丽的“包装”所迷惑。近些年,P2P在国内日益蓬勃发展,看似欣欣向荣的表象下,其潜在的风险也日益显现。2016年,全年出现因经营不善、携款跑路、黑客攻击等原因使网站无法正常运营而停业的平台就有一千余家。可见,平台的信用风险是投资者甄选平台的重要依据,因此,选用恰当的方法对平台进行信用风险评价是网贷领域研究的焦点。
国内外学者以网贷平台真实数据为基础,对信用风险领域展开了研究。孙同阳和谢朝阳从网贷个人信用风险角度,运用决策树模型进行实证分析,发现网贷平台对个人信用风险评级方面存在严重问题[1]。王丹和张洪潮参考了传统金融机构对小微企业信用评价方法,运用AHP和模糊数学综合评价法对网贷平台进行了信用评级[2]。严复雷和李浩然利用Logit模型对87家网贷平台进行回归分析,得出了对网贷平台信用风险有着重要影响的指标[3]。潘爽和魏建国运用信号传递模型探索了分散网贷平台信用风险的有效方式[4]。董梁和胡明雅对新进的借款人进行研究,以借款人年龄、借款用途、收入等指标为依据,运用Logistic回归模型建立了信用风险评价模型。实证分析结果表明,扩大评价指标类型和加大对平台的审核力度是防范借款人信用风险的有效方法[5]。Laura等人对P2P借款者在贷款时的描述性语言展开了研究,并使用LIWC软件对20万余个借款请求进行了分析。借款请求中,借款者使用具体的描述性语言和定量的词汇更容易借到贷款;而借款请求中使用个性化描述语言的借款者较难借到贷款。Chen和Han认为,中国和美国两个国家信贷结果的影响因素存在差异,美国影响因素侧重于“硬”信息,而“软”信息在中国更为可靠。本文以P2P网贷平台信用风险评价为出发点,比较不同的分类模型在信用风险评价应用中的优劣,以期为评价我国P2P网贷平台信用风险提供理论支持。
1.1 决策树模型
决策树的外形呈树状结构,是利用样本数据的属性进行分类的方法。决策树算法有众多思想来源,其中,Quinlan于1986年率先发明了ID3算法,之后在ID3算法的基础上分别于1984年和1993年衍生出C4.5算法和CART算法。文章选取C4.5算法和CART算法对样本数据进行分类。
CART的基本算法如下:
(1)输入训练样本集T,根据样本节点对B=b的判断为“yes”或“no”,将训练样本集分为T1和T2,运用Gini系数的定义式,计算B=b时的Gini系数。
(2)选取Gini系数最小的特征和其对应的分割点,分别作为最优特征和最优分割点。根据样本数据集中的最优属性特征与最优分割点,在现有的结点中生成两个子节点,将训练样本数据集依照属性特征分配到两个新的子节点中。
C4.5的基本算法如下:
(1)输入训练样本数据集T、阈值β和特征集B。若训练样本数据T中所有样本都属于同一个类别,则决策树F生成为单个节点的决策树,返回决策树F。
(2)若B为空集,则F为单个节点的决策树,返回F;若B为非空集,则计算特征集B中的特征对T的信息增益比gR(T,B),选择gR(T,B)最大的特征Bg。
(3)若Bg的信息增益比比β小,那么F为单个节点的树,把T中样本数最多的类作为节点的类。否则,对与Bg的所有可能值bi,根据Bg=bi的原则将F分成若干个非空子集Ti,对Ti中样本数最多的类做标记,生成子节点,构建决策树F,返回F。
(4)递归调用(1)~(3)步骤,对于第i个节点,特征集为B-{Bg},训练集为Ti,生成子树Fi,返回Fi。
1.2 Logistic回归模型
2.1 数据来源与处理
本文用于实证分析的数据来源于国泰安数据库,选取2015年12月至2016年12月数据相对完整的529家网贷平台数据。将获得的样本数据分为两个类别,分别为高风险平台和低风险平台。将出现跑路、停业、提现困难等问题的平台归为一类,即高风险平台;将截至2017年1月尚未出现问题的平台归为一类,即低风险平台。若评价结果将高风险平台归为低风险平台,则认为结果存在第一类错误;若评价结果将低风险平台归为高风险平台,则认为结果存在第二类错误。样本数据中有55家网贷平台被定义为高风险平台,474家网贷平台被定义为低风险平台。其中,高风险平台仅占样本总数的10%,存在严重的样本不平衡的问题。因此,在将样本数据代入模型运算前,使用SMOTE算法平衡样本数据,经过平衡的样本数据总数为886,高风险平台与低风险平台占总平台数量的比例大致相同。
2.2 指标体系
现阶段,网贷平台的信用评价没有统一的指标体系,相关文献不全,评级难度较大。因此,笔者借鉴了银行对中小企业的信用风险评价方法以及国内相关文献的评价指标,基于前人的研究经验,从经营能力、发展前景、平台素质、盈利能力4个方面构建了P2P网贷平台信用风险评级指标体系。
(1)经营能力指标。判断平台的各类资产是否能够快速变现的能力,运营能力越好,平台资金的流动性越强,风险越低。平台若不能快速得到足够的资金以支付投资者的本息,资金链一旦断裂,会出现严重的“挤兑”现象。选择未来60日待还金额(X1)、日均投资人数(X2)、日均借款人数(X3)对网贷平台的经营能力进行衡量。
(2)发展前景指标。平台的发展能力值得关注,该项指标越大,说明平台的潜力越大,发展前景越广,在未来的同类行业竞争中优势会更多,相应的信用风险也更小。衡量平台发展前景的指标有日均成交量(X4)、平均借款期限(X5)、平均利率(X6)。
(3)偿债能力指标。平台的偿债能力是平台信用的保障,平台的偿债能力通常是直接反映平台资信的依据,偿债能力也是平台实力的体现。选择注册资金(X7)、保障方式(X8)、债权转让(X9)来衡量平台的偿债能力。
(4)盈利能力指标。该项指标主要衡量平台的获利情况,获利能力是平台信用的基础。由于平台具体的获利数据很难获得,可以用平台近30日资金净流入(X10)、累计待还金额(X11)、营业时间(X12)来衡量网贷平台的盈利能力。
2.3 模型构建
将样本数据经过预处理后,代入到3个模型中分别进行运算。同时,使用10折交叉验证的方法,分别计算决策树模型和logistic回归在训练集和测试集上的第一类错误率、第二类错误率和平均分类错误率。其中,生成的决策树如图1所示。
图1 基于CART算法的决策树模型
CP值为0.011的CART算法的决策树如图1所示,其中,X10属性是决策树的根节点,即近30日资金净流入对平台信用风险分类的贡献程度是最大的。最终,基于CART算法的决策树由6个最优属性构成,对应6条分类规则,例如:①近30日资金净流入大于等于110的平台均为低风险平台;②营业时间小于3的平台均为高风险平台;③平均借款期限大于3.1的平台均为低风险平台。其他结论以此类推。
2.4 结果分析
将经过处理的样本数据代入3种模型进行运算,将运算结果整理汇总如表1所示。从实证结果来看,3种模型都具有较好的预测能力。比较而言,C4.5决策树和CART决策树总体分类的错误率较低,表明决策树模型在P2P网贷平台信用风险评价方面具有较好的应用前景。同时,从表1可看出,CART决策树模型的准确率为80%,C4.5决策树模型的准确率为77%,明显优于logistic回归的69%的准确率。
表1 运算结果汇总
根据评价结果, 对3种模型的鲁棒性进行比较分析。在训练样本中CART模型的总误判率最低,仅为10%;C4.5模型总误判率为20%;Logistic的总误判率最高,为29%。相比训练样本,3种模型在测试样本的总误判率都有不同程度的提高,提高比例最低的是Logistic回归,提高了2%;其次是C4.5模型,提高了3%;最高的是CART模型,提高了10%。这说明Logistic回归模型的鲁棒性最强,CART模型和C4.5模型的鲁棒性相对较弱,但保持了较低水平,能够满足实际运用的需求。最终,运用两种决策树模型和Logistic回归对P2P网贷平台信用风险进行了建模和预测,预测总体结果较好。并将两种决策树模型与Logistic回归的评价结果进行比较,得出决策树模型在P2P网贷平台信用风险评价方面具有更好的应用前景。
我国目前尚未形成完善的个人征信体系,网贷行业难以从线上直接获得个人信用数据,仅依靠线下审核的方式,不仅成本高、周期长,而且能够识别风险的概率也令人担忧。因此,建议有关部门尽快建立完善的征信体系,对网贷平台提供开放的信息服务,为网贷平台的长远发展创造条件。同时,提醒投资者高度警惕不法平台的虚假宣传,切勿盲目追逐高收益率,应综合考量网贷平台风险后谨慎投资。
[1] 孙同阳,谢朝阳.基于决策树的P2P网贷信用风险评价[J]. 商业经济研究,2015(2):81-82.
[2] 王丹,张洪潮.P2P网贷平台信用风险评级模型构建[J]. 财会月刊,2016(9):76-80.
[3] 严复雷,李浩然.P2P网贷平台信用风险影响因素分析[J]. 西南金融,2016(10):13-17.
[4] 潘爽,魏建国. P2P网贷平台的信用风险及其分散机制设计:基于信号传递模型[J]. 财会月刊,2017(11):88-91.
[5] 董梁,胡明雅. 基于Logistic回归模型的P2P网贷平台新进借款人信用风险研究[J]. 江苏科技大学学报(社会科学版),2016(3):102-108.
责任编辑:沈 玲
ComparativeAnalysisonCreditRiskEvaluationofP2PNetworkLoanPlatformBasedonDecisionTreeandLogisticRegression
YU Huayin, LEI Yahui
(Institute of Statistics and Applied Mathematics,Anhui Finance and Economics University, Bengbu 233000, China)
P2P network loan industry grows rapidly in China, and the credit risk problems of the platform are increasingly apparent. This paper aims to explore the credit risk problems of P2P network loan platform, and constructs an evaluation index system by drawing references from banks’ credit risk evaluation on small and middle-sized enterprises and evaluation indexes in domestic related literature. Empirical analysis on 529 network loan platforms is made by using the two decision tree models and Logistic regression and the credit risk model is established. The results show that the three models have strong ability to predict credit risks, and among which the effect of decision tree is superior, having better application prospect.
P2P network loan platform; decision tree; Logistic; credit risk
F830
A
1009-3907(2017)09-0013-04
2017-07-11
安徽省哲学社会科学规划项目(AHSKY2015D53);安徽财经大学研究生科研创新基金项目(ACYC2016111)
余华银(1962-),男,安徽全椒人,教授,主要从事金融与投资统计研究。