张昶 李晓峰 任媛媛
摘要:随着网络技术的飞速发展,P2P互联网金融平台催生了大量的理财和借贷行为。但由于互联网两端存在着信息不对称性,会产生大量的借贷信用风险问题。本文利用国内某大型互联网金融平台的借贷数据,基于数据挖掘的思路和方法,对数据进行了预处理、挖掘建模以及结果的分析,主要通過决策树算法找到借贷违约人的普遍特征,挖掘出隐藏在数据背后的知识和模式,并提出互联网金融平台的借贷风险治理方案,降低了信息不对称性,优化互联网金融平台的资源配置。
Abstract: With the rapid development of network technology, a large number of financial management and lending behaviors have been happened on peer-to-peer Internet financial platforms. However, due to the information asymmetry at both sides of the Internet, a large number of loan credit risk problems will arise. Based on the thoughts and methods of data mining, this paper uses the loan data of large Internet financial platforms in China to do data pre-process, model mining and results analysis. The decision tree algorithm is used here to find general characteristics of loan defaulters,and the knowledge and patterns hidden behind the data are mined. The loan risk management scheme of Internet financial platform is proposed, which can reduce the information asymmetry and optimize the resource allocation of Internet financial platform.
关键词:P2P互联网金融平台;信息不对称性;借贷信用风险;数据挖掘;决策树算法
Key words: peer-to-peer Internet financial platform;information asymmetry;loan credit risk;data mining;decision tree algorithm
中图分类号:F724.6;F832.2 文献标识码:A 文章编号:1006-4311(2019)08-0148-04
1 研究背景及意义
1.1 研究背景
近年来,传统的金融业在技术和商务模式上发生了巨大的变化,各种基于互联网的金融平台正在不断涌现出来,产生了大量的基于互联网两端的理财和借贷行为,这在很大程度上改变了人们的生活和消费模式。互联网金融市场的交易成本大大低于传统金融市场的交易成本,这部分可观的交易成本一方面弥补资金供给者更多的收益,另一方面也可以为互联网企业带来丰厚的利润。但是由于现实世界中理性人的机会主义行为,平台会出现信息不对称、道德风险、监管和信用机制等问题,从而导致互联网金融平台产生较大的信用风险。
基于此,相关学者进行了研究。一些学者基于信息不对称原理提出平台的运行机制建议(生蕾,2016)。所谓信息不对称,即对于某些信息来说,一些参与人拥有,但另一些参与人不拥有或不完全拥有(张维迎,1996),如在互联网金融平台,借贷人与平台管理方之间存在着较为明显的违约信息不对称。也有学者通过研究制度经济学中交易费用成本来分析平台的根源机制与运行机理,并提出治理方法(刘威,2016)。而在国外的相关研究中,一些学者提到了从大数据的视角分析互联网金融的客户行为与风险策略问题(Adair Morse,2015)。
可以看到,国内对于平台治理的研究更多的是以机制体制的经济学为切入点,进行策略性研究,研究结果理论依据较为单薄。国外虽然运用到数据挖掘的思路研究风险防患与客户行为,但是并没有具体数据挖掘方法的应用研究。所以,与该研究相关的内容并不多。
1.2 研究意义
数据挖掘的方法(CC Wu,2016)可以用于从大量的数据中寻找潜在的知识和模式,利用该方法可以有效降低违约风险。决策树分类、支持向量机及人工神经网络等算法均可以用于发现预测型的知识和模式,并控制其精度。
该研究基于互联网金融平台产生的大量业务数据,利用数据挖掘的方法有效分析了平台产生的信用风险问题。通过数据挖掘中高效的数据预处理及数据挖掘算法来处理和分析数据,可以有效的挖掘出隐藏在数据背后的知识和模式,达到自动预测风险人群、指导企业建设智能化互联网金融平台的目的。
更为深入的,该研究为互联网金融企业的借贷风险防控,客户的行为模式预测提供相关决策,为互联网金融企业监管机制和运作模式的创新提供思路。最终为企业创建新的商业增长点,并实现社会、互联网金融企业和借贷两侧的共赢模式。所以运用数据挖掘的方法研究互联网金融借贷的风险防控和客户行为模式具有较大的现实意义。
2 平台数据预处理研究
该研究主要分析互联网金融平台借贷数据中有可能对是否违约产生影响的字段,如借贷人本身的一些特征字段,包括年龄、收入、学历、婚姻状况、性别、从事工作、工作时间、子女情况、所在公司性质等;除此之外还包括贷款人的借贷信息相关字段,如债务占收比、月还款金额、贷款本金及还款期数等。由于这些数据来自于不同的互联网金融平台,数据真实且属性丰富,所以在进行数据挖掘前应进行数据清洗、泛化、字段重要性选择等相关的数据预处理工作,使数据变得规整并具备较强的可挖掘性。
2.1 数据的清洗
基于该互联网金融平台的数据质量及挖掘要求,该数据清洗的研究可分为无效数据删除及缺失数据填补。
该研究首先通过一些规则的设计去除掉无效数据,这里主要面对的是借贷人的虚假数据填报,由于许多互联网金融平台并没有十分细化的监管和审核机制,导致许多借贷人户在网上填报一些无效信息。如:在年龄字段出现小于小于10岁或大于100岁的借贷人;从事工作日期早于出生日期;年龄小于10岁却显示有子女等问题。由于这些问题数据的数据量较小,所以这里采用了设定启发式的规则进行筛选并统一删除的方法进行处理。
其次,数据集会出现一些关键字段的数据值空缺的问题。这里采用两种不同的方法进行处理:空缺数据为数值型,如年龄、收入、贷款本金等,这里采用利用平均值或同类别均值的方法来进行数据的填补;若空缺数据为非数值型,如公司性质、学历、性别等,这里采用决策树或贝叶斯归纳的方法进行填补,力求把最有可能出现的值填补进空缺处。
2.2 数据的泛化
该互联网金融平台数据中,大部分字段中的数据都是连续的数据值,即使一些非数值型的数据也会出现较为连续的字段值,如在从事工作这一字段中,就包括上百种不同的工作类别。而对于决策树算法来说,更期望于获得较为离散的数据值,由此可以更为概括性的以树形结构的方法对数据进行分类并对知识进行归纳。
所以这里根据不同的标准和规则、以定量和定性的思路进行了连续数据值的离散化处理,使数据粒度变大。在不同的字段中,分别依照现实世界的特征、固定宽度的分箱以及分位数处理等方法,根据字段的特征把数据进行了范化的处理,使各字段均具备了较强的概括性和可挖掘性。
2.3 字段重要性选择
在该数据集中,对违约可能产生影响的字段较多,但如果这些字段均参与到决策树的建模过程中,会使得一棵树的分支节点过多或过度生长,使最终得到的知识和模式过于分散,无法进行概括性的总结。所以这里采用PCA主成分分析的方法对不同的字段进行了重要性的选择,这里主要利用正交变换,将其分量相关的原随机向量转化成其分量不相关的新随机向量,即将原来的字段重新组合成一组新的线性无关的几个综合字段,同时根据挖掘需求从中取出几个较少的却尽可能多地反映原有信息的字段,由此,对该数据集进行合理的降维。在该数据集中经过主成分分析,可以得到在决策树建模中主要使用的字段为历史违约情况、还款期数、剩余借贷金额、借贷人债务占收比、性别、工作时长、学历、婚姻及子女状况。
3 数据挖掘分析
3.1 基于单一字段的统计分析
该互联网金融平台数据经过数据预处理,各字段已经变得较为规整,在建模前,可以进行一些简单的数据统计分析,即基于单个字段的违约分析,由此,可以得到违约人的一些特征模式。这里选取了一些与借贷人本身相关的字段进行分析,如图1所示。
通过性别的字段值在违约中的占比可以看到目前互联网金融借贷平台的主要借款人还是以男性为主;子女状况字段则显示无子女的违约情况远大于有子女的违约情况,这说明有子女的借贷人会考虑到家庭和责任等因素,违约成本较高,而无子女的则没有任何负担,只需要考虑自己的经济情况;通过年龄字段可以发现30岁以下的借款人几乎占整个原始数据的百分之七十,说明互联网金融平台的违约风险主要发生在年轻人中;而工作时间字段则印证了这一观点,工作时长在5年内的占违约总数的90%以上,从这一结果也可以看到资历较浅、收入不高的员工更容易通过借贷平台来满足自己的经济需求,这种提前消费的做法也就容易导致了违约行为的发生。
通过单一字段的简单统计分析,我们可以简单概括出一些违约人的特征信息,但是更为细化的、基于多个字段的复合作用如何对违约行为产生影响,则需要通过数据挖掘的算法进行建模分析。
3.2 基于决策树算法的建模分析
决策树算法以信息论原理为基础,利用信息增益寻找数据库中具有最大信息量的属性建立决策树。这里信息增益是指期望信息或者信息熵的有效减少量。使用信息增益作为判断属性选择的度量,描述了当确定该属性后对待分类对象不确定性的信息变化程度。选择具有最高信息增益的属性作为当前节点的划分属性,能使得判定一个未知对象类别时所需的属性最少,并找到一棵简单的树(谷斌,2014)。
这里设S是训练样本的集合,其中每个样本的类标号都是已知的。假定有m个类,集合S中类别Ci的记录个数是Ni个,i=l,…,m。
设属性A具有值{a1,…,av},属性A可以用来对S进行分组,将S分为子集S1,…,Sv,其中Sj包含S中值为aj的那些样本。设Sj包含类Ci的Sij个样本。则将S划分为m个类的信息熵或期望信息为
其中,pi为S中的样本属于第i类Ci的概率。当样本属于每个类的概率相等时,上述的熵取到最大值。而當所有样本属于同一个类时,S的熵为0,也就是没有不确定性。其他情况的熵介于两者之间。
熵值反映了对样本集合S分类的不确定性,也是对样本分类的期望信息。熵值越小,划分的纯度越高,对样本分类的不确定性越低。一个属性的信息增益,就是用这个属性对样本分类而导致的熵的期望值下降。
Gain(S,A)是指因知道属性A的值后导致的熵的期望压缩。Gain(S,A)越大,说明选择测试属性A对分类提供的信息越多,该算法就是在每个节点选择信息增益Gain(S,A)最大的属性作为测试属性(Jiaweihan,2008)。决策树算法主要学习过程如图2所示。
該研究基于决策树的思想,以预处理后的数据为基础,选取历史违约情况、还款期数、剩余借贷金额、借贷人债务占收比、性别、工作时长、学历、婚姻及子女状况作为输入字段进行建模,并把所有数据进行训练集和测试集的划分,在训练集中构建决策模型,并把结果带入测试集中进行精度分析,该研究分别选取ID3、C4.5、C5.0、C&R及CHAID等不同的决策树进行精度及运行速度的比较,结果如表1所示。
所以这里选用C5.0决策树对数据处理的结果进行解释分析,决策树显示了违约人的一些特征,概括如下:
①若借贷人存在历史违约情况,那么其违约的可能性会很大,若借贷人不存在违约历史,且还款期数大于2期,期借贷违约的风险则会较低。
②若借贷人不存在历史违约情况,且其为女性,并以还款2期,则违约风险较低。
③若借贷人不存在历史违约情况,并以还款2期,但剩余还款金额较高,则其存在较高的违约风险。
④若借贷人不存在历史违约情况,并以还款2期,但其债务占收比高于30%,则违约风险较低;但是在相同的情况下若其债务占收比低于10%且剩余还款金额较少,则其违约风险较高。
⑤若借贷人不存在历史违约情况,并以还款2期,同时剩余还款金额较少且债务占收比为10%-30%,那么与借贷人本身相关的信息将会对违约产生作用:学历在本科以上存在较低的违约风险,工作时间在五年以上存在较低的违约风险,有子女存在较低的违约风险,而学历在大专以下或无子女的借贷人则存在较高的违约风险。
⑥若借贷人不存在历史违约情况,并以还款2期,同时剩余还款金额较少且债务占收比为高于30%,则婚姻状况为已婚的违约风险较低,而婚姻状况为未婚或离异的违约风险较高。
4 互联网金融平台风险治理
由上述研究可以看到,基于大量互联网金融平台的借贷业务数据,利用数据挖掘的方法可以对借贷人的违约情况进行精确的分析,概括出违约人的相关特征,这可以为互联网金融平台的违约风险治理提供理论依据。基于该研究,平台的治理方案可从以下几方面进行考虑:
①互联网金融平台需进一步细化借贷人的信息填报,并审核其真实性,由此增强监管力度,提高借贷门槛。同时,这可以在很大程度上丰富数据挖掘所需的字段,使数据建模在更为有价值的、更为真实的数据基础之上。平台可通过建立动态的、有效的网络个人信用档案来细化借贷人的相关信息,并使自己的信息系统与官方认定的公共征信服务平台进行对接,能够更为有效的审核每个借贷人填写的相关信息,使其数据真实可信。
②互联网金融行业需进一步加强信息化建设,研究信息和数据的标准化方案,使各个不同平台的系统能够进行实时的、有效的互联互通,是借贷人的信息和数据在不同平台中最大程度上进行共享,并通过数据挖掘对海量借贷业务数据进行分析和处理,降低信息的不确定性,减少单个平台可能出现的信息孤岛问题,优化互联网金融平台整体资源配置。
③完善互联网金融体系的配套措施,研究不同的风险控制体系。随着互联网金融业务的不断发展,国家层面应出台更为细化的法律法规体系进行监管,并集中建立数据分析中心对可能产生的风险进行统一把控,并建立统一的互联网金融信息披露平台进行信息发布。除此之外,各平台也可以通过不同的方法分散违约带来的风险。如可以与保险公司合作通过数据分析设计不同的网贷保险类的理财产品,或建立专门的保险赔付基金制度等,完善并丰富互联网金融产业链,使市场更为健康地发展。
参考文献:
[1]生蕾.信息不对称与互联网金融发展[J].征信,2015(12):15-18.
[2]张维迎.博弈论与信息经济学[M].上海:上海人民出版社,1996.
[3]刘威.互联网金融系统下的交易成本——基于新制度经济学的研究[J].时代金融,2016(35):49-50.
[4]Adair Morse. Peer-to-Peer Crowdfunding: Information and the Potential for Disruption in Consumer Lending[J]. Annual Review of Financial Economics, 2015(6): 463-482.
[5]CC Wu. Decision tree induction with a constrained number of leaf nodes[J]. Applied Intelligence, 2016, 45:1-13.
[6]谷斌,耿科明,张昶.数据仓库与数据挖掘实务[M].北京:北京邮电大学出版社,2014.
[7]Jiaweihan,MiehelineKambe.数据挖掘概念和技术[M].机械工业出版社,2008:56-60.
[8]李志强.基于交易成本理论的互联网金融与中小企业融资关系研究[J].上海经济研究,2015(3):32-36.
[9]谢平,邹传伟,刘海二.互联网金融的基础理论[J].金融研究,2015(8):4-12.
[10]钟向群.探索互联网金融新模式[J].中国金融,2013(24):45-46.
[11]刘澜飚,沈鑫,郭步超.互联网金融发展及其对传统金融模式的影响探讨[J].经济学动态,2013(8):73-83.
[12]汪炜,郑扬扬.互联网金融发展的理论基础[J].经济问题探索,2016(6):120-176.
[13]G Lee, U Yun and KM Lee.Analysis of tree-based uncertain frequent pattern mining techniques without pattern losses[J].Journal of Supercomputing, 2016, 72:1-23.
[14]Yeo, Benjamin and Delvin Grant, Predicting service industry performance using decision tree analysis[J].International Journal of Information Management, 2018, 38: 288-300.