考虑社会网络关系的P2P借贷项目违约风险预测

2021-07-14 16:22:12万常选江腾蛟
计算机工程与应用 2021年13期
关键词:借款人借贷预测

游 运,万常选,江腾蛟

1.江西财经大学 信息管理学院,南昌330013

2.东华理工大学 理学院,南昌330013

3.江西财经大学 数据与知识工程江西省高校重点实验室,南昌330013

P2P借贷是基于因特网的一种新型金融模式,该平台将拥有闲散资金的社会成员与资金的需求方联系起来,不仅为中小企业融资和小额借贷提供了一个新的解决方案,也为社会成员提供了一种新的投资途径。对于潜在的投资者来说,其决策的一个首要问题就是如何准确预测P2P借贷市场中各投资项目的违约风险,而预测特征的选择则是这一首要问题的重要研究内容,将直接影响项目违约风险预测的有效性。在传统金融市场的信用风险评估模型中,一般是以项目的财务信息为预测指标进行预测。然而,在P2P 网络借贷市场中,信息的不完全与非对称等信息问题相较于传统的金融市场更加尖锐,平台借款人财务信息的不完全或信息质量较低,将极大地影响项目风险预测的有效性,导致投资者在市场交易过程中面临较大的投资风险。如何利用平台可获得的信息发掘具有项目违约风险预测价值的有效特征并将其合理引入预测模型,对提升P2P借贷项目违约风险预测效果,帮助投资者规避投资风险至关重要。

当前部分研究表明平台社会网络关系(如朋友关系)可有效反映借款人及其项目的当前状态,在一定程度上降低由于市场信息不对称所带来的投资风险[1-2]。文献[3]分析了P2P 借贷市场在线社会网络——朋友网络,讨论了朋友网络中的管道效应、棱镜效应和羊群效应及其对第三方投资者投标行为的影响。文献[4]根据来自拍拍贷市场交易数据,分析了朋友层级网络中与市场融资效率和借贷利率相关的朋友网络相关变量,并分析这些变量对市场融资效率和借贷利率的影响。以上关于社会网络的研究大多是从市场信息效率、市场参加者的投标行为及借款人的融资效率等方面展开,缺乏对平台社会网络(如朋友关系)中关于项目违约风险预测特征的全面发掘及有效运用。

鉴于此,本文基于Prosper平台的社会网络关系(即朋友关系)相关信息及历史交易数据,分析平台借款人的社会网络相关信息,依据社会资本理论从社会网络的结构维度、关系维度和认知维度,全面发掘借款人社会网络关系中与项目违约风险显著相关的特征,即社会网络风险特征,构建考虑社会网络关系的项目违约风险预测模型,并通过分析该类模型预测性能来检验社会网络风险特征的违约风险预测价值。

1 相关研究

在P2P借贷项目违约风险预测研究中,相关特征的选择与发掘是关键。目前,关于P2P借贷项目特征的研究较多,主要体现在三个方面:

(1)传统的财务指标的研究。文献[5]依据Lending Club 相关数据进行研究发现,借款人信用等级、债务收入比、FICO 评分、循环额度比与项目是否违约关系密切;文献[6]通过实证研究发现,与借款人还款能力相关的特征,如借款人的收入水平、是否有固定资产等能够在一定程度上反映该借款人及其项目的风险程度,可作为投资人决策的重要参考因素;文献[7]采用来自Lending Club 数据,研究了P2P 借贷项目违约的相关因素,发现与违约相关的因素有贷款目的、年收入、当前住房状态、信用历史、负债和P2P借贷网站的等级划分情况;文献[8]利用logistic 模型进行实证分析,发现与P2P 借贷风险相关的因素有使用利率、借款时间、借款规模和信用分值,其中,使用利率、借款时间与风险正相关,信用分值与风险负相关。

(2)非财务特征的研究,即主要就市场参加者的人口特征,如性别、种族、年龄、语言表述等进行分析。文献[9]通过对种族、年龄、性别等相关因素进行研究,发现在贷款成功率方面黑人要低于白人,男性低于女性,60 岁以上的借款人和35 岁以下的借款人要低于35 到60岁之间的借款人。文献[10]研究了软因素对P2P借贷市场项目融资效率、借款利率、违约概率的影响,发现大多数软因素(如借款人年龄、婚否、相关文本描述等)有助于判断借款人的声誉,会对项目融资效率、借款利率产生重要影响,但在预测项目是否违约方面的价值有限。文献[11]基于词嵌入模型和5P理论,研究项目相关文本的语义特征,发现其中蕴含着有助于提高信用评价模型预测效果的有用知识。

(3)社会网络信息影响研究。文献[12]依据Prosper借贷平台相关数据分析社会资本对项目违约风险的影响,研究结果表明,在P2P借贷市场中,项目被推荐的次数,项目从属的借款人是否加入群组及项目从属的借款人的朋友数量等社会资本与项目违约风险具有相关性,拥有良好社会资本的借款人,其项目违约风险发生的可能性较低;文献[4]研究结果表明,拍拍贷中由朋友联系的数量和质量所确定的结构化朋友网络是融资性能的重要影响因素,拍拍贷中结构化的、亲属的和认识的朋友关联网络对融资成功率具有重要影响;文献[2]依据信息经济学及博弈论相关理论,分析P2P借贷社会网络在缓解信用风险方面的作用,认为基于社会网络的信用风险缓释机制可以有效缓解由于市场不利选择所带来的消极影响,降低违约等道德风险行为发生的概率;文献[13]通过研究市场中借贷信用风险与贷款人相关团队之间的关系,发现团队在降低贷款违约风险方面有一定的作用;文献[14]通过分析区域社会资本与项目之间的关联,发现借款人的社会资本水平会对其融资效率产生重要影响,具有较高社会资本水平的借款人融资效率更高,其项目违约的可能性更低。

由以上研究可以发现,财务信息与项目违约风险密切相关,是投资者投资决策的重要市场信号。对非财务指标的研究主要集中在对融资效率及借款利率等方面,如果研究实验数据来源不同或者研究的侧重点有出入,则研究结果之间会存在较大差异,对项目违约风险预测的价值有限。关于社会网络信息的部分研究表明,社交网络可以降低P2P市场信息不对称,肯定了社会网络在降低P2P借贷信用风险中的作用,但大多数研究主要侧重于社会网络信息对市场参加者的融资能力、经济行为和投资决策影响等方面,缺乏对社会网络信息中与违约风险相关的特征的综合归纳和深入挖掘,以及关于社会网络信息风险预测价值具体分析和检验。

因此,本文在前人研究的基础上,通过对Prosper平台中主要对象之间的关联及社会网络关系进行分析,依据社会资产理论,从多维度发掘与项目违约风险相关的特征,即社会网络候选特征,并将其引入项目违约风险预测模型,提出并验证以下两个假设。

H1:在P2P网络借贷平台中,社会网络关系中蕴含着对借贷项目违约风险具有显著影响的特征。

H2:在P2P网络借贷平台中,社会网络特征有助于提高借贷项目违约风险预测的效果。

2 P2P借贷社会网络候选特征发掘

依据微观社会资本理论,社会网络中的个体行动者的社会地位状况及关系指向特征将影响其市场行为与经济结果,可以从社会网络的结构维度、关系维度和认知维度这三个方面对存在于其中的人与人之间的关系进行解释,分别用于描述社会网络中的个人或实体之间是否存在联系、联系的质量及资源共享的表述及说明情况[15]。P2P借贷在线社会网络,有别于传统的社会网络,该网络中的注册成员之间可以不受时空的限制自由地组织联系、快速地进行信息分享和市场交易,并由此建立各种关联。而在这些关联中,蕴含了大量的有价值的市场信息和经济信号。

2.1 P2P借贷市场对象关联网络模型的构建

基于P2P借贷平台相关信息即历史交易数据,分析P2P借贷市场中主要对象之间的相互关系,构建相应的P2P 借贷市场对象关联网络模型,如图1 所示,以分析P2P借贷平台中主要对象之间的关联关系。

图1 P2P借贷市场对象关联网络示例

图1 定义了P2P 借贷市场主要对象之间的关系图G=(M,P,E),其中P表示借贷项目的集合,其相关特征包括贷款类别、贷款数量、贷款期限、贷款利率、贷款信用等级等内容,M={L,B}表示P2P借贷平台贷款人L和借款人B的集合,他们的相关特征包括成员角色、关键字、债务收入比、所在城市、受教育程度等内容,E={E1,E2,E3}表示借款人、项目、贷款人之间的市场参加者(包括借贷人和贷款人)之间的社会网络关系E1、借款人与项目之间的从属关系E2、贷款人与项目之间的投资关系E3的集合。

如图1 示例所示,l1,l2,l3∈L,b1,b2∈B,p1,p2,p3∈P,其中,(l2,b1)∈E1表示贷款人l2与借款人b1之间的社会网络关系(如是否是直接朋友),对此可用一个二维向量R1描述借贷双方的社会网络(以朋友网络为例)关联特征,如双方是否是朋友、朋友的类型,如R1(l2,b1)=(1,1)表示贷款人l2与借款人b1之间是朋友、且是直接朋友(朋友类型);(l2,p1)∈E2表示贷款人l2对项目p1进行了投资,即贷款人l2与项目p1之间存在投资关系,可用一个三维向量R2描述贷款人l2与项目p1之间投资关联特征,如是否投资、投资数额、投资回报率,如R2(l2,p1)=(1,50,2.2%)表示贷款人l2对项目p1进行了投资,投资额为50,投资回报率为2.2%;(b2,p1)∈E表示项目p1属于借款人b2,即项目p1与借款人b2之间存在从属关系,可用变量R3描述借款人与项目之间的从属关联特征,如R3(b2,p1)=0,则表示项目p1不属于借款人b2。

2.2 基于P2P借贷市场对象关联网络模型的社会网络候选特征发掘

目前大多数研究侧重于分析社会网络关系对融资效率、借贷利率及投资决策行为等方面的影响。本节基于P2P 借贷市场对象关联网络模型及Prosper 平台朋友关联数据,依据微观社会资本理论从社会网络的结构维度、关系维度和认知维度发掘其中可能具有违约风险预测价值的特征,即社会网络候选特征,如表1所示。

表1 社会网络候选特征

首先,社会网络的结构维度的关键是社会网络的中心性。可以通过考察该个体与这个网络中其他个体的社会联系数量来衡量个体在该社会网络中的中心性[16]。Mollick通过计算个人在Facebook中的粉丝数来衡量个人的网络联系[17]。因此,基于P2P借贷对象关联网络模型及Prosper 平台朋友关联数据,可用借款人在朋友网络中的朋友数来反映其社会网络联系。考虑到项目借款人的朋友中不同角色的分布情况对其信用风险的可能存在的影响,根据Prosper借贷平台历史数据,本文除了考察借款人直接朋友数、借款人间接朋友数等一般网络结构维度的特征指标,还引入了借款人直接朋友为贷款人数、借款人直接朋友为借款人数、借款人间接朋友为借款人数、借款人间接朋友为贷款人、借款人的直接朋友为借款人的比例、借款人的直接朋友为贷款人的比例、借款人的间接朋友为借款人的比例、借款人的间接朋友为贷款人的比例等指标来体现每个借款人关于网络结构维度的特征,并进一步分析这些特征与借贷项目违约风险之间的关联。

其次,社会网络的关系维度是指社会网络中成员之间相互联系的质量。对此,可以从成员间联系的紧密程度及被联系成员整体质量两个角度来进行分析。显然,基于P2P借贷对象关联网络模型,Prosper平台借款人与朋友之间是否存在长期的信息分享、互为投资等情况可在一定程度上反映了借款人与其朋友之间的联系强度。而借款人的朋友的信用水平和投资能力在一定程度上反映了其朋友的整体质量水平。相比以前的研究,在考察借贷双方联系强度时,不仅考察借贷双方的朋友关联关系所衍生出来的联系,还考察由于借款人与项目之间的从属关联关系和贷款人与项目之间的投资关联关系所衍生出来的联系,例如,如果一个投资者热衷于对属于某个借款人所有或绝大多数相关项目进行投资,则这两者之间应该存在较强的联系;考察朋友的整体质量时,不仅考察朋友投资成功数的相关指标,还考察朋友投资成功额及投资收益的相关指标,投资成功额越高,表示该贷款人越有投资经验,而投资收益越高,则表示该贷款人投资能力越强,对于一个有经验且投资能力强的投资者所投资的项目,应该更加可信,因此,要评价借款人的朋友质量,应该综合考虑其直接朋友和间接朋友的投资成功情况和投资收益情况。根据Prosper借贷平台历史数据,可用直接朋友投资项目总数、直接朋友成功投资项目数、每个借款人直接朋友投资比例、每个借贷项目直接朋友投资比例、每个借贷项目直接朋友投资额、直接朋友投资额、直接朋友投资成功率、借款人直接朋友投资收益率、间接朋友投资成功数、间接朋友投资项目总数、间接朋友投资成功率、借款人间接朋友投资收益率、间接朋友投资额、每个借贷项目间接朋友投资额、每个借贷项目间接朋友投资比例、每个借款人间接朋友投资比例等指标来体现每个借款人关于网络关系维度的整体特征。

社会网络的认知维度与提供资源共享的表示、解释及系统的意义的资源相关[15]。根据Prosper 平台相关数据,本文将借款人的借款说明的字数作为反映其社会网络认知维度的特征指标。

3 引入社会网络风险特征的项目违约风险预测

3.1 特征变量选择

(1)财务特征变量选择

通过综合考虑前人(如文献[7])的研究成果及平台信息内容,计算每个借贷项目的“硬”信息所对应的特征值,并进行数据规范化处理和相关性分析,从中选取与项目违约风险显著相关的财务特征变量,即借款数量、借款利率、借款期限、信用等级、债务收入比、房屋状态等,并基于这些传统的财务指标构建项目违约风险预测基准模型。

(2)社会网络候选特征分析与筛选

首先,根据第2 章所构建的P2P 借贷市场对象关联网络模型及Prosper 平台相关数据,分析P2P 借贷市场对象关联网络模型中各对象之间的关联特征,分别计算表1中所对应的社会网络候选特征值,并进行数据数值化、规范化处理。

其次,通过秩和检验、T 检验和卡方检验等方法分别分析社会网络候选特征与项目违约风险之间的相关关系,从中发掘出与借贷项目违约风险存在显著相关的特征,即社会网络风险特征。根据相关计算结果可对第1章所提出的假设H1进行检验。

最后,考虑到社会网络风险特征之间可能存在多重共线性,也为了降低预测模型的复杂性,对社会网络风险特征进行主成分分析,并将分析的结果引入借贷项目违约风险预测模型。

3.2 违约风险预测模型及方法的选择

关于市场风险预测的方法有很多,如统计模型、人工智能方法、运筹方法等。在近年来的研究中,利用逻辑斯蒂回归[8]、神经网络、支持向量机等方法进行P2P借贷违约风险的预测非常常见。例如,文献[18]通过分析P2P网络借贷的特点及借款人行为关键影响因素,构建了基于BP 神经网络的P2P 网络借贷信用风险评估模型;文献[19]考虑到现实P2P 网络借贷市场中数据的高维、非线性、非均衡性等特点,采用了基于支持向量机的相关方法对该市场借款人的信用风险进行评估。

为了提高实验的有效性和检验结果的可靠性,本文选择了当前信用风险评估中较为常用的3 种非线性预测方法,即支持向量机、神经网络和逻辑斯蒂回归来构建项目违约风险预测的基准模型和验证模型。

在对第1 章所提出的H2进行检验的过程中,为了消除模型训练过程中由于随机取样所带来的偏差,保证验证结果可信度,本文拟采用K-折交叉验证(一般K取值为10)方法,用于检验社会网络风险特征的发掘与引入对借贷项目违约风险预测的价值。

4 实验研究及结果分析

4.1 数据来源与样本选取

实验数据来源于美国Prosper网络借贷平台2006年以来的开放数据。该数据集包含相互关联的7 类对象信息,分别是项目类别、群组、注册成员、列表项目、贷款项目、投标、角色,信息量巨大。其中,注册成员1 309 510个,列表项目371 896个,投标数为9 638 888。为了便于训练和测试,首先,对该数据集进行了初步过滤,选取其中已完结且违约状态明确的25 229 个贷款项目及与这些项目相关的列表项目、贷款项目、投标和注册成员等信息,针对每一个贷款项目,统计计算其投标者信息,针对每一位贷款人,统计其直接朋友信息及投标信息,以此作为构建P2P借贷市场对象关联模型的基础数据A;其次,考虑到数据的完整性,从25 229 个贷款项目中选取了最终违约且相关数据完善的23 488个借贷项目,针对每一个贷款项目,计算传统财务指标特征值及社会网络风险特征值,并进行数值化、规范化处理,以此作为样本数据B;最后,为增强验证结果的可靠性,拟采用K-折交叉验证方法,将样本数据B随机抽取划分成10 个等量样本子集,以此作为验证H2的样本数据C,对不同的项目违约风险预测模型模型分别训练并测试。

4.2 相关性分析

前人研究表明,P2P借贷平台社会网络相关信息对投资者识别项目风险具有一定的价值。通过对Prosper平台已完结且是否违约已明确的25 229个借贷项目(即样本数据A)进行了Pearson 卡方检验,发现在朋友网络中有朋友的借款人与没有朋友的借款人在其项目是否违约上存在显著差异,结果如表2、表3所示。在朋友网络中没有朋友的借款人违约概率为12.2%,在朋友网络中有朋友的借款人违约的概率为8.4%,明显低于没有朋友的借款人。

表2 借款人是否有朋友与项目是否违约的交叉制表

表3 借款人是否有朋友与项目是否违约的卡方检验

表2、表3的实验结果表明,社会网络关系中蕴含着与项目是否违约相关的有价值的知识,通过对社会网络相关信息进行分析,挖掘出其中与项目是否违约显著相关的特征,将有利于提高项目违约风险预测的有效性,有助于平台风险管理及投资者投资风险规避。

为了验证假设H1,本节基于P2P 借贷市场对象关联网络模型及2.2 节所发掘的社会网络候选特征,统计计算是否违约已明确且相关数据完善的23 488 个借贷项目(样本数据B)的社会网络候选特征值,并结合T检验、秩和检验及卡方检验分析这些特征与项目是否违约之间的相关关系,从中筛选出与项目是否违约显著相关的特征,即社会网络风险特征。实验结果发现,2.2节所发掘的社会网络候选特征中有24 个特征的Sig 值小于0.05,如表4 所示,这表明这24 个特征与项目是否违约之间存在显著相关,属于社会网络风险特征,将社会网络风险特征合理引入项目违约风险预测模型,有望提高P2P借贷项目的违约风险预测的有效性。

表4 关于社会网络候选特征的独立样本检验

4.3 引入社会网络风险特征的项目违约风险预测效果分析

设本文所提出的引入社会网络风险特征后所构建的非线性预测模型为验证模型,分别为SVM_1、NN_1、LOGIC_1,其中,SVM_1模型是指采用支持向量机的方法,在传统财务指标的基础上,引入社会网络风险特征的项目违约风险预测模型,NN_1 模型是指采用神经网络方法,在传统财务指标的基础上,引入社会网络风险特征的项目违约风险预测模型,LOGIC_1 模型是指采用逻辑斯谛回归方法,在传统财务指标的基础上,引入社会网络风险特征的项目违约风险预测模型。以传统财务指标所构建的非线性预测模型为基准模型,分别为SVM_0、NN_0、LOGIC_0,其中SVM_0模型是指采用支持向量机的方法,基于传统财务指标构建的项目违约风险预测模型,NN_0模型是指采用神经网络方法,基于传统财务指标构建的项目违约风险预测模型,LOGIC_0模型是指采用逻辑斯蒂回归方法,基于传统财务指标构建的项目违约风险预测模型。

为了分析引入社会网络风险特征后的项目违约风险预测效果,本次实验步骤如下:首先,考虑到这些特征之间可能存在多重共线性,也为了降低预测模型的复杂性,提升预测的效果,对本文所发掘的24个社会网络风险特征进行主成分分析,提取了其中6 个主成分,可解释这24个朋友网络特征中的76%的信息;其次,基于样本数据C,对上述各基准模型和验证模型进行K-折交叉验证(K=10)并对所得结果进行对比,即分析各个基准模型与对应的验证模型在风险预测准确率方面的差异,以考察在传统财务指标的基础上引入社会网络风险特征所构建的模型在风险预测准确率方面的变化实验结果如图2所示。

从图2中可以发现,依据支持向量机、神经网络及逻辑斯蒂回归这3种传统的非线性预测方法,与基于传统财务指标构建的违约风险预测模型的预测结果相比,基于混合特征(包含传统财务指标及本文所发掘的社会网络风险特征)构建违约风险预测模型的预测效果总体更好。

图2 不同模型的预测结果对比

从图2(d)可知,在神经网络模型的交叉验证结果中,基于混合特征的违约风险预测模型(NN_1)的平均准确率要比基于单纯财务特征的违约风险预测模型(NN_0)高出2.8个百分点;在逻辑斯谛模型的交叉验证结果中,基于混合特征的违约风险预测模型(LOGIC_1)的平均准确率要比基于单纯财务特征的违约风险预测模型(LOGIC_0)高出2.0 个百分点;在支持向量机的交叉验证结果中,基于混合特征的违约风险预测模型(SVM_1)的平均准确率要比基于单纯财务特征的违约风险预测模型(SVM_0)高出3.6 个百分点。这表明在Prosper 平台的社会网络关系中,蕴含着与借贷项目违约风险显著相关的知识;通过从P2P借贷平台发掘与项目违约风险显著相关的社会网络风险特征,并将这些特征合理地引入预测模型,对提升P2P借贷项目违约风险效果具有重要意义,由此也可以验证假设H2成立。

5 结论与展望

本文基于Prosper平台相关数据及多维社会资本理论,构建P2P 借贷市场对象关联网络模型,提出一种考虑社会网络关系的P2P借贷项目违约风险预测方法。

该方法的特点体现在:(1)从社会网络的结构维度、关系维度和认知维度,全面发掘P2P借贷在线社会网络关系中与项目违约风险相关的特征,不仅考察了社会网络关系中的成员之间由于朋友关系而形成的朋友层次关联,还考察了社会网络成员之间由于其他对象而形成的间接关联(如投资关联与从属关联)。实验结果表明,在Prosper平台的社会网络关系中蕴含着与项目违约风险显著相关的、具有项目违约风险预测价值的特征,即社会网络风险特征,通过对这些特征进行全面、系统的挖掘,可以丰富项目违约风险预测特征,有助于提高预测的有效性。(2)相对于传统的项目违约风险预测方法主要依赖于财务特征进行项目风险预测,该方法基于支持向量机、神经网络及逻辑斯蒂回归等常用非线性预测方法,在传统财务指标的基础上引入社会网络风险性特征,构建考虑P2P借贷社会网络关系的项目违约风险预测模型。通过对引入社会网络风险特征的预测模型与没有引入社会网络风险特征的预测模型的预测效果进行了实证研究和对比分析,结果表明,将社会网络风险特征合理引入传统的项目违约风险预测模型,可有效提高项目违约风险预测的准确性,进而帮助投资者及平台规避由于市场关键信息(如财务信息)不完全或质量较低所带来的决策风险。

猜你喜欢
借款人借贷预测
无可预测
黄河之声(2022年10期)2022-09-27 13:59:46
选修2-2期中考试预测卷(B卷)
选修2-2期中考试预测卷(A卷)
乡城流动借款人信用风险与空间收入差异决定
小微企业借款人
让民间借贷驶入法治轨道
不必预测未来,只需把握现在
商业银行对借贷人贷后监控与风险治理
民间借贷对中小企业资本运作的影响
信息不对称下P2P网络借贷投资者行为的实证