檀凯旋
(南京财经大学 经济学院,南京 210023)
P2P网贷平台是互联网金融中一种以点对点借贷模式(将投资人的资金放贷给有资金需求的借款人)为运作方式的信息中介平台。P2P建立的初衷是将资金以没有任何抵押的小额方式发放给需要资金的人。2005年,全球第一家P2P平台成立于伦敦,后逐渐盛行于美国。2007年,国外网络借货平台模式引入中国,大致经历了初始发展期、快速扩张期、风险爆发期及政策调整期。中国是世界上P2P网贷平台数量和注册用户数量最多的国家。网贷平台最初只作为中间平台,由有借款需求的人发布借款需求,然后由多个投资人进行竞标,最后由平台出面撮合双方达成一致交易并收取部分服务费的一种网络金融模式。随着业务的拓展,网贷平台开始有资金托管的作用,许多居心不良的平台钻金融监管体制的漏洞,利用网贷平台非法吸收公众存款,进行集资诈骗。虽然金融监管逐渐严格,但还是有诸如平台运营突然失联、提现困难等威胁人民群众财产安全的问题。
P2P作为一种创新的金融模式,是互联网金融中最为典型、发展最广泛的一种模式[1]。自第一家网贷平台“拍拍贷”产生并规范经营数年后,这种借贷模式逐渐被广大民众接受,从此国内P2P平台数量急剧增加。人们在适应这种新的借贷模式之后,开始享受其带来的快捷与便利,其产生的大量需求,既给该行业带来了商机,也使各P2P平台间产生了激烈的竞争,良莠不齐的P2P平台在一定程度上增加了该行业的风险,给投资者的资金安全带来诸多问题[2]。
互联网金融安全是国家重点关注的问题。党的十九大报告提出,为加快完善社会主义市场经济体制,需要健全金融监管体系。其中网贷平台风险是防范的重点,如何在监管不够完善的背景下,识别P2P平台的风险也成为国家金融监管部门以及学术界研究关注的焦点问题[3]。
关于网贷平台风险性的研究,目前还不多,并且学者研究问题的角度也仅仅是基于P2P平台的基本运营数据,忽略了“企业舆情”信息对网贷平台的风险管控作用。在互联网时代,正面或者负面的舆情信息都容易通过网络平台被不断放大,舆情对社会事件的发展及变化发挥了极其重要的作用,因此掌握并分析P2P企业的舆情信息以及公众信息,能够使P2P平台风险性管理迈上新台阶[4]。
本文结合“企业舆情”、反映P2P平台本质特征的基础数据以及法律层面上的P2P风险性评价,基于爬取的2019年10月的网贷天眼、网贷之家等网贷平台的数据,构建出更加完整的P2P平台的风险性评价体系,并使用该体系进行P2P风险性评价分析,得出结论并提出相应建议。
网贷平台风险不仅具有相对性,而且具有波动性,因此评价指标的选取不仅要具有代表性、可量化性,还要能够反映网贷平台风险性所涵盖的各个方面。为了准确、客观地选取评价指标,应遵循以下原则:一是目的性,即要围绕评价网贷平台风险这个核心来选择指标;二是可获得性,即用于评价网贷平台风险性的指标要能够获取;三是系统性,即各指标之间要有一定的逻辑关系,要能够反映网贷平台风险的各个方面;四是典型性,即评价指标要具有代表性,这样构建的评价指标体系才具有意义;五是科学性,即所选指标必须抓住网贷平台风险的主要方面和本质特征;六是可量化性,即评价指标须是可量化的,这样才能用于构建模型分析。
为了构建P2P风险评价良好的指标体系,本文结合“企业舆情”、相应法律以及网贷平台本质特征,明确了P2P平台风险性分析的几个方向,从基本信息、信用信息、变更信息、备案信息、舆情信息、危险信息等6个维度确定了18个评价指标(见表1)。
表1 P2P风险性评价指标体系
由于直接获取的舆情数据是大量用户对于平台、事件、产品等的有价值的评论信息,无法直接用于评价分析,需要利用情感分析等方法对其进行量化,因此需要通过舆情风险等级分析将其转换成风险等级指标,然后利用风险等级指标结合其他指标进行P2P风险性评价分析。
本文获取舆情数据的来源主要是网贷之家、网贷天眼等网站的用户评论以及新闻报道,在构建舆情风险等级评价指标体系时,不仅要考虑舆情数据的情感极性,还要考虑用户对产品以及某些与平台相关事件的有价值描述,比如诈骗、跑路等与平台运营状况有关的关键词信息会在相关平台的评论中存在,用户还会在一些投诉渠道投诉某些网贷平台。因此本文从情感极性(正、中、负3类)、关键词以及投诉3个维度构建出具有17个评价指标的舆情风险等级评价体系。
由于获取的舆情评论数据中只有少部分是带有情感标签(好、一般、差)的,多数都没有情感标签,因此首先需要利用那些带有情感标签的评论数据训练出一个可以对没有情感标签的P2P舆情数据进行自动情感分类的模型算法。
舆情数据分类处理的主要步骤包括:一是切词(需要人工添词),二是训练词向量模型(深度学习),三是训练情感分析模型(LSTM算法)。对应处理之后的结果为:LSTM算法顾及语义的前后关系,提高了研判的准确性;训练了530000个带有情感标签的点评数据,分类模型准确率为84.6%,该准确率满足分析需求。
利用自动情感分类的模型算法对所有舆情数据进行情感分类之后,基于用户评论和新闻报道两个层面对舆情数据进行相应处理,共包含16个评价指标,对其进行是否命中投诉处理,即在相关投诉渠道中爬取所有的网友投诉,然后对每一个网贷平台进行命中匹配,形成是否命中投诉指标,构建出包含17个评价指标的舆情风险等级评价指标体系(见表2)。
在构建舆情风险等级分析模型时,采取熵权法进行分析。
1.熵权法模型
熵权法的基本思想是根据指标变异性的大小来确定各指标的客观权重。一般来说,若某个指标的信息熵Ej越小,表明指标值变异程度越大,提供的信息量越多,在综合评价中所能起到的作用也越大,其权重也就越大。相反,某个指标的信息熵越大,其权重就越小。
2.熵权法赋权步骤
(1) 数据标准化
假设给定了k个指标X1,X2,…,Xk,其中Xi={xi1,xi2,…,xin}。假设把各指标数据标准化后的值为Y1,Y2,…,Yk,计算公式如下:
(1)
(2) 求各指标的信息熵
根据信息论中信息熵的定义,一组数据的信息熵为:
(2)
(3) 确定各指标权重
根据信息熵的计算公式,计算出各个指标的信息熵为E1,E2,…,Ek。通过信息熵计算各指标的权重:
(3)
1.获取各指标权重
依据上述熵权法求权重公式,在Python软件中求得各指标权重系数(见表2)。
表2 舆情风险分析各指标权重系数
2.获取风险得分
利用权重对各样本求得最终得分,为防止其评分出现超过100的情况,对其进行归一化处理,公式为:
(4)
式(4)中,x归i表示第i个数据进行归一化之后的数值,max(x)代表x的最大值。
提取前40个平台的风险系数得分(见表3)。结合我国相关机构对舆情风险预警等级的划分,将得分分为5个等级:80~100分为A级,60~80分为B级,40~60分为C级,20~40分为D级,0~20分为E级(均不包括下限)。
表3 前40个平台风险系数得分情况
考虑到数据获取渠道相对有限,数据完整性具有波动,因此结合网贷平台的相关特征,对指标数据进行分类别定性处理。定性处理后,考虑到在进行建模时变量只能用数值数据,因此再对其进行数值化处理,依据评分越高风险性越高的原则,对各指标进行相应赋值,指标名称后的括号内为对应分组赋值情况(见表4)。
表4 数据预处理表
进行数据预处理之后,转而进行网贷平台风险建模分析。考虑到爬取的参考指标较多,为了减免指标的冗杂性,结合已有实践,先对影响系数相对较小的指标进行降维处理,依据贡献率决定这些指标的权重,然后结合剩余相对重要的指标数据,利用层次分析法,建立评分模型。
1.降维处理
利用主成分分析法,对基本信息、信用指标以及变更记录3个维度(共计14个指标)进行降维处理,并根据贡献率决定其权重(根据Kaiser-Harris准则提取出5个主成分)。
依据表5的系数,求出各个主成分的值:
表5 各主成分对应的系数
F1=-0.07495X1-0.07530X2+…-0.00496X14
F2=-0.01773X1+0.03969X2+…+0.00216X14
…
F5=0.33447X1+0.47140X2+…-0.00095X14
2.进行层次分析
对多个影响系数较小的指标利用主成分分析法降维后形成的5个主成分,结合备案信息、舆情信息、危险信息等3个维度(含4个二级指标),共计9个评价指标进行层次分析。
首先,构建判断矩阵(见图1)。
图1 网贷平台风险性分析指标数据的判断矩阵
对应于判断矩阵最大特征根λmax的特征向量,定义一致性指标为:
(5)
式(5)中,CI等于0,有完全的一致性;CI接近于0,有满意的一致性;CI越大,不一致越严重。
为衡量CI的大小,引入随机一致性指标RI:
压疮是长期卧床或制动患者最易出现的皮肤并发症,有效防治压疮既是临床治疗,更是护理工作中长期以来的困惑。压疮可增加患者的痛苦,延长疾病的愈合时间,使患者生活质量下降,增加住院时间和医疗费用,如继发严重感染会加重病情甚至威胁到生命[1]。2010年7月起,我们采用自制的小米垫预防压疮,效果显著,现报道如下。
(6)
式(6)中,随机一致性指标RI和判断矩阵的阶数有关,一般情况下,矩阵阶数越大,则出现一致性随机偏离的可能性也越大(见表6)。
表6 平均随机一致性指标RI标准值
考虑到一致性的偏离可能是由于随机原因造成的,因此在检验判断矩阵是否具有满意的一致性时,还需将CI和随机一致性指标RI进行比较,得出检验系数CR,公式如下:
(7)
式(7)中,如果CR<0.1 ,一般则认为该判断矩阵通过一致性检验,否则就不具有满意一致性。
通过Python软件将数据代入式(7),求得CR<0.1,判断矩阵通过一致性检验。然后通过计算最终得到各指标权重值(见表7)。
表7 网贷平台风险性评价指标权重值
在求得各项权重系数之后,将对应处理后的指标值与其相乘即可得到各平台得分。
将舆情信息利用熵权法客观赋权,克服了主观评价带来的影响,对网贷平台风险的评价效益具有显著性意义。结合网贷平台本质特征,以及咨询相关专家,查找相应法律,对影响系数较小的指标进行降维处理,有效避免了数据冗杂。通过层次分析法求得指标权重值,可以看出“舆情风险等级”和“是否在P2P黑名单中”这两个评价指标的权重值较大,因此这两个评价指标值大的网贷平台风险性较高;其次,“是否有网站备案”以及“备案网站能否成功访问”这两个评价指标权重也相对较大,其余的一些反映指标权重相对较小,这一基本结论对于投资者和政策监管者而言具有重要指导意义。
从监管者的角度讲,一要确保相应平台进行备案以及进行合法备案,对未进行备案或备案不合法的平台加大监管力度;二要及时关注对相应平台的报道以及群众的反映等社会舆论,借助舆论进行监管既能降低成本又能提高监管效率。
从P2P平台角度讲,若其为正规平台,想保持良好的运营状态,需要进行正式备案,主动接受监管。另外舆情信息反映公众评价的好坏,面对相关负面信息时,首先要反思平台的运作方式是否存在问题,如有问题及时解决并公开声明。
从投资人的角度讲,投资平台的正规与否,对其资产安全具有至关重要的影响。为判断P2P平台涉嫌违法的可能性,需要利用平台的备案信息等公开信息以及相关舆情信息,对其风险性进行初步经验性评估。这对投资人选择网贷平台有着不可低估的指导作用,可以保证投资人自身财产安全。