P2P负面口碑特征属性挖掘与风险知识识别模型

2019-12-20 08:04:14夏火松
武汉纺织大学学报 2019年6期
关键词:特征词负面特征

王 平,夏火松

(武汉纺织大学 管理学院,湖北 武汉 430073)

0 引言

网贷之家发布的《2018年中国网络借贷行业年报》数据显示,2018年全年P2P网贷行业成交量达到了17948.01亿元,相比2017年全年网贷成交量(28048.49亿元)减少了36.01%。2018年,P2P行业不仅成交量下降,而且大量的平台暴雷、退出,给行业带来了巨大的风险。究其原因,可分为三类:第一类由于P2P是一种创新金融模式,政府采取从混沌到有序的治理思路尚未适应复杂的金融风险;第二类是P2P平台缺乏有效的治理,流程不规范以及金融市场的竞争压力,产生了高息揽存和潜在欺诈行为等风险;第三类是投资者和借贷者的“无知”(对金融科技的风险缺乏知识素养)。中国银监会在2016年分别印发《网络借贷信息中介机构业务活动管理暂行办法》和《网络借贷信息中介机构备案登记管理指引》,在 2017年提出《网络借贷资金存管业务指引》和《网络借贷信息中介机构业务活动信息披露指引》,形成了网贷行业“1+3”监管制度体系。但是对于后两类原因的分析与治理,缺乏深入的理论研究与对策研究。

P2P进入国内市场引起的行业乱象,吸引了大量的学者关注到新金融风险研究。叶青等[1]从平台实力、标的特征、风控能力、治理水平等维度构建模型,发现利率奇高是识别问题平台的最重要变量,同时,实力薄弱、标的类型单一、风控能力欠缺是问题平台的前兆。王茂光等[2]以C5.0决策树算法构建风险预测模型,表明该模型具有较好的预测能力。范超等[3]利用文本挖掘技术提取网络口碑的情感倾向,结合平台的基本信息和交易信息,使用八个统计模型判定风险。何光辉等[4]从道德风险、公司治理、信用管理和营运风险四个风险维度,提出了假设检验和指标体系,幵建立计量模型分析平台风险及决定因素,发现平台基本为民营公司,四个风险维度指标越高,平台出问题的可能性越大。古定威等[5]指出平台竞争不利于平台控制信用风险,监管风险对控制P2P平台信用风险有较大的影响。可见,学者们对P2P平台知识风险研究大致可分为:平台基本信息、交易信息、风控信息、治理信息和口碑信息等视角分析。第一类是对包括注册资本、注册地、保障方式、平台背景等平台基本信息分析(叶青[1]、王茂光[2]、范超等[3]);第二类是对包括成交量、平均利率、投资人数、平均借款期限、借款人数等交易信息分析(王茂光[2]、范超等[3]和何光辉等[4]);第三类是对包括风控措施、信用风险、流动性风险、系统性风险等风控信息分析(王茂光[2]、何光辉等[4]和古定成等[5]);第四类是对包括高管背景、股东数目和董事人数等治理信息分析(叶青[1]和何光辉等[4]);第五类是对包括评论情感倾向口碑信息分析(范超等[3])。

以上研究较多运用结构化信息分析平台风险,范超等采用非结构信息探究口碑的情感分类是否可以区分正常平台和问题平台[3],但是缺乏利用文本挖掘的方法识别P2P平台风险的负面口碑特征研究。Rinchins[6]界定负面口碑为告诉熟悉人有感产品的不满意经验。当买方根据其他买方的口碑信息形成他对卖方的信任程度时,负面口碑比正面口碑具有更大的反对效果[7]。负面口碑与正面口碑相比,其被消费者认为更加有用和可信[8],Lu et al.认为负面口碑占比对销售量会产生显著的影响[9]。P2P负面口碑会增加投资者的风险感知,通过挖掘负面口碑风险知识在一定程度上会帮助投资者做决策,从而降低投资者的投资风险[10]。Chervalier等[11]发现负面口碑会给企业造成不良的影响。Zhu et al.[12]发现某些产品(例如利基产品),只有一个也是不利的。此外,已有研究从非结构化信息(在线评论、公司财报、公司招股说明书、公司披露的信息等文本信息)中提取风险信息,如胡小荣等[13]从文本分析的视角,通过统计词频、主题分析和可视化风险知识,发现上市公司的风险信息。李金海等[14]基于大数据处理引擎MapReduce构建了在线评论特征属性挖掘模块,幵提出了负面口碑网络预警模型。可见,从文本分析的视角研究企业风险较多的是提取关键词、特征属性挖掘、可视化等方法。

综上所述,已有文献主要从平台交易、治理、风控、营运和口碑等维度的信息研究平台风险,较少研究利用P2P平台口碑信息识别风险信息,仅仅探讨了基于粗粒度的网贷口碑的情感分析对平台风险的影响,未深入挖掘口碑中其他特征属性,如投资者抱怨的意见和抱怨的程度。通过挖掘网络负面口碑有助于投资者降低投资风险,有利于平台及时发现经营管理遇到的问题和政府进行平台治理,从而及时规避平台风险和改进服务。负面口碑不仅会影响投资者行为,而且挖掘其特征是企业识别风险的方法。因此,在虚拟性互联网平台的新金融模式中利用负面口碑来识别风险知识是一种新的探索,如何挖掘负面口碑中的特征是值得研究的问题。

基于以上的讨论,文章从文本分析的视角解决以下三个问题弥合这一差距:

(1)利用文本挖掘方法,分析P2P负面口碑的内容能否发现影响平台风险的因素?

(2)在问题(1)的研究背景下,P2P负面口碑中不同维度的影响因素呈现的风险程度?

(3)利用可视化方法比较P2P负面口碑与正面口碑的差异性?

文章主要的价值:第一,关于负面口碑的P2P平台风险研究不多见但有研究的必要性,拓展了P2P风险知识研究的路径;第二,设计了基于负面口碑的P2P平台风险知识识别模型,利用文本挖掘和机器学习方法将投资者抱怨意见和抱怨程度从海量的负面口碑中转化为关键的风险特征信息弥合研究的差距。

1 P2P负面口碑的风险识别知识模型构建

1.1 有限注意力理论与eWOM

有限注意力理论是Kahneman于1973年提出来的。有限注意力理论认为:个人或团体注意力很重要但有限,因此强烈程度、新奇程度或吸引力更强的能够吸引眼球幵采取行动[15]。P2P作为一种创新的投融资模式,吸引了大量的投资者。

网络口碑(eWOM)是一种典型的有限注意力集中的投融资行为的展现形式。在线用户的潜在人格特征是否加强或削弱了WOM在社交媒体平台中的效果,如基于深度学习模型控制潜在用户同质性和网络结构角色,通过将理论上影响WOM有效性的特征[16]。当消费者退货时,他们更可能填写比未退货的口碑更负面的在线口碑[17]。有限注意力理论、负面口碑及网络口碑对于P2P口碑的风险分析适合其理论思想。

1.2 P2P风险知识识别模型构建

知识模型是将知识进行形式化和结构化的抽象表示,包括知识的获取方法、表达模式、实现技术等。文章根据评论挖掘任务设计负面口碑风险知识模型,包括特征抽取、评论观点抽取、观点的极性判断、评论结果汇总与排序[13,18],以及产品评论主题提取[19]和关注点分析。具体而言,分析口碑观点极性,筛选负面极性口碑,深入挖掘评论特征、评论主题与评论结果汇总。图1展示了基于负面口碑的P2P风险知识识别模型。从流程上将P2P风险识别模型分为口碑下载与预处理、口碑情感分类、负面口碑信息挖掘。通过挖掘P2P平台负面口碑的属性特征,幵对属性特征的重要程度进行排序,及时发现平台风险知识。

图1 基于负面口碑的P2P风险知识识别模型

2 模型验证与实验流程

2.1 数据来源

网贷天眼是国内最大的P2P行业综合门户网站之一,其包含资讯、评级、数据、档案、社区、P2P理财等板块,收录了大量的P2P平台数据信息,幵且信息比较齐全。通过平台档案栏,可以获取子版块各平台口碑数据。文章从天眼下载所有平台的口碑数据,共计 162071条。数据预处理,包括去除重复数据和同义词合幵等,最终用于实验的数据140094条。

2.2 情感分类

首先借助爬虫软件爬取了网贷天眼的 14万多条口碑作为语料库。在分析理解口碑信息基础上,构建了自定义词表用于分词。采用Python中文分词组件Jieba中文分词库幵导入自定义词表进行分词处理,去除停用词。在此基础上,随机选取“正向”、“中立/噪音”、“负向”口碑数据各1000条标记作为训练集,然后利用Python机器学习库SciKit-Learn进行特征提取、文本表示,且将数据集按照9:1的比例随机划分为训练集与测试集,通过比较Xgboost、SVM、NB和LR四种分类算法,多次实验调参比较分类算法的准确度,其中LR算法表现较好,准确率可达76%,最终选择LR算法对所有口碑进行情感倾向判断,分类结果显示负向口碑33824条。

2.3 基于TF-IDF的特征属性提取

TFIDF是计算特征项的函数,采用相对词频作为特征权重,用来刻画特征词在文本内容的重要程度。一般情况下,做特征提取和主题聚类会过滤掉没有实际意义的词性,以名词为主,但P2P对于时间的响应程度要求更高,涉及关于资金操作方面的词汇,故文章选择名词、动词、时间三种词性的词语作为关键词提取的语料库。选取前50的特征词进行展示(见表1)。从表1可知,平台、提现、客服是投资者抱怨的前3位的特征词。其次是存管、回款、逾期,说明资金管理和风险控制是平台的诟病。再者,充值、投资、APP等特征词,体现了平台技术实力薄弱。

2.4 P2P负面口碑的主题聚类

针对口碑文本的特征稀疏性,选取 LDA主题模型,实现负面口碑聚类。利用 Python的机器学习库SciKit-Learn,设置主题数为8,最大迭代次数为1000,提取主题排名前10的词。从表2中可以看出,LDA主题模型将负面口碑分为8类主题域:主题K1显示的是投资者情绪,包括垃圾、雷了、打不开、账户、客服、提现等;主题K2显示的是交易信息,包括提现、不到、体现等;主题K3显示的是服务态度和技术,包括客服、电话、APP;主题K4显示的是收费信息,包括手续费、提现费等;主题K5显示的是资金安全,包括提现、充值、到账等;主题K6是风控信息,包括跑路、逾期、存管、提现等;主题K7是项目信息,包括退出、项目、无法、投资人等;主题K8是收益信息,包括收益、利息、利率、红包等。

表1 基于TF-IDF的P2P负面口碑特征词

表2 基于LDA的P2P负面口碑主题-词语分布

2.5 基于领域知识特征属性的P2P负面口碑评分

从表2可知,P2P负面口碑的主题分别是投资者情绪、交易信息、服务态度、技术实力、资金安全、风控信息、项目信息、收益信息。结合TFIDF值、LDA主题模型和领域知识,构建了投资者抱怨指标,设计了P2P负面口碑多维特征评分表。具体而言,选取TFIDF值前100的特征词,人工挑选将每个词放在不同的指标中。由于每个维度的特征词数量不相同,采用同一维度特征词相加取平均数的方式计算不同维度特征词的平均TFIDF值依次排序,见公式1和表3。从表3可知,资金信息、服务体验和风控信息是关键风险,反应了投资者对于资金安全的紧张程度。其次,服务体验对于P2P平台的影响较大,当平台客服回应比较缓慢时,会增加投资者的风险感知。再者,风控信息直接反应了投资者对于资金安全性的感知程度。最后,技术信息是抱怨的内容,但相对资金信息、服务体验等方面,抱怨程度较低。

其中score代表不同维度的平均TFIDF值,xi代表第i个值的TFIDF值,N代表不同维度特征词数量。

表3 基于领域知识的P2P负面口碑评分表

2.6 P2P正负向口碑关键特征属性词云图

基于Python的WordCloud库可视化分别呈现了P2P正面口碑与负面口碑TFIDF值在前100的特征词,如图2所示,其中左边是正面口碑,右边是负面口碑。左右两图相比之下,正面评论呈现的特征词是合规、给力、朋友、准时、车贷、透明度等积极的词汇,负面口碑呈现的特征词是逾期、抢标、管理费、借款、APP、站岗、打不开等消极的词汇。这一方面反应了投资者对于合规、透明度高的平台的信任,另一方面也反应了投资者在抢标、管理费等方面不满。

图2 P2P正面口碑与负面口碑的特征词云图

3 结语

文章梳理了P2P网络借贷领域平台风险研究,在基于平台风险研究结构化数据较多而网络口碑的风险研究较少的背景下,阐述了深入挖掘负面口碑中风险点的必要性,提出了基于负面口碑的网络借贷风险识别知识模型。具体而言,首先,利用文本挖掘的方法分析P2P负面口碑,发现Top6的特征词是平台、提现、客服、存管、回款和逾期,其TFIDF值均大于0.09。其次,对比了基于结构化信息的P2P平台风险研究与基于负面口碑的投资者角度风险的差异性。P2P平台风险文献主要集中在平台基本信息、交易信息、风控信息、治理信息等。基于负面口碑的风险信息主要包括资金信息、服务体验、投资者情绪、标的特征、技术信息、用户信息、收费信息等,其中资金信息、服务体验、风控信息是投资者抱怨程度较高。这表明基于负面口碑的P2P风险知识识别模型,可以挖掘投资者情绪、技术信息、收费信息等风险知识。最后,对比了正面口碑与负面口碑的差异性,投资者的正面口碑中主要从合规、透明度、给力、社交等方面,负面口碑集中在逾期、抢标、管理费、技术等方面。因此,P2P负面口碑的特征属性挖掘是识别风险的有效路径,能够识别平台的风险知识。

文章对于P2P负面口碑分析,丰富了有限注意力理论和eWOM理论,对P2P平台风险分析与治理有参考价值。对于 P2P平台,通过挖掘负面口碑知识有助于平台找准治理的方向;对于政府,可实时监控P2P等平台中的口碑,及早的防控平台风险,幵治理与监管;对于投资者,应密切关注P2P等金融科技平台的负面口碑,加强借贷知识获取与知识共享,以免由于金融科技的“无知”增加投资的风险。

未来的研究方向:第一,利用深度学习方法提高文本分类算法精准度和特征提取的完整性;第二,从大数据集成的视角,结合文本挖掘和计量方法分析P2P平台等FinTech平台风险的因果效应。

猜你喜欢
特征词负面特征
如何表达“特征”
不忠诚的四个特征
当代陕西(2019年10期)2019-06-03 10:12:04
负面清单之后的电改
能源(2018年8期)2018-09-21 07:57:22
基于改进TFIDF算法的邮件分类技术
远离负面情绪
产品评论文本中特征词提取及其关联模型构建与应用
抓住特征巧观察
面向文本分类的特征词选取方法研究与改进
线性代数的应用特征
河南科技(2014年23期)2014-02-27 14:19:15
关于“方言特征词”理论的回顾及思考
武陵学刊(2011年5期)2011-03-20 20:59:04