王和勇 芮晓贤
[摘 要] 针对社交平台上的企业在线评论等文本数据较少应用于中小企业信用风险评估的研究现状,收集社交平台上的企业在线评论并对其进行文本情感分析,构建中小企业信用风险评估的投资者情绪指标并将其与信用风险评估的财务指标进行融合。同时设置了基于财务指标和基于融合指标的两组聚类实验,并通过对比分析其实验结果发现融合了企业在线评论情感倾向数据的评估结果优于仅基于财务指标的评估结果,验证企业在线评论对企业信用评估的有效性。
[关键词] 中小企业;信用风险评估;在线评论;情感分析;K-Means聚类
doi : 10 . 3969 / j . issn . 1673 - 0194 . 2019. 07. 053
[中图分类号] F830 [文献标识码] A [文章编号] 1673 - 0194(2019)07- 0131- 04
1 引 言
随着中小企业对我国经济发展的贡献越来越大,政府部门对其重视程度也逐渐加强,先后出台各种有利政策为其创造一个良好的发展环境。然而,中小企业仍旧处于发展乏力的状态,究其原因可发现其融资需求无法得到很好的满足,商业银行等金融机构经常限制为中小企业提供信贷服务,而中小企业的信用缺失是造成这一现象的关键所在。对于中小企业信用风险评估的研究可根据其使用的指标划分为两类。其一是采用反映企业经营水平或财务状况的属性作为评估指标,包括了财务指标、企业管理水平指标等。同时受企业资源观的影响,企业的社会资本、企业所在供应链的情况、企业的创新能力等也常被考虑在内。这类评估方法属于传统的中小企业信用风险度量方法,为多数学者所采用。其二是基于企业的市场交易数据来衡量其信用风险水平,通常是以上市企业在资本市场中的股票价格为基础构建理论计量模型进行风险预测,常用的模型有KMV模型等。该类评估方法的使用范围较小,适用于已上市的中小企业并且使用时需验证样本是否满足模型成立的假设条件。
梳理中小企业信用风险评估的研究现状发现,目前学者们的研究基本上是基于中小企业自身已有的定量数据,比如财务比率、股票价格等。这些是属于企业微观层面上的数据,其所反映的企业发展情况在一定程度上可衡量企业信用风险水平。然而目前的研究存在两方面的不足,其一是学者们在挑选财务指标时,往往忽略所选指标对评估结果的贡献程度,因此所选的财务指标种类繁多且存在较多冗余变量。其二是互联网上与企业相关的定性信息,比如公司新闻、论坛和微博的在线评论等文本数据较少被考虑应用于中小企业信用风险的评估,而这些海量的非结构化文本数据中往往包含着大量可用于评估企业风险水平的有用信息。Lu等[1,2]、边海容等[3,4]曾尝试将企业新闻报道应用于企业的信用水平评价并发现新闻报道对企业信用评估的有效性。然而关于社交网络平台上企业的在线评论等文本数据应用于评估企业信用的研究基本没有。社交平台上的在线评论是评论者个人观点及情感的体现,企业在线评论中的投资者情感倾向不仅影响着企业网络口碑[5]的建设,也间接影响着企业的信用水平。同时,大数据时代的到来也为学者进行该领域的研究提供了海量的数据以及先进的数据处理技术和方法。因此,挖掘评论中隐藏的情感信息并将其应用于中小企业的信用风险评估是可行的,一方面可以丰富企业信用风险评估的影响因素,另一方面也弥补了中小企业可用于信用评估的材料数量少质量差的不足。
基于以上分析,本文通过相关性分析以及特征选择处理挑选出初选财务指标中的关键属性,并基于关键财务指标进行聚类分析来评估中小企业的信用风险水平。其次挖掘社交网络平台上的中小企业在线评论中的投资者情感信息,构建中小企业信用风险评估的投资者情感指标,并将其与关键财务指标数据进行融合,并进行聚类分析来评估企业的信用风险水平,同时通过对比基于财务指标和基于融合情感指标的聚类实验结果来验证在线评论中的投资者情感信息对评估中小企业信用风险水平的有效性。
2 实证分析
2.1 财务指标的选取
企业财务指标等变量一直以来都是学者衡量企业信用风险水平的首选评估要素,总结起来不外乎有偿债能力、盈利能力、营运能力、发展能力、现金流能力及风险水平这六部分。利用文献分析法整理并统计国内外学者评估中小企业信用风险水平的常用的财务指标,指标体系具体如下。
偿债能力指标:流动比率、速动比率、现金比率、利息保障倍数、资产负债率、有形资产负债率、产权比率、有形净值债务比、长期资产适合率。
盈利能力指标:资产报酬率、总资产净利润率、固定资产净利润率、净资产收益率、营业利润率、主营业务利润占比、每股收益。
营运能力指标:应收账款周转率、存货周转率、营运资金周转率、流动资产周转率、固定资产周转率、总资产周转率、股东权益周转率。
发展能力指标:资本积累率、固定资产增长率、总资产增长率、净资产收益率增长率、净利润增长率、可持续增长率。
现金流能力指标:现金资产比率、经营活动产生的现金流量净额/负债合计、净利润现金净含量、每股经营活动产生的现金流量净额。
风险水平指标:财务杠杆、经营杠杆。
以深市中小板上的中小上市企业作为研究对象,随机抽取其中69个中小企业作为样本企业。根据上述指标体系从国泰安金融数据库收集样本企业的季度财务数据,共收集522条数据。为了提高数据质量,保证后续的实验效果,需对所收集的数据进行预处理,包括空缺值、噪声处理及指标的相关性分析。经过预处理后剔除偿债能力中的流动比率、现金比率、资产负债率,盈利能力中的资产报酬率,营运能力中的总资产周转率以及发展能力中的资本积累率。
相关性分析只能剔除存在多重共线性的属性,但是无法剔除剩余属性中解释力度差且代表性不强的冗余属性。因此,选用拉普拉斯评分算法对财务指标属性进行特征选择实验。拉普拉斯算法[6]是在方差评分算法的基础上提出来的,除了考虑特征涵盖的信息量,还考虑引入两个样本之间的相似性程度作为补充来对特征进行评分。根據拉普拉斯评分算法对关键特征的定义可知,关键属性具有相对较低的拉普拉斯评分值。根据特征选择结果,选取10个二级财务指标作为最终财务指标,其中偿债能力选择速动比率(拉普拉斯分值LS=0.006 2)、利息保障倍数(LS=0.024 7)、长期资产适合率(LS=0.057 8);盈利能力选择主营业务利润占比(LS=0.047 8);营运能力选择应收账款周转率(LS=0.001 6)、存货周转率(LS=0.037 0);发展能力选择净资产收益率增长率(LS=0.390 6)、净利润增长率(LS=0.037 0);现金流能力选择净利润现金净含量(LS=0.016 8);风险水平选择财务杠杆(LS=0.813 0)。与初选指标相比,最终指标在属性数量上大大降低,并且所选的指标对最终实验结果的解释能力都是比较高的。
2.2 企业在线评论的文本情感分析
相比较于新闻、微博等方式,股吧中投资者发表的在线评论具有更强的针对性,并且数据较为集中和齐全[7]。因此本文主要收集新浪股吧中上市中小企业的在线评论作为实验数据。为了与已收集的财务指标数据保持一致性,本文收集69个样本企业的在线评论数据,每个企业平均包含3 000条评论,时间跨度为2013年1月1日至2014年12月31日,数据粒度以日计算。在对在线评论进行文本情感分析处理之前,首先对在线评论进行剔除小广告、纯标点符号、纯数字以及重叠词等无意义的噪音数据的预处理。其次主要使用ROST Content Mining软件中的情感分析模块对在线评论数据进行文本情感分析,将文本数据导入该系统运行,得到每条评论的情感分析结果。积极情感评分值大于0,并且随着数值的增大,其积极情感强度随着增大。消极情感评分值小于0,并且随着数值的减小,其消极情感强度随着增大。中性情感的评分值为0。由于情感评分数据的粒度以日计算,而财务指标数据的粒度以季度计算,因此在与财务指标数据进行融合前,需对情感评分数据进行如下处理:根据每条在线评论的发表时间将其所对应的情感评分值按季度求和,并取其平均值作为该季度的平均情感评分。
融合数据样例如图1所示。
2.3 聚类实验
本文在基于财务指标的基础上添加企业的投资者情感指标,为了验证投资者情感指标的有效性,分别对财务指标和投资者情感指标赋予权重α1和α2,且α1+α2=1。在具体实验中,α2的取值范围为[0,0.9]。当α2=0,α1=1时,聚类实验是仅基于财务指标的K-Means聚类。当α2≠0时,聚类实验是基于财务指标和情感指标的K-Means聚类,并且可以通过不断调整α2的数值大小来寻找情感指标的最佳权重。
进行聚类实验前,使用肘方法[14]确定样本数据集的最佳聚类数目为2,使用Z-Score方法标准化数据集,消除不同指标的量纲影响。本文采用特征加权的K-Means聚类方法进行实验,α2的取值范围为[0,0.9],梯度为0.1,并以聚类的轮廓系数作为评估聚类效果的指标。
聚类结果如图2所示,聚类平均轮廓系数随情感评分项权重α2的变化趋势图详见图3。
当由α2为0时,即仅基于财务指标的K-Means聚类的平均轮廓系数为0.402 2。当α2不等于0时,随着α2的不断变小,聚类的平均轮廓系数不断增大,说明聚类的效果越来越好。同时可发现当α2小于等于0.4时,基于财务指标和情感指标的聚类实验的平均轮廓系数高于仅基于财务指标的聚类实验的平均轮廓系数,验证了在线评论的投资者情感信息对中小企业信用风险评估的有效性。
本文通过对比各个聚类中心在不同属性下的数值的大小及该属性数值高低所代表的含义来评估不同类别中的中小企业的信用风险水平。为了更加科学地判断中小企业的信用风险水平,综合各个属性后得出在仅基于财务指标的聚类中(即α2=0时),第一类的中小企业的信用风险水平相对于第二类的中小企业的信用风险水平低。
在基于融合财务指标和情感指标的聚类结果中(即α2≠0时),对不同类别的中小企业进行信用风险评估。以情感评分项欧氏距离权重等于0.3为例,可知第一类的中小企业的信用风险水平低于第二类的中小企业的信用风险水平。同时,对比第一类和第二类的中小企业的情感评分可以明显地得出信用风险水平低的中小企业(第一类中小企业),其投资者的情感评分(5.46)高于信用风险水平高的中小企业(5.39)。由此也可得出信用风险水平低的企业,其投资者对该企业的情感倾向是正向的,且其正向程度往往较高。
2.4 结果分析
通过对比两次聚类结果发现在线评论中的投资者的情感倾向对度量中小企业信用水平是有影响的,且当投资者的情感极性为积极且其积极的程度越高,企业的信用风险程度往往是较低的;当投资者的情感极性为消极且其程度越高时,企业的信用风险程度是相对较高的。
基于以上实验结果,本文就如何改善中小企业信用风险评估提出以下建议,分别针对金融机构和中小企业自身。
(1)鉴于中小企业在线评论中的投资者情感倾向对评估中小企业信用风险水平的有效性,金融机构在评估时可以考虑将这一影响因素纳入评估体系中,以弥补中小企业信用风险评估时材料不足的缺陷。金融机构在实际评估时除了考虑企业的内部因素,也应该尽可能多地考虑企业的外部因素,比如社会情感因素、企业的网络口碑等,力求实现更加精准、客观且全面的评估,确保能够为高信用水平的中小企业提供信贷服务,实现借贷双方共赢。
(2)社交网络平台上投资者的情感倾向不仅是对企业经营发展现状的映射,也会影响企业网络口碑的好坏。而企业的经营发展情况以及企业网络口碑的好坏都是会影响金融机构对企业信用风险水平的评估。因此,中小企业应该密切关注社交平台上投资者的情感倾向,必要时可通过网络营销等形式维护企业的网络形象以及网络口碑,为企业在信用评估过程中加分。
(3)中小企业也可以将在线评论中导致投资者情感倾向不同的因素作为企业改进自身不足的信息来源。对于优秀的中小企业来说,可以从带有投资者积极情感的在线评论中了解自身的优势以及投资者对企业发展的期望,并努力保持企业的优势。较差的中小企业则可以深度挖掘带有投资者消极情感的在线评论中所反映出来的企业在发展、经营以及决策等各个方面的不足,并在企业经营過程中有针对性地加强改进,从根本上消除投资者对企业发展的顾虑。
6 结 语
针对社交平台上企业在线评论较少应用于中小企业信用风险评估的研究现状,本文收集社交平台上的企业在线评论数据并对其进行文本情感分析,将这类非结构化数据转化为结构化数据并将其应用于实际评估中。同时设置了基于财务指标和基于融合情感数据的两组聚类实验,通过对比分析实验结果发现,融合了企业在线评论情感分析数据的评估结果优于仅基于财务指标的实验结果,验证企业在线评论对企业信用评估的有效性。此外,本文在基于财务指标的评估试验中,利用特征选择算法对原有的中小企业信用评估体系中的财务指标进行简化,挑选其中具有代表性且解释能力强的属性作为评估的关键指标。
基于研究结论,本文也分别从金融机构和中小企业本身的角度就如何改善中小企业的信用风险评估状况提出自己的看法和建议,以期对金融机构以及中小企业在实际评估中有所帮助。由于本文是基于中小上市企业所做的研究,本文的结论是否适用于非上市中小企业还不能确定,而且本文所选取的文本数据只是局限于在线评论这类文本数据,企业新闻、公告等多种文本数据对中小企业信用风险评估的影响或者多种文本数据的融合对评估的影响都是未知的。这也成为了本文后续研究的方向和重点。
主要参考文献
[1]Lu H M, Tsai F T, Chen H, et al.Credit Rating Change Modeling Using News and Financial Ratios[J].ACM Transactions on Management Information Systems (TMIS),2012,3(3):14:1-14:30.
[2]Lu Y. C., C. H. Shen, Y. C. Wei.Revisiting Early Warning Signals of Corporate Credit Default Using Linguistic Analysis[J].Pacific-Basin Finance Journal,2013(24):1-21.
[3]邊海容,万常选,刘德喜,等.考虑Web金融信息的上市企业财务危机预测模型研究[J].计算机科学,2013(11):295-298,315.
[4]边海容,万常选,万建香.网络金融信息与上市公司财务状况的关系研究[J].江西财经大学学报,2013(3):37-44.
[5]Duan W, Gu B, Whinston A B.The Dynamics of Online Word-of-mouth and Product Sales—An Empirical Investigation of the Movie Industry[J].Journal of Retailing,2008,84(2):233-242.
[6]He Xiaofei, Cai D, Niyogi P.Laplacian Score for Feature Selection[C]//Proceedings of Advances in Neural Information Processing System. Cambridge, MA: MIT Press,2005:507-514.
[7]张一舟,曾剑平,孙婧,等.OMisy:一个面向股吧数据的观点挖掘系统[J].计算机研究与发展,2015(52):123-128.