基于SMOTE-随机森林的互联网金融公司财务风险预警模型

2020-12-30 07:06李玉占
经济研究导刊 2020年33期
关键词:随机森林

摘 要:以我国的互联网金融上市公司为研究样本,在目前国内外对于企业财务风险预警研究的基础上,结合互联网金融公司的特点,利用SMOTE算法并与随机森林相结合,建立互联网金融公司的财务风险预警模型。研究表明,随机森林预警模型有着稳定的识别精度和较好的预测性能,因此具有广泛的实践价值。

关键词:SMOTE算法;随机森林;财务风险预警

中图分类号:F832        文献标志码:A      文章编号:1673-291X(2020)33-0079-02

引言

近些年来,随着网络的蓬勃发展,现代社会已经变成一个信息社会。相对于传统的企业,中国的互联网金融企业以其迅速、灵活以及个性化的特点迅速发展。但一方面,互联网金融企业在面对风险时,处理风险的时间也大大缩短。另一方面,互联网金融公司发展时间较短,相关部门的监管机制也不够完善,公司出现财务风险会对整个互联网金融行业造成严重的不良影响,有的甚至可能对整个社会造成不利影响。因此,相关监管部门应该对企业进行评级,对于有财务风险的企业加强监管,以减少上述问题的出现。

本文首先运用SMOTE算法对原始数据进行平衡处理,然后通过随机森林算法进行财务风险预警模型的建立。试验结果表明,本文的方法可以有效解决ST公司样本过少所导致的数据不平衡问题,从而使互联网金融公司存在的财务风险能够被及时预警,尤其是在对ST公司的风险预警上。本文旨在使预警模型可以为更多的企业服务,也为监管部门提供有效的参考数据。

一、互联网金融公司财务风险预警模型的构建

1.模型构建。原始数据集的平衡程度对随机森林模型的预测准确度具有较大的影响,而SMOTE算法能够对原始数据集进行平衡,从而提高随机森林的分类精准度。因此,将SMOTE算法与随机森林相结合可以充分发挥两者的优势,达到更准确的预测效果。故本文拟利用SMOTE-随机森林模型对互联网金融公司的财务风险状况进行预测研究,具体的财务风险预警过程(如图1所示)。

2.样本选取及数据处理。本文选取包含3家ST公司和60家正常经营的共计63家互联网金融上市公司作为研究对象,以63家互联网金融公司2017—2019年每个季度的财务数据作为研究样本,经删除部分缺失值后,共得到752组数据,其中ST公司32组,正常公司720组。ST公司是指,因公司连续两年亏损而被证交所特别处理的公司,可以视为有较高的财务风险(锐思数据库)。

3.预警指标的选择。本文在选取财务指标时,首先参考了赵囡等人的研究,在该论文中的18个指标已经通过显著性检验;然后考虑杨淑娥和王乐平选取的23个财务指标;最后,结合随机森林自身的算法特性。本文最终采用七大类共计27个财务指标作为研究变量,这27个财务指标分别体现了互联网金融公司的每股指标、营运能力、盈利能力、偿债能力、现金流量、资本结构和成长能力,可以充分反映互联网金融公司的财务状况。

4.数据的平衡处理。因为预警指标中3家ST公司的数据,60家正常公司的数据,是比较严重的不平衡数据,为了解决非平衡数据对随机森林模型的影响,本文用SMOTE算法对不平衡数据进行平衡处理,之后再应用随机森林进行分类,具体的流程(如图2所示)。

平衡前,训练集含有500组正常公司的数据,20组ST公司的数据,测试集含有220组正常公司的数据,12组ST公司的数据。经SMOTE算法平衡数据以后,新的训练集含有270组正常公司的数据,200组ST公司的数据,比例接近1∶1。

二、实证研究

1.变量重要性分析。分别采用平均准确率的减少和平均不纯度的减少方法,对变量进行重要性分析。结果发现,销售净利率,每股净资产以及净资产增长率在两种重要性分析中均为前三,且重要性程度较高。因此对于企业来说,应该着重关注这三个财务指标,使其准确体现公司的财务状况。

2.预测结果分析。图1和图2分别为基于SMOTE-随机森林预警模型和数据平衡处理流程,通过对测试样本进行100次预测,选取平均值作为最终的预测结果。我们列出了实际值和模型预测值之间的混淆矩阵。从下表中我们可以看出,未经平衡处理的数据构建的随机森林模型,总体预测准确率达到95.27%,对ST公司的预测准确率却只有46.17%,而经SMOTE算法平衡后的数据构建的随机森林模型,对ST公司的预测准确率就高达76.41%,總体准确率为97.35%。从预测结果来看,此预测模型作为互联网金融公司的财务风险预警模型,是一个比较理想的财务风险预警模型,有着较好的稳定性和实践价值。

三、结论与建议

通过用SMOTE-随机森林建立的互联网金融公司财务风险预警模型,可以得出以下结论与建议。第一,通过参考本文建立的财务风险预警模型,监管部门以及投资者可以将互联网金融公司财务风险的状况作为参考,然后进行选择,以此减少一些财务损失;银行也可以有选择性地进行放贷。第二,政府相关监管部门应该加强监管和信息披露机制,完善相关的法律法规。例如,要求公司公布公司的股东和经营状况等信息,这些信息不涉及企业的机密,同时也可以为后期进行财务风险预警提供数据支持和依据。

参考文献:

[1]  赵囡,赵哲耘.基于PCA-BPNN的互联网公司信用风险预警模型[J].上海经济,2018,(3):97-107.

[2]  杨淑娥,王乐平.基于BP神经网络和面板数据的上市公司财务危机预警[J].系统工程理论与实践,2007,(2):61-67.

[3]  Leo Breiman.Random Forests[J].Machine Learning,2001,(1).

[4]  James A.Ohlson.Financial ratios and the probabilistic prediction of bankruptcy[J].Journal of Accountancy,1980.

[5]  Gordy M.B.A comparative anatomy of credit risk models[J].Journal of Banking and Finance,(24):119-149.

[6]  Leshno Moshe,Spector Yishay.Neural network prediction analysis the bankruptcy case[J].Neurocomputing,1996,(2):125-147.

[7]  蔡立新,李嘉欢.大数据时代企业财务风险预警机制与路径探究[J].财会月刊,2018,(15):38-43.

[8]  于焕杰,杜子芳.基于随机森林的企业监管方法研究[J].管理世界,2017,(9):180-181.

[9]  吴悠悠.我国互联网金融:问题、前景和建议[J].管理世界,2015,(4):170-171.

[责任编辑 文 峰]

收稿日期:2020-04-09

作者简介:李玉占(1969-),男,河南南阳人,科长,从事市场营销研究。

猜你喜欢
随机森林
随机森林算法在中药指纹图谱中的应用:以不同品牌夏桑菊颗粒指纹图谱分析为例
基于随机森林的登革热时空扩散影响因子等级体系挖掘
基于随机森林的HTTP异常检测
个人信用评分模型比较数据挖掘分析
随机森林在棉蚜虫害等级预测中的应用
基于二次随机森林的不平衡数据分类算法
拱坝变形监测预报的随机森林模型及应用
基于随机森林算法的飞机发动机故障诊断方法的研究
基于奇异熵和随机森林的人脸识别
基于随机森林算法的B2B客户分级系统的设计