基于粗糙集和随机森林的环保企业财务风险预警模型构建

2024-04-15 05:33
中国农业会计 2024年8期
关键词:约简粗糙集预警

张 菲

(作者单位:辽宁工程技术大学工商管理学院)

基金项目:辽宁省社会科学规划基金项目“数字经济支撑辽宁高质量发展的路径研究”(L22BJY034)。

习近平总书记在参加十四届全国人大一次会议江苏代表团审议时指出:“加快构建新发展格局,是推动高质量发展的战略基点。”中国的金融安全管理体系要立足历史要求,坚持创新发展,进一步拓展工作思路、深化改革,主动增强与市场经济模式转变的适配能力,有效保障和支持“双循环”的经济模式和高质量增长的要求。在“双碳”目标指导下,我国环保行业的发展态势呈现出翻天覆地的变化。然而,我国环保行业目前正处于成长期,知识、技术和产品迭代较快,企业成长也具有较多不确定性,其风险态势的变化相较成熟期和传统型企业也更快。为了准确识别此类企业的风险,以便快速应对可能出现的风险状况,笔者基于粗糙集和随机森林构建了环保企业财务风险预警模型。

一、文献综述

(一)财务风险的相关研究

财务风险的概念最先来自国外。菲茨帕特里克(Fitzpatrick)首先提出“财务风险”的概念,并将它定义为“破产”[1]。比弗(Beaver)认为,如果企业存在四种情形,那么就遭受了财务风险:发生破产、存在股息未付的情况、有银行透支或者债券违约[2]。奥尔特曼(Altman)将企业在法律上被接管、重整和破产等作为财务风险的判断标准[3]。迪金(Deakin)认为,财务风险是公司面临破产或缺乏偿还债务的能力进而被迫清算的一种财务状况[4]。阿什拉夫(Ashraf S)等人在先前学者研究的基础上,通过增加未能报价、支付股息、上市费和召开年度股东大会的公司,扩展了财务风险的定义[5]。在国内,学者对财务风险并没有一个相对统一的定义。谷祺和刘淑莲是国内较早对财务风险展开研究的学者,其认为财务风险是一种经济现象,是企业对资金管理的技术性失败,直到破产,如无力偿付债务或者支付相关费用[6]。吴世农、李静静则普遍将被特别处理(Special Treatment, ST)定为财务风险的标准[7-8]。

(二)财务风险预警的相关研究

随着统计学理论和信息技术的发展,财务风险预警的方法逐步得到完善。目前,关于财务风险预警模型主要包括以下两方面:一是传统统计方法,包括单变量分析模型、多变量分析模型、Logistic 模型等;二是机器学习方法,包括神经网络模型、随机森林模型等。Fitzpatrick首次在财务风险预警研究中使用了单变量分析模型。其经过研究发现,存在财务风险的上市公司与正常上市公司的财务数据比率不同,并指出运用财务数据比率对企业可能存在的财务风险进行预测具有一定可行性[1]。Beaver 建立了初期的财务风险预警模型,提出了相对成熟的单变量模型[2]。Altman 首次提出了多变量财务预警思想,并选择1945—1965 年共66 家正常企业和破产企业进行分析,建立多变量分析模型,提出了著名的Z 计分模型,并根据企业类别的不同分别提出了一系列模型,包括Z-Score 模型、Z′-Score 模型等[3]。多变量分析只能区分财务状况存在问题的企业和正常企业,而对于未来几年企业可能存在的财务风险无法进行判断。

随着科学技术的进步和大数据研究的不断发展,机器学习相关算法被不断应用到财务风险预警中。奥多尔(Odour)等人首次将人工神经网络运用到财务风险预警领域,建立了用于预测破产的神经网络模型,并将神经网络和判别分析方法的模型效果进行比较[9]。研究发现,神经网络效果更好,但也存在模型较为复杂、计算成本较高等问题。随机森林是集成学习的一种,其与神经网络相比,不仅更易操作,且计算成本更小,在处理分类问题和回归问题上都具有非常良好的表现。田中克幸(Katsuyuki Tanaka)将随机森林模型应用于银行级财务报表的分析,识别出有破产风险的银行[10],并验证出随机森林模型对风险的预警效果明显优于传统方法。熊仕勇等人提出了K-折随机森林算法,提高了普通随机森林算法的准确性,为进一步的金融风险预警研究提供思路[11]。

我国在财务风险预警方面的探索较晚。吴世农等人首次对我国财务风险预警相关问题进行研究,通过一般财务理论并结合自身经验提出引起企业破产的财务指标,并建立相关预警模型[12]。蒋志鹏将模糊数学理论与随机森林相结合,形成模糊随机森林模型,并利用该模型建立企业财务风险预警模型。该方法克服了传统财务预测模型二分类结果的缺陷,可以更加细致地划分财务风险等级[13]。刘照对全国科技型中小企业的相关财务数据进行研究,运用Logistic 模型、随机森林模型、BP 神经网络模型分别建立了财务风险预警模型,发现随机森林模型对财务风险预警的效果比Logistic 模型和BP 神经网络模型更优[14]。

(三)文献述评

从上述研究可以看出,国内外学者尚未就财务风险的判定标准达成共识。国外大部分专家和学者倾向于将一个公司破产与否当作其出现财务风险的判定标准,国内大部分专家和学者倾向于将一个公司被ST 当作其出现严重财务风险的判定标准。对于财务风险预警模型,仅依赖单个模型的预警能力通常较弱,融合多种模型,有助于提高财务风险预警模型的预测精度。例如,神经网络等机器学习算法,模型较为复杂,计算成本较高,对财务风险预警研究的解释能力不足。随机森林的构建过程中利用了集成算法和多个弱分类器的协同作用,具有强大的稳定性,也防止了过度拟合的情况,显著提高了对财务风险的预估精度。因此,本文以随机森林模型为主,融合粗糙集和合成少数类过采样技术(Synthetic Minority Oversampling Technique, SMOTE),以我国环保行业上市公司为研究对象,构建环保行业上市公司财务风险预警模型,并根据模型结果提出环保类上市企业财务风险控制的具体对策,为环保行业的财务风险预警提供参考。

二、研究设计

(一)样本选取与数据来源

笔者选取2017—2022 年中国A 股环保上市公司作为研究对象,样本包含88 家上市公司,其中ST 或*ST 的企业有8 家,非ST 的企业有80 家。笔者将公司被ST 当年记作T年,被ST 前一年记作T-1 年,被ST 前两年记作T-2年,并选取T-2 年的相关数据来预测第T年上市公司是否具有财务风险。将企业被证监会特别处理作为出现财务风险的标志,被特别处理表示该公司存在较大的财务问题,提示投资者注意该公司可能存在风险。若该公司属于ST 或*ST 公司,则分类变量Y=1;若该公司无特殊标记,则分类变量Y=0。相关数据主要来自中国经济金融研究(China Stock Market & Accounting Research, CSMAR)数据库。对于数据库中空白数据部分,主要从同花顺网页中查找其财务报表数据,并经过计算和整理补充完整。

(二)主要变量度量

笔者根据环保行业上市公司的特点,从公司的内部财务、非财务和外部的宏观因素三个维度选取30 个三级指标,构建财务风险预警模型,如表1 所示。

表1 指标解释表

(三)粗糙集理论基础

定义1:决策信息系统。在财务领域,财务人员经常使用表格来呈现大量的财务数据。这些表格通常以行和列的形式组织,每一行代表一个样本企业的数据,每一列表示不同的属性及其对应的属性值。利用这种方式,可以清晰地展示和比较各个企业之间的财务指标。笔者将这样的表格定义为决策信息系统,用式(1)表示。

S=(U,A,V,F) (1)

式(1)中:U={K1,K2,…,Kj}(j=1,2,…,460) 为 论 域;A为有限个 属性的集 合,A=C∪{d},C={X1,X2,…,Xh}(h=1,2,…,29)是条件属性的集合,{d}={0,1}是决策属性的集合,且C∩{d}=∅;V为属性值的集合,对于∀a∈A,Va为属性a的值域;F为信息函数,即当a∈A,k∈U时,有fa(k)∈Va。

定义2:等价关系。对于Q∈A且Q≠∅,其等价关系定义如式(2)所示:

ind(Q)={(ki,kj)|(ki,kj)∈U*U,∀ah∈Q,fh(ki)=fh(kj)} (2)

式(2)中:对象ki在属性集合Q上的等价类定义为[ki]ind(Q)={ki|(ki,kj)∈ind(Q)}。关系ind(Q)构成了U上的一个划分,用U/ind(Q)表示,简记为U/Q。

定义3:属性约简。决策表中并非所有的条件属性都是必要的,去除这些多余属性不会影响原有的表达效果。属性约简是在保持知识库的分类功能不变的前提下,剔除那些无关或者无价值的信息。而最小简化则是在条件属性的集合中尽可能剔除一些多余的属性,以计算出最少的必要条件属性。如果q∈Q且ind(Q)=ind(R-{q}),则称q为Q中不必要的;否则称q为Q中必要的。

(四)基于粗糙集-随机森林的财务风险预警模型

在粗糙集属性约简的基础上,本文利用随机森林模型构建的财务风险预警模型结构设计如下。

1.输出节点确定

输出值反映企业财务风险的预警结果。本文采用ST和非ST 进行划分,最终的划分结果有两种:财务正常(非ST 企业)和财务风险(ST 企业),分别标记为0 和1。

2.输入节点的确定

输入层由预警模型的预警指标组成,输入节点个数即预测的指标数。本文的预警指标是经粗糙集筛选过后的指标。

3.其他参数

选用的随机森林算法是建立在决策树基础上解决分类问题的机器学习算法,算法调参的目的是提高模型对财务风险预测的准确性,属于适应性调参。本文的算法调参及运行通过Python 3.7 实现,使用sklearn-python 中的GridSearchCV 对随机森林算法进行超参数调参。

4.训练集与测试集划分

本文运用random_state函数确定随机数,随机划分训练集和测试集,设定测试集为样本数据的40%,训练集为60%,随机抽取数据。由于ST 的企业较少,属于非常不平衡的数据,为了减小数据非平衡带来的偏差,本文采用SMOTE 方法对训练集样本数据进行样本平衡处理,即根据邻近样本,随机生成新样本的方法对数据进行处理,最终使两类样本的样本量平衡。

三、实证结果与分析

(一)基于粗糙集的属性约简

虽然粗糙集理论可以有效处理离散特征,但其无法直接应用于连续特征的处理。由于财务指标的数据通常都是连续的,所以在使用粗糙集方法处理这些数据时,需要先将其进行离散化。本文采用K-Means 聚类对指标体系中的连续型数据进行离散化。在此基础上,运用Rosetta软件,分别使用Johnson’s algorithm 和Genetic algorithm 两种遗传算法,对决策表进行属性约简。在支持度均为100的条件下,对比并综合考量Johnson’s algorithm 算法生成的6 个指标和Genetic algorithm 算法所得的6 个指标,求并集最终得到12 个特征指标(见表2),依然涵盖盈利能力、偿债能力、营运能力、发展能力、非财务因素、行业竞争强度、当季GDP、市场需求和舆论强度这9 个维度。

表2 特征指标

(二)财务风险预警模型

由于本文样本量小于1 万个且数据存在严重不平衡,所以在Python 3.7 内采用SMOTE 优化过后的随机森林模型对样本企业的财务风险进行分类。过采样前ST 企业样本数据为17 条,非ST 企业样本为443 条;过采样后ST 企业样本为443 条,非ST 企业样本为443 条。经过五折交叉检验和网格筛选,选择预测结果最优的参数配置,即max_depth=30、min_samples_leaf=1、min_samples_split=2、n_estimators=100。表3 为属性约简前后模型性能指标的对比结果。由表3 可以看出,属性约简后的模型在所有指标上都有明显提升。准确率从0.977 528 提高到0.988 764,召回率从0.962 962 提高到1.000 000,F1分数从0.975 000 提高到0.987 805,曲线下面积(Area Under Curve, AUC)值从0.958 663 提高到0.998 664。因此,可认为经粗糙集属性约简后的模型预测结果比属性约简前的模型更加精确。

表3 属性约简前后模型性能评价对比

此外,利用特征重要性评估对各特征进行财务风险预警的重要性计算。各特征的重要性排序由大到小为流动资产周转率、总资产增长率、管理层持股比例、研发投入占营业收入的比例、实际控制人拥有上市公司所有权比例、投入资本回报率、HHI、资产负债率、应收账款周转率、媒体关注度、居民消费价格指数、GDP。从结果来看,流动资产周转率、总资产增长率、管理层持股比例、研发投入占营业收入的比例对财务风险预警较为重要,尤其是流动资产周转率对企业是否会出现财务风险起到了决定性作用。

四、结语

本文将粗糙集和随机森林算法进行融合,对环保类上市企业的数据进行分析,结果表明,该算法能有效预测环保类上市企业的财务风险发生情况,利用预测模型,可以较为准确地通过企业财务数据、非财务数据及外部宏观因素来预测其未来的财务风险。为了更好地促进环保行业上市企业进行财务风险防范,本文提出以下几点建议。

第一,加强内部控制。建立健全的内部控制体系是预防财务风险的重要步骤。企业应加强对财务流程和资产管理的监督和审计,确保财务数据的准确性和可靠性。同时,明确责任分工,防止内部失职现象出现。

第二,规避经营风险。企业在经营过程中面临多种风险,如市场需求变化、竞争加剧等。为了规避这些风险,企业应进行市场调研,了解行业动态和市场趋势,及时调整经营策略,寻找新的增长点。

第三,考虑多元化融资渠道。企业应考虑多元化融资渠道,降低财务风险。除了传统的银行贷款,还可以探索股权融资、债券发行、政府支持、合作伙伴等融资方式,通过多种渠道筹集资金,减少对单一融资渠道的依赖。

第四,加强人才队伍建设。拥有专业、高素质的人才队伍是企业有效预防财务风险的关键。企业应注重培养和激励人才,提升团队的财务风险管理能力。此外,建立知识共享和沟通平台,加强内部人员间的合作与交流。

第五,关注政策法规变化。财务风险预警除了需要关注企业内部因素,还需要关注宏观环境变化。企业应时刻关注相关政策法规的调整,确保自身经营活动符合法律法规要求,避免产生潜在的法律风险。

第六,建立风险管理机制。企业应建立完善的风险管理机制,包括风险评估、监测和控制等内容。定期进行风险评估,识别潜在的财务风险,并采取相应的防范措施。同时,建立风险预案和应急预案,以便在风险发生时能迅速应对。

第七,提高信息披露透明度。及时、准确地向投资者和利益相关方披露财务信息是建立诚信形象的重要手段。企业应积极履行信息披露义务,确保信息透明度和真实性,避免误导投资者。

猜你喜欢
约简粗糙集预警
基于Pawlak粗糙集模型的集合运算关系
基于二进制链表的粗糙集属性约简
法国发布高温预警 严阵以待备战“史上最热周”
实值多变量维数约简:综述
园林有害生物预警与可持续控制
基于模糊贴近度的属性约简
多粒化粗糙集性质的几个充分条件
双论域粗糙集在故障诊断中的应用
机载预警雷达对IFF 的干扰分析
两个域上的覆盖变精度粗糙集模型