改进随机森林的企业长期价值影响因素研究

2023-12-21 06:36周清明
长春大学学报 2023年11期
关键词:基尼森林样本

周清明,彭 涛

(湖南工业大学 经济与贸易学院,湖南 株洲412007)

金融在我国经济持续高速增长中发挥着越来越重要的作用,具备强大的资源配置功能。尽管我国资本市场取得了巨大的成就,但仍存在投机交易的问题,而且资源配置效率相对较低,财务造假现象也十分严重[1-3]。因此,对企业长期价值进行分析对于推动现代经济发展具有重要意义。企业长期价值受多个因素的影响,而企业经营过程中产生的财务数据规模庞大。在采集财务数据的过程中,受到投机交易和财务造假等因素的影响,采集到的数据可能存在各种程度的异常问题[4]。因此,采用科学合理的数据清洗方法来确保数据的可靠性和准确性十分重要。传统的数据清洗方法通常依据多阶段递进识别原则,以滤除冗余和异常数据,并进行补偿,以实现数据清洗的目标。然而,传统方法的效果有限,无法深入识别和清洗局部异常数据[5]。为此,本文引入了改进的随机森林算法,并提出了一种全新的企业长期会计影响因素数据清洗方法。这种方法能够识别和剔除数据中的异常部分,从而实现数据清洗的目标。

一、企业长期价值的财务指标及作用机理

即便在传统的投资标准中,财务信息作为重要的标准深刻地影响着投资人的决策。大量的投资案例证明,公司的会计信息中隐藏着大量的企业经营情况统计说明,对企业价值分析具有重要的作用[6]。而分析财务指标能帮助管理层及时发现问题并采取相应措施来提升管理效率和改善业绩。本研究对企业价值产生影响的相关财务指标进行了细分,包括五大类指标(见图1)。

图1中,盈利能力是指公司从日常运营中获得收入的多少,以损益表来衡量。营运能力是指公司使用资产创造收入的效率。资产周转率高,说明资产管理和使用效率高。偿债能力是指企业用资产偿还债务的能力。高偿付能力意味着低财务风险和持续经营的能力。发展能力是指企业通过投资、融资和生产等活动确保可持续发展和增长的能力。增长率高,说明发展前景好,增长潜力大。现金流是指一段时间内资金的流入和流出,反映资金的流动性、财务风险和融资能力。经营活动产生的现金流对公司价值有重大影响。考虑这些比率对公司业绩和财务状况的重大影响,有助于全面评估公司业绩、预测未来价值和作出决策。

二、基于改进随机森林的企业长期价值分析模型构建

(一)引入SMOE算法的异常数据处理

在观测样本中,观测值的非平衡状态是指少数类样本的数量相对较少。这种非平衡数据可能严重降低模型对未来长期价值增长企业的识别能力,进而影响模型的预测性能,因此需要对非平衡数据进行平衡处理。为了应对这个问题,引入SMOTE(Synthetic Minority Oversampling Technique)算法。SMOTE算法是一种过采样技术,它通过分析少数类样本的特征,再根据这些特征合成新的样本,以增加少数类样本的数量,使其与多数类样本达到平衡[7]。针对长期价值增加的企业样本,使用SMOTE算法进行过采样处理,从而实现数据集的平衡(见图2)。

图2 SMOTE算法模型示意图

对少数类样本进行分析,再将合成的新样本添加到数据集中,构建新的样本如式1所示。

M=x+α*(xn-x)

(式1)

式1中,少数类样本用x代表,随机选出的近邻用xn代表;α是[0,1]之间的随机数,用于控制合成样本在原样本和近邻之间的位置。通过这样的过程,SMOTE算法能够增加少数类样本的数量并保持数据集的平衡性,提高模型的泛化能力。

(二)综合特征指标模型构建

随机森林是一种常见的机器学习分类方法,它能根据特定的属性规则对样本数据进行划分并构建决策树,以实现对新样本数据的分类。决策树由根节点、内部节点、分支和叶节点组成,这些组成部分反映数据分类的过程。在决策树中,根节点包含全部样本数据,然后根据属性规则将数据分配到不同路径,其中的子节点代表决策树的分类决策结果。随机森林的学习和分类过程实际上是一种自上而下的递归过程,每条路径都代表一条分类规则。整棵决策树由多个这样的规则组成,从根节点到叶节点的每个路径都表示对样本进行分类的规则,其结构如图3所示。

图3 随机森林模型示意图

构建高效的决策树的关键在于选择最优的属性进行数据划分,目标是使同类样本尽可能能衡量样本集合的纯度,通常使用3个指标进行评估,即信息熵(如式2所示)、增益率和基尼指数。

(式2)

式2中,H为当前样本的集合,Pk代表第k类样本的数量占总样本H的比例大小。信息增益类似于熵的概念,用于度量节点中样本的复杂性。较小的信息增益表示节点中样本类别的一致性较高,而较大的信息增益表示节点中样本差异较大,分类较为混乱。通过计算属性的信息增益、增益率或基尼指数可以选择最优的属性作为决策树节点的划分标准,从而构建具有良好分类效果的决策树。信息增益率如式3所示。

(式3)

式3中,第v个分支节点用v表示,属性测试用a表示,Hv表示取值为av的样本数量,av为属性测试的值。定义集合H的基尼指数如式4所示。

(式4)

三、改进随机森林算法结果分析

由于研究所涉及的变量较多,无法对所有变量进行详细的描述性统计分析。因此,仅对虚拟变量进行了描述性统计。基于随机森林算法构建的4个模型的平衡和非平衡情况下的ROC曲线如图4所示。

图4 不同模型的ROC曲线

图4(a)显示,改进的随机森林模型在测试集上的ROC曲线下面积为0.86,表现最佳。相比之下,普通随机森林模型的ROC曲线下面积为0.61,表明该模型的预测效果较差。从图4(b)显示,改进的随机森林平衡模型的ROC曲线下面积为0.88,改进的随机森林非平衡模型的ROC曲线下面积为0.82,普通随机森林平衡模型的ROC曲线下面积为0.73,普通随机森林非平衡模型的ROC曲线下面积为0.61。对4组模型的 ROC 曲线进行比较后发现,平衡模型的表现明显优于非平衡模型,这表明数据平衡后的模型预测能力增强明显。基于改进随机森林算法建立的模型的4个评价指标结果如图5所示。

图5 改进随机森林模型性能评价指标

图5显示,长期价值非平衡模型在精确率方面表现出较高的水平,达到0.88,但其精确率、召回率和F1值较低,特别是召回率和F1值,分别只有0.15和0.24。这是因为数据高度偏斜,大多数观测值的长期值为 0,因此模型很可能从值递减的数据中学习和推断,而忽略值递增的样本中的数据信息。不过,从平衡数据集学习后,长期值平衡的模型的各项指标都有显著提高。精确率、召回率和F1得分均为0.88,增益率值为0.87,说明模型的预测效果非常好,建模非常成功。这表明综合考虑平衡数据的财务指标在预测企业长期价值的变化上效果提升显著。特征基尼指数的输出结果如表1所示。

表1 改进森林模型的特征基尼指数

表1的结果显示,在平衡数据模型中,现金流基尼指数排名第一,为0.0486,说明企业的营业收入现金净含量、全部现金回收率和现金资产比率起着重要作用。现金流状况直接反映企业的财务风险和持续经营状况,对企业价值的持续增长起着重要作用。另外,偿债能力和营运能力在特征基尼指数中排名较低,分别为0.0246和0.0333。这可能是因为公司战略往往代表长期规划,实验的企业价值变化跨度较短,无法充分体现公司战略对企业价值的影响。在财务指标方面,营业能力对于企业长期价值的解释具有重要影响。企业的发展潜力关系到未来的发展状况,对企业长期价值的走向产生影响。在非平衡模型中,现金流和发展能力对于长期价值变化的基尼指数较低,分别为0.0312和0.0289。这反映了虽然企业现金流和发展能力对企业价值具有一定的解释力,但对于企业未来较长时间的价值变化难以充分解释。非平衡模型还表明发展能力对企业价值贡献较低,这可能是由于这些特征数据的高度不平衡,难以对模型的预测产生影响。对比非平衡模型,在平衡数据模型中,发展能力这一特征从基尼指数排名的第5升至排名第3。这一重大变化表明,不平衡数据模型隐藏了许多被模型忽略的重要特征信息。除了现金流占比最大,平衡模型中盈利能力基尼指数同样很高。这说明企业的总资产净利率、净资产收益率、成本费用利润率和营业利润率等因素对预测企业长期价值的变化起着重要作用[8]。另外,偿债能力排名较低。这是因为公司战略往往代表长期规划,偿债能力对企业长期价值的影响有限。因为营运状况直接反映企业的财务风险和持续经营状况,对企业价值的持续增长起着重要作用。而其他传统财务指标更多地反映了企业历史的经营和财务状况,对企业价值具有一定的解释力,但对于企业未来较长时间的价值变化难以充分解释。两个模型中营运能力对企业价值影响均不高,这可能是由于这些特征数据的高度不平衡,难以对模型的预测产生影响[9]。就实际情况而言,在信息化时代下,资金周转没有太大的流通阻碍,因此营运能力基尼指数较低。

四、结语

资本市场在中国实体经济发展中发挥着重要作用,包括转变经济结构、提高企业素质、实现经济高水平发展。虽然中国资本市场取得了长足进步,但由于发展相对缓慢等结构性因素,资本市场仍面临诸多挑战。根据上市企业数据,构建一个综合特征指标体系,包含多个财务指标,并采用性能优越的改进随机森林算法进行建模,对企业长期价值产生影响的各个因素进行了仿真分析。实验结果显示,改进的随机森林模型在测试集上的ROC曲线下面积为0.86,表现最佳。对比四组模型的ROC曲线发现平衡模型的性能优于非平衡模型,验证了平衡数据对模型预测效果的显著提升。在特征基尼指数方面,现金流在平衡数据模型中具有最高基尼指数,排名第一,而发展能力和偿债能力的基尼指数较低。在精确率方面,长期价值非平衡模型达到较高水平,但精确率、召回率和F1值较低。经过数据平衡后,长期价值平衡模型的精确率、召回率和F1值显著提升,模型预测效果非常好。

猜你喜欢
基尼森林样本
Wimbledon Tennis
用样本估计总体复习点拨
推动医改的“直销样本”
卷入选战的布基尼
随机微分方程的样本Lyapunov二次型估计
哈Q森林
哈Q森林
强制“脱衫”
哈Q森林
村企共赢的样本