非均衡数据下企业碳减排信用风险预警模型的构建与检验

2024-03-12 15:18陈湘州
内江师范学院学报 2024年2期
关键词:信用风险排放量聚类

龙 志 , 陈湘州*

(湖南科技大学 a.商学院 b.湖南省战略性新兴产业研究基地, 湖南 湘潭 411201)

0 引言

随着全球气候变化和可持续发展议程的崛起,碳减排成为了全球的关注焦点.近期厄尔尼诺现象的出现,导致全球多地频繁创下高温纪录,进一步凸显了碳减排的紧迫性.2020年9月22日,习近平总书记在第75届联合国大会一般性辩论上宣布中国二氧化碳排放力争于2030年前达到峰值,努力争取2060年前实现碳中和.党的十九届五中全会提出,推动绿色发展,促进人与自然和谐共生.党的二十大报告提出,“积极稳妥推进碳达峰碳中和”.碳排放主要是由人类活动或自然环境排放的二氧化碳造成的,其导致全球气温上升,并与经济增长密切相关.为确保实现“碳达峰、碳中和”目标,需要社会各方的积极参与.作为国家经济的核心支柱,企业更应积极践行低碳发展理念.为实现“碳达峰、碳中和”目标做出贡献.然而,投资者和银行对于碳排放量大的企业缺乏投资和贷款动力.因此,对企业碳减排信用风险的有效预警是推动投资者投资、银行贷款和国家经济可持续发展的关键.

企业碳减排信用风险预警是信用风险研究领域的重要课题.目前,国内外学者已建立多种信用风险指标体系.例如,在供应链金融模式下,现有文献[1-3]从不同角度构建了各自的信用风险评价体系,揭示了供应链对于缓解企业融资困境的作用,并提出了相应的政策建议,有助于完善评价体系.此外,戴昕琦[4]根据线上供应链融资模式的特点,新增了供应链关系、电商平台等指标,有助于商业银行更准确评估线上供应链金融的信用风险.佟孟华等[5]基于普惠金融理念,提出了“工业企业碳减排信用风险预警指标体系”.邢秉昆[6]则从金融稳定的视角,将碳要素纳入信用评级体系,提出了一套考虑碳减排约束的工业企业信用风险指标体系,能够有效区分不同的信用风险水平.因此,如何构建有效和完善的企业碳减排信用风险指标体系是一个值得研究的热点问题.

目前,人工智能技术中的深度学习和机器学习在各个领域都取得了突破性的进展,尤其是在信用风险预测领域.陈云等[7]提出了一种基于随机子集的支持向量回归(support vector regression,SVR)集成模型,用于提高银行评估企业信用风险能力.蒋先玲等[8]将随机森林(random forest, RF)与SMOTE算法相结合,以更好地管理供应链金融风险.Chang等[9]则利用极限梯度提升树(XGBoost)构建了金融机构信用风险评估模型.由于数据量和维度的爆炸式增长,传统的机器学习模型在处理这些问题时面临困难.因此,越来越多基于神经网络的深度学习模型被应用于信用风险领域.例如,BP神经网络[10]、多层感知机(multilayer perceptron,MLP)[11]等深度学习模型.这些模型能够处理复杂的非线性问题,并具备自主学习能力,通过自动调整权重和偏置,能够无限逼近任意函数[12].

综上,尽管目前信用风险的研究逐渐增多,但有关企业碳减排信用风险预警的研究很少,并存在以下问题或不足.一是大多数预警研究只实现了对企业碳减排信用风险的度量和评级,而鲜有学者利用深度学习对其进行智能预测分类;二是指标体系庞大,可能导致模型容易出现过拟合问题,从而影响预测精度;三是关于企业风险等级的划分,现有文献大多将其分为两类(如违约或健康),这会导致不同类别样本量不平衡的问题.基于此,本文的主要贡献就在于解决上述问题,以期能够实现更准确、全面和可靠的企业碳减排信用风险评估,为中国企业的碳减排和可持续发展提供实践和政策指导.

本文以上市企业作为研究对象,建立了一套全面综合的评价指标体系.首先运用熵权TOPSIS模型,旨在科学评估企业在碳减排方面的信用风险.随后,利用Kmeans聚类算法对企业综合得分进行合理的风险等级划分.为了解决类别不均衡问题,引入SMOTE过采样算法.然后,使用BPNN神经网络对各风险等级企业进行训练和预测.最终,基于本文的研究结果为投资者、银行和政府等利益相关者提供相关对策和建议,以期为实现“碳达峰碳中和”目标提供理论依据和建议参考.

1 研究设计

1.1 样本选取与数据来源

鉴于数据的难收集性,现有企业极少披露关于碳排放等方面的相关数据.因此,本文选取2 939家上市企业的碳减排信用风险预警指标数据(2003—2020年),包含信息技术、制造、医药、通信、电力等各个行业.依据现有文献的做法,经过剔除异常值、分组缺失值填充等一系列数据预处理操作后,借鉴李婉红等[13]的衡量方法,计算企业碳排放量和企业碳绩效.最终留下17 341个样本.SMOTE过采样后,样本容量为33 468个.本文的数据来源于CSMAR数据库、Wind数据库以及其他数据公开网站.

为了评估模型性能,采用简单随机抽样方法,将数据集按照样本比例7∶1∶2分别抽取训练集、验证集以及测试集.本文所有实验均基于Pytorch深度学习框架在编程软件PyCharm上完成.

1.2 碳减排信用风险预警指标体系

指标体系的构建需要系统性、客观性和科学性.根据企业碳排放的概念,并借鉴以往相关文献对指标选取的做法[5,14-16],构建了一套综合评价指标体系.该指标体系包含了14个指标,能够较好地评估各企业的碳减排信用风险状况,从而帮助相关企业、政府进行投资决策、制定政策等措施.各指标具体的描述性统计如表1所示.

由表1可知:企业碳绩效指标X1的均值为11.346、标准差为3.032、变异系数为0.265,这表明大多数企业的碳绩效水平较高,且相较于其它指标,该指标数据的相对离散程度较小;各个碳排放量指标(X7—X14)的均值、标准差、最小值、最大值、变异系数之间存在显著差异,这表明不同的碳排放量指标具有较大的分散程度,并且受到行业、企业等因素的较大影响.

1.3 基于熵权TOPSIS-Kmeans-SMOTE-BPNN模型的构建

1.3.1 熵权TOPSIS模型

本文采用熵权TOPSIS模型来确定碳减排信用风险体系中各指标的权重、各企业的综合评估得分.熵权法是一种常用的多指标权重确定方法,它基于信息熵的概念,即熵值越大表示指标的差异性越大,通过计算指标的信息熵值来确定其权重.而TOPSIS则是一种多属性决策方法,它通过比较候选方案与理想解的相似性度量,综合考虑候选方案与理想解之间的距离和接近度,从而确定最佳的排序和选择方案.

表1 各指标的描述性统计

采用熵权TOPSIS方法可解决现有层次分析法和模糊评价理论难以确定权重、导致评价结果准确性较低的问题.同时,在系统理论研究和实证分析的基础上计算信用风险的综合评估得分,使评估结果更加科学有效.具体步骤如下:

第一,构造具有多属性的初始评价矩阵.假设企业样本数量为m个,影响企业碳减排信用风险的指标有n个,第i个样本的第j个指标的评价值为aij,则评价矩阵为:

A=(aij)m×n.

为消除不同量纲带来的负面影响,采用最大最小值标准化方法来无量纲化各指标.其中,正向指标用式(1)处理,负向指标用式(2)处理:

(1)

(2)

第二,熵权法确定各指标的权重.例如,第j个指标的权重为wj,计算所示:

(3)

(4)

W=[w1,…,wn].

第三,通过TOPSIS法确定评价对象与正、负理想解之间的欧式距离.计算评价矩阵A=W*(aij)m×n,aij的正、负理想解为:

(5)

(6)

(7)

(8)

最后,第i个企业与理想企业的综合评估得分(接近度)为

(9)

式中综合评估得分Gi越高,表明该企业的碳减排信用风险越小,反之亦然.

1.3.2 聚类算法

在对所有企业的碳减排信用风险进行综合评估后,通过对未标记的企业样本进行聚类,可实现信用风险等级分类的效果,从而帮助企业和政府做出相应的策略调整.聚类算法是一类典型的无监督学习方法,是将数据集中的样本按照相似性进行分组或聚集为多个类别.常用的聚类方法有Kmeans聚类、层次聚类、SOM聚类和FCM聚类.由于Kmeans聚类算法具有效率快、准确率高、可解释性强等优点[17],因此,本文选择Kmeans聚类算法来生成企业碳减排信用风险的等级标签,即A、B、C、D和E分别表示信用风险非常低、低、中等、高和非常高.该算法的具体计算步骤如下:

第一步,初始化簇的质心.根据随机性原则,从数据集中随机选取K个企业样本作为初始簇的质心,并确定最大迭代次数.

第二步,计算每个企业与质心之间的欧氏距离,并根据该距离来判断待聚类的企业是否属于同一信用风险等级,公式如下:

(10)

第三步,计算每一等级企业的平均值作为新簇的质心,公式如下:

(11)

第四步,重复第二、三步,直到簇的质心不在发生变化或达到预定的最大迭代次数.

1.3.3 SMOTE下采样算法

在现有的文献中,大部分学者根据“是否被ST或*ST过”的标准,将企业信用风险简单地划分为“高”与“低”,这与企业真实情况不相吻合.同时,这也会使得预警模型不能为利益相关者提供更加精准的风险管控.因此,我们有必要对企业信用风险进行更加细致地划分.

本文中,在经过Kmeans聚类之后,碳减排信用风险等级为A、B、C、D、E的企业数量分别为8 104、4 775、1 656、2 134、672.其中,C和E等级的企业数量较少.因此,为解决企业样本类别不平衡的问题,本文采用SMOTE算法.SMOTE算法是一种基于随机过采样算法的数据增强技术,其基本思想是通过在少数等级企业样本之间进行插值,从而生成新的合成样本并添加到数据集中.通过使用SMOTE算法,模型可以更加平衡地学习到各等级类别之间的特征和决策边界,从而有效地避免过拟合问题的发生.该算法的具体计算步骤如下:

第一步,计算每个少数类别企业样本X到少数类别样本集的欧氏距离,以获得k个最近邻居.

第二步,确定过采样的放大倍数N,从k个最近邻居中随机选取一个企业样本Xi,取0到1之间的随机数a,并根据式(11)为每个企业样本X合成一个新的样本.

Xnew=X+a*(Xi-X).

第三步,重复第二步,获得新数据集.

1.3.4 BP神经网络模型

在通过聚类生成等级标签并使用SMOTE扩充样本后,本文采用BPNN来实现企业碳减排信用风险等级分类预测.BPNN是一种多层前馈式反向传播神经网络,常用于分类和回归预测,属于深度学习的主流模型之一.它通常由输入层、隐藏层(可有多个)和输出层组成,每层都由多个神经元(或称节点)构成.

BPNN具有以下两个优点:一是在反向传播过程中,BPNN使用梯度下降算法来解决各级指标的贡献度分配问题[18];二是通过引入非线性激活函数,BPNN具有较强的拟合能力,能够逼近现实中任意复杂的非线性函数关系,因此在处理多类别分类和回归问题方面表现出色.正是基于这些优点,BPNN常被应用于企业财务风险预警、股票预测、信用评级等领域.本文所构建的BPNN网络结构如图1所示.

图1 本文BPNN模型结构

本文所构建的BPNN模型由输入层(包含7或14个神经元)、一个隐藏层(包含128个神经元)以及输入层(包含5个神经元).其中,在输入层中,{X1,…,Xk}集合中Xi表示各个碳减排信用风险指标;在输出层中,{Y1,…,Yn}集合中Yi表示各企业碳减排信用风险的预测等级.

具体计算过程如下:

1.3.5 模型性能评估

本文的企业碳减排信用风险预警可看作多类别不平衡分类预测问题.对于该问题,通常使用多角度、多模型、多指标来综合评估模型性能.本文基于消融实验和多模型对比思路,分别与最近邻算法KNN、支持向量机SVM、随机森林RF、极限梯度增强算法XGBoost、轻型梯度增强机LightGBM进行预测效果对比,检验本文所提模型的有效性和优越性.

此外,模型性能综合评估原则的重要性排序设为:准确性>全面性.

1.3.6 企业碳减排信用风险评估预警流程

基于熵权TOPSIS-Kmeans-SMOTE-BPNN模型的企业碳减排信用风险预警流程如图2所示.

图2 本文模型对企业碳减排信用风险预警流程

该流程主要包括五个部分:数据预处理、无监督学习、监督学习、模型对比实验和模型性能评估.第一,数据预处理模块主要用于处理缺失值、空值和异常值,并对各指标数据进行标准化,以消除量纲影响.第二.无监督学习模块侧重于对企业碳减排信用风险进行综合评估打分,并根据综合得分进行聚类,生成相应的等级标签.第三,监督学习模块主要采用BPNN模型,根据SMOTE下采样处理后的企业样本和聚类生成的等级标签,对碳减排信用风险等级进行分类和预测.第四,多模型对比实验和模型性能评估模块主要通过消融实验和基准模型对比,观察各模型的总识别率、各等级企业识别率等指标,验证本文提出的模型的先进性和有效性.

2 实验结果与讨论

2.1 熵权TOPSIS综合评估与回归分析

通过熵权法中式(3)、(4)计算出企业碳减排信用风险各指标的权重值W=[w1,…,wn],如表2所示.

表2 各指标的权重分布

由表2可知,(1)权重较大的前三名分别为企业碳绩效X1、汽油碳排放量X10、行业主营业务成本X6,表明对企业碳减排信用风险的影响程度较大;(2)权重较小的后三名分别企业营业成本X5、企业碳排放量X3、煤油碳排放量X11,表明对企业碳减排信用风险的影响程度较小.

表3 企业碳减排信用风险综合得分和排名

由表3可知:(1)综合得分的平均值为0.726 6,标准差为0.040 0,变异系数为0.055 0,25%分位数为0.721 5,50%分位数为0.742 5,75%分位数为0.751 3,表明企业碳减排信用风险综合得分的相对离散程度较小,不存在异常企业,且有近四分之三的企业综合得分保持在一个较高的水平(0.721 5)之上;(2)排名前六涉及的行业有酒、饮料和精制茶制造业、仪器仪表制造业、家具制造业、化学纤维制造业,均属于低耗能行业,且年份集中在2012—2014年.而排名后六涉及的都是属于高耗能的电力、热力生产和供应业行业,且年份集中在2019—2020年.以上的研究结果表明了熵权TOPSIS方法的有效性,且反映出我国正逐步往“碳达峰”趋势发展.

将熵权TOPSIS的综合评估结果与标准化后的指标数据带入多元线性回归模型中,进一步分析各指标与企业碳减排信用风险之间的关系,具体结果如表4所示.

表4 多元回归模型指标系数

由表4可知,在企业碳减排信用风险评估中,企业碳绩效X1、企业营业收入X2指标对企业碳减排信用风险存在正向影响,即指标值越大,企业的综合评分越高,从而企业的碳减排信用风险越小.其他指标都存在负向影响,这与本文提出的指标体系是一致的.其中,影响程度较大的是X1、X7、X10、X12、X14 指标,回归系数分别是-0.173、0.377、0.275、0.253、0.168;影响程度较小的是X2、X3、X4、X5、X11指标,回归系数分别是-0.038、0.016、0.045、0.050、0.046.

最后,通过德宾—沃森检验,结果显示,该统计量值为0.783.一般而言,当统计量接近0时,表示指标间存在正自相关性;当统计量接近4时,表示存在负自相关性;当统计量接近2时,表示不存在自相关性.因此,本文的指标存在一定的正自相关性,表明存在多重共线性问题,即指标间会提供冗余信息,从而导致在后续实验中模型可能出现过拟合风险等问题,甚至会把分析引入歧途.

为解决上述的问题,本文采用XGBoost来进行指标筛选.XGBoost在分类过程中通过计算每个指标划分前后信息熵的减少量,利用优化损失函数不断迭代地训练决策树模型.通过这种方式,XGBoost可以获得指标的相对重要性,并用于指标的筛选.XGBoost具有高性能、高准确性和强解释性等优点.本文利用XGBoost对全部14个碳减排信用风险指标进行筛选,计算每个指标的重要性程度,该数值越大,表明指标越重要.具体结果如表5所示.

由表5可知,根据重要性程度,指标从大到小排序为X4、X6、X10、X13、X12、X1、X14、X11、X7、X9、X8、X5、X2和X3.为了比较在下文中XGBoost筛选指标是否对模型预测性能产生影响,选取前7个信用指标作为指标筛选的最终结果.

2.2 基于Kmeans聚类的无监督学习

通过聚类分析,将企业的碳减排信用风险分为5个等级,A、B、C、D、E分别表示非常低风险、低风险、中风险、高风险、非常高风险.通过Kmeans算法中式(10)、(11),获得企业聚类结果,生成等级标签.为了直观展示,随机抽取1 000个企业绘制聚类结果,如图3所示,具体聚类结果如表6所示.

由图3可知,Kmeans算法将所有企业聚类为五个等级,图中五个不同形状分别表示五个不同等级.(1)在熵权TOPSIS模型的综合评估中,信用风险等级为A的企业,其综合得分最高、信用风险非常低,但数量最多;(2)处于中间等级B、C、D的企业数量较少;(3)等级为E的企业,其综合得分最低,且数量最少,这表明聚类后的结果存在非常严重的类别不平衡问题.

图3 1000个企业的聚类结果

本文将企业样本聚类为五类,而不是简单地将其分为两类.通过更加细致的等级划分,模型的预测结果会更加准确,能够有效达到预警目的.

表6 企业碳减排绩效的Kmeans聚类结果

由表6可知,(1)数量上,大部分企业的碳减排信用风险处于A等级.其中,8 104个等级为A的企业,4 775个等级为B的企业,1 656个等级为C的企业,2 134个等级为D的企业,672个等级为E的企业;(2)聚类后的每个等级平均得分的差分为0.016 5、0.024 8、0.051 2、0.061 8,即五个等级的平均得分存在显著差异;(3)从等级A到E,标准差与变异系数呈现逐级增加的势态,表明相对离散程度逐步增大.

为了有效区分各等级企业的碳减排信用风险指标,提高预警模型的预测精度.本文采用统计差异性检验方法对筛选后的7个指标进行统计性检验,P值均为0.具体检验结果如表7所示.

表7 各等级企业碳减排信用风险指标的差异性检验

检验结果显著,均能够有效地区分各等级企业.

此外,从表7中我们还发现,各等级企业的指标在均值、标准差上呈现逐级上升或下降的势态.例如,按照等级顺序A至E,企业的均值在企业碳绩效(X1,负向指标)上呈现逐级下降趋势、在行业碳排放量(X4、正向指标)上呈现逐级上升趋势;企业的标准差在燃料油碳排放量(X13,正向指标)上呈现逐级上升趋势.以上的研究结果表明了Kmeans聚类算法能够有效地对大样本进行合理分类,使得模型预测结果更加准确,从而有效达到预警目的.

要为各等级企业提供有针对性的参考意见,就需要了解不同等级中所发挥重要作用的指标,这样才能对企业进行集中评估和及时调整.因此,本文采用熵权法,进一步分析各等级企业的各项指标权重.具体指标的权重如图4所示.

(a)各等级企业的X1—X7指标权重 (b)各等级企业的X8—X14指标权重

由图4可知:(1)碳减排信用风险等级为A的企业中,权重较大的指标依次为企业碳绩效X1、汽油碳排放量X10、行业主营业务成本X6、天然气碳排放量X14、行业碳排放量X4,累计权重0.813 3;(2)碳减排信用风险等级为B的企业中,权重较大的指标依次为企业碳绩效X1、汽油碳排放量X10,柴油碳排放量X12、焦炭碳排放量X8、行业主营业务成本X6,累计权重为0.850 9;(3)碳减排信用风险等级为C的企业中,权重较大的指标依次为企业碳绩效X1、汽油碳排放量X10、柴油碳排放量X12、行业主营业务成本X6、行业碳排放量X4,累计权重为0.844 9;(4)碳减排信用风险等级为D的企业中,权重较大的指标依次为企业碳绩效X1、煤炭碳排放量X7、汽油碳排放量X10、柴油碳排放量X12、行业碳排放量X4,累计权重为0.744 9;(5)碳减排信用风险等级为E的企业中,权重较大的指标依次为企业碳绩效X1、汽油碳排放量X10、天然气碳排放量X14、行业碳排放量X4、煤炭碳排放量X7,累计权重为0.770 6.

综上所述,以上这些指标对五个等级的企业碳减排信用风险影响较大,且累计权重均大于0.7.其中,企业碳绩效X1和汽油碳排放量X10指标的影响程度最为突出.

2.3 BPNN模型分类预测

本实验的目标是对企业的碳减排信用风险进行分类,达到智能预测风险等级的目的.该问题的本质实际上是一个多分类问题.在进行二分类或多分类问题中,常用的损失函数是交叉熵损失函数(cross entropy loss).交叉熵能够衡量同一个随机变量中的两个不同概率分布的差异程度,在机器学习中表示真实概率分布和预测概率分布之间的差异,即交叉熵的值越小,模型预测效果越好.模型初始参数设置如下:优化器采用Adam优化器,激活函数为Relu函数,Batch_size为64个,隐藏层数为1层,每一隐藏层的神经元个数为32,迭代次数Epochs为100次,学习率lr为0.001.由于各等级企业A∶B∶C∶D∶E的数量比为8104∶ 4775∶1656∶2134∶672,这是一个典型的类别不平衡多分类问题.因此,在将数据集输入进神经网络进行训练前,首先通过SMOTE算法对少数类别的企业样本进行下采样.

模型超参数的设置对模型预测精度产生较大的影响,故本次实验通过不断调整超参数来观察模型对验证集的预测精度,从而获得模型最优参数.在BP神经网络模型中,影响预测精度较大的参数有隐藏层数、每一隐藏层的神经元数、Batch_size大小、学习率lr.实验通过控制变量法来调整模型参数,即保持其他参数不变的情况下,调整一个参数,使得模型在验证集上的预测准确率达到最高.取50次实验的平均值作为最终结果,不同参数对应的验证集的预测准确率如图5所示.

隐藏层数/层 隐藏层神经元数/个

Batch_size/个 学习率

由图5可知,在隐藏层数、隐藏层神经元数、Batch-size大小以及学习率中,其验证集准确率的变异系数分别为0.047 5、0.005 7、0.004 3、0.023 8.其中,隐藏层数的验证集准确率的变异系数最大,即该组数据的相对离散程度较大,表明该参数对模型预测企业碳减排信用风险等级有着较大的影响.同时,以验证集的预测准确率为标准,本文模型参数的最终设定如下:隐藏层数为1层,每层神经元数为128,Batch-size大小为128个,学习率lr为0.01.

在模型的训练过程中,训练集的损失变化如图6所示,测试集的准确率变化如图7所示.使用测试集来验证模型的预测性能,并获得混淆矩阵如图8所示.

图6 模型在训练集上的损失函数

图7 模型在测试集上的准确率

由图6-8可知:(1)100次迭代过程中,本文模型在训练集上的损失值、测试集上的准确率分别不断平稳下降、上升,并达到最优值;(2)本文模型的总识别率为99.19%、A等级企业识别率为99.30%、B等级企业识别率为98.86%、C等级企业识别率为99.38%、D等级企业识别率为99.84%、E等级企业识别率为97.32%.以上研究结果表明,本文提出的模型具有可行性和有效性.

2.4 多模型性能对比

为了进一步验证本文提出的融合模型的分类效果,将其进行消融实验和基准模型对比实验.对比的模型有Kmeans-XGBoost-SMOTE-BPNN模型(本文模型,M1)、Kmeans-XGBoost-BPNN模型(M2)、Kmeans-SMOTE-BPNN模型(M3)、Kmeans-BPNN模型(M4)、Kmeans-KNN模型(M5)、Kmeans-SVM模型(M6)[7]、Kmeans-RF模型(M7)[8]、Kmeans-XGBoost模型(M8)[9]、Kmean-LightGBM模型(M9)[9],模型参数均参考相应文献进行设置,最大程度达到模型的最佳分类效果.其中,M1-M4为消融实验,M5-M9为基准模型对比实验.

取50次实验的平均值作为最终结果,各模型在测试集中评估指标的对比情况如图9所示,各模型评估指标具体取值如表8所示.

表8 模型分类结果比较

本文通过对企业碳减排信用风险进行了全面的分析,包括综合评分、回归分析、指标筛选、等级划分、分类预测、多模型比较等方面的研究.总的来说,本文的模型之所以具有较高的准确率,原因有三点:第一,采用了熵权TOPSIS模型进行综合评分,并通过聚类算法更详细地划分风险等级,有助于模型更好地识别训练数据;第二,借助XGBoost算法进行指标筛选,排除对预测结果影响较小的信用指标,有效地避免了模型的过拟合;第三,将企业碳减排信用风险数据视为非均衡样本,引入SMOTE过采样算法来解决类别不均衡的问题,从而提高了模型的预测准确率.

3 结论与建议

3.1 结论

针对企业碳减排信用风险预警研究仅实现风险水平的度量和评级,缺乏对风险等级的智能预测、企业碳减排信用风险数据样本不均衡问题的研究.本文选取2003—2020年2 939家上市企业的碳减排数据作为研究对象,共17 341个样本,构建了基于熵权TOPSIS-Kmeans-SMOTE-BPNN的企业碳减排信用风险预警模型.采用熵权TOPSIS模型对企业碳减排信用风险进行综合评价,并通过Kmeans聚类算法和BP神经网络模型进行无监督学习和有监督学习的结合,实现信用风险等级的智能预测.利用XGBoost算法筛选剔除重要性低的指标,并通过SMOTE下采样对企业样本聚类结果进行处理,解决各类别样本不平衡问题,进一步提高模型的预测精度.

本文具体的研究结论如下:

第一,本文利用信息熵为基础的熵权TOPSIS模型,对企业的碳减排信用风险进行了评估,同时使用欧式距离标准的Kmeans聚类算法度量了企业的综合得分Gi.以酒饮料茶制造行业为例,贵州茅台(股票代码:600519)于2013年展现出最低的碳减排信用风险水平;相反,在电力热力生产供应行业,申能股份(股票代码:600642)则于2020年展现出最高的碳减排信用风险水平.

第二,企业碳减排数据的各项指标对信用风险的影响程度存在明显差异.具体地,回归模型的进一步分析现实,煤炭碳排放量是影响信用风险最重要的指标,而企业碳排放量则是影响最不重要的指标.此外,熵权法的应用揭示了企业碳绩效和汽油碳排放量这两个指标在各个信用风险等级企业中都具有较高的权重.

第四,本文提出的模型在信用风险等级分类预测任务中表现最佳.其中,本文模型的分类准确率达到了99.05%,相较于其他基准模型相比,平均提升了17.38%.

第五,本文的模型可应用于企业碳减排信用风险预警领域,帮助企业更好地理解和管理碳减排风险,提供宝贵的参考信息.此外,我们建议引入定性和非结构化指标,如行业属性和董事会成员,以更全面地评估企业的碳减排绩效,提升模型的精准性,并为未来的深入研究提供更多可能性,推动企业朝着更可持续的方向发展.

3.2 建议

根据上述研究结论,本文提出如下建议:

第一,对各行业的企业碳减排信用风险实施差异化监管.企业的碳减排信用直接关系到投资者、银行和政府等利益相关者的绿色信贷回报率,这就需要对一些行业进行重点监管.例如,本文所谈到的“电力热力生产供应行业”.这类行业的碳减排信用风险较高,政府监管部分应当对该行业的碳排放情况进行更加严格的监督.这包括强化排放数据报告和监测,确保企业遵守碳减排政策,并鼓励技术创新以减少碳排放.

第二,建立并完善碳减排信用激励机制.目前,我国碳减排正处于起步阶段,政府可考虑建立碳减排信用激励机制,对那些表现出低碳减排信用风险的企业给予一定的奖励和优惠政策.例如,减免碳税或给予更多的碳排放权交易配额等措施.这将鼓励更多企业采取主动的措施来减少碳排放,以推动整个产业向更加可持续化的方向发展.

第三,鼓励投资者、银行和政府等利益相关者将环境、社会和公司治理(ESG)也纳入到碳减排信用风险管理中,并深入研究机器学习和深度学习模型在企业信用评估领域的应用.这将有助于利益相关者对企业的碳减排信用风险有更加准确、深入的了解,并通过对企业碳减排信用风险等级的智能分类,进一步制定更加有效的信贷政策和定价策略.

猜你喜欢
信用风险排放量聚类
天然气输配系统甲烷排放量化方法
黑龙江省碳排放量影响因素研究
基于DBSACN聚类算法的XML文档聚类
浅析我国商业银行信用风险管理
基于高斯混合聚类的阵列干涉SAR三维成像
京东商城电子商务信用风险防范策略
个人信用风险评分的指标选择研究
一种层次初始的聚类个数自适应的聚类方法研究
全国机动车污染物排放量
——《2013年中国机动车污染防治年报》(第Ⅱ部分)
信用风险的诱发成因及对策思考