舒服华
基于高斯混合聚类的环保企业盈利能力评价
舒服华
(武汉理工大学继续教育学院,湖北武汉 430070)
上市环保企业的盈利能力研究对促进我国环保行业的发展具有重要的意义。高斯混合聚类属于软聚类,它以概率作为依据,从随机性和不确定性中体现肯定性和稳定性,属于高度的人工智能范畴,聚类准确客观,提供的信息量更加详细。利用高斯混合聚类对我国26家上市环保企业的盈利能力进行分类,按盈利能力的强弱分为4个类别,聚类结果显示:分类比较客观准确,与它们的实际经营状况基本吻合。
环保企业;盈利能力;评价;聚类;GMM;
随着我国经济的持续高速发展,环境污染成为当下我国经济发展面临的严峻问题。环境污染不仅严重威胁着人们的健康,还威胁着生态系统的平衡,更是给经济社会可持续发展造成严重负面的影响。“十三五”以来,我国把保护生态环境放在突出重要的位置,环境恶化问题得到明显遏制,这不仅归功于各级地方政府和各职能部门的努力,还归功于从事环保事业的经济实体的发展。在国家的重视和政策的扶持下,以及环保市场的需求驱动下,我国环保行业发展很快,企业数量以每年12%的速度增长,仅上市企业就接近100家。客观评价我国上市环保企业的盈利能力,对促进企业乃至行业高质量发展具有重要的意义。
聚类是常用的一种评价方法,将优劣、好坏、强弱、大小等性能和特点不同的对象划归为不同类别。聚类算法大多数都是以相似度为尺度,按照距离大小来衡量对象之间的联系,从而进行聚类。高斯聚类是带有随机性和不确定性特点的分类方法,最终将决策转化为稳定性和肯定性的结果,属于机器学习和人工智能的范畴。高斯混合模型(Gaussian Mixture model,GMM)聚类以概率作为依据,根据评价观察点隶属于某一类概率值的大小,确定它所归属的类别,而不是简单地判别个体属于哪个类别。既完成了识别个体所属的类别,又给出了其属于该类别的可能性大小,决策更为客观,分类信息更为详细,成功应用于很多领域[1-10]。本文运用GMM对我国部分上市环保企业的盈利能力进行聚类,以促进企业的高质量发展。
高斯混合模型是由多个独立的高斯分布函数线性组合而成的多元高斯分布函数。理论上,GMM可以拟合出任意类型的分布,通常用于解决同一集合下的数据包含多个不同分布的情形,并使用了期望最大算法估计模型的参数,能够提供很强的描述能力,能对研究对象进行精确量化。高斯混合模型的一个重要用途是聚类。通过该模型进行聚类,既能使聚类结果更加客观,又能使聚类的信息量更加丰富。
设有个观察数据x,x,…,x,若将它们分为个类别,则高斯混合模型可表示为:
EM算法的具体计算步骤如下:
(1)确定分类的类别数量。一个类别对应一个高斯分布,由此组合成多元混合高斯分布函数。
(2)确定函数参数的初值。随机赋予每个高斯分布函数的均值和方差,以及它们组合为混合高斯分布函数的混合系数。
(3)计算每个样本在各个高斯分布下的概率。
(4)求第个高斯分布平均值的最大似然函数(为样本总数,N为第类样本数)。
(5)求第个高斯分布的方差最大似然函数。
(6)求混合系数的最大似然函数。
(7)重复步骤(2)~(5),直到模型收敛。
从EM算法的步骤可知,其核心是给定变量的初始值后,根据似然值更新参数,一步步迭代优化,使似然函数值逐步增大,最终找到最优参数,使模型似然函数值最大者即为其值。通过使用EM算法来拟合数据,是基于各观测量来计算各成分密度的后验概率。
确定评价指标。环保企业的盈利能力强弱可以通过其财务指标反映出来。衡量盈利能力的财务指标较多,但有些指标内涵交叉重叠,有些指标反映不充分,把它们全部用于评价,不仅没有必要,还使问题变得复杂化。因此,选取典型性、代表性、核心性财务指标评价盈利能力是行之有效的办法。对于上市公司而言,不能仅凭每股收益的多少来判断盈利能力的强弱,因为不同规模的公司,每股净资产不同,经营的优势不同,导致每股收益出现很大的差异,这导致评价失之偏颇。衡量上市公司的盈利应全面系统地综合考察,主要看它的投入与收益是否相匹配。净资产收益率(ROE)和资产报酬率(ROA)被公认为是衡量上市公司盈利能力的核心指标;成本费用利润率反映了公司获取利润付出的代价,既体现了企业成本控制能力,又体现了企业的盈利能力;每股收益能最直接表现企业盈利能力,是大多数股票投资人所关注的指标;每股净资产反映了每股资产的现值,其值越大,按道理带来的收益应越大;负债经营是企业的惯例,是企业“借鸡下蛋”的经营策略,负债率越高,可用于经营的资本越雄厚,按常理应该给企业带来更多的利润。评价环保企业的盈利能力,还要观察企业主营业务方面的盈利情况,非主营业务具有随机性、不确定性,但有时可以对公司的盈利带来正面影响。该指标可以通过主营业务和非主营业务利润率的比重来体现。因此,以净资产收益率(X)、资产报酬率(X)、主营业务利润率(X)、成本费用利润率(X)、每股收益(X)、每股净资产(X)、资产负债率(X)、非主营比重(X)8个指标作为上市环保企业盈利能力评价指标。在100多家上市环保企业中,业绩参差不齐,不乏经营亏损的,故选取26家经营业绩相对较好的企业进行聚类评价,这样才有一定的现实意义。8个评价指标的数据如表1所示(数据来源于各上市公司2020年度年报)。
表1 聚类对象盈利能力的相关指标值
数据归一化。由于各数据的量纲不同,并且指标中既有效益型数据,又有成本型数据,而衡量盈利能力指标最理想的是效益型数据,直接利用原始数据进行聚类,客观性稍差。为了提高聚类的可靠性,将原始数据先进行归一化处理,并将所有指标数据转化为效益型数据,在此基础上再进行聚类,准确性会得到有效提高。数据归一化按以下方法进行。
在8个评价指标中,每股净资产(X)、资产负债率(X)为成本型指标,其余指标则为效益型指标,原始数据归一化结果如表2所示。
表2 数据归一化结果
续表2
按高斯混合聚类模型对这26家上市环保企业的盈利能力进行聚类,将它们分为4类,那么,高斯混合模型由4个单高斯模型线性组成。按照步骤(2)~(5)编程运算,最后模型收敛,得到聚类结果,聚类直观图如图1所示。
图1 聚类直观图
高斯混合聚类法,将每个对象划归某一类都有一定的概率,最后以概率最大的所在类为准则,判定其为最终所属类别,但为了提高分辨率,将各类的概率值转化为得分,并按某种比例拉开差距,让非所属的类别得分压缩为0,这样,各对象所归属的类别就一目了然。最终分类结果如表3所示。
表3 聚类结果
从表3可知,创业环保、中原环保等6家企业的盈利能力为第1类;龙马环卫、长青集团等7家企业为第2类;高能环保、维尔利等6家企业为第3类,首创股份、兴蓉环保等7家企业为第4类。从图1聚类中心点(聚类中心离圆点距离越远越优)可知,4个类别的盈利能力强弱依次为:第2类>第4类>第1类>第3类。从表1中各评价对象8个评价指标的取值来看,分类基本与实际情况相吻合,表明高斯混合聚类方法有一定的准确性和客观性。如属于第2类的龙马环卫净资产收益率、资产报酬率、主营业务利润率、成本费用利润率、每股收益都比属于第3类的高能环保要高,而资产负债率、主营业务利润率又都比其低,只是每股净资产比其稍高,所以龙马环卫的盈利能力要比高能环保强很多。
研究上市环保企业的盈利能力,对改善环保实体经营状况,实现经济效益和社会效益双赢,提高自我发展能力,更好地为环保事业作贡献具有重要意义。高斯混合模型属于一种强大的无监督学习技术,常用于聚类。与其他聚类方法不同的是,高斯混合模型聚类是通过选择成分最大化后验概率来完成聚类,并使用迭代优化算法,最终实现收敛到局部最优。高斯混合模型聚类属于软聚类方法,它根据各观察点的后验概率描述它们属于各个类别的可能性。一个观测量属于各个类别并没有完全排除,都存在一定的概率,而不是完全肯定属于某个类。具有聚类准确性和效率高、对噪声数据不敏感等优点,适合于对距离或密度聚类反映不敏感,观察数据多、维度高、差异大等各种特征的聚类。利用高斯混合聚类对我国26家上市环保企业的盈利能力进行了聚类分析,归类较为客观准确,与这些环保企业实际经营状况基本吻合。
[1] 张发才,李喜旺,樊国旗.基于高斯混合聚类的风电出力场景划分[J].计算机系统应用,2021(1):146-153.
[2] 范敬雅,邹玉梅.基于EM算法的高斯混合模型的聚类分析——以2015年各省份GDP为例[J].发展研究,2017(6):52-54.
[3] 王一妹,刘辉,宋鹏,等.基于高斯混合模型聚类的风电场短期功率预测方法[J].电力系统自动化[J].2021(7):37-43.
[4] 尹楠.基于高斯混合模型的期望最大化聚类算法[J].统计与决策,2017(4):87-89.
[5] 熊伟,顾祥岐,徐从安.基于高斯混合EM聚类的多编队航迹起始方法[J].系统工程与电子技术,2019(11):2421-2430.
[6] 曹丹阳,孔淑麒,高磊.基于高斯混合模型的铝电解槽况聚类研究[J].轻金属,2020(2):26-30.
[7] 柴秀俊,王宏伟,王林,等.基于高斯混合聚类的切换系统的辨识[J].控制理论与应用,2020(12):1-7.
[9] 李佳玮,吴克河,张波.基于高斯混合聚类的电力工控系统异常检测研究[J].信息网络安全,2021(3):54-63.
[10] 何庆,易娜,汪新勇.基于高斯混合模型的最大期望聚类算法研究[J].微型电脑应用,2018(5):52-52+75.
Profitability Evaluation of Listed Environment Protection Enterprises Based on GMM
SHU Fuhua
It is of great significance to study the profitability of listed environment protection enterprises, to sum up their experience, to find out their deficiencies, rectify and to improve them, which will form a good atmosphere of learning and catching up, so as to promote the effective and powerful development of retail enterprises industry. Gaussian mixture clustering is soft clustering, which is based on probability and reflects certainty and stability from randomness and uncertainty. It belongs to the category of high level artificial intelligence, clustering is accurate and objective, and provides more detailed information. GMM was used to classify the profitability of 26 listed environment protection enterprises in China, and divides them into four categories according to their profitability. The results show that the classification is objective and accurate, which is basically consistent with their actual operating conditions.
environment protection enterprise; profitability; evaluation; clustering; GMM
舒服华(1964—),男,湖北武汉人,博士,教授,主要研究计量经济学。
湖北省自然科学基金项目“运筹学与统计学决策技术研究”(2019CFB174)。
TP391
A
1009-8135(2022)01-0064-09
(责任编辑:张建升)