吴红军,钟 韵,吴雨萱
(厦门大学 管理学院,福建 厦门 361005)
ESG是Environmental、Social和Governance三个单词的缩写,代表企业平衡地追求环境、社会和治理三个维度绩效的思想。高质量发展是保障企业持续健康发展的必然要求,寻找一条既保持经济增长又兼顾环境和社会的发展道路至关重要[1]。因此,ESG决策在中国企业的发展中将扮演越来越重要的角色。据统计,中国ESG责任投资在2022年市场总规模已经超过了24.6万亿人民币,较2020年增长近80%。目前,资本市场共有606支ESG公募基金,总规模约5 000亿元[2]。已有文献发现,ESG评级已成为投资者和监管者决策的重要依据,显著影响投资者回报[3]、公司的资本成本[4]和顾客购买意愿[5]。企业之间也因同行比较效应而根据ESG评级调整相关的ESG行为,而且经理人可能为了追求ESG评级而非理性配置公司资源[5]。就中国企业来看,优异ESG绩效可以降低企业资本成本、缓解融资约束,从而形成企业竞争优势[6]。
投资者和监管者在做决策时需要依据ESG评级数据,但研究表明不同评级机构对同一公司的ESG评级存在较大分歧[7]。这意味着对于同一家公司,不同评级机构的评级结果可能大相径庭,这可能会导致错误的决策结论。ESG评级分歧的问题威胁到了ESG评级的应用价值,也可能误导评级的使用者,从而引起政策制定者、投资者、经理人和研究人员的困惑和批评。那么ESG评级分歧的具体表现和原因是什么?实务界和学术界该如何应对这种情况?这些重要问题并没有得到充分的解答。因此,本文通过梳理ESG分歧的研究文献,试图总结ESG分歧的原因,对照检查中国的ESG评级分歧情况,并提出相关建议。
目前关于ESG评级分歧的研究,主要聚焦于以下几个方面。第一,关于ESG评级分歧表现的研究。其中突出的话题是欧美主流评级机构对大部分公司的ESG评级都存在改写现象①,这显示评级机构在ESG定义和衡量标准上存在很大争议[8-9]。在评级分歧的分解上,学者们将其分为测量、范围、权重分歧三个来源,其中测量对分歧的贡献最大[10]。Liu关于中国上市公司的ESG评级数据研究也发现评级机构对定量信息的分歧最大[11]。
第二,关于ESG评级分歧影响的讨论。从投资角度来看,学者们认为ESG评级分歧会影响可持续性投资决策[9]。较高分歧的公司存在更大的信息不确定性,因此会导致更高的风险溢价[12],对其股票的需求也会下降[13],且主要是由环境维度的分歧驱动[7]。部分学者也从融资的角度出发,发现ESG分歧阻碍了公司外部融资[14]。另有学者考虑到ESG评级作用本身,认为ESG分歧越大,ESG信息的市场反应就越小[15]。还有学者从投资者结构的角度出发,认为中外评级机构对我国企业ESG评级的分歧显著降低了外国投资者的持股比例,且对国有企业的负面影响更加显著[16]。
第三,关于ESG评级分歧的原因的讨论。Chatterji等提供了分歧的两个原因,ESG评级者选择衡量什么以及是否一致地衡量,即“理论化”和“可比性”[8]。马文杰和余伯健认为,国内外评级机构在国有与非国有企业ESG评级上产生分歧的原因在于,中外ESG评级机构对企业承担的稳定经济、保障就业等“隐性”社会责任以及是否按照国际标准进行信息披露的评价存在差异[16]。Berg等认为ESG评级产生分歧的原因是评级者对公司其中一个类别的感知会影响对其他类别的感知[10]。
ESG评级分为综合评级得分和单一维度评级得分。在这两个层级上,ESG评级的分歧都有体现。由于ESG是CSR(Corporate Social Responsibility)的扩充和升级,本文将两者结合分析。Chatterji等使用了6个主流CSR数据库[8],包括KLD、Asset4、Calvert、FTSE4Good、DJSI和Innovest,并对3 134个企业的CSR评级进行了分析。他们发现任意两个评级机构的CSR绩效优良的企业名单重合程度最低为19%,最高为60%,一致程度非常低,而且这种分歧在调整了评级机构对企业社会责任定义的差异后也没有减小。在评级得分方面,任意两个评级机构之间的平均相关系数最低为0.13,最高为0.52。除了KLD和Asset4之外的其他4个评级机构,都是以二分法(好或差)来呈现评级结果。为了验证这4个评级在CSR的定义和测量方面是否具有一致性,Chatterji等首先将每个公司的Asset4评级得分标准化,使其均值为0,标准差为1。然后,他们计算六个评级机构的社会责任指数板块的成员和非成员公司之间的Asset4连续得分均值的差异。成员公司是指CSR绩效好而被评级机构纳入其所构建的社会责任指数的公司。如果这些评级机构具有相同的定义和测量方法,那么他们的成员与非成员之间的得分差异应该彼此接近。以2006年来看,Asset4的指数成员与非成员之间的差距等于1.80标准差。但同一年,FTSE4Good的指数成员与非成员之间的差异仅为0.90标准差,KLD的为0.26标准差。Calvert指数成员的Asset4得分甚至显著低于非成员。该文指出,研究人员发现评级机构在CSR定义和测量方面存在不一致性,这可能导致他们以不同的方式衡量相同的概念,进而影响相关实证结果的有效性。因此,使用者在解释评级数据与实际CSR绩效之间的关联时应该谨慎,同时评级机构也应该经常评估其评级得分的合理性[8]。
Berg等使用了6个大型的ESG评级数据库(KLD、Sustainalytics、Moody's ESG、S&P Global、Asset4和MSCI)的评级,并以数据最齐全的2014年为基准年,以6个数据商都包括的924家企业为分析对象,进行了ESG评级分歧问题的研究[8]。他们计算了这6个数据商ESG评级的综合评级得分的一致性系数(Krippendorff's alpha),结果为0.55,低于0.667的阈值,说明6个数据商的ESG综合评级得分之间一致性很低,分歧很大。此外,他们计算了各数据商的ESG评级得分之间的皮尔逊相关性系数,发现平均为0.54,范围为0.38至0.71,说明没有两个数据库的综合评级是非常接近的。最后,他们计算了不同评级机构在环境、社会和治理三个维度方面的维度评级得分的皮尔逊相关系数,发现环境维度在三个维度中具有最高的相关性,平均值为0.53。社会维度的平均相关系数为0.42,治理维度的相关性最低,平均为0.30,且多次出现接近于0的相关系数。KLD和MSCI与其他评级机构的相关性最低,无论是综合ESG评级还是单个维度。总体而言,这些结果与Chatterji等2016年和Brandon等2021年的研究所报告的ESG评级相关性的结论一致[10]。
Berg等还发现,由于ESG评级的分歧,难以准确评估公司ESG绩效的相对优劣。因为不同的评级机构会对同一家公司给出截然不同的综合评级得分和排名。某个公司被Sustainalytics评为ESG绩效排名前10%,但在其他评级机构的排名中却可能是中间偏后的位置。这意味着,对于同一组公司,使用不同的ESG评级数据可能会得出相反的结论[10]。
评级的分歧,来自“量什么”和“怎么量”。前者侧重于对ESG概念的理解,表现为范围(Scope)的差异。后者侧重于测量指标的选择和运用,表现为测量(Measurement)和权重(Weight)的差异。
Berg等发现每个评级机构对ESG应该具体包括哪些内容理解不同,提出的指标也不同。例如,Moody's ESG、S&P Global、MSCI和Sustainalytics各有三个维度,Asset4有四个维度,KLD有七个维度。这些ESG评级的各维度由38到282个数量不等的指标(Indicator)构成。这些指标除了可以分成生物多样性、员工发展、能源、绿色产品、健康与安全、劳动实践、产品安全、薪酬、供应链和水等评级机构共有的主题类别(Category)外,还有许多各评级机构特有的主题类别。这就让评级使用者很难理解不同的评级机构为什么以不同的考察范围评估同一家公司的ESG绩效[10]。
Berg等发现评级机构的测量方法也存在差异。例如,不同数据库之间评估公司环境政策的得分平均相关系数仅为0.55。即使是最简单明确的指标,各机构的测量结果也不都具有高度的相关性。例如,公司是否加入联合国全球契约和CEO(Chief Executive Officer)是否兼任董事主席这两个指标,都是明确易得的信息,但各机构对这两个信息的评分相关系数的平均值居然分别为0.92和0.59。此外,还存在若干负相关,例如Sustainalytics和Moody's ESG之间在“游说”项目,以及Sustainalytics和Asset4之间在“土著权利”项目上的评分等。这说明各数据库都存在明显的测量误差。另外,不同层级上的分歧程度也存在差别。例如,水和能源类别的评级得分平均相关系数分别为0.36和0.38。这远远低于更高一层级的环境维度评级得分的相关性,这可能意味着在从小类别向大类别的聚合过程中,不同小类别的测量误差在一定程度上相互抵消。另外一个可能的解释是,评级机构在一个类别中对公司的测量标准相对严格,在另一类别中则相对宽松,但加总之后的综合评级得分反而相关性更大[10]。
Berg等发现,评级机构之间在加总各个类别的得分时,对各个类别实施的权重差异很大。例如,KLD权重最大的三个类别是气候风险管理、产品安全和薪酬,而Moody's ESG则是多样性、环境政策和劳动实践。这意味着这两个评级者对何为最重要的类别的判断完全不同。只有资源效率和气候风险管理是多个评级机构公认的重要类别[10]。
Berg等使用评级得分间的协方差来度量评级机构之间的分歧程度,这个协方差可以分解为测量、范围和权重三个方面的协方差之和。将每个方面的协方差除以评级的协方差,可以得到各个方面对评级差异的贡献。平均而言,测量、范围和权重三个方面分别对评级差异的贡献是56%、38%和6%。因此,超过一半的ESG评级差异可以归因于ESG评级机构的测量方法。Berg等2022年的分析显示,在比较各评级机构对同一公司ESG评级的两两差异时,测量分歧平均为0.56个标准差,最低为0.17,最高为0.79个标准差。范围分歧平均为0.38个标准差,变化范围为0.12~0.81个标准差;权重分歧平均为0.06个标准差,变化范围为-0.10~0.22个标准差。在以综合评级得分为被解释变量并使用回归方法进行解释时,Berg等2022年的分析发现测量分歧和范围分歧平均贡献是相等的,测量和范围对回归的R2的增加平均都是0.25的贡献,而且都在0.14~0.35之间波动;权重仍然是最小的贡献者,它平均解释了回归的R2增加的0.03,在0.01~0.04之间波动[10]。
ESG分歧对市场投资者、理论研究者以及企业等都会造成重大影响。首先,ESG评级的分歧会导致ESG表现不太可能准确反映在公司股票和债券价格中,因为投资者面临识别ESG业绩优异者和落后者的较大挑战。Cort等的研究表明,投资者的偏好可以影响资产价格,但只有当市场中足够大的一部分投资者持有并实施一致的非金融偏好时才会如此[17]。因此,即使很大一部分投资者对ESG表现有偏好,评级的分歧也会分散了这些偏好对资产价格的影响。
其次,评级的分歧对实证研究提出了挑战,因为使用不同的数据库可能得到的研究结果和结论也会不一样。不同评级机构对同一公司的ESG评级存在较大差异[18],而即便是同一评级机构也可能持续改写同一公司的已有评级,这就导致学者们在ESG方面的研究无法形成准确统一的结论[19]。
最后,分歧挫伤了企业提高其ESG表现的动力,因为它们从评级机构那里收到了关于哪些行动是预期的并将被市场所重视的混乱信号[18]。这使得公司在这些方面无论是采取积极还是消极的ESG表现,都将获得差别很小的ESG评级。因此,企业往往会选择消极的处理方式。此外,由于外部资金提供者无法依据分歧明显的评级数据确认公司的ESG风险,面临更大ESG评级分歧的公司不太可能获得外部融资,只能更多地依赖内部融资。随着时间的推移,ESG评级分歧对这些融资结果的影响也越来越大[19]。
Berg等指出,分歧的根源在于评级者效应,即一个评级者在一个类别中给出较高的评价,更有可能在同一公司的其他类别中也给出较高的评价;反之,如果某个类别被一个评级者评价为差,那么该公司其他类别也更可能被该评级者评价为差。这种现象可能是因为被认为良好的公司会从积极的角度看待问题,并获得更高的得分,反之亦然。此外,评级者效应的另一个潜在原因是公司的ESG披露意愿,即公司对于各项指标的回答程度可能会影响评级结果。如果公司在问卷中没有回答某些问题,一些评级者可能会给出较差的评价,即使公司的实际绩效并不差。Berg等发现,评级者效应可以解释类别得分变化的15%至16%[10]。
Christensen等认为信息披露效应可能导致评级分歧。当企业没有披露某项重要问题的信息时,评级机构可能会认为缺乏披露是一个负面的信号,从而将该公司的相应绩效推定为低劣[14]。而如果一个行业的大多数公司都没有披露某种信息,评级机构则可能认为缺乏披露是因为该披露相对不重要,从而将该公司相应的绩效推定为行业平均水平[18]。如果公司披露更多的信息,ESG评级机构使用各自的指标来评估公司在同一事项上表现的可能性会增加,从而导致更大的评级分歧[20]。
Christensen等的研究提供了证据支持这个观点。他们选取了2004年到2016年间,MSCI、Asset4和Sustainalytics三个数据库中的5637家公司,共30700个公司年度观测值,用实证方法检验了公司ESG信息披露与ESG评级分歧之间的关系,发现以下几点:第一,过去20年中,随着ESG披露数量的大幅增加,公司的ESG评级分歧程度也出现了大幅增加。第二,ESG信息披露水平与评级分歧之间存在很强的正向关系,即更多的ESG披露会导致更大的评级分歧。第三,ESG不同维度的信息对分歧的影响方式不同。第四,在评估输入指标时分歧最小,在评估结果指标时分歧更大。当一个评级者评估的是输入指标而另一个评估的是结果指标时,分歧最高。第五,当引入强制信息披露政策的外生冲击后,企业的ESG信息披露水平明显提高,而ESG评级的分歧也明显提高[14]。
社会起源效应指的是评级机构在可持续性概念的理解、重要性定义以及专业化方面的差异,导致评级结果出现分歧。同时,ESG测量指标、方法、产品和服务的反馈作用也会进一步影响这些评级结果。ECCLES等提出,数据提供商对ESG的理解往往受到其对可持续性概念的框定影响。此外,评级机构创始人的专业背景和动机也会对其对可持续性概念的理解产生印记。大部分数据提供商在早期的产品中都有特定类型的客户,这些早期客户的兴趣和偏好也可能会对数据提供商进一步调整ESG评价体系产生影响[17]。ECCLES认为数据供应商对重要性定义的选择受到“重大问题和重要利益相关者”这一社会起源的影响。根据他们的观察,ESG评级组织可以分为两类,即价值驱动型组织和价值导向型组织。前者侧重于帮助投资者获得财务回报,后者侧重于过程和战略性社会责任等问题。这两种类型的组织对ESG中关键指标的定义存在差异。ESG数据提供商的专业化程度对ESG市场中数据提供商的战略定位、产品和服务都会产生影响。专业化表示组织在一个或多个领域具有特别强大的专业知识。这些专业知识与数据提供商的早期焦点、产品组合以及收购、兼并和合作等社会起源有关,最终影响ESG评级的方法和结果。
王凯和张志伟发现,我国现有的ESG评级系统存在信息披露质量差、评级结果不一致等问题[21]。沈洪涛等发现我国ESG评级能否提供价值相关的信息这个问题虽然开始引发关注,但结论并不一致[22]。为加强对我国ESG评级分歧的研究,我们分析了中国经济金融研究数据库(CSMAR)、万得数据服务(Wind)和中国研究数据服务平台(CNRDS)三个数据库的ESG评级数据。其中,CSMAR中的ESG评级,是来自商道绿融的第三方独立评级数据。我们筛选出三个数据库共有的样本,得到2018到2020年间322家公司的775个年度ESG评级数据。CSMAR和Wind均提供了每个观察值的ESG评级总分,以及环境、社会和治理各个维度的评级分数。CNRDS提供了6个维度的评级分数,但我们将其环境和治理两个维度之外的其他四个维度的评级分数加总后归为CNRDS的社会维度分数。由于没有详细资料,且三个数据库的评分方法差异较大,我们只比较分析了三个数据库提供的ESG综合评级分数,以及环境、社会和治理三个维度的评级分数,三个综合评级的分数大致呈现钟型分布,具体情况见表1。
我们将当年的综合评级分数减去前一年的综合评级分数,然后再除以前一年的综合评级分数,作为ESG综合评级分数的波动指标,结果见表2。
表2 评级总分年度波动情况
从表2中的均值和中位数可以看出,除了CNRDS的综合评级分数在2020年有明显的增加外,各个数据库的ESG的波动指标非常接近0。总的来说,这三年各个数据库的ESG评级分数基本保持不变,比较稳定。
为了便于后续的数据分析,我们对原始评分进行了归一化处理,即先减去最小值,再除以最大值与最小值的差,这样所有的评分都处于0到1之间,见表3和表4。
表3 ESG评级总分的相关系数和信度
表4 ESG各维度评级总分的相关系数
从表3的ESG相关性系数可以看出,CSMAR与Wind的评分比较接近,相关系数达到了0.519,表明两者在一定程度上评级得分相互重合。但是,从表4的各个维度的相关系数来看,CSMAR与Wind的三个维度的相关系数相比其他同类的维度相关系数都是最低的,也大大低于这两个数据库评级总分的相关系数。这说明在中国的ESG评级中,从各个维度的评分向ESG总分的汇聚过程中,出现了各个维度的分歧相互抵消的情况。从信度分析来看,表3报告了数据库评级之间的Krippendorff's alpha系数,这些数字远远低于0.667的门槛值,说明三个数据库之间的分歧比较大。
根据数据库的说明,CSMAR的ESG评级包括13个类别,并分解成200多个指标,数据源超过1 000个。CNRDS的ESG评级包括6个类别,并分解成58个指标。Wind的评级包括25个类别,指标超过300个,数据源超过22 000个。这样看来三个评级涵盖的范围明显不同。由于Wind没有提供详细的资料,我们以CNRDS和CSMAR中含义相同的“公司治理”为例进行分析。
CNRDS的公司治理指标包括CSR报告全面性、CSR报告页数、是否设置CSR网页、是否建立CSR领导机构、是否建立了CSR愿景、是否进行了CSR内部培训、每股社会贡献值、CSR的认证、公司治理的其他优势,以及是否有会计违规共10个细项。而CSMAR的公司治理的指标包括是否披露ESG信息、董事工资、董事会多样性、董事长和CEO分权、董事会独立性、独立薪酬委员会、独立审计委员会、CEO和员工工资比例、董事和高管薪酬、审计独立性,以及公司治理负面事件共11个细项。可以看出,CSMAR的公司治理概念涵盖的范围大得多:CNRDS大体上限于与CSR有关的治理;而CSMAR不仅包括ESG信息,还涵盖公司日常运营中高管权力制衡和薪酬激励等方面的治理。
由于Wind只提供了环境、社会和治理三个维度的评级分数,因此无法进行ESG评级测量差异的分析。本文以CNRDS的3.5.2指标(环境关注)和CSMAR的E3指标(环境负面事件)来进行分析,因为这两个指标都是指环境负面事件,概念的重叠性很高。
根据数据库说明书提供的测算方法,我们发现,两个数据库都是采用列举法,如果企业发生了所列举的某个事项,则按规则计算环境负面事件的指标分数。但由于列举的事项和计分的规则不同,同一事件不同的ESG评级机构给出的得分也就不同。比如,公司污水排放严重超标且被公开处罚,则CNRDS得分为2。而同一事件,CSMAR的得分为1,比CNRDS的测量值少了50%。从这里可以看出,测量的差异是导致中国企业ESG评级差异的重要原因之一。
本文分别对三个数据库的评级分数,用总分对各个维度的评级分数进行不带截距项的回归,用系数的大小来判断各个数据库对不同维度的权重,可以发现,三个数据库对各维度的权重大不相同,具体情况见表5。
表5 权重分析
由表5可知,CNRDS中社会维度的权重最大,几乎是其他两个维度权重的3倍,而环境和治理维度的权重几乎相同。CSMAR中环境的权重最大,几乎是社会和治理维度权重的2倍,而社会和治理两个维度的权重几乎相同。对于Wind,社会维度的权重最大,约是环境维度权重的3倍。其次是治理维度,它的权重是环境维度的150%。
本文参照Christensen等[14]的研究,将ESG评级分歧对披露水平进行回归,检查是否披露得越多,ESG评级分歧就越大。首先将每个评级机构的ESG评级总分各自进行标准化,统一评级总分的量纲,然后计算每个企业每年所有评级总分的标准差,作为企业当年评级分歧的度量。ESG披露水平(ESG_Disclosure)选用企业当年ESG报告的页数。ESG报告的格式都比较接近,因此页数大体反映了披露的多少。不用内容分析法计算披露水平的原因,是因为前面所讨论过的指标体系存在争议。控制变量包括企业ESG平均评级得分(ESG_Avg)、规模(Size)、总资产报酬率(ROA)、市净率(BTM)、资产负债率(LEV)、分析师追踪(Analysts)、机构投资者持股比率(IO)。从表6报告的回归结果可以看出,无论是否控制个体固定效应,ESG披露水平的系数都显著为正,说明披露越多的企业,其ESG评级分歧越大,支持了信息披露效应假说。
表6 信息披露效应分析
以上研究表明,目前国内外的ESG评级数据存在着显著分歧。这种分歧不仅在综合评级分数上表现明显,而且在各个维度的评级分数上也同样存在。分歧的来源主要包括范围、测量和权重方面的不同。据已有文献分析,这种分歧的原因可以归结为评级者效应、信息披露效应和社会起源效应。在对中国三大数据库的ESG评级数据进行分析后发现,评级的数据年度变化不大,综合评级的相关性较低,但比维度评级之间的相关性要高。在权重方面,CSMAR对环境的关注最大,而CNRDS和Wind对社会的关注最大。
在面对ESG评级分歧的形势下,本文建议如下:
对于评级机构而言,首先,可以考虑将环境、社会和治理三个子维度向评级总分合成,三个子维度的权重都为1/3,可以避免在每个维度的权重方面的争议,为未来各个数据库评级的趋同提供相同的基础。其次,引入更多基础指标,提高评级的稳定性。再次,可以将连续型和多类别的指标标准化,以将数量性指标与质性指标放在同一个层次上使用,减少排位值的争议。最后,重点监督这两个层级的评级标准的合理性,提供数据生成的详细说明,便于外部人进行选择。
评级的使用者可以积极关注ESG概念和评级方式的研究,理解ESG评级数据的产生原理和过程,推动制定合理且统一的ESG评级体系,以减少分歧所带来的负面影响。同时,使用者应根据研究目的和应用方式选择适合的数据。例如,在本文所关注的三个中国数据库中,若考察与公司社会责任相关的研究,可选择赋予社会维度更高的权重给Wind和CNRDS;若考察与环境有关的研究,可选择赋予环境维度更高的权重给CSMAR的ESG评级。另外,使用者可以将评级调整视为公司基本面信息变化,并根据所有追溯调整后的数据进行研究和分析。最后,相关的ESG研究应使用不同的评级数据进行稳健性检验,以提高研究结论的说服力。
注释:
①参见BERG F, FABISIK K, SAUTNER Z. Is History Repeating Itself? The (Un)Predictable Past of ESG Ratings in SSRN Working Paper, 2021.