基于符号回归的雾霾污染与经济发展关系研究

2021-02-01 06:24张宇航
关键词:适应度象限省份

李 爽,张宇航

引 言

中国自改革开放以来,工业化和城市化进程突飞猛进,一跃成为世界第二大经济体。中国政府以GDP为主要考核指标,施行相对绩效式的官员晋升考核制度,激励了地方及中国经济的迅猛发展(何爱平等,2019),但这同时也造成了地方政府以GDP为唯一目标,经济增长优先于一切的思想(陈刚,2009)。这种粗放式发展带来了诸多环境问题,于21世纪初逐渐显露并被中国政府所重视。空气污染已成为中国面临的最严重的环境污染问题(Apte et al,2015),雾霾天气频发给社会经济运转和人民身体健康造成了极大的困扰。面对大气环境日趋恶化的现实,中国政府积极采取措施平衡经济发展与环境保护的关系。因此,有必要探求经济发展与雾霾污染的关系,以制定合理对策,更好地加强生态环境保护,建设美丽中国。

雾霾在中国分布广泛,它不仅仅存在于北京这样的一线城市,而且覆盖范围达到140多万平方公里,影响着超过800万的人群(Xu et al,2013),中国的30多个省份都存在雾霾灾害(Wang et al,2015)。已有大量研究表明雾霾中的细颗粒物严重影响人体健康,Zhou et al(2017)实验发现反复暴露于PM2.5环境将导致人们受哮喘或是支气管炎的困扰,甚至导致肺部的纤维化以及肺癌(Xu et al,2013)。有专家称肺癌的第一诱因不再是香烟而是雾霾(Xu et al,2013)。PM2.5还极有可能引起过早死亡,在中国74个较发达城市中,32%的死亡人口与PM2.5有关(Apte et al,2015;Wang et al,2015)。雾霾天气的危害大,范围广,又极其频发,引起了公众的高度关注。

学术界通常用环境库兹涅茨曲线(EKC)来衡量经济增长与环境污染的变动关系。环境库兹涅茨曲线于20世纪90年代由Grossman et al(1991)提出,他们认为污染排放量随着经济的发展先增大后减小,呈非线性倒U形。认同EKC假说的学者认为,早期的经济发展忽视了生态保护,工业化进程会造成较严重的环境污染,而随着经济进步,生活质量得以改善,人们会认识到生态保护的重要性,着手治理并逐步降低污染。

但是EKC假说是基于部分发达国家的数据基础上统计分析出来的(林伯强,2009),许多学者用不同的数据对倒U形的EKC曲线进行验证或提出质疑(陆旸,2012)。Farhani et al(2014)用十个国家的面板数据,证实在这些国家中环境污染和收入呈现倒U形曲线。Ulucak et al(2018)使用生态足迹作为因变量,研究环境与收入间的关系,分别验证了在高、中、低收入国家,都存在倒U形EKC曲线。还有Miah(2010),Park(2011),Bimonte(2017),Ahmed(2012)等人分别使用硫化物、CO、CO2等的排放量和土地消耗量作为因变量研究时,环境污染与经济增长间存在倒U形曲线。但有些学者使用相同的变量、不同的数据或计量模型时,得出了不同的结果。Miah(2010)认为CO与经济增长的关系应是单调直线函数。在Park(2011)的研究中,NO2和SO2和经济增长呈N形曲线。Wang(2018)和Diao(2009)等人的研究都表明在中国环境污染和经济发展之间存在N形EKC曲线。Roberts(1997)认为倒U形EKC曲线在高收入国家是存在的,而在欠发达地区是不成立的。Dong(2016)使用MRIO模型研究发现经济发展并未导致收入与污染排放产生倒U形关系,欠发达地区的EKC是线性增加函数。

由于各学者选择的代表变量不同,或是采用的计量模型不同,实证研究的结果也不尽相同(陈诗一等,2019)。有研究者认为事先做出不同国家的EKC曲线轨迹相同的假设是不合理的(余东华等,2016),有必要区分研究各类型污染物和不同国家间EKC曲线的有效性,以便不同地区针对各污染物制定相应政策(Kaika et al,2013)。目前大多数的研究方法采用城市化率或人均生产总值作为自变量,而代表环境污染的因变量选择更丰富,如氮氧化合物、二氧化硫、臭氧、二氧化碳等,但这些指标不包含严重影响人体健康的空气颗粒物的信息,也不能更全面反映空气污染状况。PM2.5浓度能够更好地反馈空气污染的程度,因此选取PM2.5作为代表环境污染的因变量,研究中国空气污染与经济发展之间的关系。

目前以PM2.5作为因变量的EKC相关研究较少,而且很多是以国家为单位来进行分析。中国地区范围广,经济发展不平衡,已有的研究不一定适用于中国的各个省份。也有少部分学者对中国进行了分地区研究,Du et al(2018)构造了参数估计模型,分组研究中国雾霾污染与经济增长间的关系,并认为中西部地区二者呈N形关系,而东部地区关系不显著。Xie et al(2019)采用半参数空间自回归的计量模型,验证了中国城市PM2.5浓度与经济增长间存在倒U形的EKC曲线,但作者仅使用了2015年数据,时间序列较短,而EKC曲线的验证往往需要长时间的跨度。本文将使用中国1998—2016年31个省份的数据,对每一个省份的EKC曲线存在性都进行验证研究。

此外,已有的研究基本都采用计量模型,即先假设后验证的方法。但Kaika(2013)等众多学者对使用计量方法来验证EKC提出了质疑,他们认为单独的GDP系列是非平稳变量,而不满足协整属性的变量可能造成“虚假的”回归,在这些研究中的任何发现都值得怀疑(Müller-Fürstenberger et al,2007)。本文采用的符号回归方法,不需要事先做出假设,而是从数据驱动角度寻找最优的函数模型解。

综上,使用新的方法分地区研究中国雾霾污染与经济发展的关系,对中国可持续、健康发展具有重要意义。

一、 方法与模型

(一) 符号回归

本文使用基于遗传编程的符号回归方法来研究中国雾霾污染与经济发展间EKC曲线的存在性。符号回归是一种主动式挖掘数据样本间关系的机器学习方法,它能够拟合输入与输出变量间的函数关系式,建立可解释模型。基于遗传编程的符号回归在物理学、地理学、能源、环境经济学等多个领域已经得到成功应用(Pan et al,2019;Schmidt et al,2009;Vladislavleva et al,2013;Wu et al,2008;Yang et al,2015;Yang et al,2015)。

符号回归并不是传统的回归方法。传统的数值回归方法需要根据经验先假设出变量关系为线形或非线性模型,再将数据带入估计变量参数,若回归结果不符合模型假设,则需要调整模型重新回归。传统的回归方法不仅灵活度差、效率低下,而且很难寻找到最优模型。同时,深度学习与符号回归相比,深度学习需要大量的数据支撑,而且建立的模型往往难以理解,是模糊、高维的隐式数据模型,而符号回归能够从较小的数据集中发现规律,建立较精确的显式可解释模型。因此,符号回归更适用于本文的研究,能从数据样本深入背后寻找产生数据的系统的运作规律。

本文使用遗传编程算法来进行符号回归求解。遗传编程是对遗传算法的突破发展,于1920年由斯坦福大学的Koza提出,是一种模拟生物进化过程的自动寻优算法。遗传编程算法是根据优胜劣汰的法则,不断进行复制、交叉、突变等遗传行为,使初代种群自动进化,直至找到满足最优化准则的解决办法。遗传编程算法迭代求解流程如下:

Step 1 随机产生初始种群,每个个体即为染色体的基因。

Step 2 对种群中每个个体进行适应度计算,判断是否满足最优化准则,若满足,则输出最优个体,并结束,若不满足,则进行下一步。

Step 3 根据一定概率进行如下操作:

Case 1 选择复制,从父代种群中选择优良个体复制到子代种群;

Case 2 交叉,从父代种群中挑选两个个体进行交叉形成新个体加入到子代种群;

Case 3 变异,从父代种群中挑选一个个体进行变异形成新个体加入到子代种群;

Step 4 由选择复制、交叉、变异形成新的子代种群,返回Step 2。

(二) 模型说明

符号回归不需要事先作出假设,而能根据输入、输出拟合出一系列的候选模型及其参数。我们常使用复杂度(C)、适应度函数(R2)、平均绝对误差(MAE)来评价候选模型的优劣。复杂度(C)代表候选模型的复杂程度,符号回归中我们常用二叉树结构中所有节点的个数来表示(Smits et al,2005),Keijzer和Foster将这种复杂性度量称为访问长度,表明它是路径长度的近似值(2007)。图1所示为函数模型a*GDP2+b*GDP的二叉树结构,其包含节点9个,则该函数模型的复杂度为9,即C=9。

图1 a*GDP2 + b*GDP二叉树结构

适应度函数(R2)是对候选模型的精度度量,本文使用公式(1)的计算方法,其中y(x)表示因变量的实际值,f(x)表示因变量的预测值,这种计算适应度的方式类似于平方误差,但是其将输出的标度进行了归一化,R2取值范围为0—1,R2越接近于1,则模型越精确。

(1)

平均绝对误差(MAE)也是用来衡量模型精度的常用指标,计算方法如公式(2)所示。y(x)表示因变量的实际值,f(x)表示因变量的预测值,MAE是对残差绝对值的平均,能够反映实际值和预测值的误差大小而不会出现正负抵消的情况。

(2)

一般来说,符号回归进化的时间越久,复制、交叉、变异的次数越多,其得到的模型精度越高。虽然我们的确追求更高的适应度、更小的误差,但是我们也需要控制模型的复杂度,防止出现过度拟合的现象。当拟合过度时,模型会尽可能地贴近历史样本数据,而忽略了整体趋势。帕累托最优解能够同时平衡模型的精度和复杂度,我们能够根据帕累托前沿来判断精度的增益是否值得增加复杂度(Smits et al,2005)。在符号回归进化中,当模型的复杂度呈跳跃式增长,而精度只有微小的提升时,我们认为这是不值得的。图2以北京市的数据拟合过程为例,展示了符号回归进化中的帕累托前沿和帕累托最优解。

图2 符号回归中帕累托前沿示意图(以北京市为例)

二、 变量及数据

本文的自变量选取人均GDP、因变量选取PM2.5浓度来研究雾霾污染与经济发展的关系。如引言中所述,当选取不同的变量时,所得的模型也会有差异,而对不同的污染物进行分析也是有必要的。本文使用PM2.5浓度做为因变量,PM2.5浓度不仅能更为综合地反映大气污染信息,也弥补了以往EKC研究忽视大气中颗粒污染物的不足。PM2.5不仅是一种自然现象,其更多地取决于人类社会活动,人口和经济产出是影响PM2.5最重要的两个因素(Zhang et al,2019)。因此在研究空气污染与经济发展关系时,将人均GDP作为自变量是更好的选择。

本文数据的时间跨度为1998年至2016年,PM2.5数据由哥伦比亚大学国际地球科学和信息中心提供,人均GDP数据来自于各省份的统计年鉴,以1998年为基期,按各省份的人均GDP指数计算整理得到1998年至2016年的31个省份实际人均GDP。对选取变量按公式(3)进行自然对数化处理,为增强拟合优度,将自变量和因变量分别按公式(4)和公式(5)进行归一化处理。

ln(x)=f[ln(y)]

(3)

x=(x-minx)/(maxx-minx)

(4)

y=(y-miny)/(maxy-miny)

(5)

三、 结果及分析

(一) 实验结果

本文基于符号回归方法对中国31个省区市的数据分别进行拟合,筛选帕累托最优模型。在研究过程中,为了实验效率及保障实验结果的有效性,设置以下阈值:

(1) 复杂度:1

(2) 适应度:R2>0.7;

(3) 平均绝对误差:MAE<0.1。

表1 排名前4的模型

显然,不存在统一的模型来描述中国各省份雾霾污染与经济增长间的关系,但也有些模型有比较好的通用性。通过分析表1的拟合结果,我们可以得到如下结论:

(1) 中国雾霾污染与经济增长广泛存在着倒U形关系。如表1所示,函数模型M1:y=-ax2+bx+c适应的省份最多,能够适用于21个省份。且在这21个省份中,平均适应度达到0.785,平均绝对误差只有0.092。M1模型是典型的倒U形模型,这表明Grossman和Krueger提出的EKC假说在中国大部分地区也具有较好的适应度。

(2) 中国雾霾污染与经济增长存在N形关系。模型M2、M3、M4都是N形模型,且这三种模型在适应度与平均绝对误差两方面都优于模型M1。在以往的研究中也有部分学者得出中国环境污染与经济增长为N形关系的结论(Diao et al,2009;Wang et al,2018)。从形状上看,N形模型比倒U形模型多了一段向上增长的末端。N形模型意味着,在雾霾污染与经济发展的关系演变中,雾霾污染先随着经济发展不断加剧,随后随着经济进步有所减缓,污染减缓到一定地步会触底反弹并继续加重。

(3) 部分地区同时拟合出倒U形模型和N形模型。在部分地区拟合的过程中,符号回归首先拟合出倒U形模型M1,但是随着拟合时间的增加,符号回归进化出复杂度更高且精度更优的N形模型。以下是对同时拟合出倒U形模型和N形模型情况的详细分析。

以上海市为例,上海市同时拟合出了模型M1(倒U形)和模型M2(N形),表2是上海市数据进行拟合的模型结果。

表2 上海市拟合结果

图3和图4是以上海市为例,两个不同模型的曲线拟合图。如图3所示,模型M1只存在一个拐点,即雾霾污染量随着经济的发展已达到最大值,并逐渐下降。而在图4的拟合曲线中,模型M2有两个拐点,雾霾污染量先随着经济发展达到一个峰值,然后污染排放量有所减缓,污染减少到一定程度后又随着经济发展而加大。在以往的计量研究方法中,若事先假设了上海市为模型M1,并且实验结果显著,容易得出上海市环境与经济关系为倒U形的结论,而不能得出符号回归进化得出的N形模型M2。但从表2的拟合结果来看,无论是适应度还是平均绝对误差值,模型M2都要优于模型M1,更适合描述上海市的情况。从实际情况来看,自政府对空气污染着手治理以来,上海市的雾霾污染程度随人均收入的增长有所缓和并略微下降,但由于前期快速的城市化和工业化进程,使得我国东部集聚了大量的污染型工业企业,且随着人们日益增长的需求,汽车保有量、生活能源消耗等不断增长,而这些都是PM2.5的主要来源,因此近年来上海的PM2.5浓度呈现出再次上涨趋势(Wang et al,2018)。

图3 模型y=-2*x2+2.72*x

图4 模型y=3.42x3-7.06x2+4.43x

(二) 地理区域与拟合模型

本次研究拟合出的四种模型都为倒U形或N形。从地理区域来看,模型形状种类大致呈东、中、西分布,而非南北分布。模型为倒U形的省份大多集中在长江以南的省份,包括重庆、湖北、湖南、贵州、广西、广东以及北方的内蒙古和辽宁。倒U形模型表示这些省份的雾霾污染呈先增大后减小趋势。模型为N形的省份包括新疆、西藏、青海、陕西、河北、黑龙江。这些呈N形的省份雾霾污染仍在不断加剧。而东部沿海及华北地区相对发达的省份,大多同时拟合出U形和N形模型,包括北京、天津、山东、江苏、上海、浙江、福建等。虽然倒U形模型在这些省份表现出较好的适应度,但近年雾霾污染有微弱的上升趋势,导致这些省份同时拟合出了适应度较高的N形模型。不过现阶段的上升趋势尚不明显,所以这些省份同时拟合出两种不同模型。同时拟合出两种不同模型意味着这些省份正处于关键节点,未来的经济发展模式及环保手段将决定模型的走向。

(三) 经济水平与拟合模型

本部分探求模型种类与经济现阶段的发展水平是否有着某种关系,即在确定的经济水平下,能否找到一种固定的模型来解释所有地区雾霾污染与经济发展之间的关系。笔者根据2016年各省人均GDP数据,使用K-means聚类法,将31个省份的经济水平划分为4组,并统计各经济水平下模型M1—M4的表现,结果如表3所示。表中数据显示,该模型适用于此类经济水平中的省份数量与此类经济水平省份总数的比值,括号内的数据为该模型在适用省份的平均R2值。加粗标注的表示该模型在此类经济水平下拥有最好的适用度。

表3 经济水平与拟合模型

横向比较,模型M1分别在高收入、较高收入和中等收入组适用比例最高,模型M2在较低收入组适用比例最高。由表3可见,倒U形模型的确具有最广泛的适用性,能够较好地描述不同经济状况下不同地区雾霾污染与经济发展的变动关系。在中国的省份中,倒U形模型能够以0.756的平均R2值描述所有的高收入省份,以0.796的平均R2值描述所有的较高收入省份,以0.754的平均R2值描述83%的中等收入省份。倒U形模型虽最具有通用性,但在一些省份,精度不如其他模型可靠。将模型M1与其他模型横向比较,比如在较高收入类别中,模型M2有0.5的适用度,低于模型M1,但模型M2在较高收入省份中的平均R2值为0.852,在精度上要优于模型M1。

图5纵向比较了模型M1—M4在不同经济水平下的适用情况及拟合优度,其中实线表示模型在各类收入水平下的适用比例,虚线表示模型在适用省份的平均R2值。模型M1随着经济水平的提高,适用比例随之增高,平均R2值保持在0.75以上。模型M2在高收入、较高收入和较低收入水平下都有良好的适应比例,且拟合优度更好,平均R2值在0.8以上。模型M3适用于30%左右的较高收入水平和较低收入水平省份,在高收入和中等收入水平下,模型M3完全不适用。与模型M3相反,模型M4能较好地适用于高收入和中等收入水平的省份,而几乎不适用于所有的较高收入和较低收入水平。

图5 模型M1—M4适用情况

(四) 污染程度与拟合模型

拟合出的模型存在倒U形和N形两种关系,但不同省份的雾霾污染状况不同,因此应针对各个省份因地制宜地制定政策。根据四象限分析法,选取最优模型形状与PM2.5浓度两个关键值将中国省份雾霾状况分为四组,并分别给出相应建议。省份分组情况如图6所示,横轴以PM2.5浓度来分组,纵轴按模型形状分组。中国环保部发布的《环境空气质量标准》中制定的PM2.5年度均值应不大于35 μg/m3,这也是WTO建议的过渡期国家最宽松的标准。因此,以PM2.5浓度35 μg/m3为分界线,将省份分为PM2.5浓度低和浓度高两组。纵轴按照省份拟合出的最优模型形状分为倒U形和N形两组。部分省份同时拟合出多个模型,则依据适应度值和平均绝对误差确定一个最优模型。

图6 污染程度与拟合模型分组

第一象限(PM2.5浓度高,N形):第一象限的省份雾霾污染比较严重,雾霾浓度的年度均值已超过《环境空气质量标准》的要求,对人民健康造成极大的威胁,且根据最优拟合模型的形状,现阶段雾霾污染仍有上升趋势。位于第一象限的省份经济发展水平相对较高,但雾霾污染问题非常严峻,因此提出以下几点建议:调整产业结构,对重污染产业进行搬迁改造,提高第三产业在国民经济中所占的比重;征收环保税等多种方式管制工业污染排放,推进企业绿色生产;优化能源消费结构,通过价格管控等市场化手段控制化石能源的消费,增加清洁能源消费。

第二象限(PM2.5浓度低,N形):第二象限的省份目前的污染程度尚低,但其呈上升趋势。位于第二象限的大多为中西部经济快速上升期的省份,但在发展经济的同时,也要预防雾霾污染,做好发展经济与牺牲环境间的取舍,因此提出以下建议:提前布局优化产业结构,利用自然优势优先发展旅游业、服务业等绿色产业;严格限制高污染企业向本地区转移,不可为了发展而不顾污染,走上先污染后治理的老路。

第三象限(PM2.5浓度低,倒U形):第三象限是比较理想的情况,雾霾污染程度低,且呈下降趋势。但正如Baek在研究中指出,环境污染与经济发展呈现的倒U形关系很可能只是一定时间范围内的短期现象,当经济进一步发展时,环境污染会再次恶化(Baek et al,2013)。因此建议,位于第三象限中经济较为发达省份如广东省等,要以科技为抓手,制定绿色创新奖励政策,鼓励科技创新,发展绿色新技术,寻求清洁生产技术的突破,以便彻底解决雾霾污染问题;位于第三象限中经济相对落后的省份如广西省等,则应以绿色发展理念为引导,使生态优势成为经济优势。

第四象限(PM2.5浓度高,倒U形):第四象限的省份雾霾也比较严重,但目前呈下降趋势。对位于第四象限的省份建议如下:加快淘汰产能落后的污染型企业,促进工业企业清洁生产改造,使PM2.5浓度尽快降到安全值范围内。宣传大气环保知识,引导居民绿色消费,减少不必要的PM2.5颗粒排放。

四、 结 论

本文使用基于遗传编程的符号回归方法,研究中国31个省份雾霾污染与经济发展间的关系。符号回归不同于以往传统的研究环境污染与经济发展关系的实证研究方法,不需要事先依据丰富的专业知识假设出模型结构再进行检验,而是依靠数据驱动,采用机器学习的方法生成最优模型,减少了选择模型或假设带来的偏差。主要结论概括如下:

(1) 通过符号回归方法,对中国31个省份1998—2016年的PM2.5与人均GDP数据分别建立关系模型,每个省份都有最适合自己的模型及参数,统计可得出四个较通用模型结构,包括典型的倒U形模型及三种N形模型。一个省份可以同时拟合出多种模型,部分省份使用符号回归不仅能够得出传统实证方法找到的倒U形,而且进化得出更契合的N形模型。这些省份正处于关系演变的关键时期,虽有雾霾污染重新加剧的趋势,但苗头刚刚出现,此时采用合理的经济发展模式与有效的环保政策能够转变雾霾污染与经济发展间的关系。

(2) 雾霾污染与经济发展间关系显示出较明显的地理区域特征。东部省份大多同时拟合出倒U形模型和N形模型,中部省份大多呈倒U形,西部省份为N形。即东部省份大多在关系演变的关键时期,需要积极调整产业结构,并跟进环保政策;中部省份目前雾霾污染大多为下降趋势,但不排除随着经济发展,出现像东部省份的N形模型,中部省份需要保持警惕;西部省份大多呈N形关系,需要在大力发展经济的同时,控制雾霾污染加剧的趋势。

(3) 描述雾霾污染与经济发展间的关系,倒U形模型最具有通用性。在高收入、较高收入、中等收入经济水平下,倒U形模型都具有相对较高的适用比例,但具体到某一个省份,倒U形模型并不一定是最准确的模型。在低收入水平下,N形模型具有更高的适用比例。

(4) 在发展经济及制定环保政策时,各省份应根据自身污染程度以及最优拟合模型来合理决策。不仅国家层面要建立健全节能减排、绿色生产的法律法规,各个省也应制定符合自身的发展模式,多措多举,避免盲目复制,因地制宜,共同守护同一片中国蓝。

猜你喜欢
适应度象限省份
改进的自适应复制、交叉和突变遗传算法
复数知识核心考点综合演练
常数牵手象限畅游中考
16省份上半年GDP超万亿元
平面直角坐标系典例分析
22个省
启发式搜索算法进行乐曲编辑的基本原理分析
三角函数核心考点综合演练
基于人群搜索算法的上市公司的Z—Score模型财务预警研究