张语桐 刘辉 王宝会
(1.中国人民大学,北京 101872;2.北京航空航天大学,北京 100191)
工业绿色低碳发展是当前全球共同关注的焦点,随着环境问题日益严重,各国都在积极推动工业绿色低碳转型,以应对气候变化、资源短缺和生态恶化等问题。目前,我国工业绿色低碳发展已经取得了一定的进展。政府出台了一系列政策措施,推动工业领域节能减排、绿色制造、循环经济等方面的工作。企业也在积极响应,加强技术创新和产业升级,推广绿色生产方式,推动工业绿色低碳发展。生态环境部、国家发改委等多部门2017—2021年连续多年联合下发文件《京津冀及周边地区、汾渭平原秋冬季大气污染综合治理攻坚行动方案》(下文简称《方案》),集中整治京津冀大气污染。2022年,工业和信息化部出台了《工业领域碳达峰实施方案》,旨在加快推进工业绿色低碳转型,建立以高效、绿色、循环、低碳为重要特征的现代工业体系,要求工业领域在2030年前确保二氧化碳排放达峰。京津冀作为中国的首都经济圈,始终引领北方经济发展方向,因其产业结构偏重、资源结构偏煤而成为我国经济社会发展的中心区域,同时也成为全国污染问题最严重的区域之一。持续跟踪分析研究空气质量的变化情况,采用更加科学有效的方法对空气质量指标进行综合评估,对不同污染源有针对性地开展分类治理和源头治理,才能更好地推动京津冀地区协同发展和高质量发展。
本文将以京津冀城市群为主要研究对象。在对相关空气质量数据进行数据处理并绘制统计图表进行传统统计分析的基础上,采用SPSS(statistical product and service solutions)软件对空气质量数据进行更深层次、更多元的挖掘和分析。SPSS软件可以提供众多高级统计分析方法,且具有功能强大的自学习算法,兼具开源可扩展性,在以往的空气质量评估领域鲜有应用。本文尝试用SPSS软件对空气质量数据进行处理,运用其提供的聚类分析和因子分析等高级统计分析方法,对聚类结果进行方差分析,建立因子分析相关矩阵,期待获得更有价值的论据补证、完善的传统统计学结果,给出京津冀城市群空气质量更加科学、更趋完善的综合评估方法和结论。同时结合国家文件,分析大气污染治理行动实施效果,总结阶段性治理成果,为后续治理提供指导性建议。
已经有一些研究使用聚类方法分析空气质量。张宾等[1]使用k均值聚类方法,使用2016年数据将全国113个城市按照空气质量聚为3类,从而有针对性地对3种不同空气质量的城市进行后续的主成分分析,得出3类城市的主要污染物不同。陈颖等[2]使用SPSS软件的k均值算法分析山西11个地级市数据,分析得出空气主要污染物类型,与主成分分析结论一致,说明聚类方法能够对空气主要污染物类型进行说明。高云等[3]使用k均值算法将113个城市数据聚为3类,证明了使用聚类方法比传统AQI方法进行空气质量分类更加合理。金仁浩等[4]使用k均值算法分析北京34个监测站数据,证明使用聚类算法得到的空气质量和PM2.5浓度空间分布一致,可以说明聚类分析方法对描述污染的空间分布具有一定帮助。
相关研究大多采用k均值聚类分析的方法分析空气质量,本文使用SPSS软件的系统聚类方法处理数据,将京津冀城市群聚为两至三个等级,实现更加精准的评估、决策和治理。
已经有一些研究使用因子分析方法研究空气质量。郭祥鹏[5]使用因子分析法分析2008年某市空气数据,得到此市空气污染现状的主要原因是PM10,因子分析法能够得到影响空气污染的主要因素。沈媛琼[6]对曲靖市沾益区空气污染物进行了因子分析,发现PM2.5和PM10具有同源性,也是影响空气质量的主要原因。PM10和NO2相关以及PM2.5和NO2相关说明空气中细颗粒的含量与空气中氮氧化物相关,因子分析法能够得到空气中污染物的相关性,为推测污染源是否同源提供依据。周玉香[7]等使用SPSS的因子分析法分析空气污染物,得到了和本文相似现象,PM2.5、PM10、SO2、NO2、CO显著相关,而O3与其他指标之间的相关性不足。
相关研究使用了因子分析的方法寻找到影响空气污染的主要因素以及探究污染物之间的关系。京津冀城市群在地理空间上作为一个整体,其污染物可能存在一定的相关性和共性,通过因子分析法对京津冀城市群的空气数据进行分析,研究影响京津冀城市群空气污染的主要因素。
聚类分析(cluster analysis)是一种将研究对象分为相对同质的群组的统计分析技术。聚类分析可以帮助揭示数据中存在的内在结构和模式,可以将数据样本划分为不同的群体或簇,每个群组内的数据点具有相似的特征,有助于观察群体内的共同特点与群体之间的差异。京津冀地区在地理上包含多个城市,不同城市的空气质量具有一定的区别与联系,城市之间可能具有相似的产业结构、接近的地理区间、相似的治理手段、聚类分析可以探索城市之间空气质量状况的相同与差异点,为深入研究影响空气质量的污染物提供地理基础,为区域协调治理建议提供依据,因此本文选择聚类分析作为京津冀空气质量数据分析的方法。本文采用聚类分析方法将空气质量数据资源分组,选择无量纲化后的数据进行聚类分析,确定某些记录作为凝聚点,逐一扫描样本,依据其与已扫描过的样本的距离,就近将其余记录向凝聚点凝集,计算初始聚类的均值,依据类间距离进行合并,循环反复重新聚类,直到凝聚点位置收敛为止。本研究采用空气质量测定的常用指标对京津冀城市群空气质量进行聚类,根据聚类结果的方差分析将京津冀城市群空气质量进行等级划分。
因子分析方法是一种从变量群中提取共性因子的统计技术,通过在一组变量中找出隐藏的具有代表性的因子,将相关密切的诸个变量归于一类,使之归为一个因子,从而减少变量数目,仅用少数几个因子反映众多因素间的关系。影响空气质量的原因是复杂的,往往某种污染物会影响多个空气质量指标,所以空气质量指标之间存在可挖掘的内在因子。通过对内在因子的挖掘可以推测影响指标的污染物,为治理建议提供污染物方面的依据,所以本文选择了因子分析方法。本文运用因子分析这种技术,归集影响京津冀城市群空气质量的主要因素,对PM2.5、PM10、SO2、NO2、CO、O3,6项指标进行因子分析,因子分析模型,如下式:
式中Xp代表第p个指标;Fm代表指标的第m个因子;apm表示第m个因子对第p个指标线性组合的参数;εp为第p个指标的不可观测的误差部分。
建立指标间的相关性矩阵,分析指标的相互关系及其相关影响力。
论文使用天气后报提供的数据,涵盖了京津冀城市群中保定、北京、沧州、承德、廊坊市、秦皇岛、石家庄、唐山、天津、张家口10个城市2017年至2021年每天的气候状况信息,包括空气质量指数(air quality index,AQI)、当天AQI排名、PM2.5、PM10、SO2、NO2、CO、O3、气温、风向、风力、天气状况、空气质量等级等。
进行数据处理时选用10个城市的AQI指数、PM2.5、PM10、SO2、NO2、CO、O3数据。选择2017年和2021年的数据可与《方案》颁布实行的时间跨度对应,可以反映方案的执行效果。由于样本很多,因此将数据中的缺失值删除。计算出10个城市7个指标2017年和2021年的年均值。鉴于国际室内空气质量分指数的评价指标是按照各种污染物对人类健康、生态、环保方面的影响作用制定的,并有相当的科学依据,所以研究上将经测算得出的PM2.5、PM10、SO2、NO2、CO、O3等3年均值折算为IAQI,并进行了无量纲化。根据2017年和2021年的数据,计算出各城市各空气污染指标的年均值的变化率,以空气污染减少为正。
通过统计分析方法,绘制统计图表可以将数据直观地展示出来,更容易观察数据的变化趋势和进行数据的差异对比。在进行聚类分析和因子分析之前,使用统计分析方法分析数据是非常有必要的,从时间角度更容易看出治理效果,从空间角度可以更容易看出城市之间的污染物指标的差异以及治理效果的地区差异,从污染物角度更容易看出不同污染物治理的效果以及污染物的地理分布差异。根据处理后的数据绘制统计表和统计图进行分析,结果如图1、图2所示。
图1 2017年各城市各空气污染指标年均值AQI指数统计
图2 2021年各城市各空气污染指标年均值AQI指数统计
根据统计数据可知,2017年和2021年10个城市的各项污染指标中,PM2.5和PM10的污染浓度和污染指数要明显高于其他指标,其次是NO2和O3的污染严重程度。由此可以看出,近几年来这10个城市的首要污染物是PM2.5和PM10。因为AQI是各项污染物空气质量总指标中的平均值,而AQI所代表的是主要污染物的危害程度,因此可以推断出,这10个城市的AQI指标主要反映了PM2.5和PM10的污染程度。
通过对比2017年和2021年的统计图,可以发现各城市在这4年中的主要变化。2017年各城市各污染指标的曲线形状略有差异,但数值上差异显著,到了2021年,各城市各污染指标的形状和数值差异都显著减小,污染状况逐渐趋同;2017年,一些城市的PM2.5污染最严重,而到了2021年,各城市的PM10污染最严重,可见颗粒物中PM2.5的占比明显减少;其中,2017年沧州是污染最轻的城市,各项污染指标都明显低于其他城市,而2021年张家口成为污染较轻的城市,且张家口的NO2始终低于O3,与其他地区明显不同。
各城市各空气污染指标变化率如图3所示。
图3 2017—2021年各城市各空气污染指标变化率统计
由图3所示各城市污染指标变化率可以看出,2017年至2021年,除了沧州以外的9个城市的污染指标都明显减轻,只有沧州的污染明显加重,并且2017年污染更严重的城市治理效果更为明显。其中,从指标变化率的角度来看,SO2是污染治理效果最明显的,其次是CO和PM2.5。臭氧指标变化不明显,部分城市有略微的加重,可见O3的治理效果不佳。
《方案》一直将PM2.5作为重点治理指标,且进行了量化的工作量分配。从2017年到2021年首要污染物由PM2.5变成PM10,且大幅下降,下降幅度超过文件中所规定的指标。大部分省市在这些关键指标上均圆满完成治理任务。《方案》对PM2.5、PM10、SO2、NO2、CO、O3指标均建立了采集监控机制,通过在所有县区建立自动监测站并采集数据的方法监控指标。对煤炭相关的治理效果巨大,也是造成数据中SO2治理效果最佳的原因。综合采用以电代煤、以气代煤、防止散煤复烧、煤质监管、排查燃煤锅炉、扩大燃煤小锅炉淘汰范围、锅炉升级改造、控制煤炭消费量、化解过剩产能等多种方法治理煤炭燃烧,产生的效果显著,使SO2成为变化率最大的污染指标。
在上述统计分析的基础上,在SPSS提供的众多高级统计分析方法中选择聚类分析和因子分析方法对相关数据进行更多维度、更深层次的发掘和分析。
基于2017年和2021年无量纲化后的数据进行聚类分析,由于AQI指标主要反映的是PM2.5和PM10的污染严重程度,且AQI与PM2.5、PM10存在较高相关关系,不能反映空气整体污染情况,因此采用PM2.5、PM10、SO2、NO2、CO、O36项指标对各城市进行聚类。聚类分析方法主要有两类,一类是利用皮尔逊相关性测度描述指标形状上的差异;另一类是利用欧式距离平方测度描述指标数值上的差异。由于数据在形状上的差异没有数值上的差异显著,因此当采用皮尔逊相关性对指标测度时,往往不能得出较好的分类结果,组间差异不明显。所以本研究采用欧式距离平方进行测度,运用欧式距离平方测度的组内联接、组间联接、沃德法、质心聚类和迭代聚类5类聚类方法得出的结果基本一致。
通过将指标2017年和2021年数据导入SPSS软件进行聚类统计分析,得出聚类结果,见表1。
表1 2017年和2021年6项指标聚类结果
2017年和2021年的数据沃德聚类谱系如图4、图5所示。方差分析表体现聚类结果的组间数据差异和组内数据差异,因此运用方差分析可以验证聚类结果的有效性和可信度。分类结果的组间差异应尽可能大,而组内差异应尽可能小。
图4 2017年数据系统聚类谱系图
图5 2021年数据系统聚类谱系图
方差计算公式如下:
式中,SST(总平方和)=SSE(组内平方和)+SSA(组间平方和);F=组间平方和÷组内平方和;k为因素水平的个数;n为全部观测值的个数。
聚类结果的方差分析(ANOVA)见表2、表3。
表2 2017年聚类结果方差分析表ANOVA
表3 2021年聚类结果方差分析表ANOVA
根据方差分析表,2017年O3指标的组间差异不显著,组内方差高于总的方差。2021年NO2、CO、O3这几个指标的组间差异也不显著,组内方差高于总的方差。分析这些数据可以发现,这些指标实际上的数值差距并不大,并且由于分类标准主要基于各项污染指标的综合数值差异来体现污染严重程度,因此可以忽略上述分类的不足之处。根据综合污染严重程度将10个城市分为两个或三个等级,标号从1~3污染逐渐减轻。
从聚类分析结果看,2017年京津冀城市群按照空气污染程度归聚为三类,且呈地理从北到南分级明显,承德、张家口两个冀北地区空气质量最好,北京、天津、秦皇岛、廊坊居中,保定、石家庄、唐山三个地处冀中南部地区且工业化程度较高的城市污染最严重。到了2021年,随着京津冀地区减排、限产等治污力度的加大以及环境考核措施更趋严厉,整个地区的环境质量得到有效改善,空气污染程度趋同明显。聚合分析结果显示,污染程度归聚为两级,北京、秦皇岛、保定、石家庄、唐山空气质量明显好转,北京、秦皇岛与张家口、承德归聚为一类,保定、石家庄、唐山也已看齐天津、廊坊,唯一例外的是沧州空气污染反向加重,整个地区空气质量仍呈南北地理差异。通过采用聚合分析,能够将京津冀城市群空气污染程度更加科学、更加精准地进行自动分级归类,进而实现更加精准地评估、决策和治理。通过聚类的视角,可以进一步精分不同的区域群,不同区域群可以采取差异化的环保政策措施,同一区域群内的城市可以采取统一的环境治污策略协同发展。采用聚类分析划分城市污染等级,可以针对性地制定不同的污染物治理指标以及治理方案,为后续的《方案》制定提供依据,让《方案》更加合理和有针对性,为国家文件的制定提供参考,为各个县市治理提供方向。
此外,为了探索使用不同污染物指标的分类结果的差异,研究还尝试采取其他的指标组合进行聚类分析。例如,尝试采用AQI单个指标进行聚类。又考虑到PM2.5、PM10之间存在包含关系,且AQI与PM2.5、PM10高度相关,还使用AQI、SO2、NO2、CO、O3这几个指标进行聚类。结果显示,不同指标组合的聚类分析结果差异不大,只有一两个城市的分类不同。综合以上几种不同聚类结果,考虑到用PM2.5、PM10、SO2、NO2、CO、O36项指标进行空气质量评价有一定的科学依据,仍然采用最初的分类方式。
因子分析是用来探寻原因的,探讨那些有高相关的外在表现背后有没有单一的、简单的解释,这种简单的解释被称为因子,通常这些能够解释原始变量的因子是数量极少却能起到主导作用的。研究采用SPSS软件对所有数据中PM2.5、PM10、SO2、NO2、CO、O36项指标进行因子分析。
首先,对6项指标之间是否具有适当的相关性进行检验,相关性越强越适合做因子分析。KMO(kaiser-meyer-olkin)检验统计量是用来比较变量间线性相关性和偏相关性的指标,取值范围为0~1。计算公式为:
其中rij表示简单相关系数,表示偏相关系数。通过抽样适合性检验得出,如果原始数据中确实存在公共因子,那么所有指标间简单相关系数平方和应远远大于偏相关系数平方和,KMO值越趋近于1,一般低于0.5表示不适合做因子分析处理,高于0.7应用因子分析法效果比较好。表4显示6项指标的KMO为0.809,接近1,因此可以探索寻找6项指标之间可能存在的公共因子,以用于因子分析。
表4 KMO和巴特利特检验表
表5显示6项指标通过数据运算得出的因子分析相关性矩阵,各指数间存在一定的相互联系。其中,PM2.5和PM10相关关系最高,PM2.5、NO2、CO之间存在较高相关关系,SO2与NO2、CO两个指标存在不显著的相关关系。O3与其他指标均没有显著相关关系,且存在负相关关系。根据因子分析原理,基于特征值大于1仅提取出了一个因子,因此我们认为,PM2.5、PM10、SO2、NO2、CO,5项指标之间具有线性相关性,可以共同提取一个公共因子。而O3与其他指标之间的相关性均小于0.5,应该将其与其他指标区分开,单独提取因子。
表5 因子分析相关性矩阵
根据以上结果可以发现,6项空气污染指标中的5项指标之间存在较高相互关联因素,即这些指标之间应该存在公共因子,推导出的结论:最大可能性就是这些指标之间存在同源性,且各污染物之间存在相互反应和转化的关系。而相关性不显著的指标如O3,其数值本身不高,且在不同城市之间差异较小。通过因子分析法,使用SPSS系统对所有数据进行因子分析处理,我们可以将京津冀城市群6种空气质量指标之间的相关性进行分析归类,得出其中5类空气质量指标具有同源性的结论。通过公因子的视角,我们可以指导京津冀城市群对5类指标的空气污染统一采取源头治理的措施,实施区域间的联防联治。而对于与其他空气污染指标没有相关性的O3,应该对其进行专项科学研究。O3近年来已成为我国主要空气污染物之一,O3浓度控制效果一直差于其他污染物。O3是由前体物可挥发性有机物(VOCs)和氮氧化物(NOx)在光照下发生光化学反应产生,属于二次污染物,与日照强度有密切关系,且O3前体物来源复杂,种类繁多,减排控制难度大。应科学施策,制定精细化管理措施,精准识别污染物来源,依据污染物浓度变化规律对前体物实施排放控制,进而改善O3污染情况。《方案》中已经意识到O3治理的复杂度,专门针对VOCs治理制定方案,而且越来越重视。从2017—2018年的VOCs重点治理任务到2018—2019年的深入推进VOCs专项治理(加强VOCs源头控制,强化VOCs无组织排放管控、推进治污设施升级改造、全面推进油品储运销VOCs治理等各种手段,综合大力进行VOCs治理),再到2019—2020年的“一厂一策”精细化治理(提高VOCs治理水平),再到2020—2021年的科学合理增加VOCs自动监测站点建设,公开一批数据质量差造假的人员机构名单。对VOCs的治理从重点治理到精细化、专业化治理,不断强化治理手段,可见VOCs治理的难度大,在治理过程中还须不断寻找治理方法。
基于以上数据分析结果,论文得出以下结论。
(1)从2017—2021年,各城市的污染指标变化显示京津冀城市群的空气污染状况和污染结构逐渐趋同,这可能与我国区域联防联控治理模式有关;SO2污染治理最为有效可能是因为京津冀城市群重点解决燃煤问题。到2021年,各城市的污染治理都有了一定的成效,主要污染物仍然是PM2.5和PM10,其中PM2.5的指标差距最为明显。
(2)数据分析结果显示,6项空气污染物指标之间存在一定的相关关系。一般空气污染严重的城市的各项指标均污染严重。事实上各污染物存在于相同的主要来源中,如对化石燃料的焚烧、汽车尾气污染等,其中O3主要由前体物NOx和挥发性有机物VOCs反应形成,PM2.5也可由大气中的气态前体污染物转化而成。
(3)各城市O3污染从2017—2021年几乎没有治理效果。有研究表明[8]NOx浓度相对于VOCs较高时,NOx也会导致臭氧产生减少。因此,在一定条件下,尽管臭氧前期物NOx排放降低了,可能对于臭氧的治理并没有显著效果。且从数据分析中也可以看出,O3和NO2污染指标之间存在一定负相关关系。
(4)6项空气污染物指标之间存在一定的正相关关系,且当首要污染物明显严重于其他指标时,AQI基本可以反映一个城市的整体污染情况,对城市排名有一定影响,对等级划分影响不大。但是,由于AQI仅仅反映的是最严重的一项空气污染指标,显然对城市整体空气污染情况反映并不全面。
基于以上数据分析结果以及《方案》的治理措施,可以给出以下治理建议。
(1)未来应继续保持和加强对PM2.5和PM10的治理。
(2)京津冀城市群污染物来源可能基本相同,各项空气污染物可以同时从源头进行治理。
(3)要治理O3污染,在NO2减排的基础上,还需要重视VOCs的减排,加强对VOCs的治理措施。
(4)可以考虑选取更为合适的空气质量指数,例如,从PM10中剔除PM2.5,以此确定更为合适且相关性更小的污染指标。由于各项空气污染指标对人类活动造成的危害各不相同,且可以互相叠加,因此可以考虑采用更为准确、全面的空气质量指数来评价空气质量,即将每项空气污染指标的IAQI相加或用指标等权的方法定权,以此确定的空气质量总指数更能从对人体危害的角度对空气质量进行评价。