基于机器学习的郑州市大气PM2.5 与O3 浓度预测方法及气象因子的影响分析

2024-04-01 08:08:30张容硕谢沛远陈宏飞杨清荣关民普朱仁成
环境科学研究 2024年3期
关键词:比湿郑州市气压

张容硕,谢沛远,陈宏飞,杨清荣,关民普,马 南,尉 鹏,朱仁成*

1. 中国环境科学研究院大气环境研究所,北京 100012

2. 郑州大学生态与环境学院,河南 郑州 450001

3. 河南省生态环境技术中心,河南 郑州 450046

近年来,化石能源的广泛使用对我国大气环境产生了严重的影响[1]. 经过数年的大气污染防控,全国常规大气污染物浓度已明显下降,城市空气质量明显好转[2-5]. 2022 年全国339 个地级及以上城市细颗粒物(PM2.5)年均浓度为29 μg/m3,低于《环境空气质量标准》(GB 3095-2012)二级标准限值(35 μg/m3). 然而,京津冀及周边等重点区域PM2.5浓度仍未达标,且全国以O3为首要污染物的平均超标天数占总超标天数比例逐年上升[6-8],PM2.5和O3污染协同控制成为我国当前城市大气污染防治的主要任务.

随着常规大气污染物浓度的下降,气象因子对大气污染物浓度的影响愈发重要. 研究[9-11]表明,大气PM2.5和O3与气象因子及区域传输等环境因素密切相关. 如Zhao 等[12]发现,在新型冠状病毒感染期间的两个特定时段广州等城市的PM2.5、SO2和CO 浓度大幅下降,其中气象条件的影响比人为排放的影响更大. Shu 等[13]认为,海洋空气团可能是造成长三角地区沿海城市2013-2014 年PM2.5浓度较高的主要原因. Li 等[14]分析了2013-2018 年京津冀地区199次颗粒物污染日成因,发现约2/3 的污染日与冷高压东移有关.

近年来,多种算法被应用于探究气象条件与大气污染物浓度之间的关联. 例如,侯素霞等[15]利用多元线性回归模型(MLR)分析了上海市大气污染物与气象因子之间的关系. 然而,在MLR 应用时通常假设各变量之间是相互独立的,而气象因子之间的自相关性可能会影响分析结果的可靠性[16]. 集成学习是机器学习的一个重要分支,在分析特征间的非线性关系方面具有独特优势,已被广泛应用于复杂的大气污染与气象因子分析领域,如随机森林法(RF) 和梯度提升回归树(BRTs)等[17-18]. LightGBM (Light Gradient Boosting Machine)也是集成学习方法,与BRTs 相似,但具备根据特征的梯度信息选择最佳分裂点的能力,能更高效地构建决策树来分析大气污染与气象因子间的关系[19]. 例如,Yin 等[20]利用LightGBM 模型精确预测了大气中的甲醛浓度,并确定气温是影响预测的最重要特征.

郑州市是我国中部地区人口过千万的重要中心城市,本研究以郑州市2018-2022 年逐时大气污染物和气象因子数据为基础,采用基于统计学的单因素分析和基于LightGBM 的多因素综合分析方法,为区域PM2.5和O3浓度预测及探究气象因子对其浓度的影响提供了一种新的分析方式.

1 材料与方法

1.1 数据来源

大气污染物监测数据为郑州市小时浓度数据,共选取了9 个国控站点(烟厂、郑纺机、银行学校、供水公司、经开区管委、四十七中、市监测站、河医大、岗李水库),时段为2018 年1 月-2022 年12 月,包括SO2、NO2、CO、PM2.5、PM10、O3. 同期的气象数据来源于中央气象台数据共享(www.data.cma.cn),包括气压、温度、降水量和风速. 为更准确地表示空气中的水汽含量,本研究选用比湿来评价大气湿度状况.选取美国国家航天局戈达德地球科学数据和信息服务中心(NASA GESDISC,https://disc.gsfc.nasa.gov),113.35°E、35.0°N 的逐时卫星数据作为郑州市比湿、太阳辐射和云量的数据补充.

1.2 数据处理

本研究使用python 编程语言中pandas 数据分析库作为数据处理工具,将9 个站点逐时污染物浓度数据(不含O3-8 h 浓度)中的空值忽略后,计算平均值作为逐时污染物浓度值. 使用同样的方法计算大气污染物浓度的逐日、逐月、逐年均值. 使用O3日最大8 h 滑动平均(O3-MDA8) 评价O3的当日浓度水平,并使用O3-MDA8 的90 百分位浓度评价月度及年度O3浓度水平.

将整体数据按照4∶1 的比例划分为训练集与测试集,即使用2018-2021 年的数据训练模型,并利用2022 年数据验证模型精度. 为提升模型的计算效率并减弱特征自相关性影响,在将数据输入模型之前,将数据按式(1)进行归一化预处理.

式中:x′为归一化之后的污染物浓度数据,取值范围为0~1;x为原始污染物浓度或气象因子数据;Xmin和Xmax分别为该种污染物浓度或气象因子数据的最小值与最大值.

1.3 分析方法

皮尔逊相关系数(r)是一种用于衡量数据间线性关系的方法,可用于分析不同量纲数据间的相关性. 本研究利用r分析两个单一变量之间的相关性,计算公式:

式中,xti为t时刻第i种大气污染物浓度值或气象因子数据,为第i种污染物浓度或气象因子数据的平均值,而yti和分别为第i种污染物浓度或气象因子数据的预测值及其平均值.

本研究采用3 种常用的评价指标评估LightGBM模型的预测精度,分别为r、相关系数(R2)和均方误差(RMSE).R2与RMSE 的计算公式:

此外,模型超参数会极大影响预测效果,本研究使用KFold 和贝叶斯优化两种策略共同优化模型的超参数组合,所涉及的超参数如表1 所示.

表1 模型超参数Table 1 Model hyperparameters

2 结果与讨论

2.1 郑州市大气污染物分布特征

2.1.1 大气污染物年分布特征

郑州市主要大气污染物浓度的逐年分布特征如图1 所示. 由图1 可见:2014-2022 年郑州市大气污染物浓度均呈明显下降趋势. 其中,SO2年均浓度已连续8 年下降,自2018 年开始,年均浓度已低于《环境空气质量标准》(GB 3095-2012)一级标准限值(20 μg/m3),2022 年已降至8 μg/m3;自2020 年开始,NO2年均浓度已降至GB 3095-2012 一级标准限值(40 μg/m3)以内,且达标后仍保持每年10%以上的改善幅度;CO 年均浓度同样呈逐年下降趋势,近8 年降幅高达58.4%;PM2.5与PM10年均浓度均大幅下降,这主要归因于中央和地方政府相继出台了多项有效的减排措施,工业生产和道路交通等污染物排放量大幅减少,使得近几年PM2.5与PM10浓度峰值持续降低[21-22]. 但仅2021 年的PM10浓度低于GB 3095-2012 二 级 标 准 限 值(70 μg/m3),其 他 年 份PM2.5与PM10浓度均未达标. 2021 年的PM2.5与PM10浓度较前一年有大幅降低,但2022 年二者浓度均有所升高.2014-2022 年,O3月评价值都处于较高区间,其中2017 年达238 μg/m3. 由此可见,郑州市对SO2、NO2和CO 防控取得了较好的成效,但目前仍面临PM2.5与O3复合污染的挑战,同时也需要进一步加强对PM10污染的防控.

图1 2014-2022 年郑州市大气PM2.5、PM10、SO2、NO2 年均浓度及O3 年评价值Fig.1 The yearly average concentrations of air PM2.5, PM10, SO2, NO2 and O3 yearly assessment value in Zhengzhou City from 2014 to 2022

2.1.2 PM2.5浓度和O3月评价值分布特征

2018-2022 年郑州市PM2.5浓度和O3月评价值分布特征如图2 所示. 每年10 月-翌年1 月,PM2.5浓度呈持续上升趋势,至2 月开始下降. 季节性特征表现为冬季及春季初最高、夏季浓度最低、春秋季居中. 郑州市PM2.5浓度的季节性特征与京津冀[23]、山东省[5]、浙江省[24]和长三角[25-26]等地区相似. 这可能是由冬季光化学反应相对较弱,采暖季二次转化强烈,以及频繁的近地表逆温等原因综合导致[27-28].

图2 郑州市2018-2022 年PM2.5 浓度和O3 月评价值分布情况Fig.2 The monthly concentrations of PM2.5 and O3 monthly assessment value in Zhengzhou City from 2018 to 2022

由图2 可见,郑州市O3月评价值从1 月开始逐步上升,5-9 月是浓度高峰期,10 月后迅速下降. 每年6 月O3月评价值首次达到峰值,7 月O3月评价值有所下降,随后8 月或9 月O3月评价值再次出现峰值,但二次峰值浓度低于首次峰值浓度,呈现“大小双峰”分布. O3月评价值也表现出极强的季节性特征,夏季O3月评价值持续较高,而冬季较低,春秋季居中,这样的季节性特征与长三角[29]、浙江省[30]、山东省[31]等地区相似. 然而,不同地区O3浓度分布特征也存在一定差异,如郑州市近5 年O3浓度在6 月达到最高值,而南京市则在8 月和9 月浓度达到最高值. 这主要是因为6-7 月为江淮地区梅雨季节,连续的阴雨天气导致光照强度大幅降低,不利于O3的累积[19].

2.2 相关性分析

郑州市大气环境各因素的相关性如图3 所示. 由图3 可见,与O3-8 h 浓度呈正相关的因子有温度、比湿和辐射. 其中,温度和比湿与O3-8 h 浓度的线性关系均较明显,r值分别达0.43 和0.45. 与O3-8 h 浓度呈负相关的因子有气压、NO2浓度、PM2.5浓度、SO2浓度和PM10浓度. 其中,O3-8 h 浓度与气压和NO2浓度的线性关系较明显,r值分别达到-0.54 和-0.41;此外,O3-8 h 浓度与PM2.5、SO2和PM10浓度也均呈一定的负相关,r值分别为-0.35、-0.30 和-0.20. 这主要是因为NO2是O3的重要前体物,而PM2.5、SO2和PM10在大气中也会与O3发生复杂的光化学反应[32-33].风速、O3-8 h 浓度与降水量和总云量的相关性较弱.

图3 郑州市大气污染物及气象因子间的相关性Fig.3 Correlation of meteorological factors and atmospheric pollutants of Zhengzhou City

由图3 可见,PM10、NO2、SO2浓度和温度均与PM2.5浓度呈较明显的线性关系,其r值分别为0.69、0.50、0.44 和-0.43. 由于PM10与PM2.5均受到工业生产排放、化石及生物质燃料燃烧等影响,在浓度上呈现明显的正相关. 而NO2和SO2是二次气溶胶的重要前体物,能够形成硫酸盐与硝酸盐颗粒物,因此PM2.5浓度与NO2和SO2浓度均呈明显正相关[34-35].PM2.5浓度与温度和比湿均呈负相关,r值分别为-0.43 和-0.39. PM2.5浓度与O3-8 h 浓度和辐射均呈一定的负相关性,r值分别为-0.35 和-0.20. PM2.5浓度与云量、风速和降水量的相关性均较小. 降雨的冲刷作用会有效降低大气中的PM2.5浓度[36],较小的r值是因大部分降水量的逐时数据为0,但较小的r值并不代表降水不会对PM2.5浓度产生影响.

2.3 基于LightGBM 的逐时浓度预测

2.3.1 模型训练

根据数据相关性以及前期文献调研分析,本研究在训练LightGBM 模型时选择了2018-2022 年连续5 年的共12 个特征,其中包括5 种大气污染物(SO2、NO2、PM10、PM2.5和O3)以及7 种气象因子(降水量、比湿、总云量、辐射、温度、风速和气压). 在两轮训练过程中分别将目标污染物PM2.5或O3-8 h 浓度数据设置为预测标签. 训练过程采用KFold 交叉验证,并将训练数据集划分为5 份. 模型训练5 次,每次使用其中4 份作为训练集,另外1 份作为验证集,确保每一份数据都被用作验证集一次. 同时结合贝叶斯优化策略,找出在训练数据上性能较好的超参数组合. 最终得到的超参数结果如表2 所示.

表2 模型超参数Table 2 Model hyperparameter

2.3.2 模型预测结果分析

O3-8 h 与PM2.5浓度观测值与模型预测值的对比如图4 所示. 由图4 可见,LightGBM 模型能够较好地预测PM2.5和O3-8 h 浓度的变化趋势,但对PM2.5浓度极值的预测表现更好. PM2.5和O3-8 h 浓度预测值与观测值的RMSE 分别为18.76 和27.16. 其中,PM2.5浓度预测值与观测值之间的差距更小,具有更高的预测精度. 根据GB 3095-2012,采用逐时浓度标准来界定污染天气,PM2.5浓度超过75 μg/m3时,被判定为发生PM2.5污染;而当O3-8 h 浓度超过160 μg/m3时,则被判定为发生O3污染. 该模型在预报PM2.5污染事件发生方面表现出较高的准确度,达80.8%. 然而,在预测O3污染事件发生时,准确度为52.5%,对O3污染事件的预报有改进空间.

图4 2022 年PM2.5 与O3-8 h 逐时浓度观测值与预测值对比Fig.4 Comparison of the observed values and the predicted hourly concentrations of PM2.5 and O3-8 h in 2022

PM2.5与O3-8 h 浓度预测值与观测值之间的相关性如图5 所示. 由图5 可见:PM2.5浓度预测值与观测值的r值为0.88,R2值为0.78,拟合直线方程为y=0.89x+7.38;O3-8 h 浓度预测值与观测值的r值为0.83,R2值为0.68,拟合直线方程为y=0.72x+24.62.PM2.5浓度多集中在0~50 μg/m3之间,而O3-8 h 浓度出现频次最多的是在30~130 μg/m3范围. PM2.5浓度预测值与观测值的相关性更好,两种相关系数值均较大,且拟合直线更接近于y=x直线. 在实现LightGBM模型对PM2.5和O3-8 h 浓度有效预测的基础上,可进一步综合分析各污染物及气象因子在预测过程中的重要性.

图5 模型预测值与观测值的相关性Fig.5 Correlation between the model predicted values and the observed values

2.3.3 影响大气PM2.5和O3-8 h 浓度的特征重要性分析

大气污染物与气象因子对PM2.5和O3-8 h 浓度的综合影响重要性排序如图6 所示. 由图6 可见:PM10因与PM2.5高度同源性而在预测中被认为是最重要的大气污染物因子;其次,SO2、O3-8 h 和NO2浓度对PM2.5浓度影响也较大,其中SO2和O3-8 h 浓度重要性相近均略高于NO2浓度;气象因子中比湿的重要性得分最高,其次是气压、温度、辐射和云量,而降水量和风速的重要性得分较低. 根据数据相关性分析和LightGBM 特征重要性分析结果,风速并不是影响郑州市PM2.5浓度预测的主要因子. 而风速会较明显地影响大气扩散能力,且研究[37]表明,风速对PM2.5浓度有较显著的影响,这与模型分析结果存在差异,其原因可能是因为风速具有较强的不确定性,其数据规律性相比其他因子弱,因此在模型预测中不起主导作用.

图6 影响大气PM2.5 和O3-8 h 浓度的特征重要性排序Fig.6 The feature importance rank of affecting the concentrations of PM2.5 and O3-8 h in the atmosphere

研究[38]发现,气象因子对O3浓度可能会有较大影响. 由图6 可见:模型分析结果中,影响O3-8 h 浓度的特征重要性排在前3 位的均为气象因子,分别为比湿、辐射和气压;相较于相关性分析结果,辐射的重要程度显著提高,并高于其他大气污染物的影响. 大气污染物对O3-8 h 浓度影响的重要性相近,其中SO2、NO2和PM2.5浓度的重要性得分略高于PM10浓度. 总云量对O3-8 h 浓度也有一定影响,而风速和降水量对O3-8 h 浓度影响的重要性程度较低.

2.4 气象因子分析

2.4.1 PM2.5浓度气象因子分析

2020-2022 年PM2.5月 均 浓 度 如 图7 所 示. 由图7 可见:除2021 年1 月和2021 年12 月外,PM2.5月均浓度均处在相近区间内;2022 年除1 月和12 月外,仅有7 月和9 月PM2.5浓度略高于2021 年,其他月PM2.5浓度均低于2021 年;2022 年仅3 月和9 月PM2.5浓度略高于2020 年,其他月份均低于2020 年.由此可见,2020-2022 年郑州市PM2.5月均浓度有下降 的 趋 势. 然 而,2021 年1 月PM2.5浓 度 为85.02 μg/m3,比2020 年低29.4%,比2022 年低22.1%;12 月PM2.5浓度为51.98 μg/m3,比2020 年低37.9%,比2022年低32.1%. 相比同期,2021 年1 月和12 月PM2.5浓度属异常低值,也因此2022 年PM2.5浓度相较2021年反弹了8.8%.

图7 2020-2022 年郑州市PM2.5 月均浓度Fig.7 The monthly average concentrations of PM2.5 in Zhengzhou City from 2020 to 2022

2020-2022 年1 月和12 月郑州市主要气象因子对比如表3 所示. 由表3 可知:2021 年1 月和12 月气压均低于同期前后两年,气温高于同期前后两年;2021 年1 月比湿低于同期前后两年,而12 月比湿高于同期前后两年. 结合2.2 节与2.3.3 节的分析可知,较低的气压、较高的气温和较高的比湿有利于PM2.5浓度朝较小的趋势发展;此外,2021 年1 月和12 月较同期前后两年分别有较强的西北风和北风,而较高的风速有利于PM2.5的扩散. 2021 年1 月,受到有利气象条件(较低的气压、较高的温度和较快的风速)影响,PM2.5月均浓度较同期前后两年平均降低了25.8%;而2021 年12 月,同样在有利的气象条件(较低的气压、较高的温度、较高的比湿和较大的风速)下,PM2.5月均浓度较同期前后两年平均降低了35.0%. 更有利的气象条件可能是2021 年12 月PM2.5浓度比1 月降幅更大的原因之一. 荆琦等[39]分析了京津冀周边城市PM2.5浓度与气象特征后也得出了相似结论,认为气象条件可能有利于2021 年PM2.5浓度较低.

表3 2020-2022 年郑州市1 月与12 月气象因子对比Table 3 Comparison of meteorological factors in Zhengzhou City between January and December from 2020 to 2022

2.4.2 O3月评价值气象因子影响分析

2020-2022 年6 月郑州市O3月评价值与主要气象因子间的对比如图8 所示. 由图8 可见:2020-2022 年6 月与O3月评价值呈正相关的辐射和温度都逐年升高,而与O3月评价值呈负相关的气压则逐年降低;比湿没有明显的规律变化,在12 g/kg 附近浮动. 在更高的辐射、更高的温度以及更低的气压的共同影响下可能促使2020-2022 年6 月O3月评价值上升. 因此,不利的气象背景可能有利于郑州市从2020 年开始连续两年6 月O3月评价值上升.

图8 郑州市2020-2022 年6 月O3 月评价值及气象因子Fig.8 O3 monthly assessment value and meteorological factors in Zhengzhou City from June 2020 to 2022

3 结论

a)郑州市PM2.5浓度季节性特征表现为冬季及春季初最高、夏季最低、春秋季居中;而O3月评价值呈“大小双峰”分布,春末至秋初是O3月评价值的高峰期,夏季O3月评价值持续较高、冬季较低.

b) LightGBM 模型对PM2.5污染出现预报的准确度较高,达80.8%;但对O3污染出现预报的准确度略低,只有52.5%,仍需进一步优化提升.

c)对郑州市PM2.5浓度影响最大的气象因子分别为比湿、气压和温度,其中,PM2.5浓度与气压呈正相关,与温度和比湿均呈负相关;对O3-8 h 浓度影响最大的气象因子分别为比湿、辐射和气压,其中,比湿和辐射均与O3-8 h 浓度呈正相关,气压与O3-8 h浓度呈负相关.

d)有利的气象条件可能是2021 年PM2.5年均浓度显著低于同期前后两年的重要因素;但与2020 年相比,2022 年的PM2.5年均浓度仍有一定程度的下降. 同时,不利的气象条件也促使2021 年和2022 年6 月O3月评价值有所上升.

猜你喜欢
比湿郑州市气压
郑州市钻石精密制造有限公司
雅安地区近50 年湿度变化特征分析
看不见的气压
幼儿画刊(2021年5期)2021-12-02 04:24:04
基于探空资料的1961—2018年新疆高空大气比湿气候特征分析
南方比湿特征及其与暴雨的关系
郑州市
郑州市创新推进“八大群体”入会工作
中国工运(2019年9期)2019-11-14 06:49:56
压力容器气压端盖注射模设计
模具制造(2019年4期)2019-06-24 03:36:46
2017年朝阳市地面比湿特征分析
吉林农业(2018年23期)2018-01-17 21:32:35
郑州市