李潍瀚,刘日阳,邵彦川,马宗伟
(南京大学环境学院,污染控制与资源化研究国家重点实验室,江苏 南京 210023)
利用北京地区PM2.5的浓度监测数据分析PM2.5的日变化特征和粒径组成,Dai[5]等人基于长三角地区空气质量监测站点PM2.5小时数据,运用普通克里金插值的方法分析PM2.5的时空分布格局。但直接将PM2.5数据插值不能精确地刻画其空间分布,限制了后续暴露评估研究的研究精度。
基于遥感气溶胶光学厚度AOD和PM2.5浓度间存在的强相关性,可以通过卫星遥感AOD数据对地面PM2.5浓度进行反演[6]。大量研究利用卫星AOD数据开展PM2.5反演研究,如Ma[7]利用MODIS AOD、气象数据和土地利用数据通过线性混合模型和广义加和模型对中国长期PM2.5浓度分布进行反演;Jing[8]等人利用MODIS AOD及气象、地形、排放等数据,应用随机森林模型构建了中国地区PM2.5的反演模型;Guo[9]等人基于优化神经网络对河南省PM2.5进行反演。然而,目前常用的AOD数据产品的分辨率普遍较为粗糙,绝大部分AOD产品的空间分辨率在3 km以上,反演得到的PM2.5浓度空间分布对于区域尺度研究来说不够精细。同时AOD生成过程中引入许多假设,导致AOD产品存在较大的不确定性,进而影响反演PM2.5浓度的精确性。近年来,一些学者通过直接建立遥感图像与PM2.5浓度关系来进行地面PM2.5浓度的反演,如Kris等人[10]利用谷歌地图遥感图像对全球地表PM2.5浓度进行反演,选取多种卷积神经网络方法进行建模比较,最终得到模型测试集决定系数R2为0.75,均方根误差为13.01 μg/m3的结果,初步证实通过遥感图像反演PM2.5浓度的可行性,但研究使用的谷歌地图时间分辨率较低;Zheng等人[11]利用PlanetScope遥感图像数据,采用VGG16-RF的方法,结合气象参数作为预测变量进行北京地区的PM2.5浓度的建模反演,最终模型R2=0.9,均方根误差为19.1 μg/m3,研究中还发现尽管卫星图像过境时间是固定的,理论上与过境时PM2.5小时数据的相关关系更强,但由于PM2.5小时数据波动大,受干扰明显,不适合作为预测变量,将遥感图像与日均数据进行匹配时,模型的预测性能更为稳定;Maryam[12]利用MODIS原始遥感图像,采用LSTM方法对伊朗城市德黑兰的PM2.5浓度进行反演,最终模型均方根误差为7.73 μg/m3。
目前,应用遥感图像和深度学习方法反演PM2.5的研究较少,方法可靠性需要进一步证明。并且从图像数据源角度来看,相关研究应用的遥感图像数据源多为MODIS数据、PlanetScope卫星群数据等,缺少对国产卫星源图像适用性的探究。针对目前遥感图像反演PM2.5研究中存在的不足之处,以及PM2.5研究和管控的现实需求,探索国产卫星在污染物反演领域的应用,研究基于GF-1 WFV图像、Merra-2气象数据以及地面监测PM2.5浓度数据,实现了长三角地区基于GF-1遥感图像和ResNet50网络的PM2.5反演模型构建。
研究区域为长三角地区,包括江苏省、浙江省、安徽省的全部地级市和上海市,面积约35.8 万km2,纬度范围为27.143°N~35.126°N,经度范围为114.875°E~122.942°E。
研究使用的数据获取来源和参数信息如表1所示。
表1 研究数据参数信息和获取来源
1.2.1 PM2.5地面监测站点数据
PM2.5浓度数据来源为中国环境监测总站发布的逐日数据,涵盖2020—2021 年长三角地区共196 个地面监测站点。
1.2.2 GF-1图像数据
选取GF-1 WFV图像作为图像数据源,筛选2020—2021年长三角地区图像,随后利用ArcGIS中Arcpy模块将原始图像以地面监测站点经纬度为中心进行图片剪切,剪切后图像大小为224×224×3(ResNet50模型的标准输入大小)。
1.2.3 Merra-2气象再分析数据
研究使用的气象再分析数据Merra-2来自NASA官方网站,是一套长时间序列的遥感再分析数据集。Merra-2气象再分析数据空间分辨率为0.5°×0.625°,包括边界层高度PBLH、2 m温度T2M、2 m东向风速U2M在内的24个气象指标[13]。对逐日数据进行反距离加权插值,得到各地面监测站点的气象参数。
研究图像处理分析过程中使用的深度学习模型为Resnet50模型,同时还使用了随机森林模型。
1.3.1 ResNet50模型
ResNet于2015年由微软研究院研发[14],是图像特征学习领域中一种经典的结构框架,具有容易优化、性能稳定的特点,内部的残差结构如图1所示,缓解了深度网络中梯度消失和预测性能变差的问题。ResNet50是ResNet模型中最常用于迁移学习的模型,在环境学科中有广泛的应用,如水体识别[15]、雾霾监测[16]等。
图1 ResNet网络中的残差结构
1.3.2 随机森林模型
随机森林模型(RF)是一种基于分类树算法的机器学习方法[17-18]。随机森林对于数据和变量的双随机性,使模型运算量大大降低,具有准确性、稳健性、不易造成数据过拟合现象等优点。
研究构建基于GF-1遥感图像和气象数据的PM2.5浓度预测模型流程图如图2所示。为了探究遥感图像和气象数据在模型中的作用,分别构建(A)基于GF-1遥感图像、(B)基于气象数据、(C)基于GF-1遥感图像和气象数据的三个模型。
图2 模型流程图
建模过程中,将遥感图像(图像中心点)、气象数据、站点PM2.5数据按照日期和经纬度进行匹配,得到匹配数据集。GF-1 图像切片通过ResNet50 模型得到图像特征参数后与气象参数共同进行随机森林模型的训练。
采用十折交叉验证(10-Fold Cross Validation)[19]和测试集检验的方法对模型表现进行验证。其中80%匹配数据作为训练集,20%匹配数据进行模型检验,通过皮尔森相关系数R、均方根误差RMSE以及绝对误差MAE对模型性能进行评价分析。
将GF-1 WFV图像切片(图像中心点)、气象数据、站点PM2.5日均浓度数据按照日期和经纬度进行匹配,得到匹配数据集的统计结果如表2所示。
表2 匹配数据集统计分析结果
GF-1 WFV部分图像切片示例如图3所示。GF-1图像成像时间在上午11点左右,同一地点的明暗程度、色调基本相同;但可以观察到,同一地点PM2.5污染较轻时,图片也相对清晰,而当PM2.5污染严重时,图像表征出明显的雾霾特征,图像看起来相对模糊。
图3 同一位置不同污染状态GF-1 WFV图像切片示例
利用匹配数据对ResNet50-RF模型进行训练。通过十折交叉验证和测试集验证的方法对模型性能进行检验,统计分析结果如表3~表5所示。其中,F代表十折交叉验证结果,如1-F代表十折交叉验证第一轮的检验结果,VAL-AVE代表十折交叉验证的平均结果,TEST代表测试集结果。仅使用GF-1遥感图像(模型A)时测试集皮尔森相关系数R为0.69,说明遥感图像与PM2.5浓度存在相关关系,但模型整体精确度偏低;仅使用气象数据(模型B)时,模型已经可以得到较为准确的PM2.5浓度基准;而基于GF-1遥感图像和气象数据的PM2.5浓度预测模型(模型C)预测准确性优于前两个模型,模型测试集R为0.948,MAE为4.2 μg/m3,RMSE为6.6 μg/m3。
表3 基于GF-1图像数据的模型预测准确性统计
表4 基于气象数据的模型预测准确性统计
表5 基于GF-1图像数据和气象数据的模型预测准确性统计
为检验模型预测应用过程中PM2.5空间分布的合理性,对无锡和常州交界处2021 年12 月5 日PM2.5浓度分布进行预测,此处地面站点分布相对密集,便于对浓度分布的合理性进行检验。如图4所示,首先建立0.005°×0.005°(~500 m)栅格网络,然后以网络中每个点为中心对遥感图像进行剪切得到图像切片,通过反距离加权插值得到各栅格气象参数的连续数据。最后将图像切片和气象数据输入模型,预测结果如图5 所示。
图4 栅格创建和图像剪切过程
图5 无锡和常州交界处2021年12月5日500 m分辨率PM2.5浓度预测图
如图5-A,仅使用GF-1 遥感图像时(模型A),可以识别出PM2.5分布的高值区和低值区,但缺少气象参数的辅助,预测PM2.5浓度较为极化,浓度分布不连续且波动较大。仅使用气象数据时(模型B),通过表4 显示模型已经可以得到较为准确的PM2.5浓度基准,但通过图5-B 可以看到气象数据预测得到的PM2.5浓度空间差异小,在进行地面站点监测数据验证时,在部分地面站点处出现较大的预测误差,说明气象数据可以提供大致的PM2.5浓度基准,但捕捉空间变异的能力还有欠缺。而如图5-C,基于GF-1 遥感图像和气象数据的PM2.5浓度预测模型得到预测结果与地面站点监测数据更为契合,误差基本控制在5 μg/m3左右,空间分布更为合理。预测结果显示当日高值区集中在无锡江阴市和常州新北区,分析原因是由于该地工业产值占比高,污染物排放波动大,当日空气湿度较高,促进了前体物通过生成二次颗粒物的过程,加重了PM2.5污染。
(1)GF-1遥感图像可以体现PM2.5浓度大小。PM2.5浓度高时,遥感图像相对模糊;PM2.5浓度低时,遥感图像更清晰。
(2)结合Merra-2气象参数,基于GF-1遥感图像和ResNet50网络的PM2.5浓度预测模型准确率高。如图6示意,其中气象参数可以为模型提供较为准确的PM2.5浓度基准,而GF-1图像能帮助模型更合理预测PM2.5浓度的空间变化。
图6 遥感图像数据和气象等数据在模型中发挥的作用示意图
(3)基于GF-1遥感图像和ResNet50网络的PM2.5浓度预测模型Pearson系数R为0.948,MAE为4.2 μg/m3,RMSE为6.6 μg/m3,模型预测得到PM2.5空间分布连续,可以准确识别出PM2.5高值区与低值区分布,与地面站点监测数据一致性高,应用GF-1图像和ResNet50网络等深度学习方法可以作为地面监测手段的补充,应用于长三角地区PM2.5浓度监测。