陈明,王永前,吴锡
(1.成都信息工程大学 资源环境学院,成都 610225;2.成都信息工程大学 计算机学院,成都 610225)
大气中的水分仅占全球总水量的极小比例,但在水文循环过程中起着关键作用,与大气环流和气候变化关系密切[1]。水汽是影响地球能量循坏的温室气体之一,对全球气候变暖有着显著的作用[2]。青藏高原地区上空的大气水汽分布以及变化与亚洲季风、东亚大气环流以及全球气候变化息息相关[3]。因此,准确地获取青藏高原大气水汽含量及其分布对于气候变化的相关研究具有重要意义。
大气水汽的获取方法有很多,主要有探空法、地基法和卫星遥感探测法[4]。探空法和地基探测的水汽精度普遍较高,但是只能进行点观测,且数量有限[5]。利用不同时空分辨率的卫星遥感数据反演大气水汽可以克服探空法和地基探测水汽的不足。目前,根据所利用遥感数据波段的不同,卫星遥感反演大气水汽可以分为热红外、可见光近红外和微波[6]。一般在晴空条件下,利用近红外或热红外观测的遥感数据可以反演出准确的大气水汽含量[7-8]。近红外及红外遥感容易受云、雾和其他天气状况的影响,因此它的观测能力受到限制。微波波段可以在减少大气约束的情况下估算大气水汽,能够获得有云条件下的大气水汽[9]。因此,如何利用微波波段反演大气水汽算法具有重要的意义。
水汽在微波波段中(1~300 GHz)有两条转动吸收谱线,一条在22.235 GHz,另一条在183.31 GHz[10]。因此,利用微波进行大气水汽的反演,也多围绕着这两个波段展开。Wang等[11]提出了一种利用AMSR-E的18.7 GHz和23.7 GHz亮温极化差反演大气水汽的参数化模型。经验反演方法是直接建立遥感信号与变量之间的关系,通过增加输入输出数据对,提高估算的稳定性和精度[12]。新的发展趋势是大量使用机器学习方法,用于训练的输入输出数据多来自于测量数据或者是基于物理模型模拟。Zabolotskikh等[13]利用AMSR2数据采用神经网络方法反演海洋上空的大气水汽含量,具有较好的效果。Lee等[14]利用三种机器学习方法(随机森林、神经网络、梯度提升),基于葵花八号卫星的热红外波段数据进行大气水汽反演,并基于欧洲中期天气预报中心的水汽数据对反演结果进行验证,三种方法效果较好。多种机器学习方法的反演结果较好,但是基于AMSR2数据采用机器学习方法反演大气水汽的研究较少。
青藏高原地理位置特殊,是我国的水汽输送中转站[15]。卫星遥感反演水汽主要在晴空条件下,对于有云条件下大气水汽研究较少。本文基于AMSR2数据,利用随机森林模型,在青藏高原地区反演有云和晴空条件下的大气水汽,并利用ERA-Interim再分析数据对其进行对比分析。本文为青藏高原及其周边地区大气水汽的获取提供方法支撑。
青藏高原位于26°00′N~39°47′N,73°19′E~104°47′E之间,一般海拔在3 000~5 000 m之间,平均海拔超过4 000 m,不仅是我国长江、黄河的发源地,也是东亚、东南亚和南亚许多大河流的发源地,被称为“世界屋脊”[16]。青藏高原总面积约为2.5×106km2,拥有独特的地形地貌,地表类型较为多样化。近年来青藏高原各地区上空云量较多,尤其是青藏高原东南部地区。基于2016—2021年的MODIS云产品数据得到青藏高原地区云出现概率分布图。可以发现,青藏高原云出现的概率大体呈现为从西北方向向东南方向递增,青藏高原东南部地区云出现概率高达0.9。
1)遥感数据。
(1)AMSR2数据。2012年,日本宇宙航空研究开发机构发射了高级微波扫描辐射计二号(advanced microwave scanning radiometer 2,AMSR2),作为AMSR-E的替代品。AMSR2搭载在GCOM-W1卫星上,是一种用于测量大气表面和地球表面的微弱微波发射的工具[17]。AMSR2提供了在地球上空约700 km处对微波传播和散射强度的精确测量。AMSR2的白天和夜间信息每两天能覆盖99%以上的地球表面。在水平和垂直极化下,AMSR2包含7个频率通道,有6个频率(6.9、10.6、18.7、23.8、36.5、89 GHz)用来得到亮温,7.3 GHz频率是用来减轻射频干扰。传感器分辨率随着频率变化而变化,范围约为5 km(89 GHz)到60 km(6.9 GHz),其中18.7 GHz和23.8 GHz通道的分辨率为22 km[18]。与MODIS和AIRS等其他传感器相比,AMSR2的微波测量受多云条件和其他大气效应的影响较小,因此本文采用AMSR2升轨的中等分辨率L1B双极化亮温数据。AMSR2升轨一般在世界时六点左右过境青藏高原地区。通过G-portal平台下载研究区2017年1月和7月的AMSR2 L1B亮温数据。
(2)数字高程模型数据。数字高程模型(digital elevation model,DEM)是利用地形高程数据实现对地形曲面的数字化模拟,DEM的高程数据一般指的是绝对高程(即从标准水平面起算)。通过“地理空间数据云”平台下载了研究区2017年SRTMDEMUTM数字高程产品,分辨率为90 m,投影方式为WGS 1984。
对下载的影像做如下预处理。①提取研究区域。利用IDL软件对AMSR2 L1B亮温数据及DEM高程数据进行重采样、重投影(WGS1984)、拼接以及裁剪,得到青藏高原地区影像。②提取亮温和高程信息。为了得到在晴空和有云条件下GPS站点对应位置的高质量亮温及高程数据,首先,根据AMSR2影像的扫描时间选择时间相近(正负半小时)的葵花八号卫星的云产品数据,得到GPS站点周围3×3区域的像元值,若9个像元值中有超过5个像元是云像元,则该点为云像元,否则为晴空像元。然后,得到有云和晴空GPS站点的各频率水平及垂直极化的亮温和高程。
2) GPS水汽。通过西藏自治区获得青藏高原GPS水汽站的观测资料。基于IDL,首先,获取AMSR2扫描时间的前后15分钟时间段的平均GPS水汽值,剔除无效GPS观测水汽值;其次,结合葵花卫星云分类产品获取青藏高原有云像元的GPS水汽值;最后,得到2017年1月和7月共 2 803个GPS水汽样本数据。具体信息见表1。
表1 青藏高原GPS有效站点水汽统计
3)再分析数据。欧洲中期天气预报中心(ECMWF)发布了对全球大气数据集的ERA-Interim再分析资料,数据提供时间范围为1979—2019年。再分析数据包含一天四次(00、06、12、18 UTC),预报数据在世界时00和12点提供了四种步长(3、6、9、12)[19]。结合AMSR2升轨过境青藏高原的时间,在ECMWF 官网下载研究区2017年7月每天6点(UTC)的ERA-Interim水汽数据,分辨率为0.125°×0.125°。已有研究表明,ERA-Interim水汽数据能够很好地展示青藏高原地区的水汽含量及其分布情况[20-21],因此以该数据为参考,对比分析反演结果。
遗传算法是一种受查尔斯·达尔文自然选择思想启发的数学模型[22]。机器学习中遗传算法可以用来筛选变量以创建更优的预测模型。其基本原理是通过适应函数确定方向,通过选择、交叉和突变组合,不断地迭代搜索最优的变量[23]。基于随机森林回归模型估算大气水汽是以不同时空分辨率的遥感影像为主要数据源。以往较多研究是基于AMSR2 23.8 GHz和18.7 GHz等波段组合反演水汽。Du等[24]在考虑地形影响的基础上,利用AMSR2数据,运用参数化算法反演了大气水汽。因此,本文选取了13个潜在变量因子参与变量筛选(表2)。
表2 参与变量筛选的13个潜在预测变量
利用python构建遗传算法(迭代次数10),从13个潜在变量选取敏感变量。图1为在迭代过程中,每个潜在变量被选取的次数。36.5 GHz和18.7 GHz亮温(水平和垂直极化)和DEM被选中了10次;23.8 GHz的水平亮温被选中了10次,其垂直极化下的亮温被选中了6次;89 GHz的亮温(水平和垂直极化)只被选中了1次。23.8 GHz位于大气水汽吸收带附近,23.8 GHz通道对大气水汽反应敏感[25]。地形强迫作用对温度和水汽的分布有很大影响,水汽密度随着对流层高度呈指数递减趋势[26]。地表温度是大气水汽反演必不可少的参数,而地表温度的估算基本是基于36.5 GHz亮温[27]。因此,本研究选择23.8、36.5、18.7 GHz频率的水平(H)和垂直(V)极化下的亮温和高程来参与模型构建。
图1 潜在变量被选取的次数
AMSR2 亮温(除了7.3、10.6、89 GHz)和 DEM作为随机森林回归模型的输入变量,GPS/PWV为模型的目标变量。为了得到最优模型,除了将像元按照晴空和有云分类,还需将样本数据集按照季节分类(1月为干季、7月为湿季),划分为不同的样本数据集。在样本数据集中随机选择85%的数据作为训练样本集,剩下的15%作为模型的验证数据集。
随机森林算法是集成学习众多方法里的一种代表性方法[28]。随机森林算法在以决策树为基学习器构建Bagging集成的基础上,进一步在决策树的训练过程中引入了随机属性变量选择。具体来说,随机森林算法中,每一棵CART使用的训练数据集是从总数据集有放回的随机选择,对于基决策树的每个结点,都是从所有特征集中随机挑选特征[29]。
在python环境中,利用敏感变量构建随机森林回归模型以及对变量进行重要性排序。有两个需要调优的基本模型参数:树的数量(K)和在每个节点拆分时随机抽样的变量数量(m)。除了两个最具代表性的参数外,其他参数都是通过应用默认值来使用的。为了得到最优参数,以1为间隔,对K和m的取值范围分别设置为0~1 000、0~30。
机器学习回归模型的常用评价指标有均方根误差(RMSE)、平均绝对误差(MAE)、平均绝对比例误差(MAPE)、皮尔逊相关系数(R)、方差等。本文采用R、RMSE和MAE作为评估模型预测能力的评价指标。R可以反映出预测值与实测值之间的相关性强度,RMSE和MAE越小代表着模型预测结果越准确。
在不同大气条件和不同季节下,以随机森林算法为基础,通过变量选取和参数优化,得到模型预测值与实测值之间的拟合关系。图2为GPS水汽与模型预测的水汽之间的散点图。
图2 随机森林回归模型精度评价
分析可得以下结论。①基于随机森林回归模型预测的大气水汽和GPS水汽有显著的相关性,RMSE和MAE整体值较小。有云像元反演的三个模型精度都很高,说明随机森林回归模型用来反演多云地区的大气水汽是可行的。整体而言,相较于所有有云样本数据参与构建的模型,按季节构建的模型精度更优。干季有云像元大气水汽预测值和GPS水汽相关性高达0.928,RMSE为1.15 mm,MAE接近0;湿季有云像元大气水汽预测值和GPS水汽相关性为0.882,RMSE为4.08 mm,MAE为3.08 mm;所有有云像元大气水汽预测值和GPS水汽相关性高达0.919,RMSE为4.74 mm,MAE为3.39 mm。干季有云像元水汽反演精度高于湿季,7月的青藏高原地区是雨季,呈多云,有云像元数量高于晴空,水汽含量高。②在干、湿季节中,有云像元反演精度略高于晴空像元。以GPS水汽为参考,干季有云和晴空像元的R分别为0.928和0.901,RMSE分别为0.127 cm和0.119 cm,MAE分别为0.095 cm和0.088 cm;湿季有云和晴空像元的R分别为0.882和0.845,RMSE分别为0.408和0.530,MAE分别为0.308 cm和0.439 cm。结果表明,AMSR2水汽反演精度受云层的影响较小。
已有研究表明,MODIS水汽产品可以较好地反映青藏高原地区的水汽特征[30],光学遥感受天气影响较大,而微波具有一定的穿透性。因此,将GPS实测值作为参考,分别评估利用AMSR2数据采用随机森林回归模型反演的水汽和MODIS水汽产品数据在青藏高原有云条件下的精度。
基于模型反演的有云像元,选出相应的MOD05近红外和热红外有云像元,结果如图3所示。由图3可知,干季MOD05近红外和热红外的有云像元水汽与GPS水汽R均低于0.6,普遍低于真实值。干季AMSR2有云像元水汽反演结果与GPS的观测水汽结果符合良好,RMSE为0.11 cm,MAE为0.082 cm;湿季AMSR2有云像元水汽反演结果与GPS水汽的R为0.847,RMSE为0.274 cm。湿季MOD05近红外和热红外的有云像元水汽与GPS水汽之间的相关性很低,R分别为0.38和0.308。MODIS现有的水汽产品数据在晴空条件下具有较高的精度,但是对于有云条件下的水汽反演明显不足。因此,基于AMSR2和高程数据利用随机森林算法反演的有云像元大气水汽含量精度高于光学遥感有云像元水汽的反演精度。
图3 AMSR2水汽和MOD05(近红外/热红外)水汽与GPS遥感水汽之间的关系图
AMSR2需要两天遥感影像覆盖整个青藏高原,本研究采用湿季有云条件下的随机森林回归模型估算2017年7月1日—2日两天的大气水汽,并合成完整的青藏高原地区大气水汽。大气水汽含量由东南向西北方向减小,高原东南地区和西南地区为水汽分布的高值区,其中高原东南地区最湿,其含量可高达5 cm。反演结果表明,青藏高原地区大气中的水汽呈现南湿北干的空间分布特征,该结论与周长艳等[31]的结论一致。
为了验证AMSR2亮温数据反演的青藏高原大气水汽含量及分布,本文选用了再分析ERA-Interim水汽数据与其进行对比分析。青藏高原大气水汽分布情况与随机森林回归模型反演大气水汽分布图相比,具有较好的一致性。为了更好地对比分析AMSR2和ERA-Interim的大气水汽数据,将ERA-Interim大气水汽数据进行空间插值至AMSR2大气水汽数据的空间分辨率,并进行点对点的匹配。以AMSR2大气水汽数据为参照面,利用评价指标,分析其与ERA-Interim大气水汽数据之间的相关关系。可以发现,AMSR2和ERA-Interim的大气水汽数据显著相关,两者大气水汽的RMSE为5.48 mm,MAE为4.35 mm。
青藏高原及其周边地区的大气水汽含量时空分布对全球和区域的气候变化、大气循环等有着重大影响。近年来,机器学习在遥感领域一直为热点问题,其中,随机森林算法凭借其高效、准确的性能被广泛应用于遥感估算。本文基于GPS实测大气水汽数据、AMSR2亮温数据,利用随机森林算法构建非线性回归模型,对青藏高原多云地区大气水汽含量进行了遥感估算与分析,得到以下结论。
1)AMSR2亮温数据结合随机森林算法适用于青藏高原有云地区的大气水汽含量反演。无论是干季还是湿季,利用AMSR2反演有云像元的大气水汽的精度较高,其中有云像元的水汽估算精度高于晴空像元,湿季模型拟合预测的水汽精度低于干季。与MODIS水汽产品相比较,AMSR2反演的有云像元水汽含量准确性更高,可以用来弥补光学遥感反演水汽的不足。
2)23.5 GHz是大气水汽吸收带,水汽密度随着对流层高度呈指数递减趋势。研究表明,AMSR2 23.5 GHz和36.5 GHz频率的亮温和DEM高程是随机森林回归模型中对大气水汽含量具有重要意义的预测变量。大气水汽估算涉及的变量较多,会受到不止一种因素的影响。
3)由于卫星遥感数据的分辨率、大气水汽本身特性等众多限制因素影响,对有云像元水汽反演而言,按季节分类构建的模型精度高于所有样本数据参与模型的精度。湿季模型估算2017年7月1日—2日的青藏高原大气水汽,水汽分布为南湿北干,与2017年7月1日—2日的再分析ERA-Interim水汽分布趋势基本一致。