吴芳芳,傅智一,胡林舒,张丰*,杜震洪,刘仁义
( 1.浙江大学 浙江省资源与环境信息系统重点实验室,浙江 杭州 310028;2.浙江大学 地球科学学院,浙江 杭州 310027)
盐度是海水的基本物理参数之一,可用于追踪陆源物质的路径,研究陆源河流冲淡水和近海海水混合变化过程、藻类暴发过程以及缺氧区的生态环境等[1-5]。传统盐度数据的获取方式包括现场测量获取以及利用浮标获取,难以实现海表盐度的时空连续观测。卫星遥感凭借其大范围、连续性的时空优势可及时有效地监测海表盐度,对于海洋的相关研究、海洋资源的管理与决策具有重要意义。
微波遥感在复杂天气条件下具有一定的优势,常被用于大面积开阔海域的海表盐度反演研究[6],但其时空分辨率低且易受射频干扰,不适用于沿海水域。在沿海水域及近岸-河口地区,海表盐度的监测与研究通常利用光学遥感。与现有的盐度卫星相比,光学卫星具有较高的分辨率与较短的重返周期并可避免射频干扰的问题。Vandermeulen等[7]利用SNPP-VIIRS卫星410 nm、443 nm、486 nm、551 nm和671 nm波段的遥感反射率(Remote Sensing Reflectance, Rrs)(Rrs410、Rrs443、Rrs486、Rrs551、Rrs671)反演了墨西哥湾河口区域的海表盐度。Liu等[8]基于静止轨道卫星(GOCI)的遥感反射率(Rrs412、Rrs443、Rrs490)反演了渤海的海表盐度。这些研究通常将有色溶解有机物(Chromophoric Dissolved Organic Matter, CDOM)的吸收系数作为海表盐度反演的中介参数,来建立遥感反射率与海表盐度之间的关系,但仅靠单一的遥感反射率数据并不能得到较好的盐度反演结果。近年来,也有学者利用遥感反射率数据和海表温度数据反演海表盐度,并证明海表温度是反演海表盐度的重要参数[9-10]。
现有的盐度遥感反演方法多采用数理统计模型,如比值模型[11]、多元线性回归模型[12],利用遥感反射率数据实现对海表盐度的反演。但基于数理统计模型的方法存在模型反演精度低、应用范围有限的缺点,无法适用于盐度呈复杂非线性特征或遥感信息间存在时空自相关性[13]等的复杂场景。基于机器学习的方法能有效分析出数据内部的关联性,提高预测精度。Geiger等[9]利用MODIS-Aqua的归一化离水辐亮度、海表温度数据以及位置信息建立了反演大西洋中部海表盐度的神经网络模型。Chen等[14]基于MODIS和SeaWiFS卫星的遥感反射率数据和海表温度数据,构建了基于多层感知神经网络(Multilayer Perceptron Neural Network, MPNN)的海表盐度反演模型。虽然基于神经网络模型可以有效地提高盐度的反演精度,但模型的构建方法复杂,内部运行机理未知,难以对变量进行合理地解释。随机森林算法是基于决策树的一种集成学习算法[15],它可以高效地划分多颗决策树。树中的各节点可用于反映不同区域、不同环境下的盐度状况,可应用于复杂环境下的盐度反演研究。墨西哥湾受入海河流的淡水输送、环流以及风力的共同影响,是一个具有复杂水动力环境的典型半封闭海域。另外,该区域内实测数据丰富且易获取,因此,选择墨西哥湾作为研究区域,构建适用于复杂环境的海表盐度反演模型。
本文选取MODIS-Aqua卫星的遥感反射率数据(Rrs412、Rrs443、Rrs488、Rrs555、Rrs667)和海表温度数据,协同实测盐度数据,利用随机森林方法构建墨西哥湾海表盐度反演模型,反演2018年墨西哥湾的海表盐度。基于海表盐度的反演结果,研究湾区内海表盐度的时空变化特征,探究不同空间区域内各影响因子与海表盐度的相关性,对其空间异质性进行分析,为复杂环境下的海表盐度反演模型提供模型变量的选取思路,为其他海域的海表盐度反演研究提供参考。
墨西哥湾为北美洲大陆东南沿海水域,湾内主要受北部河流输入的影响,密西西比河、阿查法拉亚河等众多河流为墨西哥湾输送了大量淡水、泥沙、营养物质和有机物[16]。位于墨西哥湾东南部的环流系统是墨西哥湾区环流的主要驱动力,该环流将加勒比海的高温、高盐水向北输送到墨西哥湾,再从佛罗里达海峡输出至北大西洋。另外,环流也将北部的淡水沿着北部大陆架和西佛罗里达大陆架向东和向南输送[17-18]。整体上,墨西哥湾由于受到入海河流淡水输送、环流和风力等因素的影响,其物理和生物化学过程活跃,海水盐度也呈现空间异质性(图1,参考Otis等[17]的研究)。
图1 研究区概况Fig.1 Overview of the study area
3.1.1 实测盐度数据
实测盐度数据来自2018年美国国家海洋和大气管理局(National Oceanic and Atmospheric Administration, NOAA)在墨西哥湾海域开展的15个共享航次,该数据从海洋碳数据系统(Ocean Carbon Data System,OCADS)(https://www.nodc.noaa.gov/ocads)中 下 载 。盐度观测仪器为美国Sea-Bird公司的温盐深仪(CTD),测量的方式为走航测量。根据世界海洋环流实验(World Ocean Circulation Experiment, WOCE)指南,数据均被标上质量控制标识,共有3个标识值:“2”表示质量良好;“3”表示可疑数据;“4”表示质量较差。为保证数据的准确性,本研究保留具有质量良好标识“2”的实测盐度数据。数据来源的航次信息如表1所示,空间分布情况如图2所示。
图2 实测海表盐度数据分布Fig.2 Spatial distribution of field sea surface salinity
表1 实测海表盐度数据来源航次信息Table 1 The source and voyage information of field sea surface salinity
3.1.2 卫星数据
卫星数据来自搭载于Aqua卫星上的中分辨率成像光谱辐射计(MODIS),该数据具有较高的光谱分辨率和中等空间分辨率,可满足研究的需求。本文选取MODIS的遥感反射率数据(Rrs412、Rrs443、Rrs488、Rrs555、Rrs667)以及海表温度(Sea Surface Temperature, SST)数据用于反演海表盐度,具体的统计信息如表2所示。数据来源于美国航天局戈达德航天飞行中心(Goddard Space Flight Center, GSFC),是空间分辨率约1 km的标准L2级单轨产品。按照美国航天局质量控制标准,剔除含有云、杂散光等低质量的卫星数据,剔除质量等级大于1的L2级低质量海表温度影像。基于3×3像元窗口,获取与实测盐度采样时间间隔为±6 h内的L2级遥感反射率和海表温度数据。利用Arcmap软件的Extract Values to Points工具,将卫星数据和实测盐度数据进行匹配,以便进行盐度反演。本文数据经过预处理后,共获得7 963组匹配数据,用于海表盐度反演模型的开发与验证。
表2 实测数据与卫星数据统计信息Table 2 Statistics of measured data and satellite data
随机森林是一种用于分类和回归的集成学习方法,其将Bagging方法、随机子空间方法与决策树方法相结合[19-21],为解决单棵决策树存在过拟合的瓶颈问题,集成多颗决策树来提高预测性能。算法融入自助聚集(bootstrap aggregating)方法生成子集,即从原样本集D中通过bootstrap有放回地随机抽取M个与原样本集同样大小的训练样本集Dm(m=1,2,3,···,n),据此构建多颗决策树。在对决策树的每个节点进行分裂时,引入随机子空间方法,从全部K个特征中均匀随机地抽取一个特征子集,从该子集中选择一个最优分裂特征[15]。最后采用多颗决策树并行的方式,求取多棵决策树结果的均值作为最终预测结果,可简要表示为
随机森林的优点在于利用bootstrap缓解高方差的问题,弱化决策树间的相关性;利用随机子空间方法选取特征的随机性优势,增强模型的泛化能力;平均多颗决策树预测值提高预测精度,实现数据的准确分类和预测。随机森林方法简单高效,只需调整森林中树的数量(ntree)和每个结点的特征数(mtry)就可以快速有效地生成合理的模型。与其他机器学习方法相比,随机森林抗过拟合能力强,异常值和噪声的容忍度高[15],在参数优化、变量排序以及后续变量分析解释等方面存在明显优势[22]。因此,本文选择随机森林算法整合多元参数来反演海表盐度,模型构建流程如图3所示。
图3 基于随机森林算法的海表盐度反演模型构建流程图Fig.3 Flow chart of sea surface salinity retrieval model based on random forest algorithm
本文利用R软件中的randomForest包来实现海表盐度反演模型的构建,将遥感反射率以及海表温度作为模型的输入,海表盐度作为模型的输出,通过多次迭代训练建立各影响因子与海表盐度之间的映射关系。模型结果使用均方根误差(Root Mean Square Error, RMSE)、决定系数(R2)、平均误差(Mean Bias,MB)、平均绝对误差(Mean Absolute Error, MAE)进行评估。
将数据集按照8∶2的比例随机分为训练集和测试集,利用本文建立的随机森林模型进行海表盐度反演,图4为训练集和测试集的实测盐度与模型反演盐度的线性回归密度散点图。在训练集中,R2为0.986,RMSE为 0.203,MAE为 0.073,MB为-0.001。在测试集中,R2为 0.931,RMSE为 0.335,MAE为 0.154,MB为-0.002。从结果可知,实测盐度与模型反演的盐度之间相关性高、误差小,模型的拟合度高,验证了随机森林模型反演海表盐度的可行性。
图4 随机森林模型性能对比Fig.4 Performance comparison of random forest model
为进一步评估模型在不同地理区域的性能,探究随机森林在不同环境下的适用性,本文选取墨西哥湾典型的河口区域(图5d中的A区域)以及环流影响的区域(图5d中的B区域)作为子研究区,得到各子区域的实测盐度与模型反演盐度的线性回归结果,见图5a和图5b。如图所示,模型在河口区域与环流区域都得到了较好的拟合结果,RMSE均小于0.3,R2均大于0.8,图5c表明,92.4%的误差在-0.2~0.2范围内。模型在河口区域取得更好结果的原因可能是河口区域接收了北部大量含有CDOM或其他陆源成分的河流淡水。淡水在红光波段具有反射特性,同时,陆源成分在蓝光波段和绿光波段分别具有强吸收以及强反射的特性,而模型的输入参数(遥感反射率)能有效地捕捉到这些由光学特性表征的海水-淡水混合信息,因此该模型能很好地反演河口的盐度。环流区域由于羽流的扩散[14],其海水-淡水混合信息能被模型很好地捕捉,故在该区域也得到了理想的拟合结果。
图5 随机森林模型在河口区域与环流区域的性能对比Fig.5 Random forest model performance comparison in estuary region and circulation region
为验证随机森林模型的可行性,本文将随机森林模型与多元线性回归、人工神经网络、支持向量机模型的反演结果进行比较,用RMSE、R2、MAE、MB评价指标衡量模型的反演效果和稳健性。由图6结果可知,随机森林模型的R2最高,RMSE最小。综合相关性和误差,随机森林模型相比其他方法而言具有更强的泛化能力以及更佳的预测能力。
图6 4种模型反演的海表盐度验证Fig.6 Validation of sea surface salinity retrieved by four models
探究盐度的空间分布特征可揭示淡水以及陆源物质的输送范围,对于研究与管理海洋环境具有重要意义。空间分辨率为约1 km的MODIS卫星数据能较好地展现海表盐度在空间上的差异性,捕捉盐度变化的细微特征。随机森林模型不同的树节点对应不同区域、不同环境下的盐度状况,可较为准确地反演出湾区内盐度的分布模式。基于此,将模型应用于MODIS卫星数据,得到墨西哥湾海域海表盐度反演分布结果,并对其时空分布特征进行分析。
由2018年墨西哥湾海表盐度的反演结果(图7)可知,墨西哥湾海表盐度的空间分布呈近岸-河口低、离岸高,环状向内增值的态势。受密西西比河、阿查法拉亚河等河流输入的影响,盐度在近岸-河口较低。湾区北部呈现明显的低盐度水和高盐度水混合的现象,在风、环流以及涡流的影响下[23],河流入海口的低盐度水向南扩散和沿着大陆岸线向东西两侧扩散。由于河流的到达范围有限,离岸区域的盐度较高且相对均质,盐度值大部分为33~36,以上分析结果表明,入海河流的淡水输送及扩散直接影响湾区内盐度的分布状况。
图7 随机森林模型生成的2018年墨西哥湾年平均海表盐度反演图Fig.7 Annual mean sea surface salinity generated by the random forest model in the Gulf of Mexio in 2018
2018年墨西哥湾逐月的海表盐度分布(图8)显示,湾区盐度空间形态分布特征相似,均呈现近岸-河口低、离岸高的态势。离岸区域的盐度值大部分为 33~36。
图8 随机森林模型生成的2018年墨西哥湾月平均海表盐度反演图Fig.8 Monthly mean sea surface salinity generated by the random forest model in the Gulf of Mexio in 2018
受河流流量的影响,湾区北部盐度较低且变化最为显著。春季,湾区北部的盐度受密西西比河以及阿查法亚河等河流流量影响,出现明显的盐度低值区。夏季,在西南风和环流的作用下[24],低盐度羽流向东和向南扩散,并沿环流东缘流向佛罗里达海峡。在河流流量以及风力的作用下,低盐度水的扩散效应持续至9月,此后,由于河流流量的减小[25],秋季盐度的变化较小。河流流量在冬季持续减小,并在1月中旬左右达到年度最低值[26],河口盐度低值区持续收缩。盐度空间分布成因分析表明,盐度的变化与河流流量存在季节性响应,在风力的影响下,低盐度羽流于夏季出现明显的扩散现象。另外,环流带来的加勒比海的海水也会影响湾区内的盐度。
输入变量的重要性可用于表示不同输入变量对模型的影响程度,本文利用InMSE方法和IncNode-Purity方法得到输入变量排序,以此来增强随机森林模型的可解释性,进而揭示海表温度和遥感反射率对于海表盐度反演的重要性。InMSE与IncNodePurity同为randomForest包自带的评估变量重要性的方法。InMSE表示逐一加入各变量后均方误差的增加,IncNodePurity指节点在分裂前后的残差平方和的增加,两种方法均通过量化误差来衡量输入变量的重要程度。海表温度以及遥感反射率数据(紫光波段(Rrs412)、蓝绿光波段(Rrs443、Rrs488、Rrs555)、红光波段(Rrs667))的重要性排序结果如图9所示,两种不同重要性排序方法得出的结果都说明海表温度对海表盐度反演精度的影响最大,Rrs488的对海表盐度反演精度的影响最小,而在不同的方法下,Rrs412、Rrs443、Rrs555、Rrs667的重要性不完全一致。
图9 影响因子重要性排序Fig.9 Importance ranking of influence factors
海表温度与海表盐度的响应程度很高主要是因为入海河流输入的淡水和海水之间会产生温差,通过温差可捕捉河流的入海信息。而遥感反射率与盐度两者在本质上并无直接关系,需要引入CDOM作为中介物进行分析。海表盐度与CDOM的吸收系数之间存在显著的负相关关系[27-28],而CDOM的吸收系数可通过遥感反射率反演得出[29],因此,遥感反射率能间接反演盐度信息。CDOM的吸收系数在可见光波段内呈指数衰减的特性,通常表示为遥感反射率的线性函数,例如,可被表示为蓝绿光波段的比值[30]或紫光、蓝绿光的线性组合[31]。特别是在河口和近岸海域,CDOM的浓度较高,其对光的强吸收从紫光波段延伸到蓝绿光波段[30]。同时,红光波段对盐度的反演也很重要[10]。综上所述,反演CDOM的算法大多依赖于紫光波段、蓝绿光波段以及红光波段的遥感反射率数据,故以上波段对海表盐度的反演起到了重要作用。
从InMSE方法排序结果可知,在本文中海表温度对海表盐度反演精度的影响最大,其次为绿光波段的遥感反射率(Rrs555)以及红光波段的遥感反射率(Rrs667),最后为紫光波段和蓝光波段的遥感反射率(Rrs412、Rrs443、Rrs488)。从 IncNodePurity方法的排序结果可知,海表温度仍然对海表盐度反演精度的影响最大,其次为蓝光波段、紫光波段、红光波段的遥感反射率(Rrs443、Rrs412、Rrs667),最后为蓝绿光波段的遥感反射率(Rrs555、Rrs488)。InMSE方法与IncNodePurity方法定义变量重要性标准的概念不同,所以变量的排名也不尽相同。
区域差异是地理学的传统研究视角,为探索海表盐度影响因子的区域差异,本文对河口区域、环流区域以及整个墨西哥湾区域影响因子与海表盐度间的相关性进行研究,各影响因子与海表盐度的相关性如图10所示。研究表明,在河口区域和环流区域,海表温度与海表盐度的相关性最大,而对于整个墨西哥湾海域,Rrs667与海表盐度的相关性最大。
图10 不同地理分区海表盐度影响因子的贡献度Fig.10 Contribution of each factor to sea surface salinity in different geographical regions
相比于同区域的遥感反射率,海表温度对海表盐度的影响在河口区域和环流区域较大,这主要是由于水流混合导致的温度梯度造成的。河口区域低盐淡水和海水混合,环流将高温、高盐的加勒比海水输送至墨西哥湾,较大的温差导致盐度产生局部地变异。但对于整个墨西哥湾海域,海表温度对海表盐度的影响较小,因为大面积的离岸区域温度较为稳定,从而弱化了温度的影响。针对不同的地理分区,海表温度在河口区域对海表盐度的影响最大,在环流区域的影响最小。该结果显示,在墨西哥湾海域,冲淡水对海表盐度的影响比环流更加明显,这主要是由于入海河流输入的淡水与湾区内海水的盐度差和温度差相较于加勒比海水与湾区内海水更大。
在富含沉积物的河口区域,各波段的遥感反射率对海表盐度的影响较大,其原因为遥感反射率能很好地捕捉到陆源物质。而在环流区域,同质海水使得遥感反射率对海表盐度的影响并不显著,从而强化了温度的影响。在全部海域,各波段的遥感反射率对海表盐度的影响也较大,主要是因为该区域不仅包含受冲淡水影响的河口区域、由暖流控制的环流区域,还包括了同样富含陆源物质的大陆架与受温度影响较小的离岸区域,因此,对于整个墨西哥湾,遥感反射率对海表盐度反演的影响也较为显著。
本文将海表温度作为模型的输入变量之一,利用随机森林提供变量排序、变量解释的优势,证明了海表温度跟海表盐度之间具有较强的相关性,并验证了各影响因子与海表盐度的相关性存在空间异质性。基于2018年遥感与实测匹配的遥感反射率数据和海表温度数据构建的随机森林模型,对墨西哥湾的海表盐度进行反演,结合比较其他方法得出以下结论:
(1)随机森林模型的反演精度高于多元线性回归、支持向量机以及人工神经网络模型,其RMSE为0.335,R2为0.931,更精确地反演了墨西哥湾海表盐度;(2)墨西哥湾海表盐度时空分布特征结果表明,湾区内海表盐度的空间分布呈近岸-河口低、离岸高,环状向内增值的态势。海表盐度空间分布成因分析表明,湾区内海表盐度的变化与河流流量存在季节性响应,在风和环流的影响下,入海河流的淡水输送及扩散直接影响湾区内海表盐度的分布状况;(3)对模型的影响因子进行排序,发现了海表温度是墨西哥湾海域反演海表盐度的重要因素;(4)对不同的区域内海表温度和遥感反射率与海表盐度的相关性进行探析,验证了影响因子与海表盐度间的相关性存在空间异质性,其中,河口区域的海表温度和Rrs667与海表盐度的相关性最强。
本研究发现了海表温度与海表盐度存在较强的相关性,各影响因子与海表盐度存在空间异质性,可为沿海水域海表盐度反演模型提供变量选取的思路。建立的高精度海表盐度反演模型可适用于类似地理条件的区域,进一步的拓展应用还需进行相应海域及不同时相数据的分析和检验。
致谢:感谢NOAA国家环境信息中心(NCEI)(https://www.ncei.noaa.gov/access/ocean-carbon-data-system/)提供的2018年墨西哥湾实测盐度数据。