江佳乐,刘湘南,刘美玲,毕晓庆
(中国地质大学(北京)信息工程学院,北京 100083)
近年来,海洋盐度的反演研究逐渐增多,其遥感反演方法主要分为间接法和直接法。间接法主要是基于特定海域盐度与某些光敏感性物质的关系,建立其遥感反演模型 (Binding et al,2003;Silió-Calzada et al,2008;王林 等,2012;高国栋等,2011)。而直接法则主要利用盐度敏感波段(可见光、近红外波段以及微波L和S波段),通过微分光谱技术、海表辐射模型、多元统计回归模型等获得盐度与光谱数据的关系,实现海表盐度的遥感反演(Klein etal,1997;李志等,2007;殷晓斌等,2006)。然而,上述方法存在着反演因子单一、优质数据挖掘困难以及过度拟合等问题。
随机森林 (Random Forest,RF)由 Breiman(2001)提出,是一种基于分类与回归决策树(Classification And Regression Tree,CART)的组合算法,具有如下定理:随着决策树的增加,对所有随机向量θi,分类器的泛化误差PE*收敛于
即随着树的增多,PE*将趋于一个上界。该定理表明随机森林不会产生过拟合。此外,随机森林学习过程快速,运算速度快、稳定性好,在处理大数据集上十分高效,且预测精度高(Verikas etal,2011)。较之神经网络、CART树和线性回归中的子集选择存在的不稳定性,Bagging算法可以对不稳定情况进行正常处理 (Breiman,1996)。而Bagging和随机选择特征分裂的结合使其对异常值和噪声具有很好的容忍度(Breiman,2001)。该算法还可以提供内部误差估计、强度、相关系数以及变量重要性等有用信息,对于结果具有可解释性(Breiman,2001)。随机森林应用广泛,特别在遥感方面,随机森林已成功应用于多光谱数据(Pal,2005)、多时相合成孔径雷达(SAR)影像(Waske etal,2009)、高光谱数据 (Ham etal,2005)、多源遥感数据 (Gislason etal,2006)等。
海盐并非光敏感性物质,在自然水体中吸收、散射光能微弱(王林等,2012)。尤其是在河口-近岸海域,由于大气环境复杂、海水自身条件不稳定,加之人为因素影响,使得微波遥感对盐度的反演遇到了一定的阻碍,而光学遥感在此类复杂区域的盐度反演精度更高。因此,本研究利用随机森林算法,并结合ASTER多光谱数据,采用间接法反演海表盐度。
香港特别行政区位于 114°15′E,22°15′N,珠江口以东,拥有很长的海岸线,水域面积达1651km2,属海洋性副亚热带季风气候。香港环境保护署自1986年起在其海域实施全面的海水水质监测计划,每月在全港76个水质监测站进行海水监测,本研究以其所搜集度量的表层海水水质数据为实测数据。
先进星载热发射和反射辐射仪(The Advanced Spaceborne Thermal Emission and Reflection Radiometer,ASTER)是搭载于 1999年发射的Terra卫星上的多光谱成像仪。本研究基于ASTER LEVEL 1B(L1B)数据对影像进行辐射定标,其中将VNIR、SWIR定标为辐射亮度,单位是W/m2/sr/μm,TIR数据定标为大气表观温度值,以开尔文为单位,继而对其进行FLAASH大气校正,以及拼接、裁剪等处理。考虑到研究区域的覆盖率及影像质量,本研究选取了2003-2008年共6期L1B影像数据,并利用其覆盖的监测站点的数据进行相关应用与分析。
图1 研究区域及监测站点分布
随机森林是一种统计学习理论,包括随机森林分类 (Random Forest Classification,RFC)和随机森林回归(Random ForestRegression,RFR)。它是决策树的组合,用Bagging算法产生不同的训练集,即利用Bootstrap重抽样方法从原始训练集中抽样生成多个样本,对每个新的训练集进行决策树建模,且决策树在生长过程中不进行剪枝,然后组合多棵决策树的预测,最后通过简单多数投票法(因变量为分类变量时,RFC)、或单棵树输出结果的简单平均(因变量为数值变量时,RFR)得出最终预测结果(Breiman,2001)。
表1 ASTER影像数据覆盖的监测站点
由于作为因变量的敏感因子光谱参数及海表盐度都是数值变量,在盐度预测RF的建模过程中,采用的是随机森林回归模型。随机森林利用Bagging方法生成训练集,即每棵分类决策树的训练样本都是从原始总样本数据集中随机选取,直至生成k棵决策树,所有决策树的集合形成一个盐度预测的随机森林,最终产生k个决策树结果,通过平均法得到最优盐度预测结果。在训练集生成过程中,一些样本在特别的Bootstrap采样中不止用了一次,而另一些数据可能并未用到,这样原始样本中接近37%的样本不会出现在训练集中,这些数据称为袋外(Out-Of-Bag,OOB)数据。使用这些数据可用来估计模型的性能(OOB估计),即估计单个变量的重要性,以及估计模型的泛化误差,用于结果的解释。
海洋环境复杂,存在多方面影响海洋盐度变化的因子,影响层次也不尽相同,因此要研究盐度的反演,需要对潜在的影响因子进行分析、筛选,为模型的建立提供依据。
图2 算法流程结构示意图
在对海盐的遥感探测过程中存在一定的干扰因子,增加了卫星遥感观测海表面盐度的复杂性、影响了其精确程度,但这些因素大多数可通过一定的技术手段消除或降低至可忽略水平。海洋表面作为海洋和大气的交界面,其条件不稳定,而近岸海域易受气候与大陆的影响,多数因子涉及面广,条件复杂,且难以量化,可用相关参数进行表征。除了上述宏观因素外,对于光学遥感而言,在海水物质成分中还存在一些与盐度密切相关的组分,它们是海表宏观因子的微观表征,同时也在一定程度上影响着海表盐度。
考虑到实际测量数据的获取途径及光学遥感特性,首先筛选出在盐度反演中重要的参数:代表黄色物质的氮素,与河川径流相关的悬浮固体,表征浮游植物量的叶绿素a,以及海表温度(T)。黄色物质即“有色可溶性有机物质(Colored Dissolvable Organic Matter,CDOM)”,是遥感监测水质的主要参数之一,是不同于浮游植物种群的、与枯衰植物有关的溶解有机物。前人研究分析了黄色物质的渊源,认为海水中的黄色物质的来源有二:(1)来源于大陆,主要是江河携带;(2)直接由海洋浮游植物有机体化学降解而形成。悬浮固体(Suspended Solid,SS)是指水中呈悬浮状态的固体。在河口-近岸海域,河川径流入海时,会携带大量悬浮物质,使其附近海水中固体悬浮物明显增大,因此悬浮固体与径流密切相关。浮游植物广泛存在于河流、湖泊和海洋中,植物生长需要吸收必需的营养元素及营养盐,在一定程度上降低了附近水域环境的营养盐含量,稀释盐度。而地球上约一半的光合作用是由浮游植物进行的,因此,叶绿素a、氮、磷等含量可作为表征浮游生物量的参数。海水的温度是海洋热能的一种表现,温度对蒸发量起决定作用,它通过改变溶解度而影响盐度,一般而言,温度越低,溶解度越小,溶解的盐越少,盐度就越大。
为检验各潜在影响因子与海表盐度的相关程度,采用影像数据所对应的研究区域监测站,共1 535个实测数据(包括盐度、总氮、悬浮固体、叶绿素a以及温度,已剔除数据异常值),利用统计软件SPSS对盐度与各因子之间进行Pearson相关分析及双侧检验,得到结果如表2所示。
表2 盐度与各潜在影响因子的相关关系
表2给出了Pearson相关系数,及相关检验t统计量对应的双尾检验概率P值。从敏感因子与盐度的相关性比较中可以看出,盐度与总氮、悬浮固体显著相关,显著水平达到0.01,其中与总氮相关性最高(相关系数都在0.8以上,对应的P值均为0.000<0.05)。总氮是溶液中所有含氮化合物的总称,即硝酸盐氮、亚硝酸盐氮等无机氮以及大部分有机含氮化合物的总和。在近海区域,河川径流入海时携带了大量的氮、磷等营养元素,由此总氮含量可以在一定程度上代表淡水注入量,并与盐度存在反比关系。此外,作为浮游植物生长的重要物质基础,氮在大多数海域中是限制浮游植物生长的主要营养元素,尤其在热带和亚热带海域作用更加明显 (Beman etal,2005)。
固体悬浮物含量越大,代表注入的淡水量越大,相应区域内的海水盐度降低。已有多项研究表明温度对海表盐度具有重要影响(Brassington etal,2009;Ravichandran etal,2012)。温度可直接影响海表水蒸发量,从而改变盐度,并能影响水体理化性质,进而改变盐类在水体中的溶解度,与盐度形成负相关关系。Davies(2004)研究发现,在海水表面存在高温、低盐度的关系。同时,近岸海水属于二类水体,悬浮泥沙、黄色物质和叶绿素a浓度成为相互独立的三要素,共同影响着水体光学特性,因而悬浮泥沙和黄色物质都将对叶绿素a浓度造成影响,导致叶绿素a对盐度的影响复杂化,不足以直接作用于盐度。
总体而言,总氮、悬浮固体、温度与盐度的相关性较高,对盐度的反演贡献较大。叶绿素a与盐度虽然存在一定的相关性,但较之同时期的总氮和悬浮固体而言,相关系数较小。尽管在少数年份中存在相关系数叶绿素a比温度大,但两者仅相差0.019(2004年)、0.064(2005年),而在其他年份中相关系数温度远高于叶绿素a。
利用以上相关关系及显著性水平作为筛选参考,并结合理论分析,剔除叶绿素a,选取总氮(TN)、悬浮固体(SS)、温度(T)作为盐度敏感因子用于模型的建立。
在构建模型之前,需要设定模型参数,包括输入数据集以及算法参数。这里,输入数据集由敏感因子(TN、SS、T)组成,数据来自对ASTER遥感数据光谱信息的提取计算。
2.2.1 光谱参数提取
Binding等(2003)在研究中发现黄色物质的光学性质可以用波段R665/R490比值来表示;龚绍琦等(2008)在研究中发现水体中氮、磷对不同波段光谱反射具有显著的特征,其中氮在波长404 nm和477 nm处各有一反射峰。根据上述实验结论,经过多种波段组合的尝试,最终得出与总氮实测值的相关系数达到0.633的波段组合:
其中:b1、b2、b3分别对应 ASTER数据第 1(0.52-0.60μm)、2(0.63-0.69μm)、3N(0.78-0.86μm)波段,以此作为总氮在模型应用时的输入参数。
香港海域属于二类水体,浑浊度高。根据不同类型水体的实测光谱曲线,绿波段对低悬浮物浓度有很高的相关度,而且可以校正叶绿素a所产生的干扰,红波段则对中高悬浮物浓度敏感(马超飞等,2005)。因而考虑单波段与比值相结合的方法反演悬浮固体。
对于地表温度,前人多采用劈窗算法、多通道法、插值法、人工神经网络等方法进行反演(刘培等,2008;孙静等,2010;毛克彪等,2006;张大明等,2005;毛克彪等,2007),但海洋表面环境复杂,远不如地表稳定,因此将以上算法应用于海表温度,效果并不理想。而ASTER数据拥有5个热红外通道,能有效地反演温度。首先利用普朗克公式计算出各波段亮温:
其中:λ为波段的中心波长,Bλ(T)是卫星测量辐射强度,C1=1.191 043 56×10-16W·m2,C2=1.438 768 69×10-2m·K。上式可简化为:
基于温度与单波段亮温的相关性分析,通过多次计算验证,最终得出温度反演线性方程:
其中:T(b10)、T(b12)、T(b13)分别表示ASTER数据的第 10(8.125-8.475μm)、12(8.925-9.275μm)、13(10.25-10.95μm)波段的亮温。
2.2.2 算法参数设定
随机森林有3个重要参数:ntree为森林中树的数目,nodesize为每个终端节点数据点的最小数目,mtry为每个树节点随机采样的数目。对于回归问题,nodesize默认值为5,ntree的默认值为500,mtry默认值为1/3的自变量数目。
图3 OOB均方差误差率图
将遥感影像提取出的悬浮固体、总氮、温度数据以及对应的盐度实测值作为原始数据集输入分析,得出OOB均方差误差率图(图3)。可以看出,OOB均方误差随着树的数目增长而收敛。结合ntree、nodesize参数不同取值下R2及MSE的比较(表3、4)可知,当nodesize取默认值5,ntree=500、1 000、5 000时,R2取值相对较大,而MSE相对较小,而当ntree=500,nodesize=2及ntree=5 000,nodesize=2时,模型评价效果最佳。但两者相比,ntree取值5 000时,OOB均方误差曲线(图3)近乎稳定。因此,为了让森林的整体误差率趋于稳定,并保证RF收敛,在提高算法效率的基础上,本研究选取ntree=5 000,nodesize=2,同时将mtry设为默认值,结合实测盐度值、敏感因子(TN、SS、T)光谱参数四组数据组成原始数据集输入,进而利用R语言对盐度进行回归建模。
为了评价随机森林建模结果,采用决定系数(R2)和均方误差(MSE)作为反演模型的评价依据。由图4可以看出,2005、2006年的决定系数R2均在0.98以上,而2004年数据反演结果R2则相对较低(0.856)。由于海表面环境复杂,卫星过境时间的不同、实地采样的天气情况差异等因素均会对反演结果精度产生一定程度上的偏差。同时,表层盐度也会有季节循环和年度跃变形式的变化(石强,2013)。
表4 随机森林算法ntree、nodesize参数不同取值的比较
图4 盐度预测值与实测值对比散点图(a-f依次代表2003-2008年结果对比图)
经过比较发现,图4中虽然存在偏高或偏低的预测值,但总体接近实测值、误差较小,基本服从线性成比例分配。可以看出,盐度预测值与实测值之间相关性强,该模型拟合度高,用以描述实验数据具有良好的精确度,能很好地对实测值进行预估。
根据上述分析结果,将随机森林海表盐度反演模型应用于ASTER遥感影像数据,得到2003-2008年香港海域盐度分布(图5)。可以看出盐度值集中在27-33 psu之间,在接近大陆区域的盐度较低,河流的入海口尤其是邻接珠江口的后海湾海域,盐度最低,而开阔海域盐度相对较高。研究区域盐度分布呈自东南向西北递减、近岸向远岸递增的总体趋势,符合现实情况。
虽然随机森林反演模型结果精度较高,但依然存在着一定的误差。香港海域是一个开放性的复杂环境,大气及海洋条件下的宏观因子均会对模型结果造成一定的影响。从建模的整个过程来看,误差来源包括参数误差及模型本身误差。遥感数据存在一定的复杂性,表征温度、总氮、悬浮固体的数据集虽然与之相关性显著,但毕竟存在差异,这也会导致模型精度降低。
图5 随机森林香港海域盐度反演分布图
随机森林相对于其他集成学习算法的最主要优势在于对结果的可解释性,即对变量重要性的测算,重要性越大,变量特征就越重要。为了得到可靠稳定的模型,本研究采用如下测算方法,即计算每棵树OOB误差和挑选自变量序列后每棵树的OOB误差的差:
式中:βc(t)与第t棵树的OOB样本相关,其中 t∈和预测的样本 xi在转换特征 f前后的预测类别。需要指出的是,如果特征f不在第 t棵树中时,特征 f作为全部树的变量重要性计算如下:
式中:T为树的数目。
由此,每一个随机挑选序列的自变量OOB变化便是这个特定自变量的重要性标志。如果一个自变量是不相关的,那么随机挑选序列的OOB值应该有非常小的OOB误差。
变量重要性度量就是假设将某个变量剔除,会对模型的结果精度造成多大的影响。表5体现了变量的重要性,其中节点不纯度由残差平方和计算得到,表示变量在每个分裂节点的不纯度减少值。表中值越大表明该元素对预测结果影响越大,重要性越高。总体而言,总氮对盐度预测的贡献度很高,而温度对其结果的影响程度较小。可以看出,反演结果与相关性分析基本一致,符合客观事实,且能反映出模型是以总氮为主导因子,悬浮固体、温度为辅助因子建立的。
表5 变量重要性
本文以ASTER数据为例,将随机森林算法应用于海表面盐度的反演。预测结果表明,预测的盐度值与实测值相关性强,平均相对误差小,反演分布结果符合客观实际,基本保证了较高的准确率与可信度。
由于本研究采用的是间接法,敏感因子的反演过程会产生一定程度的误差。因此,在后续工作中,可基于敏感因子利用影像协同反演或其他分析方法、模型,以提高各敏感因子的反演精度。此外,根据随机森林算法提供的变量重要性分析,可得到不同潜在敏感因子的贡献度,据此适当调整输入数据集的结构,简化并优化随机森林模型,增强其实用性。鉴于同步获取大量海上实测数据及遥感数据均存在困难,本文仅针对2003-2008年特定月份的香港海域数据进行相关分析,为了拓展模型的应用范围,还需要进行其他海域和不同时相数据的分析和检验,来加强模型性能、提高反演精度。
上述结论说明了利用随机森林反演海表盐度具有可行性,也为进一步建立精确的海盐遥感反演模型提供了参考。
Beman J M,Arrigo K R,Matson P A,2005.Agriculturalrunofffuels large phytoplankton blooms in vulnerable areas ofthe ocean.Nature,434:211-214.
Binding C E,Bowers D G,2003.Measuring the salinity of the Clyde Sea from remotely sensed ocean colour.Estuarine Coastal and Shelf Science 57:605-611.
Brassington G B,Divakaran P,2009.The theoretical impact of remotely sensed sea surface salinity observations in a multi-variate assimilation system.Ocean Modelling,27:70-81.
Breiman L,1996.Bagging predictors.Machine Learning,24:123-140.
Breiman L,2001.Random forests.Machine Learning,45:5-32.
Davies P,2004.Nutrient processes and chlorophyll in the estuaries and plume ofthe Gulf of Papua.Continental Shelf Research,24:2317-2341.
Gislason P O,Benediktsson J A,Sveinsson J R,2006.Random Forests for land coverclassification.Pattern Recognition Letters,27:294-300.
Ham J,Chen Y C,Crawford M M,etal,2005.Investigation ofthe random forest framework for classification of hyperspectral data.Ieee Transactions on Geoscience and Remote Sensing,43:492-501.
Klein L A,Swift C T,1997.An Improved Model for the Dielectric Constant of Sea Water at Microwave Frequencies.IEEE J Ocean Eng,2:14-111.
Pal M,2005.Random forest classifier for remote sensing classification.InternationalJournalofRemote Sensing,26:217-222.
Ravichandran M,Girishkumar M S,Riser S,2012.Observed variability of chlorophyll-a using Argo profiling floats in the southeastern Arabian Sea.Deep-Sea Research Part I-Oceanographic Research Papers,65:15-25.
Silio Calzada A,Bricaud A,Gentili B,2008.Estimates of sea surface nitrate concentrations from sea surface temperature and chlorophyll concentration in upwelling areas:A case study for the Benguela system.Remote Sensing ofEnvironment,112:3173-3180.
Verikas A,Gelzinis A,Bacauskiene M,2011.Mining data with random forests:A survey and results of new tests.Pattern Recognition,44:330-349.
Waske B,Braun M,2009.Classifier ensembles for land cover mapping using multitemporal SAR imagery.Isprs Journal of Photogrammetry and Remote Sensing,64:450-457.
高国栋,张文孝,慕光宇,2011.RBF网络和BP网络在海水盐度建模中的比较研究.海洋通报,30(1):12-15.
龚绍琦,黄家柱,李云梅,等,2008.水体氮磷高光谱遥感实验研究初探.光谱学与光谱分析,28(4):839-842.
李志,魏恩泊,田纪伟,2007.一个L波段海表盐度遥感反演的新经验模式.物理学报,56(05):3028-3030.
刘培,杜培军,张华鹏,2008.基于劈窗算法从ASTER遥感数据反演地表温度.测绘标准化,24(2):5-9.
马超飞,蒋兴伟,唐军武,等,2005.HY-1 CCD宽波段水色要素反演算法.海洋学报,27(4):38-44.
毛克彪,施建成,覃志豪,等,2006.一个针对ASTER数据同时反演地表温度和比辐射率的四通道算法.遥感学报,10(4):593-599.
毛克彪,唐华俊,陈仲新,等,2007.一个用神经网络优化的针对ASTER数据反演地表温度和发射率的多波段算法.国土资源遥感,3:18-22.
石强,2013.渤海温盐场季节循环时空参数模型.海洋通报,32(2):152-159.
孙静,赵萍,叶琦,2010.一种ASTER数据地表温度反演的劈窗算法.遥感技术与应用,27(5):728-734.
王林,赵冬至,杨建洪,2012.基于环境一号卫星的大洋河河口海域营养盐遥感反演.中国环境科学,32(1):136-141.
殷晓斌,刘玉光,王振占,等,2006.一种用于微波辐射计遥感海表面盐度和温度的反演算法.地球科学,36(10):968-976.
张大明,许东峰,章本照,2005.最优插值法及其在热带太平洋海表温度数据同化中的应用.海洋学研究,23(4):1-7.