蒋锦刚,冯慧云,张亚国,何贤强
(1.南方海洋科学与工程广东省实验室(湛江),广东 湛江 524006;2.中国科学院 合肥物质科学研究院 智能机械研究所,安徽 合肥 230031; 3.自然资源部 第二海洋研究所,浙江 杭州 310012)
海洋遥感卫星是一种利用所搭载的遥感器对海面进行光学或微波探测来获取有关海洋水色和海洋动力环境信息的卫星,海洋卫星有效弥补了传统海洋观测手段的不足[1]。海洋要素遥感反演产品则是海洋生态环境研究和全球气候变化研究的重要数据来源,由于海洋水体的高动态变化以及近海二类水体的复杂光学特征,使得海洋遥感产品的精度与不确定性验证和评估充满了困难与挑战。国际海洋卫星遥感学界一直重视遥感产品的真实性检验工作,以提高遥感数据产品的质量和产品应用的可靠性。早在20世纪80年代,国际地球观测卫星委员会(Committee on Earth Observation Satellites, CEOS)就成立了定标和真实性检验工作组,来协调各国遥感卫星真实性检验的具体工作[2]。美国国家航空航天局(National Aeronautics and Space Administration, NASA)海洋生物学处理小组(Ocean Biology Processing Group, OBPG)也利用全球范围的数据在卫星生命周期内开展了持续的真实性检验工作,并在水色产品精度评估、卫星测量长期稳定性评估、卫星在轨定标精度检验等方面取得了许多有益的成果,相关研究成果也被国际海洋生物光学档案与存储系统(SeaWiFS Bio-optical Archive and Storage System,SeaBASS)网站进行采纳和应用[3-4]。
卫星遥感产品和现场实测数据具有不同的时空采样特性,需要根据卫星产品的空间分辨率,以及水体的时空变化与均匀性来确定合理的时空窗口,国际上通用的时空窗口标准是:空间窗口为3×3或5×5像元,时间窗口为±3 h[4]。由于海洋水体存在时空动态变化的特性,使得基于现场实测数据的遥感产品验证存在诸多不确定性问题。为了科学准确地评估遥感产品的精度和不确定性,MOORE et al[5]在验证误差和遥感反射率模糊统计分类的基础上,提出了MODIS全球叶绿素a遥感产品不确定制图方法。CUI et al[6]在中国黄东海区域水色遥感产品的验证评估的研究中指出,对于黄东海浑浊水体的海域,采用改进的大气校正算法和区域反演模型,相比于标准算法得到产品数据,其结果的不确定度会有效降低20%~30%,在其后期的研究中,进一步讨论了水体时空变异的格局对叶绿素a遥感反演算法的影响,发展了应用于复杂光学水体的光学分类最优检索算法[7]。PEREIRA et al[8]采用MODIS叶绿素反演算法对南极半岛北部浑浊水体进行了评价,也提出了采用改进的NIR-SWIR大气校正算法[9]和区域3波段反演模型会明显优于MODIS全球叶绿素a反演标准算法。叶小敏 等[10]在对水色水温遥感产品真实性检验误差分析的研究中指出,在进行水色水温遥感产品真实性检验之前,需要对遥感反演要素的均值及其标准偏差的分布规律进行分析,从而进一步确定是否采用平均相对误差(Mean Relative Error,MRE)作为检验的统计量。蒋锦刚 等[11]在海表面温度时空变异特征及对验证误差影响的研究中,证明了时空变异是造成误差的直接原因之一,观测要素显著的时空变异,在验证过程中会引入很大的验证误差,提出了基于时空变异区间等级区划模型,并应用于精度验证数据集的代表性评价和验证结果的可信度评价。李豪 等[12]在春季辽东湾静止轨道海洋水色遥感产品的真实性检验的研究中指出,不同区域、不同算法的结果差异较大,有必要开展针对不同海区的精度检验。
海洋叶绿素a质量浓度遥感产品是海洋初级生产力与海洋生态系统固碳能力研究的重要数据源,叶绿素a质量浓度遥感产品反演算法主要是通过现场原位测量的叶绿素a质量浓度与遥感数据可见光谱蓝绿波段的遥感反射率(Rrs)进行经验建模计算得出,传感器的波段范围主要选择440~670 nm。目前叶绿素a遥感反演的算法包括标准的波段比值算法(OCx)[13-14]和基于CI和OC4算法改进的OCI算法[15-16]。本文以叶绿素a质量浓度遥感反演产品数据的精度验证为研究对象,根据不同空间变异下实测-遥感数据的统计结果,分析了空间变异对海洋叶绿素a遥感产品验证误差的影响,并讨论了叶绿素a遥感产品误差产生的原因,为海洋叶绿素a遥感产品的验证及遥感产品误差源解析提供重要的科学依据。
海洋水体的高动态变化和遥感像元的空间分辨率尺度等问题是遥感验证误差产生的原因之一。像元是水面采集信息单元离散化形成的网格数据,是像元尺寸范围内不同水体光学活性要素的混合平均值,而实际的水面信息单元,水体叶绿素a质量浓度在空间上是连续分布的。在验证过程中,对于均一的水面信息单元区域,采集的实测数据分布较为集中,而对于空间变异较大的区域,实测数据则较为离散,这些不同离散程度的实测数据与遥感像元的匹配验证结果,是产生不同误差统计结果的主要原因。图1展示了空间变异造成验证误差的基本原理:实际叶绿素a质量浓度在空间上是连续分布的(图1a);而在遥感成像像元网格中,原有的连续空间分布产生了离散化(图1b)。从实测数据和遥感数据散点图中可以看出,对于空间变异性不同的区域(S1区域内叶绿素a质量浓度空间变异最小,S2区域内叶绿素a质量浓度空间变异最大),散点图中的统计分布产生明显的差异(图1d):在高变异区域,验证误差统计分布的峰宽(峰曲线拐点上的切线在基线上的截距)更宽,峰值更低,验证结果的精度表现较差;在低变异区域,验证误差统计分布的峰宽更窄,峰值更高,验证结果的精度表现较好。在实际数据分析过程中,遥感像元内部的空间变异在没有同步高分辨率遥感数据的基础上,无法统计像元内部的属性空间变异,因此需要假设遥感像元内部的空间变异与像元周围的空间变异是呈正相关的[17-18],这样就可以通过计算空间窗口(如5×5 窗口)内的变异系数进行分析。
图1 空间变异与遥感产品验证误差关系示意图Fig.1 The schematic diagram of the spatial variability influences remote sensing product validation errors(a:叶绿素a连续空间分布示意图; b:遥感网格像元示意图; c:实测数据和遥感数据匹配散点图; d:遥感像元内的实测数据统计分布)(a: schematic diagram of actual spatial distribution of chlorophyll-a; b: schematic diagram of remote sensing grid pixels;c: the scatter plots matching in situ data vs. remote sensing data; d: statistical distribution of in situ data in grid pixels)
本文所用数据为叶绿素a质量浓度实测数据和遥感反演产品数据,其中实测数据来自SeaBASS网站收集的资料(https://seabass.gsfc.nasa.gov/),主要由美国宇航局海洋生物处理小组(NASA OBPG)和国际合作者提供,还包括SeaBASS工作人员收集的外部实测数据以及来自AERONET-OC的测量数据等[19]。遥感数据主要包括MODIS-Aqua、MODIS-Terra、MERIS、SeaWiFS传感器提供的叶绿素遥感产品。实测-遥感数据的时空匹配采用BAILEY et al[4]提出的原则和方法,实测-遥感数据的时空匹配参数设置如下:窗口有效像元数≥50%,以保证统计数据的有效性,从而获取准确的平均值、标准差和变异系数;根据SeaWiFS卫星遥感数据大气校正算法需要的阈值条件,设定太阳天顶角≤75°,卫星天顶角≤60°;考虑在卫星和实测数据同步的情况下,以获取足够的匹配验证数据,设定时间窗口≤±3 h;对于空间变异系数这个参数的设置,BAILEY et al[4]给出的推荐值是0.15,本文为了深入分析验证误差与变异系数的关系,将变异系数的值设定为0.3。实测-遥感数据的时空匹配过程由SeaBASS搜索引擎实现(网址为https://seabass.gsfc.nasa.gov/search#val),图2为不同卫星遥感数据与实测数据时空匹配后的空间分布图。
图2 不同叶绿素a质量浓度遥感产品与实测数据时空匹配结果空间分布图Fig.2 Spatial distribution map of validation matching results of different chlorophyll-aconcentration remote sensing products vs. in situ data
变异系数(Coefficient Variations:CV)定义为标准偏差与均值的比值,是描述遥感产品统计窗口内数据变异特征的重要参数,其物理内涵是观测属性在特定的时间、空间范围内的变化大小。以空间统计窗口5×5为例,其计算公式如下
(1)
精度评价的指标参数有多种,本文主要选取平均绝对误差(Mean Absolute Error:MAE)、平均绝对百分比误差(Mean Absolute Percentage Errors:MAPE)、平均偏差(Mean Bias Error:MBE)、均方根误差(Root Mean Square Error:RMSE)、标准差(Standard Deviation:SD)等5个精度评价参数,各参数的计算公式如下。
MAE定义为误差绝对值的平均值,反映遥感产品与实际观测值之间的绝对误差水平:
(2)
MAPE定义为绝对误差与实际观测值比值的平均值,代表遥感产品与实际观测值相对误差的程度:
(3)
MBE定义为误差的平均值,代表遥感产品与实际观测值之间的系统性偏差:
(4)
RMSE定义为遥感产品与现场观测值的均方误差,也代表了两者之间的总体误差水平:
(5)
ESD用于表述遥感产品误差的离散程度:
(6)
为定量分析不同空间变异强度对验证误差的影响,将变异系数的范围分成[0,0.10]、(0.10,0.15]、(0.15,0.20]、(0.20,0.30]四个区间进行分析,时间窗口范围统一为±3 h。根据前文精度评价指标参数的选择与分析,ESD用于表征遥感产品误差的离散程度,不同传感器各CV区间段ESD计算结果如表1所示。可以看出,ESD最大的是MODIS-Terra在 0.20
表1 不同卫星传感器在不同变异区间的匹配数据ESD指标计算结果Tab.1 ESD calculation results of different satellite sensor matching data in different CV interval
图3 不同叶绿素a质量浓度遥感产品与实测数据在不同空间变异区间内的散点图Fig.3 Scatter plot of different chlorophyll-a concentration remote sensing products and in situdata in different spatial variations interval
空间变异对海洋叶绿素a遥感产品验证误差评价指标影响的结果如图4所示,从图中看出,随着变异系数CV的增加,MAE、MAPE、MBE、RMSE、ESD等指标值的结果总体上都在增加,表明空间变异是影响遥感产品验证误差的因素之一。从各个区间的数据结果来看,随着变异系数的增加,验证误差也随之逐渐增加,其中在区间0.2 图4 不同叶绿素a质量浓度遥感产品在不同空间变异区间的验证误差评价指标直方图Fig.4 Statistical histogram of error evaluation indexes for validation of different chlorophyll-aconcentration remote sensing products in different spatial variations interval(a系列图表示变异区间分开统计, b系列图表示变异区间综合统计。)(Series a figures show the independent statistics of variation ranges. Series b figures show the comprehensive statistics of variation ranges.) 同样的结果也可以通过不同叶绿素a遥感产品误差(遥感值和实测值的差值)的统计直方图及其正态分布拟合结果(图5)中看出:精度较好的遥感产品误差正态分布拟合结果的峰宽更窄、峰值更高(如SeaWiFS,图5d);而精度较差的遥感产品误差正态分布拟合结果的峰宽更宽,峰值更低(如MODIS-Terra,图5b),这一关系也验证了前文关于误差产生的机理解释。 图5 不同叶绿素a质量浓度遥感产品误差统计直方图Fig.5 Statistical histogram of error for different chlorophyll-a concentration remote sensing products 在前文数据统计结果的基础上,我们进一步探讨误差分布与空间变异系数的相关关系,并统计、建立模型。以MAPE为例,MAPE和CV的关系如图6a所示,对图中散点数据进行统计,计算CV统计间隔区间 0.015 内的MAPE和CV平均值,最后通过模型拟合得出MAPE和CV的对应变化关系(图6b)。最优拟合模型符合幂指数关系,表示随着CV的增加,验证误差不断增加,但误差增加的幅度逐渐变缓(在CV<0.05时,MAPE随CV的增加明显,在CV>0.15后趋于平缓)。此外,CV从0.1增长至0.3,MERIS和SeaWiFS的误增长差约20%,MODIS-Terra增长约50%,MODIS-Aqua则增长约120%。因此,对于CV值的阈值选择需要根据不同的卫星传感器有所调整:对于MERIS和SeaWiFS产品数据,CV≤0.15是较为合理的;但对于MODIS-Aqua和-Terra产品数据,则应该使用更严格的阈值,如CV≤0.1。 图6 MAPE和CV关系散点图(a)和模型拟合图(b)Fig.6 Scatter plot between MAPE and CV (a) and model fitting curve(b)(b图为以0.015为统计区间间隔的MAPE平均值及其拟合曲线。)(Fig.b shows that the mean value of MAPE and its fitting curve with 0.015 CV value as statistical interval.) 时空变异作为遥感产品验证误差和不确定性的主要来源之一,其中的空间变异对海洋叶绿素a遥感产品验证误差的影响,前文已经进行了深入分析,蒋锦刚 等[11]在对SST时空变异特征及对验证误差影响的研究中,指出了SST的日循环变化引入的验证误差不容忽视。而海水中藻类的形成和消亡过程,受到光照、温度、营养盐和洋流的共同影响,其叶绿素a质量浓度时间变异特征较SST的日循环变化更为复杂。为了定量分析时间变异对验证误差的影响,以0 图7 不同叶绿素a质量浓度遥感产品在不同时间变异区间的验证误差评价指标直方图Tab.7 Statistical histogram of error evaluation indexes for validation of different chlorophyll-aconcentration remote sensing products in different temporal variations interval 由于不同卫星传感器波段的中心波长、带宽和光学定标精度、不同的大气校正算法都存在差异,这是遥感反演产品误差和不确定性产生的首要原因。同时,叶绿素a质量浓度遥感产品反演算法主要是通过现场原位测量的叶绿素a质量浓度与遥感数据可见光谱蓝绿波段的遥感反射率进行经验建模计算得出,传感器的波段范围主要选择440~670 nm。不同的叶绿素a遥感反演算法也是遥感产品误差和不确定性产生的原因之一,如CI算法在叶绿素a低值区域具有更好的拟合精度,并对仪器噪声和有缺陷的大气校正算法引起的各种误差的敏感性要低得多[16]。 由于海水中藻类的生长受光照、营养盐与洋流等诸多因素的影响,叶绿素a的含量在夏季会出现明显的分层现象[20]和周日波动[21]。而实测数据通常是通过走航、浮标和按基站通过实验室分析或在线仪器自动获取,不同实测数据的获取、分析测量形式以及采集水层的差异性也是遥感反演产品验证误差产生的原因之一。从前文的验证结果可以看出,验证参数平均偏差(MBE)的值在多种验证情景下都处于负值,即卫星遥感值高于实测数据,这与Set al[22]的研究结果一致,叶绿素a在水柱中的不均匀分布是误差产生的主要原因之一。 随着海洋遥感技术的不断发展,考虑时空关系的叶绿素a遥感反演新模型不断被提出[23],人工智能的代表性机器学习技术也不断向遥感领域渗透[24-25],海量历史遥感数据的信息挖掘、时间序列结构特征分析[26]以及不同卫星遥感产品一致性融合的新算法与新技术也不断被发展[14]。然而,遥感反演算法与遥感产品的精度仍然是不能回避的重要参数指标,科学验证方法与误差源解析,是发展新的反演算法、提高遥感产品精度、降低遥感产品不确定度的重要研究内容。 本文以叶绿素a为研究对象,选择MODIS-Aqua、MODIS-Terra、MERIS、SeaWiFS传感器提供的叶绿素a质量浓度遥感产品,定量分析了空间变异与验证精度的关系,文章数据结果支持如下结论: (1)空间变异与验证精度的统计分析结果证明了空间变异是造成验证误差的直接原因之一,以MERIS叶绿素a遥感产品的ESD结果为例,由于空间变异的存在,处于不同空间变异系数下的ESD值不同,当 0 (2)相比于空间变异而言,在时间窗口±3 h下,本文实验数据结果并不能有效支撑时间变异是产生验证误差的原因,因此在叶绿素a遥感产品验证中,空间搜索窗口的选择仍然值得深入研究。 (3)不同卫星传感器叶绿素a遥感产品的精度特征是SeaWiFS精度最高,MERIS次之,MODIS-Terra精度最低。3 讨论
3.1 时间变异影响分析
3.2 遥感产品与实测数据误差成因讨论
4 结论