基于多源参数合并的海洋数据分辨率优化分析

2020-10-23 06:37虞丽娟李世超陈成明曹守启

数据采集与处理 2020年5期

虞丽娟，李世超，陈成明，曹守启

（上海海洋大学工程学院，上海，201306）

引言

渔情建模系统[1]已广泛应用于预测和分析经济鱼类的时间和空间位置，以便对海洋资源进行更好地开发与管理。可靠的渔情预报主要由建模过程中使用准确的海洋环境数据来确定。海表温度是通过海洋环境因子进行渔情预报系统模拟的最重要数据之一[2]。目前，比较传统的海洋环境因子评估方法普遍采用海洋浮标直接测量海洋环境数据，收集到相对准确的海洋环境因子资料，进而通过遥感技术[3]（例如卫星或气象遥感）测量大尺度的海洋环境数据。南海及远海海域海洋浮标网络的稀疏空间分布使捕获具有时空变异性的海洋环境数据变得困难。此外，气候变化、仪表型号的不同和人为错误使海洋浮标测量数据的准确度极难量化。而目前，仅凭卫星遥感获得的海洋环境数据分辨率不够高，可用性较差[4]。

海表温度与捕获鱼群大小和空间位置具有相关性，但海表温度数据在渔情模拟系统中的直接使用受到与其相关的误差限制，可能导致水产资源规划和管理的不合理。为克服这种限制，本文提出一种新方法，即使用逐次校正法(Successive correction method, SCM)将从中国国家海洋科学数据中心（National marine scientific data center, NMSDC）所获得的高分辨率卫星数据与海洋浮标数据相结合[5-8]。所提出的方法综合考虑了南海区域所特有的海洋环境数据、海洋浮标布设密度、海洋环境因子的时空分辨率、鱼群空间偏差等特点[9]，讨论如何以现有的海洋环境数据库提炼出更精确的高分辨率海洋环境数据，因而具有切实的产业发展意义与应用价值。

1 二维数据合成算法

过去60 年来，不同来源数据集的合并算法得以持续发展和改进，主要缘于包括海洋科学在内的许多领域的长足进步，特别是水文学和数字渔情预报。这些领域的技术发展均基于遥感海洋环境数据可靠的基本假设，如卫星遥感数据（通常称背景场）。目前比较传统的数据合成方法为最优插值（Optimal interpolation, OI）方法及其改进方法（卡尔曼滤波、三维变分同化或空间分析）[10-12]。上述方法在实时性与适用性上受到自身样本的制约，为此本文采用最小方差估计意义上评估线性分析，SCM 方法。

SCM 是一种迭代经验方法，被广泛应用于全球范围的气象空间分析和很多工程领域[13]。在经典SCM 中，分析网格点（xoi）的第1 个估计值由在第i 个网格点处评估的背景（xbi）给出。在第1 次估计之后，通过SCM 获得迭代式

式中，xni为网格点i 处的第n 次迭代估值，xok为围绕网格点i 的第k 次观测，xnk为观测位置k 处的第n 次场估计值，ωnik为围绕网格点i 的观察点k 的第n 次背景估计的权重值，而ε2为误差方差的观测和场误差方差之间的比（ε2= ε2oε2b）。权重定义为

式中，Rn为影响半径，r2ik为网格点i 和观测值k 之间的平方距离。权重定义为

式中，γ 为常数因子。2 种方法均取决于分析网格点i 与影响半径Rn内的观测值之间的权重。Rn在第1次迭代时固定不变，随着影响区域在每次迭代时的改变，γ 在0 和1 之间变化。在第1 次迭代中，半径通常设置为较大的值（γ = 1）以捕获背景场的大尺度相关性。然后，缩小分析较小的尺度（γ ＜1）。半径值的选择取决于许多因素，例如观测的数量和空间分布（少数点可能导致变异性的子网格点不具代表性的样本）和观测数据的相关距离。而且，误差方差ε2的比率起着重要作用。如果ε2= 0 在半径较小的情况下，分析场在i 网格点处反映了小半径内的k 个观测值。如果观察结果有噪声或仅仅表示较小的尺度变异性，则可以在分析域中观察到“牛眼”现象。为了避免这个问题，假设观测值的误差ε2＞0，因此给予背景场一些权重[14]。

2 研究区域和数据来源

2.1 研究区域

研究区域是中国南海某海域，位于10 °S～20 °S 和110 °W～120 °W 之间（见图1）。总面积为1 185 593 km2。该海域约占我国南海总面积2 100 000 km2的56%。中国南海有丰富的海洋油气矿产资源、滨海和海岛旅游资源、海洋能资源、港口航运资源、热带亚热带生物资源，是中国最重要的海岛和珊瑚礁、红树林、海草床等热带生态系统分布区[15-16]。

2.2 数据来源

本文使用的海洋浮标测量数据主要由NMSDC 收集、处理和维护。研究区域的浮标分布如图1 所示。

本研究共使用了16 个海洋浮标。浮标数据及遥感数据估计值从NMSDC 数据库中获得，2 个数据集的时间跨度均为2009 年1 月至2018 年12 月。

图1 中国南海某海域的海洋浮标位置分布Fig.1 Location distribution of ocean buoys in an area of the south China sea

3 数据处理方法与实验验证

3.1 数据预处理

从16 个海洋浮标获取的数据中，只有很少质量不太好的测量数据，因此在得到月平均值前，已做了一些调整：（1）从日常记录中删除了极端值（＞42 ℃，＜10 ℃），这些可能是人为因素或仪器故障造成的；（2）全分辨率下用最邻近插值替换温度图中的缺失值或错误值；（3）通过采样增加数据分辨率，将海洋浮标测量结果与遥感数据库进行比较，使用双线性内插法[17]检测极端差异（＞42 ℃）。逐个比较这些差异，评估2 个数据集中差异位置周围的空间分布。

由于水平空间的有限分辨率、数值算法的简化、对海洋系统不完全了解以及仪器的偏差，对温度的估算容易产生误差。在合并这2 个数据集之前，必须消除2 类数据的系统偏差。

随着遥感卫星测量的出现，在过去的十年中发展了许多不同的偏差校正算法。这些方法中的大多数可分为4 种[18]。

（1）平均偏差校正：包括在一定时间段内估计所有海洋浮标的平均偏差，使用该值校正遥感数据。这种方法可用于偏置场均匀的情况。否则将该区域划分为具有均匀偏差的较小区域[19]。

（2）回归方程：包括估算回归方程系数，使用每个浮标的历史时间序列和平均系数来校正遥感数据。通常在文献中得到的回归方程是y = ax + b，y = ax2+ bx，或者y = axb。当海洋浮标测量值与遥感估计值之间存在良好的空间相关性时则可以使用该方法[20]。

（3）分布变换：最简单的方法是使用从2 个统计分布估计的参数（平均值μ 和标准偏差σ），第1 个是从海洋浮标中得出的，第2 个来自遥感估计值（在海洋浮标的位置）[21]。使用式（4）将第二分布转换为第一分布

式中，Rc为从偏差校正的遥感估计，R0为未校正的遥感估计值，B和R分别为海洋浮标和遥感数据。

（4）空间变换：这种方法包括使用海洋浮标和遥感估计之间确定的偏差，在每个浮标的位置，生成平滑的2D 偏差曲线，通常使用样条插值算法。最后，在遥感估计中加入差值[22]。

为评估上述4 种方法的性能，将伽玛分布拟合至海洋数据、未校正的遥感数据（仅用于可视化）和校正的遥感数据中，使用的是最大似然估计的伽玛分布参数（α̂为形状参数，β̂为尺度参数）。伽马分布广泛用于表示不同时间分辨率的海表温度，因为它是非负、正偏态的，具有形状灵活性。此外，只需由2 个参数即可定义。海洋浮标与遥感海表温度的伽玛拟合优度评估如下

式中，μ̂和σ̂为平均值和标准偏差，分别由伽玛分布的2 个参数(α̂，β̂)估算，下标“G”和“R”分别代表浮标数据和遥感数据。非参数的Kolmogorov-Smirnov（K-S）[23]检验用于验证2 个样本是否都来自显著性水平10% 的相同分布。图2 显示了2009 年3 月上述每个修正的结果示例。其中，在回归方程组中选择幂函数y=axb；通过最小二乘法估计系数a和b；在分布变换组中使用式（4）; 在空间变换组中采用T 样条回归算法[24]。

图2 海洋浮标值的伽马概率密度函数、未校正的遥感数据和校正的遥感数据估计值（2009 年3 月）Fig.2 Gamma probability density function of ocean buoy values, uncorrected remote sensing data and corrected remote sensing data estimates (March 2009)

表1 总结了在整个时间跨度内夏季和冬季的每种实施方法的参数δ和p。较小的δ值代表2 个伽马分布之间的拟合更好，且大于0.1 的p值表示从相同分布中抽取样本的假设无效。分布变换和空间变换效果最佳，其次分别是平均偏差校正和回归方程。在最后2 个中，p值表示在夏季中拒绝零假设，而非在冬季。夏季的最佳δ值是通过分布变换方法获得的，而在冬季通过空间变换方法获得。

如表1 所示，当在具有均匀偏差值的区域中进行回归和空间变换校正算法时可能改善平均偏差的结果。关于回归校正技术，可使用其他类型的回归方程，但是否成功很大程度上与数据集所选的时间尺度相关。因此，考虑到冬季结果的相似性（δ参数）和分布变换方法得到的结果对夏季δ值的变异性，本文将采用分布变换方法。

表1 时间跨度内夏季和冬季各种方法的参数δ 和pTable1 δ and p values for the four methods in full summer and winter periods

3.2 数据处理

使用所提出的SCM 方法评估以获得最终的海表温度估算值。为了计算空间相关距离（式（3）中的参数R），海洋浮标数据的拟合由式（3）给出的模型来估计空间相关图。通过半变异函数分析已证实，海洋浮标测量的各向异性程度可忽略不计，因此可应用式（3）中的各向同性函数。图3 显示了2个平均相关图，一个用于夏季，另一个用于冬季。该相关图仅是基于半变异函数并排除了块金效应的近似值，使用夏季6 个月和冬季6 个月（随机选择）的数据来计算平均值，再利用指数变异函数模型来描述观测值之间的空间相关性。对应于空间相关性0.5 的距离，夏季约为100 km，冬季约为66 km。由于距离差的差异很小，最大值100 km 将采用2个季节（R=0.5°）的相关距离。背景场是从NMSDC 得到的遥感海表温度，水平分辨率为21 km×21 km。

图3 使用海洋浮标数据估算的相关图Fig.3 Correlation for estimation using ocean buoy data

在SCM 中仅使用1 个相关距离和1 次迭代，其中R= 0.5°,γ= 1。仅选择1 个相关距离是由于：（1）在质量控制程序中减少了观测值和背景场的主要误差；（2）假设观测结果包含一个具有代表性的亚格尺度变异性样本(由于测量记录的丢失)；（3）在海表温度空间分布特殊的情况下，最终场应只反映较小尺度的背景场；（4）背景场（遥感海表温度）应该是在海洋浮标数据之上的最佳解决方案。否则，使用统计参数（如R2、ME 和其他参数）和目视检查，最佳结果在一次迭代后获得。

3.3 数据验证

最后通过留一法交叉验证算法[25]来评估估算的准确性。本文使用了120 组记录（在研究时间跨度内至少98% 的海洋浮标有完整的数据记录），连续每个月留下一个，每个算法有1 920 个估值（总共3 840 个估值）。为评估不同海表温度估值的表现，使用平均误差ME，平均绝对误差MAE，均方根误差RMSE 和确定系数R2，根据式（8―11）计算

4 性能比较

为分析SCM 方法的数据合成效果，将其应用于中国南海海表温度的数据合成，所得结果与OI 方法进行比较。本文计算120 个月（2009―2018）的平均值，以便对由这2 种算法所获得的空间分布进行统计比较[27-29]。图4（a）显示了用于计算月平均值的海洋浮标位置。注意，海洋浮标数据仅在每个月的可用数据超过27 d 时方为有效记录。图4（b）显示了消除偏移后的遥感海表温度估算所生成的背景场云图；图4（c―d）显示了SCM 方法和OI 方法的对比结果，其中所有云图均取2009―2018 年跨度内的月平均值。

由2 种方法对地图检测的结果可知，SCM 方法和OI 方法的结果具有相似的空间分布，但也能观察到个别海洋浮标的测量值对背景场的校正不明显，比较图4（a）和图4（b）可知，校正不明显的多数位于中国南海的中央和西北侧，且可在地图中观察到“牛眼”效应，见图4（c），4（d）。“牛眼”效应在南海中心更为明显，其中某些海洋浮标与背景场的海表温度数据存在差异,但在每日和每月验证程序中这些差异并不是错误的[30]。与OI 算法相比，SCM 方法具有更平滑且细节更丰富的海表温度云图（图4（d））。表面上，2 种方法似乎都合并了海洋浮标数据和遥感数据，显示了相似的结果（图4（a））。因此，如果不通过空间统计分析而仅凭目测检查很难看出哪种方法的结果更优。

图4 对海表温度图像的目视检查用数据分布图和云图Fig.4 Visual inspection of SST cloud maps and cloud maps refer to the monthly mean values over the span of 2009-2018

表2 总时间跨度的月度统计（2009―2018）Table 2 Monthly statistics of total time span（2009―2018）

表2 总结了统计分析的结果。所有值都是在2009 年至2018 年的某个月中计算出来的。表2的最后3 行显示了夏季、冬季和整个数据集的统计数据。 ME、MAE 和RMSE 平均值的大小在冬季（浅灰色系）和夏季增加时略有减少。正如预期的那样，R2的值在夏季会降低，但在冬季会有所增加。 OI 方法显示了遥感海表温度和R2的中间值，但使用SCM 方法得到的ME 和MAE 值更接近。

这里考虑的统计参数有:平均误差(ME)、平均绝对误差(MAE)、均方根误差(RMSE)和判定系数(R2)。最后3 行分别是夏季、冬季和2 个季节的平均值。

为评估2 种方法之间的性能差异，在本研究应用了留一法交叉验证技术。对所选择的16 个海洋浮标数据集，留下一组其余每种方法应用120 次；在计算下一个海洋浮标之前，在对应海洋浮标位置的遥感数据网格中添加所有的120 个值。该方法一共应用了3 840 次（16 个海洋浮标，120 个月，2 个算法）。图5（a）显示了海洋浮标数据与OI 结果交叉验证之间的散点图;图5（b）显示了海洋浮标数据与使用SCM 方法结果交叉验证之间的散点图。最终2 种方法的结果非常相似，与SCM 方法相比OI 方法呈现了更优值R2=0.77，但采用SCM 方法产生了更好的RMSE 值。

虽然OI 方法的个体差异较小，且方差与SCM 方法几乎相同，但SCM 方法在夏季产生的ME值和MAE 值较低，表明它对数据不足比较敏感（观察值较少会导致局部效应的高变异性）。虽然OI 方法具有分析增量的空间分布由背景误差协方差矩阵定义的优点，但SCM 方法的权重通常是各向同性且任意的，仅取决于与观测点的距离，因而SCM 方法更适用于海面测量装置稀疏的偏远海域。

图5 留一法交叉验证技术结果Fig.5 Results of the leave-one-out cross-validation technique

5 结束语

本文应用了SCM 方法将2009 年1 月至2018 年12 月期间来自NMSDC 数据集中的海洋浮标和遥感海表温度进行合并，并使用留一法交叉验证技术评估结果以获得更优的数据融合方法。经比较后发现SCM 较OI 方法提供了稍好的结果（ME=0.8 ℃/月，MEA=1.8 ℃/月，RMSE=41.7 ℃/月，R2=0.87）。相比之下，OI 方法不太准确（ME=0.9 ℃/月，MEA=1.8 ℃/月，RMSE=37.3 ℃/月，R2=0.85）。与OI 方法相比，SCM 实现性更优，通用性更强，计算速度更快（无需转置大矩阵），且可以迭代地增加校正的平滑性，具备实时提供高分辨率精准的海洋环境数据的能力，尤其是在海面装置非常稀疏的南海海域，可以提高渔情模拟预测的精度，以便更好地对海洋资源进行规划和管理。