基于Cressman优化算法的海洋矢量数据插值方法研究

2023-08-16 06:28陈珂陈括吴萍梅杰袁逸苇
海洋信息技术与应用 2023年3期
关键词:空间数据插值矢量

陈珂,陈括,吴萍,梅杰,袁逸苇

(1.自然资源部东海预报减灾中心, 上海 200136;2.自然资源部东海信息中心, 上海 200136)

随着“海洋强国战略”以及“建设智慧海洋”等一系列政策及理念的提出,海洋信息化正逐渐成为全面了解、研究和建设海洋的重要一环。海洋矢量数据的可视化作为直观有效的数据展示形式,为海洋环境监测、海洋灾害预警预报等方面研究提供了重要的信息资源。然而海洋矢量数据不同于传统工业数据,在时间、空间上具有实时动态性、空间相关性、多维多属性和不连续不确定性,并且存在数据量大、冗余度高等问题,如何在保证整体精度的同时,高效、直观、动态地将海洋矢量数据进行可视化成为海洋技术研究中的热点问题之一[1]。

由于空间相关性分析兼顾了空间对象之间的相关性和变异性,已在地理研究、资源评估和农作物监测等领域被广泛应用[2-5]。如李连发等通过对空间数据的相关性进行量化,提出了空间抽样框架;刘铁军等[6]以分层抽样为基础,兼顾空间关联性提出了“三明治”空间抽样模型。这些理论将空间相关性理论应用到空间数据处理中,一定程度上降低了空间数据的信息冗余。在插值研究中,常用的插值方法包括几何方法、统计方法、空间统计方法、函数方法、随机模拟方法、物理模型模拟方法和综合方法等[7-9]。但海洋矢量数据其自身具有多源、异构、多维等空间特性,插值过程中结合数据的空间相关性是非常必要的。

本文尝试将空间相关性和插值算法相结合,应用在海洋矢量数据可视化的研究中,通过对矢量数据进行空间相关性分析计算出海洋数据多种属性的依赖度以及其权重系数,对数据进行约简、选择和插值,进而为海洋矢量数据的插值可视化提供一种可行的新方法和新思路。

1 海洋矢量数据插值基本思路

首先利用Moran's I 进行空间相关性分析,对海洋空间数据进行整理和过滤,形成插值计算初始场;然后根据空间相关性分析确定插值计算的影响半径d'、插值权重Wijk,并进行Cressman 插值计算获得新场;最后将新场与实际值进行对比分析,若超过误差范围,则根据插值对新场进行订正,若在误差范围内,则针对海洋数据插值计算结果进行可视化分析,并与传统插值算法作对比,检验海洋数据插值模型的合理性(图1)。

图1 海洋矢量数据插值流程图

2 基于Moran's I的空间相关性分析方法

空间自相关是空间地理数据的重要性质,空间中邻近的地理数据信息通常比相距较远的具有更高的相似性[10]。由于空间对象之间存在空间相关性,空间事物在分布上呈现结构性。

Moran's I 是一种度量空间对象之间相关程度的重要参数,在空间自相关分析中已得到广泛应用[11-12]。通过对Moran's I 值的标准化计算得到矢量数据间的空间聚类程度,即z-score 值,z-score值越大表示空间聚类程度越高,通过z-score 值,检索研究区域矢量数据的最佳距离,即矢量数据在该距离内空间聚类程度最高,由该距离推导研究区域内的样本量及样本点的空间分布。通过对样本点精度检验推导整个研究区域的精度水平。相关公式如下:

式(1)-(5)中,I 表示Moran's I 指数值,n 表示某区域数据的总数,Wij表示数据i 和j 之间的空间权重,Zi表示数据i 的属性值,zˉ表示所有数据的属性平均值,S0表示所有空间权重的聚合,Z表示空间聚类程度z-score 标准化值,E( )I 表示Moran's I 的期望,V( )I 表示Moran's I 的方差,d表示欧氏距离,xi表示空间数据i 的经度,yj表示空间数据j 的纬度,xmax表示所有空间数据中最大经度,xmin表示所有空间数据中最小经度,ymax表示所有空间数据中最大纬度,ymin表示所有空间数据中最小纬度,n'表示选择的数据量,d'表示依据I选择的最佳距离。

基于Moran's I 的空间样本选择算法是对空间结构数据选择进行优化的算法,其本质是通过数据的总数n、数据i 和j 之间的空间权重Wij、数据i的属性值Zi、数据的属性平均值zˉ四个参数获得样本间的最佳距离,算法描述如下:

算法. 基于Moran's I 的空间数据选择算法(n,Wij,Zi,).

输入:数据总数n,数据i 和j之间的空间权重Wij,数据i的属性值Zi,数据的平均属性值zˉ;

输出:样本点间的最佳距离d'.

①FOR(i=1;i<=n;i++){

② FOR(j=1;j<=n;j++){

③利用公式(2)计算空间数据权重的聚合S0;}}

④FOR(i=1;i<=n;i++){

⑤ FOR(j=1;j<=n;j++){

⑥利用公式(1)计算数据间的Moran's I指数值I}}

⑦利用公式(3)计算各数据的空间聚类程度Z值;

⑧利用公式(4)计算各Z值对应的像元距离d;

⑨输出聚类程度较高的最佳距离d'.

该算法中,在数据总数为n 的情况下,数据空间权重聚合S0的时间复杂度为O(n2);数据间的Moran's I指数值I的时间复杂度为O(n2);各Z值对应的数据点距离d 的时间复杂度为O(n2);因此,该算法的时间复杂度为O(n2)。

3 基于Cressman的空间数据插值方法

Cressman 插值是在气象领域中应用最多的一种插值算法,是将离散点内插到规则格点引起误差较小的一种逐步订正的内插方法,被广泛应用于气象领域空间矢量数据的各种诊断分析和数值预报方案的客观分析中,因而Cressman 插值方法使客观分析成了一门独立的科学[13]。

Cressman插值算法[14-16]采用逐步订正方法进行最优化插值,用实际资料与预备场或初值场去改变和订正,得到新场,再求出新场与实际值之差,去订正上一次的场,直到订正场逼近实际资料为止。公式如下:

其中:

式中,α 为任一气象要素,α0是变量α 在格点(i,j)上的第一猜测值,α'是变量α 在格点(i,j)上的订正值;∆αk是参与插值计算点k 的值与第一猜测值之差;Wijk是权重因子,在0~1 之间变化;K是影响半径d'内的空间数据量。Cressman 客观分析方法最重要的是权重函数Wijk的确定,它的一般形式为:

式中:影响半径d'的选取具有一定的人为因素,一般取一常数。d'选取的原则是通过空间相关性分析选取的最佳距离。dijk是格点(i,j)到点k的距离。

Cressman 插值算法的思路如下:第一步,确定一个预备场,并设定一个逼近值范围,用于比较计算后的新值与实际资料的差值;第二步,计算权重Wijk;第三步,将权重放入插值计算中,得到一个新场;第四步,将这个新场与实际资料相比,计算它们的差是否在预定的逼近范围内,如果不在逼近范围内,就用这个新场与实际值的差,去订正上一次的场;第五步,对订正后的场和实际值进行比较,如果还是超过逼近值的范围,则继续订正,直到新场与实际值的差在预定的逼近值范围内。

4 某海域流场模式数据插值结果及分析

基于Moran's I 的空间相关性分析和Cressman插值算法通常运用于空间矢量数据分析。流场数据作为空间矢量数据,具有空间性、时效性、多维性等特点。因此,本文采用东海某区域的流场矢量数据进行仿真实验,在插值计算前,首先对不同距离的矢量数据进行空间相关性分析,数据点间的距离与对应z-score值如表1所示。

表1 不同距离的Moran's I及z-score值

由表1 可知,当数据间距离为118.71 m 时,对应的z-score 值最大为48.266 820,表示该距离为118.71 m 的范围内,空间聚类程度最高,表现出强相关性,选此时对应的距离d'为最佳距离。

流场数据原始数据点分布如图2 所示,根据Moran's I 的空间相关性分析选取插值半径d'为118.71 m,对流场数据进行Cressman 插值计算,并与传统插值[15-18]计算结果进行对比(图3、图4)。反距离权重插值法(Inverse Distance Weight,IDW)是一种常用而简便的空间插值方法,它以插值点与样本点间的距离为权重进行加权平均,离插值点越近的样本点赋予的权重越大,IDW 通过对邻近区域的每个采样点值平均运算获得内插单元。本文采用的传统插值计算方法为Cressman 插值和反距离权重插值,插值半径d默认为50 m,如图5、图6所示。

图2 某海域流场数据分布

图3 基于Cressman优化算法平面结果

图4 基于Cressman优化算法3D结果

图5 基于Cressman插值算法计算结果

图6 基于IDW插值算法计算结果

为更好地分析三种不同插值方法,本次研究在同一环境下,分别对三种不同插值方法运行10次,并对10 次运行时间进行统计分析,如表2、图7所示。

表2 三种不同插值方法完成时间对比

图7 基于Cressman插值算法计算结果

通过图3与图5对比可以看出,传统Cressman插值方法和优化Cressman插值方法结果基本一致,图5和图6对比可以看出,传统Cressman插值方法和IDW 插值方法在插值半径为50 m 的情况下,获得的结果也基本一致,说明和传统的插值方法相比,优化后的Cressman 插值方法同样可以保证插值结果的精确度。同时,通过表2和图7看出,优化Cressman插值方法比两个传统插值方法耗时短,传统Cressman插值方法平均运行时间为5.72 s,反距离权重插值方法(IDW)完成时间为5.85 s,所耗时间基本相同,优化Cressman 插值方法运行时间为3.46 s,与传统插值方法相比,时间减少了近40%。这是由于优化Cressman 插值方法通过对流场数据的空间相关性分析后选择的插值半径比传统插值方法的插值半径大,从而减少了插值计算过程中的数据冗余,缩短了运行时间。

海洋流场矢量数据具有空间性、时效性、数据量大等特点,传统插值方法缺少对插值半径的精准分析,插值半径需尽量选择较小值来保证插值精度,因此会导致时间长、效率低和信息冗余等问题。本文提出的基于Cressman插值优化算法,通过数据间空间相关性的度量,量化了矢量数据的插值半径,在保证精度的同时,能够较准确地表达流场数据,保持了数据的可靠性,减少了数据的冗余度,保障了其插值结果的可信度,有利于海洋流场数据精准、高效地展示,大大减少了后台程序的计算时间,使数据表达更加流畅。

5 结论

文中针对海洋矢量模式数据的插值问题,提出了一种结合空间相关性分析对Cressman 算法进行优化的插值方法。该方法考虑了海洋矢量数据的空间特性,采用Moran's I对数据进行空间相关性分析,并基于Cressman插值算法对空间数据进行处理及栅格化表达[17-20]。基于Cressman 插值优化算法能够保证结果的有效性、准确性,并在一定程度上解决了传统插值算法中数据冗余、时间成本高等问题,提高了运算效率,降低了时间成本。

猜你喜欢
空间数据插值矢量
矢量三角形法的应用
基于Sinc插值与相关谱的纵横波速度比扫描方法
基于矢量最优估计的稳健测向方法
元数据驱动的多中心空间数据同步方法研究
一种改进FFT多谱线插值谐波分析方法
基于四项最低旁瓣Nuttall窗的插值FFT谐波分析
三角形法则在动态平衡问题中的应用
Blackman-Harris窗的插值FFT谐波分析与应用
基于文件系统的分布式海量空间数据高效存储与组织研究
客户端空间数据缓存策略