空间数据插值算法比较分析

2016-10-09 16:05王金玲
武昌理工学院学报 2016年2期

王金玲

摘 要:本文通过分析比较空间数据内插中反距离加权法和谢别德法的基本原理,并利用SRTM数据对对算法进行测试,结果表明,改进谢别德法的插值效果优于反距离加权法和原始谢别德法。

关键词:反距离加权法;谢别德方法;SRTM

中图分类号:TB22 文献标识码:A

一、 引言

空间数据是用来表示空间实体的位置、形状、大小及其分布特征诸多方面信息的数据,它可以用来描述来自现实世界的目标,它具有定位、定性、时间和空间关系等特性,在社会各行业、各部门,如城市规划、交通、银行、航空航天等领域广泛应用。随着计算机技术的发展,空间数据的处理分析显得尤为重要。通常观测的空间数据是离散无规律的,而实际应用中除了需要知道某个点的确定值之外,还需要获取观测数据区域或某个指定区域范围内均匀分布的格网值。因此,需要将离散观测数据进行内插。空间数据内插在海洋、气候、石油等地球科学及相关学科广泛使用,例如,地球科学中的DEM构建、图形图像处理,地球重力场中位场数据 等都要进行内插。

常用的空间数据插值法很多,尤其在科学计算领域中的许多软件均内置了多种内插算法,例如Sufer中就有12种插值算法(http://www.goldensoftware.com)。各种方法有各自优点和缺点,有些算法简单,如反(逆)距离加权法 、谢别德法、最近邻点插值法等;有些算法复杂,计算耗时,如最小曲率法、克里金插值法 、多项式回归法、径向基函数法 、线性插值三角网法等。其中,与距离倒数有关的反距离加权法和谢别德方法简单,计算省时,在一般的工程应用中极为广泛。

本文就反距离加权法和谢别德方法,讨论这两种基本方法的特点,并利用SRTM数据进行分析比较。

二、 原理方法

空间数据插值就是根据已知点的观测数据 内插计算未知点 的数据处理过程。实际工作中一般要获取规则格网数据,因此,网格化就是根据一组已知点数据 ,采用空间内插方法生成网格数据的处理过程。这些空间内插方法假设属性值 是在研究区域内是连续或分段连续的,也就是对于所有点 来说, 存在且是唯一的。此外,内插模型可以是精确的,此时,要求模型精确通过观测点时。不管采用何种方法,数据的多少、间隔及分布方向对内插结果有影响。网格生成其实就是根据附近点进行加权平均的过程,一般假设每个网格单元或交叉点的值最有可能与其附近点的值接近。模型的一般形式为

式中 为第 个待内插点的内插估值; 为第 个位置在 处的已知或观测值; 为已知点的总个数; 为与 对应的系数因子,一般满足

反距离加权法(IDW:Inverse Distance Weight)是一个加权平均插值法,其系数为

其中,对于某个待插点来说, 为一常数,根据式,该方法的一般形式为:

这是一种直观的加权平均法。在IDW方法中,权 用已知点 到内插点 的距离 倒数表示,故得名反(逆)距离加权法。通常可以表示为

式中 为乘方因子,一般选择为一整数,取值一般为0~5。

在利用加权函数求取待插点数值中,一般只有临近点对未知点有显著影响。同时,为了节约计算时间,也不可能对所有观测点都进行计算。因此,实际计算中只需选取未知点周围部分数据进行内插即可,即内插前需要选择合适的搜索区域,并考虑该区域的形状与大小。其中,大小可以选择为一个固定值,即指定一个搜索半径;也可以根据某种适合的方式确定,例如根据计算中设定一个最少观测点数,由此每个计算中动态确定大小。搜索区域的形状或搜索面积可以为圆形、椭圆形,或者上述这些形状的分片组成。实际处理中,为了达到简化的目的,搜索区域形状一般选取为圆形,由此可以考虑两个基本准则:一是距离准则,即用来计算内插点的观测点离内插点某个半径范围之内;二是点数准则,即采用点数为离待插点最近的 个点。联合考虑两个准则就可以避免各自的不足。假设 为搜索半径, 为所有观点总数, 为 个数据点所包围多边形的最大面积,假设在搜索半径 范围内最少点数为 ,那么搜索半径与最少点数之间有以下简单关系

谢别德方法是南非地质学家Shepard最早提出的方法,该方法本质上是一种标准的距离倒数法。其权函数为[1]

另外一种改进Shepard方法根据最远点距离来定权,其中最远距离也就是指定的搜索半径 ,与IDW公式相似,该方法的权函数公式为:

上述公式均为平面坐标形式,如果在椭球坐标系中,需要将距离 按椭球坐标计算。本文使用数据即为椭球坐标系下的数据。

三、 实例分析

为了分析IDW和Shepard方法的特性,以数字地形高程模型SRTM进行测试。SRTM的全称是Shuttle Radar Topography Mission,即航天飞机雷达地形测绘任务,由美国太空总署和国防部国家测绘局联合实施观测。SRTM数据每经纬度方格提供一个文件,分辨率有1″和3″两种,其中3″数据大约为地面距离90米,每个文件包含1201×1201共1442401个采样点的高度数据。本文选取SRTM中N25E100.hgt文件为例,共有1439898个观测值,缺少2503个数据,其影像如图 1所示。该区域地形复杂,起伏大,最高4072米,最低1162米,平均高度2112.7米。除了有两个区域(100°8′E,25°38′N)和(100°20′E,25°58′N)附近属于高地,存在明显的数据缺失外(白色),还有多个小区域缺少数据。由于SRTM本身是格网数据,为了对算法进行验证,从原始数据中提取少数数据作为已知观测值,其余数据用来进行检验。如影像

图 2所示,圆圈表示选取的已知数据,共有360579个,其它节点为未知点(实际已知数值用来检核),需要进行内插,共有1081822个。因此,这是一个以少数已知点内插多数未知点的内插过程,而实际工作中,一般都是以多数已知点来内插少数未知点。

内插处理中,选取乘方因子 ,数据搜索半径为20″,分别采用基本的IDW方法、Shepard方法和改进的Shepard方法,将图 2中圆圈点作为已知数据,内插其余节点的高程。将内插结果与已知点联合,可以得到如图 3所示高程影像。可以看出,采用内插算法,可以有效填补原始数据的缺损。将内插结果与原始数据相减,可以得到表 1所示的统计结果。可以看出,三种基于距离倒数的方法中,改进谢别德方法最优,平均差异约为-0.6mm,标准差为±13.62m,而IDW方法结果最差,平均差异和标准差分别为-2.8mm和±27.07m。

将差值作地理分布直方图(图 4),其中左图仅绘出差值大于60米的分布图,右图仅作出差值小于-60米的分布,在右图中,为了作图方便,将负值均转换为正值作图。从图中可以看出,差值大的点位大部分均位于地形复杂变化大的地方。

四、 结语

空间数据插值在科学计算中极为普遍,各种方法均有其优点和不足,实际处理中要根据数据的物理特性及对数据的具体需要来选取最优的算法。在对海量数据处理中,简单的基于距离倒数的方法更能节约时间,但不一定是最优的方法。为此,基于统计法的kriging方法在很多领域应用更加灵活,但其计算量大,计算耗时。

本文针对距离倒数法中的反距离加权法和谢别德方法,通过实例分析和比较,指出改进谢别德方法优于传统的反距离加权法和原始的谢别德法。在地形复杂、起伏大的地区,插值精度较低,但算法简单,计算省时,适宜对海量数据进行内插处理。