肖城龙
(重庆市勘测院,重庆 401121)
基于ArcGIS的空间数据插值方法的研究与实验
肖城龙*
(重庆市勘测院,重庆 401121)
应用ArcGIS软件,通过对反距离权重插值、克里金插值、样条插值和自然邻域插值进行实验和评估,讨论几种插值方法的额特点、优劣,同时对其中的不足提出自己的改进思路,并提出未来空间插值需要考虑和提高的方面。
空间插值;反距离;样条;自然领域;克里金
空间插值是一种通过已知点或分区数据,推求任意点或分区数据。即利用函数f(x)在某区间中若干点的函数值,制定适当的特定函数,在这些点上取已知值,在区间的其他点上用这特定函数的值作为函数f(x)的近似值。在已观测点的区域内推算未知的数据的过程称为内插;在已观测点的区域外估算未观测点的数据的过程称为外推。
假定区间[a,b]上的实值函数f(x)在该区间上n+1个互不相同点x0,x1……xn处的值是f(x0),……f(xn),要求估算f(x)在[a,b]中某点x*的值。基本思路是,找到一个函数P(x),在x0,x1……xn的节点上与f(x)函数值相同(有时,甚至一阶导数值也相同),用P(x*)的值作为函数f(x*)的近似。其通常的做法是:在事先选定的一个由简单函数构成的有n+1个参数C0,C1,……Cn的函数类Φ(C0,C1,……Cn)中求出满足条件P(xi)=f(xi)(i=0,1,……n)的函数P(x),并以P()作为f()的估值。此处f(x)称为被插值函数,x0,x1,……xn称为插值节点,Φ(C0,C1,……Cn)称为插值函数类,上面等式称为插值条件,Φ(C0,……Cn)中满足上式的函数称为插值函数,R(x)=f(x)-P(x)称为插值余项。当估算点属于包含x0,x1,……xn的最小闭区间时,相应的插值称为内插,否则称为外插。这两种方法在GIS中的使用均十分普遍,一般来说,空间位置越靠近的点更有可能获得与实际值相似的数据,而空间位置越远的点则获得与实际值相似的数据的可能性越小。
中误差(root mean square error,RMSE),相对中误差(relative root mean square error,R-RMSE),对数中误差(log root mean square error,L-RMSE),平均误差(mean error,ME),标准差(standard deviation,SD),精度比率(accuracy ratio,AR)。RMSE由于计算简单、易于理解而成为使用较为广泛的精度模型,如美国USGS的各种分辨率DEM及英国OS DEM精度都是以RMSE衡量。RMSE并不反映单个误差的大小,而是从整体意义上描述了地形参数和其真值的离散程度,因此,RMSE的真正价值在于它提供真值可能存在的范围。
误差统计模型的建立需要合理的误差频率分布假设,RMSE假定误差服从均值为零的正态分布,因此RMSE不能揭示误差中的系统成分。RMSE可以反映利用样本点数据的估计灵敏度和极值效应,标准差SD代替RMSE可以消除系统性误差,AR则可以比较分析不同空间尺度、不同表面的空间数据参数精度。
本实验运用ArcGIS软件作为分析工具,版本为ArcGIS 9.3。ArcGIS是一款可提供地理数据显示、制图、管理、分析、创建和编辑的GIS桌面软件。ArcView部分带有数百种可进行空间分析和地理处理任务的工具,地理处理任务包括诸如图层叠加、缓冲区分析和数据转换等常规的GIS操作。ArcCatalog部分可以用来组织、管理和创建GIS数据。ArcView中的ArcToolbox工具箱中包含了实验所需的反距离权重插值、克里金插值、样条插值和自然邻域插值工具。
数据来自国际科学数据服务平台,通过提取部分DEM数据中的高程点作为原数据即已知数据。本实验主要是对几种插值算法做比较,故为方便处理,提高效率,对下载的DEM数据进行处理,得到如图1的原始数据和如图2高程点数据。
图1 DEM数据 图2 提取出的高程
先对插值结果图和原始数据图做如图3~图5比较:
图3中从左至右依次为原始数据、反距离插值、克里金插值、规则样条插值、张力样条和自然邻域插值。从整体上几种插值均保持了原来数据的基本特征,数据比较集中在50 m~70 m段,有一定的科学性,其中克里金插值效果相对其他几种较平滑。图4是原数据柱状拉伸统计图,图5从左至右依次为反距离插值、克里金插值、规则样条、张力样条和自然邻域插值,因为拉伸模型都相同,所以具有可比性,从图中也可以看出,克里金插值的数据起伏波动较大。反距离插值效果和样条插值数值特征从整体上所得的数据特征基本一致,自然邻域最接近原始数据的数值分布特征。
图3 插值效果图比较
图4 原数据柱状拉伸统计图
以上是对插值结果数值统计的对比分析,下面引入检测点,采用精度模型进行评价,表1是检验点高程值和插值后的高程值统计表。
带入精度评价模型评价时,值得注意的是反距离权重插值等确定性插值只依赖于数学模型,其验证标准只有中误差,而统计类的有多种评价体系。一般来说中误差最小,平均误差接近于中误差,标准差接近于0结果最好。我们用前面给出的几种评估模型计算如表2所示:
插值检验数据统计 表1
续表1
插值精度比较 表2
从表中可以看出几种插值的中误差、相对中误差和指数中误差是张力样条函数较小,规则样条函数的平均误差和精度比率最小;克里金插值的中误差和平均误差最大,说明克里金插值结果波动性很大;比较而言,对于该高程数据,样条插值的效果会更好。
结合几种插值算法的参考和本次实验,对几种插值的特点做以下描述:反距离加权法直观并且效率高,在已知点分布均匀的情况下插值效果好,插值结果在用于插值数据的最大值和最小值之间,但缺点是易受极值的影响。克里金方法的关键在于权重系数的确定,该方法在插值过程中根据某种优化准则函数来动态地决定变量的数值,从而使内插函数处于最佳状态。克里金方法考虑了观测的点和被估计点的位置关系,并且也考虑各观测点之间的相对位置关系,在点稀少时插值效果比反距离权重等方法要好。所以利用克里金方法进行空间数据插值往往取得理想的效果。克里金算法提供的半变异函数模型有高斯、线形、球形、阻尼正弦和指数模型等,在对气象要素场插值时球形模拟比较好。样条函数适用于逐渐变化的曲面,如温度、高程、地下水位高度或污染浓度等。该方法优点是易操作,计算量不大,缺点是难以对误差进行估计,采样点稀少时效果不好。自然邻域插值以Voronoi图为几何基础,较好地反映数据的局部相关性,适用于实际资料有限、数据复杂的建模,但有效的插值范围相对较小。当然对空间插值而言,没有绝佳的插值方法,只有在针对某一数据采用多种插值方法比较下选择出来的适用方法。
对于以上几种插值的不同特点,我们另外提出多级空间插值。其思路是先将整体空间数据集按照相应规则划分为若干局部区域;然后提取各局部区域的空间数据特征;再根据局部数据特征与算法匹配规则,选择相适应的算法及参数对局部区域进行插值运算;如果继续进行局部插值,则将各局部数据集合并为更大范围的局部数据集,回到步骤2,如果选择结束则利用整体插值方法对局部数据集的插值结果进行再次插值,得到插值后的复杂空间数据集。这其中,可以将不同的插值模型混合使用,已取得良好插值效果。
一个行之有效而科学快速的插值方法相比采集同等的数据节约了大量的人力物力,显得更具现实意义。虽然目前空间数据无论从数据采集还是数据插值技术上都相对完备,但要满足未来需求,还需做下面几个方面的考虑:一是提高算法的鲁棒性和全自动性:在应用GIS处理空间数据时,不同数据格式的访问,如何指定数据鲁棒性、指定插值方法以及如何以全自动方式选择参数的问题,成为实际应用中迫切需要解决的问题之一。二是多源数据集成:不同来源的数据其分辨率、精度、分布等情况不同,需要用新的数据处理方法和集成方法来优化提取多源数据信息。三是多尺度建模和多维表达:新型多时空尺度模拟方法正在不断发展中,多维数据技术的综合集将促进多变元应用的发展。最后值得一提的是精度、实用性以及计算效率是空间插值技术的根本,这是在研究整个空间数据插值技术过程都必须考虑的因素。
[1] 胡鹏,黄杏元,华一新. 地理信息系统教程[M]. 武汉大学出版,2005(8);7~8,117~120.
[2] 汤国安,刘学军,闾国年. 数字高程模型及地学分析的原理与方法[M]. 科学出版社,2005(8);17,188~189.
[3] 孟耀伟,梁衡,程菊明. 多级空间数据插值及其应用方法[J]. 许昌学院学报,2010(9).
[4] 王颖,祝民强,乔康宁. 航测数据处理中空间插值方法[J]. 测绘与空间地理信息,2011(2).
[5] Stephen J.Jeffrey,Using spatial interpolation to construct a comprehensive archive of Australian climate data[J]. Environment Modeling & Software,2001(16):309~330.
[6] Trevor C.Bailey,Interactive spatial data analysis[C]. University of Exter.
[7] 郭艳军,潘懋,燕飞等. 自然邻点插值方法在三维地质建模中的应用[J]. 解放军理工大学学报,2009(12).
TheStudyandExperimentofSpatialDataInterpolationBasedonArcGIS
Xiao Chenglong
(Chongqing Survey Institute,Chongqing 401121,China)
Thispaper applicateseveralcommonly usedinterpolation methods(inverse distance weighted interpolation,kriginginterpolation,spline interpolation andnatural neighborinterpolation),interpolationexperiment based on ArcGIS. Assessmentoftheresultsto discussthecharacteristicsoftheamountofseveralinterpolation methods,the pros and cons,onthelack ofimprovementideas,and suggest wherespatial interpolationneed to be consideredand improved.
spatial interpolation;IDW;spline;natural neighbor;kriging
1672-8262(2017)06-71-04
P208.1
A
2017—03—09
肖城龙(1987—),男,助理工程师,主要从事测绘地理信息工作。