耕地资源质量分类评价土壤性状插值方法探索

2022-04-29 09:22周文涛孔祥芸丁玉鹏
现代农业装备 2022年2期
关键词:样点二阶插值

周文涛,张 鑫,孔祥芸,丁玉鹏

(1.北京数慧时空信息技术有限公司,北京 100080;2.烟台市自然资源和规划局,山东烟台 264003;3.山东明嘉勘察测绘有限公司,山东 淄博 255035)

0 引言

为了进一步摸清全国耕地质量情况,第三次全国国土调查将耕地资源质量分类与评价作为专项调查,并制定了工作方案[1]。方案要求以三调的耕地图斑和可扩充单元图斑(即可恢复、工程恢复)作为评价单元,利用农业农村部和自然资源部最新的与土壤性状相关的实测采样数据和长期监测数据,对评价单元进行土壤性状的赋值。但由于样点量不足以将评价单元逐一对应赋值,因此,通过样点将全域评价单元赋予相对精确的土壤性状指标在实际应用上具有极其重要的意义。

在ArcMap 平台的地统计分析模块提供了不同的插值方法,但空间插值方法受到样本数据属性、插值理论模型、插值理论等综合影响[2],并不存在一以贯之的最优模型,学术界也没有一种受到公众认可的插值方法。因此,需要根据具体的数据与本区域的自然地理特征对不同的方法进行比较,进而“因地制宜”地选择出最适于本区域的最优模型。

本文在前人已有工作的基础上,以辽东胶东丘陵地区某地为研究区,采用不同的插值模型对土壤有机质(Soil organic matter,SOM)的空间分布情况进行预测,并通过比较不同插值方法预测的误差大小和整体的综合反映效果,探讨土壤有机质插值方法选择的流程,进而为其他区域不同土壤性状的空间插值方式提供参考。

1 研究区概况及数据预处理

研究区位于辽东胶东丘陵自然区,山区、丘陵分别占行政区总面积的 32.9%和38.4%,山丘连绵,沟壑综横,地势东北部、中部偏高,光照充足,年均降雨量671.1 mm。研究区内土地利用总面积约为207 万亩(1 亩=0.067 hm2),其中耕地约67 万亩,可扩充单元(即可恢复、工程恢复)图斑对应面积共计约23 万亩,全域耕地以旱地为主。

本文利用 386 件土壤有机质实测数据进行空间赋值。首先采用拉斐尔法,进行异常值处理。即样本的平均值加减3 倍的标准差作为数据的有效区间,通过表 1 中的信息进行计算,获得的有效区间为[2.70,17.25],超出区间用有效区间的边界值进行代替,且若为负值,则用0 代替,这是因为基于理论和实际意义,负值是不存在的。

表1 土壤有机质数据描述性统计

2 样点数据描述性及探索性分析

对测区内的386 件土壤有机质样点数据进行统计分析。通过变异系数判断样点数据之间是否存在相关性。变异系数计算公式:C.V=(SD/MN)·100%;其中,SD为标准偏差、MN为平均值。根据变异系数的大小可估计变量的离散程度:其中,若变异系数<10%,则为弱变异性;若10%<变异系数<100%,则属于中等变异性;若变异系数>100%,则为强变异性。本测区样点数据的变异系数为 24.3%,属于中等强度变异,土壤有机质之间存在显著相关性。

当数据量≤50 时,倾向于以S-W检验结果为准;当数据量> 50 时,倾向于以K-S检验为准;当数据量>5 000 时,SPSS只会显示K-S检验结果。本文样本数量为386 件,远大于50 且小于5 000,故以K-S检验结果为准。通过表2 中的正态性分布检验可以看出,其显著性为0.2 > 0.05,说明样点数据符合正态分布。

表2 土壤有机质正态性分布检验

采用空间探索性分析工具对测区内的土壤有机质样点数据进行趋势性统计分析(如图1 所示)。对数据进行 Box-Cox 转换后,数据的正态概率图(b)显示采样点的值基本最靠近对角线,证明对数据进行 Box-Cox 转换后正态分布效果最优。根据直方图统计数据(a),样点经过Box-Cox 转换后偏态系数(Skewness)为 0.16,证明数据分布具有对称性,且数据稍右偏态;峰度系数(Kurtosis)为 3.26,数据的分布形态较正态分布呈现高窄的状态,数据相对集中于平均数附近。平均数(8.95)与中位数(9)较近也可作为接近正态分布的依据。根据趋势分析图(c)显示,在 xz、yz 平面上呈现一阶级和近似二阶的趋势,但无法准确判断,因此,需要进一步进行比较测算趋势效应。

3 土壤有机质空间插值方法比较

交叉检验法(cross-validation)[3]是假设某空间位置的土壤有机质未知,用具有空间关系的其他所有土壤有机质的实测数据来估算该位置上的有机质含量,并通过比较预测值与实测值之间的差距进行精度评价的方法。交叉检验法通过五项指标进行评价,分别为:平均误差(Mean Error,ME)、标准化平均误差(Mean standardized Error,MSE)、均方根误(Root-mean-square standardized Error,RMSE)、平均标准误差(Average standard error,ASE)和标准化均方根误差(Root-mean-square standardized Error、RMSSE),评价标准[4]如下:ME 和 MSE 绝对值越接近于 0,精度越高;RMSE 越小越好;RMSSE 越接近于 1 越优。若 ASE>RMSE 或 RMSSE<1,则说明高估了预测值;反之,则为低估。下面将对3 种地统计内插方法和4 种确定性内插方法通过预测误差进行综合比较,具体如下。

3.1 地统计内插方法比较

3.1.1 趋势效应及半方差函数模型的选取

首先通过ArcMap 中的空间统计工具(Spatial Statistics Tools)里的平均最邻近距离(Average Nearest Neighbor)工具进行分析计算 得出NNObserved=1 017.64,确定步长。为确定趋势效应,在不考虑各项异性,并假定半方差函数都为稳定模型以及内插方法均为普通克里格法的前提下,分别设置一阶线性和二阶多项式的内插趋势效应,2 种趋势效应插值的预测误差情况如表3 所示:趋势指数为一阶相较于二阶的 ME,MSE 绝对值更接近于0,RMSE 更小。综上所述,趋势指数选取一阶效果更优。

表3 不同趋势指数的土壤有机质预测误差

在确定趋势效应选取一阶的前提下,且统一采用普通克里格内插方法,通过交叉验证的结果验证不同的半方差函数模型拟合的准确度,本文选取了球状模型、指数模型和高斯模型3 种函数进行比较。根据表4 所示:从预测误差结果看,指数模型的ME最接近 0,RMSE 最小,RMSSE 最接近于 1,因此,指数模型拟合效果最佳。块金值与基台值之比从大到小依次为高斯模型(0.89)>球状模型(0.87)>指数模型(0.83)>0.5,因此,3 种函数模型随机因素所引起的土壤有机质空间异质性程度要大于自相关部分[5]。综合比较预测误差、块金值、基台值等数据,最重要的指标为预测误差[6]。根据预测误差等级最高的原则,选取指数模型最优。

表4 不同模型的土壤有机质预测误差

3.1.2 地统计内插方法预测误差比较

趋势效应设置为一阶,半方差函数模型选取指数模型,在以上两项设置统一的情况下,比较不同的地统计插值方法进行插值的预测误差。本文主要选取普通克里格、简单克里格和泛克里格3 种方法。不同方法的预测误差值见表5,从表中数值可以看出,简单克里金的ME、MSE 最接近于0,且其RMSE 的值也是最小,综上所述,简单克里金的插值方法是最优的。

表5 土壤有机质的地统计内插方法预测误差

3.2 确定性内插方法比较

本文选取了4 种确定性内插方法,通过比较不同方法的预测误差值,选取最优插值方法,具体如下。

3.2.1 反距离权重插值

距离相近的事物要比距离较远的事物更为相似。该空间插值方法的原理是假定待赋值点都会受到局部的影响,而随着距离的增大,受到的影响会减小。反距离权重插值认定权重与距离p 次幂成正比,权重随着距离的增加而降低,降低的速度取决于幂值p。而p 的最优值则通过交叉验证统计信息确定。从表5 的预测误差结果来看,平均预测误差值差距不大,且其中当幂指数为1 时,均方根预测误差是最小的。

3.2.2 径向基函数插值法

径向基函数的原理是基于系列的精确插值方法进行组合,将插值表面穿过每一个实测的采样点,5种基函数插值出来的表面结果不同。这种插值方法最适用于平缓变化的表面,对于短距离内出现剧烈变化的样点并不适用。本文通过交叉验证的结果选择最优基函数,根据表6 结果显示,规则样条函数其 ME 值最接近于0,是最优的基函数插值方法。

3.2.3 全局多项式插值法

据实测点进行拟合,形成由数学函数定义的平滑曲面。以贴合数据为准增加项。平面无弯曲即为一阶多项式(线性),一次弯曲为二阶多项式,以此类推,最多10 次。根据表6 的交叉验证结果来看,一阶与二阶的 ME 相近,而二阶的 RMSE 更小,因此选用二阶多项式拟合效果更优。

3.2.4 局部多项式插值法

相较于上一插值方法不同的是,上一插值法是依据整个表面进行拟合多项式,而本插值方法可以拟合指定重叠领域内的多个多项式。领域之间是相互重叠的,位于领域中心的拟合多项式的值即为每次预测所使用的值,需选择最佳参数,将预测误差降至最小。根据表6 的预测误差所示,各阶的RMSE相差较小,而3 阶的ME 最接近于0。

表6 土壤有机质各种不同确定性内插方法预测误差

综合比较以上4 种确定性内插方法,全局多项式插值法(二阶)ME 最接近于0,且RMSE 最小,因此是最佳的插值方式。其次为局部多项式插值法(三阶)。

综合以上所有数据显示,将地统计内插方式与确定性内插的预测误差进行综合比较,确定性内插中的全局多项式(二阶)其预测误差的ME 更接近于0,RMSE 更小,是最优的插值方法。

4 结果与分析

利用辽东胶东丘陵地区的 386 个土壤有机质样点数据,在ArcGIS 平台和 SPSS 软件的支持下,对样点数据进行统计分析,并利用不同的空间插值方法对研究区内土壤有机质的空间分布值进行预测,选取最优的趋势效应及半方差函数模型比较不同的地统计内插方法计算的预测误差值,并综合比较地统计内插方法与确定性内插方法的预测误差,选取最优模型。结果表明:

1)利用Kolmogorov-Smirnova验证了数据符合正态分布特性,并通过空间探索分析 QQ 图等方式确定了对样本数据进行 Box-Cox 转换达到的拟合度最高。

2)在地统计内插方法中,趋势效应中,普通克里格方法(一阶)插值效果比普通克里格(二阶)插值效果好;在半方差函数模型中,指数模型插值效果优于球状和高斯模型;通过比较不同地统计内插方法预测误差,简单克里格方法在3 种地统计插值方法中均方根预测误差最小,因此是最优的插值方式。

3)在确定性内插方法中,交叉验证的预测误差结果表明,全局多项式的内插方法优于反距离权重、径向基函数和局部多项式插值法。二阶插值效果优于一阶和三阶,是最优的确定性内插方法。

4)综合比较地统计内插方法和确定性内插方法的交叉验证的预测误差,本项目测区适合利用确定性内插方法的全局多项式插值(二阶)进行空间插值,插值结果准确度最高。

猜你喜欢
样点二阶插值
滑动式Lagrange与Chebyshev插值方法对BDS精密星历内插及其精度分析
二阶整线性递归数列的性质及应用
汾河源头水生甲虫物种多样性及其生态分布类型
基于空间模拟退火算法的最优土壤采样尺度选择研究①
谈谈玉米大田测产方法及应用
基于pade逼近的重心有理混合插值新方法
二阶矩阵、二阶行列式和向量的关系分析
混合重叠网格插值方法的改进及应用
土地整理后样方田坎与二调样方田坎比较研究
二次函数图像与二阶等差数列