尹 群 ,王维瑞,郭纪敏,张世文,胡青青,沈 强
(1.安徽理工大学地球与环境学院,安徽 淮南 232001;2.北京市土肥工作站,北京 100029;3.上海大学理学院,上海 200444;4.安徽理工大学测绘学院,安徽 淮南 232001)
土壤全氮(soil total nitrogen)是指土壤中各种形态氮素含量的总和,氮元素不仅是保障植物正常生长的必需元素,也是衡量土壤肥力的重要指标之一[1-2]。氮是构成一切生命体的重要元素,准确掌握土壤全氮含量的空间分布格局及其变异特征是区域合理利用土地资源、进行精准施肥的重要前提[3-4]。在作物生产中,作物对氮素的需求量较大,土壤供氮不足或者过量施氮都会引起农产品产量和品质的下降[5-6]。采样点数量直接影响着预测精度和研究成本[7],因此,在研究土壤全氮空间分布特征的同时,需要综合考虑采样数量。
目前,对于全氮的预测方法很多,其中根据高光谱来预测土壤全氮的含量和空间分布是最常见的方法,文献[8]基于高光谱的反射特性对土壤全氮含量进行预测分析;而通过预测模型对土壤全氮进行预测研究也比较常见[9];而基于辅助变量不同采样数量对于全氮的预测鲜有学者研究。
本文以北京市通州区东南部四个乡镇耕地表层土壤全氮为研究对象,基于2018年通州区耕地质量调查数据,选择相关性较大辅助变量,运用RBF神经网络(Radial Basis Function Neural Network,RBFNN)、偏最小二乘回归(Partial Least-Square regression,PLS)和随机森林(Random Forest,RF)作为模拟预测方法,采样不同梯度的采样点数量,模拟通州区土壤全氮含量分布,对不同数量采样点的预测精度进行对比,结果可为土壤全氮预测选择合适的采样点提供参考,土壤采样设计相关研究与实践提供参考。
1)偏最小二乘法。PLS是一种用于多元统计数据分析的新型算法,包括了多元回归分析、典型相关分析和主成成分分析,能对复杂变量进行有效分析[10]。相对于普通多元回归,PLS所提取的成分,不但能有效地概括自变量系统中的变异信息,同时还可以对因变量给与解释,并且还能克服变量间的共线性问题,从而可以减少计算量。特别是在观测值数量少以及存在多重相关性等问题时,PLS回归具有传统方法不具备的计算简洁,建模效果好等优点[11-12]。PLS法目前广泛用于化学计量、社会科学等领域[13]。
2)RBF神经网络。RBFNN属于单隐层的三层前馈网络[14],它属于局部逼近网络,该网络输入层仅起到传输信号的作用,神经元的数目为样本中输入向量的维数[15];输出层则对隐层的输出进行线性加权求和得到网络的最终输出[16],利用RBFNN进行预测,首先要构建其网络模型,在建立RBFNN时,各层的节点数目、RBF、隐层中心、扩展常数和隐层到输出层的权值都是需要考虑的因素。把之前建立的时空序列模型结合RBFNN建立如下神经网络预测模型[17-18]。
3)随机森林。随机森林(random forest,RF)由大量决策树构成,每棵树进行独立分类运算得到各自的分类结果,根据每棵树的分类结果投票决定最终结果[19]。RF算法是基于传统决策树的统计学习理论,它可有效处理高维数据,具有较高的预测准确率,克服了过拟合的问题,可以在训练的同时进行泛化误差的估计,现已被广泛应用于医学、农学、经济学、水文科学、生物信息等领域[20]。
研究区位于北京市通州区东南部,主要包括西集镇、漷县镇、于家务乡以及永乐店镇,因这4个乡镇耕地分布较多,有利于样点的布设。通州区地处北京市东南部,区域面积906平方公里,常住人口157.8万人;全区属于温带大陆性季风气候,年平均温度在11.3℃,年降水量620mm左右;通州区土壤主要以潮土和褐土为主,研究区以潮土为主。
图1 研究区位置及采样点分布
在充分考虑了通州区的地理位置、气候、土壤类型以及土地利用方式的基础上,于2018年9月对土壤样品采集,采用棋盘法采集0~20cm的耕地表层土壤样品312个。每个采样点均以GPS 记录其海拔和坐标,每个样点采集样品1kg,土壤样品经过自然风干后,在实验室磨碎过筛,采用《森林土壤氮的测定》(LY/T1228-2015)进行全氮含量的测定。
土壤全氮的空间分布受到多种地表环境因素的综合影响,参考国内外研究,研究选取高程、坡度、植被覆盖指数(NDVI)、地下水埋深作为土壤全氮空间分布模拟的辅助因子。NDVI由Landsat8 OLI 卫星数字影像(拍摄于2018年4月8日,空间分辨率为30m)的第四波段和第五波段在ArcGIS 10.1中进行栅格计算获取;高程使用GPS记录获得;坡度用水准仪测试;地下水埋深根据现场实地调查并结合历史资料、文献获得。
为了验证不同方法对土壤全氮空间分布预测精度,本研究将312样点随机抽取300、200、100建模。以均方根误差、平均绝对误差、平均相对误差对建模集预测值与实际样点值进行对比分析得出预测精度结果,公式如下
(1)
(2)
(3)
目前对于不确定性分析评价没有统一的量化标准,国内外学者大都采用标准差分布图来对预测的不确定性进行评价,Bourennane研究得出保持模拟准确性的同时,标准差越小,预测是准确性越高[21]。
对有机质的空间预测需要结合辅助变量,而选择相关性较大的辅助变量是至关重要的。图2为土壤全氮与辅助变量之间的相关性,可以看出全氮含量与高程、坡度、耕层厚度以及NDVI存在一定的正向相关性,其中与耕层厚度的正相关性最大;而全氮与pH存在较小的负相关性。研究选择易获取的高程、坡度、NDVI以及耕层厚度作为辅助变量来进行全氮的建模与预测。
图2 土壤全氮与辅助变量之间相关性
图3 研究区归一化植被指数(NDVI)、耕层厚度、高程、和坡度
表1为将研究区312个采样点随机抽取20、40、60、80、100、150、200、250和300个样点作为研究对象的统计结果。可以看出采样点为20、60和80的土壤全氮含量范围都在0.57~1.76g/kg,平均值也很接近,为1.13g/kg左右,标准差为0.26g/kg左右;而采样点数量80和100的值域范围相同;而采样点数量为150、200、250、300的土壤全氮范围都在0.40~1.923g/kg之间,均值都为1.08g/kg,标准差也相同;根据K-S检验的P值都大于0.05,可以看出土壤全氮含量服从正态分布。
表1 描述性统计
通过对相同预测模型不同采样点数量下预测结果的RMSE、MAE和MRE的数值制作折线图以及相同采样点数量下不同预测模型的预测结果的RMSE、MAE和MRE的数值制作柱状图来直观的反应预测的精度。
1)预测模型相同下不同采样数量全氮预测模型精度对比。根据图4,预测模型为PLS模型时,根据RMSE的数值,在采样点数量在40以下时,RMSE数值为0.23,在采样点数量为80时最高为0.23,而采样点数量大于100,根据RMSE的走势,总体趋势是随着采样点数量的增加,预测精度先升高再降低,然后升高,最后趋于稳定,在采样点数量为100以后,随着采样数量的增加,数值趋于稳定为0.22,预测精度不会出现明显的增加;而MAE和MRE总体趋势是大致相同的,都是随着采样数量的增加精度先升高在降低随后增加,然后趋于平稳,在采样数量为150时,数值最低,MAE为0.16、MRE值为15.83%,精度最高。
RBFNN作为预测模型时,根据RMSE数值趋势来看,数值是先增加再降低随后再升高,然后再降低,随后趋于平稳,,在采样点为60时,数值最低为0.21,精度最高,在采样点数量达到150之后,数值稳定为0.22,预测精度趋于稳定;和预测模型为PLS情况一样,RBFNN在MAE和MRE的趋势是一样,数值都是先下降再升高,随后下降,最后再升高,在采样点数量为60时,预测精度相对较高,而在采样点数量为80时,数值较大,预测精度较低,而在采样数量为150到250之间预测精度逐渐升高,而大于250,MAE数值由0.16升高到0.17预测精度又相对降低。
图4 不同采样数量预测精度折线图
预测模型为RF时,RMSE、MAE以及MRE值的随着采样数量的增加,整体变化趋势是相同的,都是先下降再升高,再下降,最后趋于稳定,RMSE数值在采样点数量为150时最小为0.14,预测精度最高,而MAE和MRE也有类似情况,可以看出采样点在100以后,预测精度趋于平稳。
2)采样数量相同预测模型不同全氮预测模型精度对比。从图4可以看出,RF模型的预测精度在所有采样数量下都是最高的;采样点数量为20时,根据RMSE、MAE以及MRE的数值,RF模型的RMSE、MAE以及MRE的数值分别为0.22、0.16、16.52%,数值在三种模型里都是最小的,预测精度都是最高的,PLS预测精度次之;采样点数量为40时和采样点数量为20有相同的情况;采样点数量为60、200、250和300的情况大致相同,RF的预测精度最高,且数值比其他两种预测模型相对较小,RBFNN预测精度次之,而PLS根据数值,预测精度相对较差但与RBFNN模型的数值相差不大;采样点数量为80~150时,根据RMSE、MAE以及MRE的数值,RF模型的数值最小,预测精度最高,与其他两种模型的RMSE数值相差大约0.09、MAE数值相差近0.07、MRE数值相差近6.69%, 数值相差较大,PLS模型相对与RBFNN模型的预测精度相对较好,根据数值,两种预测模型的预测精度相差不大。
1)相同预测模型不同采样数量土壤全氮预测不确定性分析。根据预测模型的精度对比,选取预测精度较好的采样点数量为100、150以及200,来对其进行不确定性分析。采样标准差分布图对相同预测模型不同采样数量预测进行不确定性分析,当辅助变量为PLS法时,采样点数量为100时的标准差相对较大,预测的不确定性较大,在标准差分布图中还会出现异常值,而采样点数量为150和200时,标准差的值域范围相同,且分布情况相同,都是在研究区东北方向出现标准差偏高的情况,这与耕层厚度的分布情况大致相同;当预测模型都为RBFNN时,三种采样数量下的标准差值域大致相同,采样点数量为150时,值域相对偏大一点,预测的不确定性相对较大,而采样点数量为100和200时空间分布和值域都是大致相同的,且不确定性相对较小,也都是在研究区的北部标准差值较大,南部较小,这与耕层厚度分布相同,说明耕层厚度越大,预测的不确定性越大;RF作为预测模型时,三种采样数量下的标准差值域都相对较大,不确定性都很大。
2)相同采样数量不同预测模型土壤全氮预测不确定性分析。根据图5标准差分布图,当采样点数量为100时,RBFNN模型的标准差相对较小,预测的不确定性最小,PLS模型次之,RF的标准差最大,预测的不确定性最大;采样点数量为150时,和采样点数量为100时有相同的情况,RBFNN的预测不确定最小,PLS和RBFNN标准差值域大致相同,且在研究区的分布也大致相同,RF的标准差值域最大,预测的不确定性最大。
采样点数量100
采样点数量150
采样点数量200图5 不同采样数量下不同预测模型预测标准差分布图
利用辅助变量结合预测模型按照一定的采样数量对土壤全氮进行准确的预测是进行土壤肥力有效调控和耕地质量等级提升的基础工作。土壤全氮的预测受到多种因素的综合影响,研究结果表明,在区域尺度上受到辅助变量的影响。前人研究表明,对土壤全氮预测仅基于地理坐标而不考虑其他相关性变量因素的影响,预测效果是不准确的。在以往的研究中大都选择一种辅助变量进行预测,预测的精度相对较低。研究选择与土壤全氮相关性较大高程、有效土层厚度以及NDVI作为辅助变量,获得较好的预测结果,从预测精度分析来看,预测精度的高低分布与有效土层厚度的高低分布大致相似。
采样点数量对土壤全氮的预测至关重要,选择合适数量的采样点可以大大的缩小工作量和成本。而采样数量点数量的选择要考虑其他因素的影响,尤其是预测模型本身是否对采样点数量有一定的影响。文献[22]利用RF算法,结合多源环境变量,对研究区原有的土壤图斑进行分解制图,结果表明利用RF算法进行土壤制图是可行的,RF算法受采样点数量有一定影响,但影响较小。文献[23]研究表明RBFNN方法对样本数据没有特别的要求,具有更广泛的应用范围。
对于土壤全氮的预测研究,往往只利用单一预测模,而对于模型的选择和比较鲜有研究,本研究在不同采样数量下利用多种辅助变量结合不同的预测模型对土壤全氮进行预测,得到最佳的采样数量和预测模型。
本研究以北京市通州区东南部四个乡镇为研究区域,在土壤全氮空间预测精度方面,在采样点相同的情况下,RF预测模型的预测精度最高,能够较好的对土壤全氮进行预测,RBFNN和PLS预测精度大致相似;在预测模型相同的情况下,采样点数量在60~200范围内的预测精度相对较高。
在预测的不确定性研究方面,选择预测精度相对较高的采样点数量为100、150和200对预测进行不确定性分析,研究结果表明PLS回归和RBFNN预测模型在三种采样数量下预测的不确定性都相对较小,RF模型的预测的标准差相对较大,不确定性较大。
采样点数量在60~200之间的预测模型预测精度相对较高,为了保证预测精度,土壤采样数量应不少于60个、应控制在200个以内,若采样点数量低于60个,利用预测模型进行土壤全氮预测会出现较大的误差,会影响土壤全氮预测精度,样点高于200,虽然预测精度可能不会有太大的降低,但会增加采样的工作量,降低采样效率。
选择最佳的采样点数量,结合相关性较高的辅助变量,选择合适的预测模型,可以节约成本,提高预测精度和预测效率。选择合适的预测模型是至关重要的,对预测模型预测的不确定性的影响因素是需要考虑的问题,尤其对于采样数量对于模型的具体影响还没有深入的了解,是今后研究的重点。