张 军,江叶枫,孙 凯,郭 熙*,叶英聪,3
(1.江西省煤田地质局测绘大队,江西 南昌 330001;2.江西农业大学 国土资源与环境学院/江西省鄱阳湖流域农业资源与生态重点实验室,江西 南昌 330045;3.江西农业大学 林学院,江西 南昌 330045)
基于MEA-BPNN-F模型的土壤有机质空间分布预测
张 军1,江叶枫2,孙 凯2,郭 熙2*,叶英聪2,3
(1.江西省煤田地质局测绘大队,江西 南昌 330001;2.江西农业大学 国土资源与环境学院/江西省鄱阳湖流域农业资源与生态重点实验室,江西 南昌 330045;3.江西农业大学 林学院,江西 南昌 330045)
以江西省万年县为例,根据万年县测土配方数据,构建以思维进化算法、BP神经网络、四方位搜索法三者结合的模型(MEA-BPNN-F模型),同时加入高程和坡度信息来预测万年县耕地土壤有机质的空间分布,并与普通克里金法(OK模型)、以地理坐标为输入的BP神经网络模型(BPNN-G模型)、以高程和坡度作为辅助变量同时利用四方位搜索法加入邻近信息的BP神经网络模型(BPNN-F模型)进行比较。结果表明:4种模型的预测精度表现为MEA-BPNN-F>BPNN-F>BPNN-G>OK。应用MEA-BPNN-F模型预测精度最高、效果最好,比较符合土壤有机质地学运动规律及实际情况。该模型克服了BP神经网络全局搜索能力差和收敛速度慢的缺点,提高了BP神经网络的泛化能力。
土壤有机质;思维进化算法;四方位搜索法;BP神经网络;空间分布预测
从2005年4月开始,农业部门就在全国200个县开展第一批测土配方试点工作,旨在准确地测定耕地土壤养分含量从而进行精准施肥。但无论采样密度多大,均无法得到研究区域空间上土壤养分含量,因此,预测土壤养分空间分布一直是土壤学研究的热点问题之一[1-3]。
土壤有机质(Soil Organic Matter,SOM)是土壤养分指标之一,是衡量土壤肥力高低的重要指标之一。目前,针对SOM预测方法有很多,其中普通克里金(Ordinary Kriging,OK)法是应用最普遍也最广泛的方法[4],但在许多情况下因不满足OK法的3个重要前提条件而导致精度偏低甚至不能应用,而且OK法容易造成平滑效应[5],尤其是难以表达土壤养分含量突变的区域,导致突变区域信息丢失严重[6]。为解决这一问题,近年来国内外众多学者将人工神经网络引入SOM的空间分布预测中,并取得了显著成就[7-9]。目前应用于SOM空间插值的神经网络主要有BP神经网络和RBF神经网络,而这两种神经网络应用的关键在于权值和结构的优化[10]。BP神经网络具有操作简单、可塑性好的优点,是目前训练网络权值的普遍算法。但是BP神经网络基于最速下降算法或者拟牛顿法,具有局部最优和收敛速度慢等缺点[11],虽然有些学者尝试利用遗传算法对人工神经网络进行初始权值和阈值优化[12-13],但由于遗传算法本身的结构问题,依然存在易早熟问题,同时其变异和交叉算子具有双重性,有可能破坏原有基因,导致空间插值精度仍不是很理想。为解决传统进化算法(如遗传算法)易早熟、收敛速度慢等问题,太原理工大学孙承意教授于1998年8月提出了思维进化算法(Mind Evolutionary Algorithm,MEA),该算法具有极强的局部和全局寻优能力,在数值计算和非数值优化方面取得了良好效果[14-15],但将其应用于BP神经网络的初始权值和阈值的优化研究还相对较少。
因此,本文以江西省万年县为例,基于测土配方施肥的数据,以高程和坡度作为辅助变量,利用思维进化算法对BP神经网络的初始权值和阈值进行优化,同时采用四方位搜索法增加邻近样点信息,得到了一种MEA-BPNN-F混合模型来预测SOM的空间分布。研究结果对指导土壤养分空间插值模型的选取和精度优化以及精准农业等具有重要意义。
1.1 研究区域概况
万年县(28°30′~28°54′ N,116°46′~117°15′ E)总面积为1140.76 km2,东西长47 km,南北宽43 km。属于亚热带季风性气候,海拔14~650 m,主要地貌类型为岗地和丘陵。境内水资源比较丰富,年平均降水量为1766 mm,无霜期为263 d。土地利用方式以水田为主。
1.2 土壤采样与数据处理
土壤样品采集于2013~2014年进行。按照均匀性、代表性和连续性的原则,同时考虑地形部位的基础上,采用“S”形采样、多点混合的方法采集0~20 cm的耕地表层土壤样品,经过充分混合,用四分法最后留取1000 g土样,得到960个土壤样品。土壤样品经过自然风干后,带回实验室磨碎过筛,采用重铬酸钾(K2Cr2O7)油浴加热法测定SOM含量[16]。
样品采集与农化分析过程受采样及指标测试误差的影响,导致SOM的测量结果存在粗差,从而对SOM的空间总体分布与统计分析产生影响。采用拉依达准则法对采样点数据的SOM值进行异常值处理(3倍的标准差),本文后续的研究均采用剔除粗差后的数据。剔除后总样点954个:其中随机均匀选取80%样点作为建模点(建模点763个)用于插值;剩下20%样点作为测试点(测试点191个,不参与插值过程,只在后续精度分析中出现)用于验证插值精度(图1)。
图1 万年县土壤样点分布图(a)及DEM数据(b)
1.3 理论基础
1.3.1 BP神经网络 BP神经网络(Back Propagation Neural Network,BPNN)是典型的前向网络,按误差反向传播来进行调节权值,从而建立起输入-输出映射关系[11]。BP神经网络的初始权值和阈值是随机给定的,然后根据误差反向传播来一步步调整权值和阈值,直至达到期望输出。
1.3.2 思维进化算法 思维进化算法(Mind Evolutionary Algorithm,MEA)由太原理工大学孙承意教授于1998年8月提出,是异于进化策略、进化规划、遗传规划和遗传算法等传统进化算法的新算法。通过模拟人类思维趋同和异化两种思维的交互作用,同时引入了遗传算法的进化和群体,形成了独特的“趋同”和“进化”算子,具有极强的全局寻优能力,大大地提高了搜索效率。MEA的算法步骤如下:
(1)种群初始化。在解空间中均匀分布K个个体,计算每个个体得分。
(2)异化1。将得分高的(M+N)个个体作为优胜者,以前M个优胜者为中心产生M个优胜子群体;再以后N个优胜者为中心产生N个临时子群体。
(3)趋同。在每个子群体中计算每个个体的得分,得分最高者作为这个子群体得分。
(4)异化2。将每个优胜者的得分张贴到全局公告板上供其余个体学习,产生新的子群体,完成优胜和临时子群体的更新,得到全局最优个体和得分。
(5)循环。被替代的子群体在进化信息和全局公告板的指导下形成新的临时子群体,并与其他临时子群体进行全局竞争。重复上述步骤,当优胜者的得分不变时则认为收敛。
1.3.3 四方位搜索法 四方位搜索法(the Four-direction search method)是基于IDW算法思想[17]和空间自相关理论[18],根据采样点之间的距离越近影响越大,距离越远影响越小的思想,以采样点为原点,变程a为半径,在4个象限内选择4个邻近点SOM值。四方位搜索算法的步骤如下:
(1)在MATLAB中新建一个mat文件,导入所有采样点的地理坐标值(x,y)和SOM值(z);
(2)从文件中随机抽取一个点,赋值给Mi;在剩余点中随机抽取一个点,赋值给Ni;
(3)计算M、N两点之间的欧氏距离,设为d,令Temp1=Temp2=Temp3=Temp4=a,若d>a,则回到步骤(2);
(4)若Ni(x)>Mi(x),Ni(y)≥Mi(y)且d≤Temp1,则Temp1=d,P1=Ni(z);
(5)若Ni(x)≤Mi(x),Ni(y)>Mi(y)且d≤Temp2,则Temp2=d,P2=Ni(z);
(6)若Ni(x) (7)若Ni(x)≥Mi(x),Ni(y) (8)重复步骤(2)到(7),直至遍历mat文件所有点,将P1,P2,P3,P4存放在文本中。 1.4 研究方法 1.4.1 OK模型 OK法作为传统的地统计学方法被广泛地应用于土壤有机质的空间插值中,是单个变量的局部线性最优无偏估计方法;它基于半变异函数,根据邻近采样点权重均值对未知采样点上空土壤属性进行插值,是应用最广泛、最稳健也最常用的一种方法[4]。 1.4.2 BPNN-G模型 BPNN-G法是以采样点的地理坐标值X,Y为网络的输入变量,以SOM的预测值作为网络的输出变量。利用建模点的数据对网络进行训练,将SOM值与地理坐标X,Y之间的非线性函数保存在神经网络中,然后将测试点的地理坐标输入,利用sim函数进行仿真预测。 1.4.3 BPNN-F模型 BPNN-F法是在BPNN-G的基础上,基于IDW算法[17]和空间自相关理论[18],根据四方位搜索法,以插值点为原点,变程a为搜索半径,在每个象限内搜索与插值点距离最近的采样点SOM值,将搜索的SOM值保存在MATLAB中。根据前人研究进展[19],高程和坡度常常被用来预测SOM的空间分布,因此BPNN-F法把地理坐标、高程、坡度和与插值点最近的4个SOM值作为网络的输入变量,即网络的输入节点数为8,在网络收敛之后将测试点输入网络进行预测。 1.4.4 MEA-BPNN-F模型 BP神经网络应用的关键在于初始权值和阈值。本文利用思维进化算法对BPNN-F模型的初始权值和阈值进行优化,将思维进化算法、神经网络模型、四方位搜索法进行结合,得到了MEA-BPNN-F模型。通过建模点对模型进行训练,然后把测试点输入模型进行预测。 1.5 插值精度分析 通过ArcGIS 10.2得到建模子集和测试子集,以均方根误差(RMSE)、平均绝对误差(MAE)、平均相对误差(MRE)对建模和测试预测值与实际采样值进行对比分析,得出精度评价结果,其公式分别为: (1) (2) (3) 公式中:SOMpv(i)为样点的预测值;SOMob(i)为样点的实际观测值;n为样点数,RMSE、MAE和MRE值越小,说明误差越小、模拟精度越高。 本研究中常规性统计分析均在SPSS(version 22)中进行,思维进化算法、四方位搜索法、BP神经网络均在MATLAB R2014a中通过编程实现,半方差函数分析主要借助于GS+(version 7)软件,空间分析主要在MATLAB和ArcGIS 10.2中进行计算和叠加。 2.1 土壤有机质含量的统计特征 SOM常规性统计分析结果见表1,SOM含量的平均值为33.33 g/kg,值域范围为9.81~56.31 g/kg。从K-S检验可以判断SOM接近于正态分布。SOM的变异系数在0.1~1.0之间,属于中等变异。同时对建模子集和测试子集进行常规统计分析,建模子集和测试子集的变异系数分别为23.18%和23.34%,为中等变异。 数据的正态性也是地统计学方法的前提,只有当数据服从正态分布时,普通克里金法才有效[4]。图2是对以地理坐标为输入的BP神经网络,以地理坐标、高程、坡度和邻近4个采样点SOM值为输入的BP神经网络,以思维进化算法优化的BP神经网络3种神经网络预测残差的Q-Q图,从中可以看出,3种神经网络残差值基本沿着正态线分布,符合正态分布,可以进行半方差分析和克里金插值。 表1 土壤有机质含量的描述性统计 图2 BPNN-G残差、BPNN-F残差和MEA-BPNN-F残差的Q-Q图 2.2 半方差函数分析 半方差函数是描述SOM空间变异性的最有效方法,是进行SOM等地理属性空间插值的基础[2]。在GS+软件中对SOM值、3种BP神经网络残差进行半方差函数的拟合,用半方差函数描述SOM的空间变异性;通过对半方差函数的拟合可以得到变程、块金值和基台值。块金值与基台值的比值称为块金效应(<0.25表现为强空间相关性;0.25~0.75为中等空间相关性;>0.75为弱空间相关性)。SOM和MEA-BPNN-F残差的最优模型为球状模型(表2),BPNN-G和BPNN-F残差为高斯模型。从模型的参数来看,SOM的块金效应值为0.60,变程为1515 m,表明SOM为中等空间相关性,空间自相关的范围比较小。除MEA-BPNN-F残差的半方差模型参数与变化量较小,基本保留了原变量的空间结构特征外,BPNN-G和BPNN-F残差的半方差模型参数均较大,与原变量的空间结构有一定偏差。 表2 SOM的半方差函数参数 2.3 预测能力对比分析 为说明MEA-BPNN-F模型预测的拟合能力,本研究将与未优化的BPNN-F模型、BPNN-G模型以及OK模型进行散点图比较分析,通过建立测试样点的实测值与预测值之间的线性方程,以方程的决定系数(R2)来判断4种方法预测能力的强弱。 图3是4种模型得到的测试样点实测值与预测值的散点图。从图3可知,经过思维进化算法优化过的BPNN-F模型拟合能力最佳(R2=0.522),其次是通过四方位搜索法以及高程和坡度为辅助信息来增加输入层节点数的BPNN-F模型(R2=0.519),再次则是以地理坐标为输入的BPNN-G模型(R2=0.320),最后是地统计学的OK模型(R2=0.113)。 图3 4种模型预测值与实测值的散点图 2.4 插值精度分析 表3是4种模型对SOM预测的精度对比,从表3可以看出,基于思维进化算法优化与四方位搜索法结合的神经网络模型(MEA-BPNN-F)较没有进行优化的神经网络模型(BPNN-F)在建模集预测中RMSE、MAE、MRE分别降低了4.37%、3.64%、4.72%,在测试集预测中分别降低了2.58%、3.07%、3.39%;较以地理坐标为输入的神经网络模型(BPNN-G)在建模集预测中分别降低了26.14%、24.38%、25.42%,测试集预测分别降低了17.34%、16.12%、19.62%;较OK模型在建模集预测中分别降低了21.28%、18.98%、19.90%,测试集预测分别降低了28.32%、26.74%、30.01%。从对建模集预测精度来看,MEA-BPNN-F模型预测精度最高,拟合能力最好,BPNN-G模型精度最低;从测试集预测精度来看,MEA-BPNN-F模型的预测误差最小,能力最优,而OK模型的预测误差最大,能力最弱,与图3中线性回归方程结论一致。BPNN-G模型由于输入节点太少,影响其非线性函数的逼近效果,与OK模型相比,其建模效果并不理想;而BPNN-F模型通过四方位搜索法把邻近4个采样点的SOM值引入网络,同时加入高程和坡度,其建模效果明显优于OK模型;而通过思维进化算法对BPNN-F模型的初始权值和阈值进行优化,得到MEA-BPNN-F模型,不仅能够提高非线性函数的逼近效果,而且在一定程度上提高了神经网络的泛化能力,使其预测结果更加符合SOM的地学分布规律以及实际情况。 表3 SOM预测方法精度对比 2.5 空间分布模拟结果 基于回归克里金相同的假设,将3种神经网络模型预测结果在MATLAB中以相同像元大小输出并保存在文本中,在ArcGIS 10.2中显示;同时对神经网络残差项进行OK插值,把两者的栅格进行叠加,得到神经网络空间分布模拟图。从图4可以看出,4种方法在模拟SOM空间分布中均呈西部高而东部低的趋势,主要高值区域分布在西北和西南。 4种模型预测结果差异显著。OK模型高低值分布明显,高值区域集中,西部明显大于东部;BPNN-G模型的高值斑块明显多于OK模型,且西部高低值交替较平滑,能在一定程度上体现SOM空间位置变化的细节信息;BPNN-F模型的值域范围更加接近采样点统计分析结果,且在西部偏南一点处出现了明显的低值区,该区域高程要高于旁边部位(图1-b),这是因为高程较高处受暴雨冲刷相对严重,导致土壤养分流失严重,这比较符合SOM地学运动规律与实际情况,揭示了SOM随地形变化的细节信息。MEA-BPNN-F模型较BPNN-F模型高低值斑块更加丰富且在东部区域出现了比较多的高值斑块(图4-c和图4-d)),这体现了SOM空间变异规律,说明经过思维进化算法优化的BP神经网络由于通过多次的趋同和异化操作在一定程度上克服了由于初始权值和阈值的设置无法得到全局最优解的问题,改善了BPNN-F模型的拟合精度和收敛速度,使SOM分布更加符合实际情况。 图4 不同方法下土壤有机质空间分布预测结果 在BP神经网络的应用中,网络初始权值和参数的设置在很大程度上决定了网络的预测精度的高低,同时最速下降法、拟牛顿法等会导致网络收敛速度慢、局部极值等缺点,虽然利用遗传算法对神经网络的结构和参数进行优化对提高预测精度有明显的效果,但由于其变异和交叉算子具有双重性,有可能破坏原有的基因。因此本研究选取既可以保留遗传算法(Genetic Algorithm,GA)和进化策略(Evolutionary Strategies,ES)的优点,又可以克服两者缺点的思维进化算法对BP神经网络的初始权值和阈值进行优化。同时一些学者研究发现增加邻近信息能更好地反映SOM的空间分布状况[20]。基于IDW算法和空间自相关理论,本文提出了用四方位搜索法来增加4个邻近信息;为了使预测效果更加符合地学规律和实际情况,在神经网络输入层中加入高程和坡度信息。得到了一种混合模型(MEA-BPNN-F),该模型与未优化的BPNN-F模型相比在建模集预测中RMSE、MAE、MRE分别降低了4.37%、3.64%、4.72%,在测试集预测中分别降低了2.58%、3.07%、3.39%,较OK模型在建模集预测中分别降低了21.28%、18.98%、19.90%,测试集预测分别降低了28.32%、26.74%、30.01%,MEA-BPNN-F模型取得了较好的结果。因此,该模型在土壤养分空间分布预测中具有很大的应用价值。 目前对BP神经网络的优化主要有初始权值和阈值的优化、网络结构的优化以及学习规则的优化。本文只是对BP神经网络的初始权值和阈值进行了优化,同时利用四方位搜索法以及DEM算法增加了网络的输入节点数,在网络学习规则方面仍有不足之处,后续研究应注意对网络学习规则的改进。思维进化算法作为一种比较新的算法,在与神经网络结合方面的资料还不是很完善,种群规模、优胜子群体和临时子群体的个数、隐含神经元个数以及迭代次数等都需要进行不断试验才能确定。因此,对思维进化算法乃至传统进化算法而言如何快速准确地设置参数需要做进一步研究。同时,引入更多的变量(如地形因子、环境因子、土壤结构性因子甚至时间因子等)作为网络的输入来预测SOM的空间分布,还可以进一步提高精度。 本文以江西省万年县为例,基于测土配方施肥的数据,以高程和坡度作为辅助变量,利用思维进化算法对BP神经网络的初始权值和阈值进行优化和用四方位搜索法增加邻近样点信息,得到了一种MEA-BPNN-F混合模型来预测SOM的空间分布。MEA-BPNN-F模型搜索效率高、收敛性能好、网络泛化能力强。对测试集样点的预测误差分析表明MEA-BPNN-F模型的预测能力要明显高于OK模型、BPNN-G模型和BPNN-F模型,该模型可为土壤养分的空间插值模型选取和精度优化以及精准农业提供提供理论依据和技术指导。 [1] 李启权,岳天祥,范泽孟,等.中国表层土壤有机质空间分布模拟分析方法研究[J].自然资源学报,2010(8):1385-1399. [2] 马泉来,高凤杰,张志民,等.我国东北黑土丘陵区小流域土壤有机质空间分布模拟[J].环境科学研究,2016,29(3):382-390. [3] 李启权,王昌全,岳天祥,等.基于定性和定量辅助变量的土壤有机质空间分布预测:以四川三台县为例[J].地理科学进展,2014(2):259-269. [4] 史舟,李艳.地统计学在土壤学中的应用[M].北京:中国农业出版社,2006. [5] 沈掌泉,施洁斌,王珂,等.应用集成BP神经网络进行田间土壤空间变异研究[J].农业工程学报,2004(3):35-39. [6] 董敏,王昌全,李冰,等.基于GARBF神经网络的土壤有效锌空间插值方法研究[J].土壤学报,2010(1):42-50. [7] 李启权,王昌全,岳天祥,等.基于神经网络模型的中国表层土壤有机质空间分布模拟方法[J].地球科学进展,2012(2):175-184. [8] 沈润平,丁国香,魏国栓,等.基于人工神经网络的土壤有机质含量高光谱反演[J].土壤学报,2009(3):391-397. [9] 李启权,王昌全,岳天祥,等.基于RBF神经网络的土壤有机质空间变异研究方法[J].农业工程学报,2010(1):87-93. [10] 何小娟,曾建潮,徐玉斌.基于思维进化算法的神经网络权值与结构优化[J].计算机工程与科学,2004(5):38-42. [11] 陈明.MATLAB神经网络原理与实例精解[M].北京:清华大学出版社,2013. [12] 徐剑波,宋立生,夏振,等.基于GARBF神经网络的耕地土壤有效磷空间变异分析[J].农业工程学报,2012,28(16):158-165. [13] 黄建国,罗航,王厚军,等.运用GA-BP神经网络研究时间序列的预测[J].电子科技大学学报,2009(5):687-692. [14] 孙承意,谢克明,程明琦.基于思维进化机器学习的框架及新进展[J].太原理工大学学报,1999(5):3-7. [15] Sun C Y, Sun Y, Wei L J. Mind-evolution-based machine learning: frame work and the implementation of optimization [M]. Vienna: Proc of IEEE Int Conf on Intelligent Engineering Systems(INES’98), 1998. [16] 张甘霖,龚子同.土壤调查实验室分析方法[M].北京:科学出版社,2012. [17] 王玉璟.空间插值算法的研究及其在空气质量监测中的应用[D].郑州:河南大学,2010. [18] 朱会义,刘述林,贾绍凤.自然地理要素空间插值的几个问题[J].地理研究,2004(4):425-432. [19] 李启权,王昌全,张文江,等.基于神经网络模型和地统计学方法的土壤养分空间分布预测[J].应用生态学报,2013(2):459-466. [20] 李启权,王昌全,岳天祥,等.不同输入方式下RBF神经网络对土壤性质空间插值的误差分析[J].土壤学报,2008(2):360-365. (责任编辑:许晶晶) Prediction of Spatial Distribution of Soil Organic Matter Based on MEA-BPNN-F Model ZHANG Jun1, JIANG Ye-feng2, SUN Kai2, GUO Xi2*, YE Ying-cong2,3 (1. Surveying and Mapping Brigade, Coal Geological Bureau of Jiangxi Province, Nanchang 330001, China; 2. Jiangxi Provincial Key Laboratory of Agricultural Resources and Ecology in Poyang Lake Watershed/College of Land Resources and Environment, Jiangxi Agricultural University, Nanchang 330045, China; 3. College of Forestry, Jiangxi Agricultural University, Nanchang 330045, China) According to the data of soil testing and formulated fertilization, and the information of land elevation and gradient in Wannian county, Jiangxi province, we constructed Mind Evolutionary Algorithm-Back Propagation Neural Network-Four-direction Search (MEA-BPNN-F) model, and used this model to predict the spatial distribution of soil organic matter of cultivated land in this county. The predictive results of MEA-BPNN-F model were compared with those of Ordinary Kriging method (OK model), BPNN model using geographical coordinates as input (BPNN-G model), and BPNN model using elevation and gradient as auxiliary variables and using four-direction search method to add adjacency information (BPNN-F model). The result showed that the predictive accuracy of four models had the following order: MEA-BPNN-F>BPNN-F>BPNN-G>OK. The application of MEA-BPNN-F model had the best predictive effect, and the predictive results of this model more accorded with the geographical motion law and actual situation of soil organic matter. MEA-BPNN-F model overcame the shortcomings (such as poor global searching ability, and slow convergence speed) of BPNN, and improved the generalization ability of BPNN. Soil organic matter; Mind evolutionary algorithm; Four-direction search method; BP neural network; Spatial distribution prediction 2017-02-22 国家自然科学基金项目(41361049);江西省自然科学基金项目(20122BAB204012);江西省赣鄱英才“555”领军人才项 目(201295)。 张军(1984—),男,江西永丰人,硕士研究生,主要从事土地信息技术及土地资源利用研究。*通讯作者:郭熙。 TP183 A 1001-8581(2017)07-0079-072 结果与分析
3 讨论
4 结论