王全喜, 孙鹏举, 刘学录, 李尚泽, 高建存
(1.甘肃农业大学 管理学院, 甘肃 兰州 730070; 2.甘肃农业大学 资源与环境学院, 甘肃 兰州 730070;3.甘肃省国土资源规划研究院,甘肃 兰州 730000; 4.中国地质大学(武汉) 公共管理学院, 湖北 武汉 430074)
随着城镇化进程的持续推进,建设不断占用耕地。同时,生态保护工程的实施也造成了耕地面积的减少。当前,区域社会经济发展与耕地保护矛盾日益突出,耕地保护越显重视。2017年国务院出台《关于加强耕地保护和改进占补平衡的意见》中强调了耕地数量、质量、生态“三位一体”保护。耕地数量的变化反映了一个区域社会经济发展的基本态势[1],其不断减少会影响区域粮食安全[2]。了解耕地利用历史变化规律,探析区域的耕地面积变化及影响因素的研究愈发重要。
当前关于耕地面积变化及影响因素研究已经取得丰硕成果。项灵志等[3]针对耕地面积变化与各产业关系进行了研究。然而,耕地面积变化与影响因素之间关系复杂,影响因素多元,耕地面积预测精确度有待提高。现阶段针对耕地面积变化研究包括两个方面:一方面考虑社会经济驱动因素,主要采用STIRPAT模型[4]、灰色关联分析法[5]、主成分分析法[6-7]、地理加权回归模型[8]、PLS方法[9]等方法研究影响因素。另一方面是对耕地面积进行预测,探讨合适的耕地面积预测模型,提高预测精度。包括灰色预测模型[10]、空间自回归模型[11]、移动趋势平均法[12]等传统方法,BP神经网络[13]、支持向量回归机[14]等算法,使得预测精度有了较大提高。上述研究成果表明:经济发展水平、人口因素和农业发展水平等是影响耕地面积变化的主要因素。但是,当前研究往往将耕地面积变化影响因素分析以及耕地面积预测单独进行研究,对两者的研究采用两种或多种方法来进行,而且对导致耕地面积变化的影响因素重要程度研究较少。
随机森林(random forest,RF)算法能够很好的处理非线性建模问题[15],对数据量纲不敏感,无需归一化处理,通过对大量分类树的汇总来提高预测精度,而且能够测度各影响因素的重要性[16]。当前,随机森林算法已应用于需水量和山体滑坡空间预测[17-18],农耕区[19]、工矿复垦区[20]等特殊区域进行土地利用分类,研究证实了RF算法是预测和分类的有效方法。田义超等[21]研究了近300 a来黄土高原耕地变化及时空格局,表明黄土高原耕地面积呈现出从增加到减少,然后又到增加的趋势。因此,本研究以属于黄土高原地区的庆阳市为例,尝试采用随机森林算法对庆阳市耕地面积进行预测,并探析庆阳市社会经济发展对耕地面积变化的影响,以期为更精确地预测耕地面积,分析耕地面积变化的影响因素提供新方法,对合理确定耕地保护红线以及更好地保护耕地具有重要意义。
庆阳市(106°20′—108°45′E,35°15′—37°10′N),位于甘肃省东部的陇东黄土高原区,地处陕甘宁3省区的交汇处,属黄河中上游黄土高原沟壑区。地势为北高南低,海拔高度为885~2 082 m。境内山、川、塬兼有,沟、峁、梁相间,是黄土高原的典型代表区,年均降雨480~660mm,是甘肃优质农畜产品生产基地。庆阳市现辖1区7县,2015年总人口为2.65×104,土地总面积为2.71×106hm2。如图1所示,根据整理的1995—2015年庆阳市耕地面积可以看出:1995—2015年庆阳市耕地面积变化总体呈现先减少后波动上升的态势。
图1 1995-2015年庆阳市耕地面积变化
本研究以1995—2015年为研究期,所涉及的数据中,2000—2015年数据来源于《庆阳年鉴》(2001—2016),1995—1999年数据来源于《甘肃发展年鉴》(1996—2000),部分数据通过计算得到。
综合借鉴国内相关研究成果[4-8],耕地面积变化受到自然因素、社会、经济、农业发展和政策的影响,它们之间相互影响、相互制约而综合作用于土地利用方式,然而一定时期内可以认为自然因素变化较稳定。本研究主要考虑社会经济因素的影响,影响因素选取遵循代表性、可行性等原则,初步采用文献分析法来分析影响因素。人口因素是导致土地利用变化最重要的因素[1],而经济因素决定土地的开发利用方向和开发程度,提高农业技术的投入提高耕地的产出和利用效益可以缓解耕地面积的减少带来的压力。综合考虑庆阳市耕地利用的实际情况与数据资料的可获取性,选取了人口因素、经济因素、农业因素3个方面的10个具体影响因素。包括人口因素:总人口(x1),农业人口(x2),城市化水平(x3);经济因素:GDP(x4),固定资产投资额(x5),农民人均纯收入(x6),第一产业产值比重(x7),第二、三产业产值比重(x8);农业因素:粮食总产量(x9),农业机械总动力(x10)。
随机森林算法是Breiman于2001年提出的一种非线性建模工具[15],包括分类(random forest classification,RFC)和回归(random forest regression,RFR)两种算法。通过bootstrap抽样方法,从原始训练样本集N中有放回地重复随机抽取K个样本生成新的训练样本集合,然后根据自助样本集生成K个决策树组成随机森林。对于回归功能而言,将所有决策树的平均值作为最终预测结果。通过预测精度法(衡量把一个变量的取值变为随机数,随机森林预测准确性的降低程度)计算每个变量的重要性。随机森林回归算法计算步骤包括[22-23]:
(1) 利用bootstrap方法从原始数据集N中随机抽取K个不同的样本数据集,作为各决策树的子训练集,各样本容量和原始数据集相同;
(2) 利用每个样本训练集,生成对应的K颗决策树;假设特征有M维,从M维特征中随机抽取m(m为大于零且小于M的整数)个特征作为当前节点的分裂特征集,并以这m个特征中最好的分裂方式对该节点进行分裂,每颗树都完整生长而不进行剪枝;
(3) 对于测试数据,利用每个决策树分别进行测试,得到对应的单颗决策树的预测值;
(4) 将得到的K棵决策树预测结果取平均值,最后得到最终预测值。
本研究通过构建基于BP神经网络模型的耕地面积预测模型作为对比模型,同时计算相对误差、均方根误差指标评价模型预测精度。
随机森林算法运算过程中涉及ntree和mtry两个参数的设定,即决策树颗数和节点分裂的次数。一般而言,模型的计算量与每次生成的树的数量成正比,在ntree增加时,在模型预测精度不能提高的情况下,ntree设定应尽可能小,默认为500。mtry设定为变量个数的1/3。本研究利用随机森林算法构建耕地面积预测模型,由于随机森林算法对样本数据的量纲和单位不敏感,所以运算时无需对样本数据进行归一化处理。图2可知,当决策树目为500,mtry为3时,均方误差基本趋于稳定状态。
为了验证模型的预测精度,同时采用BP神经网络模型进行预测。采用梯度下降法进行训练,即traingd函数,对模型进行设定:循环1 000次显示一次结果,学习率设为0.5,最大循环次数为50 000次,收敛误差设为0.002,模型的输入设为10,输出设为1。经多次测试,将神经网络结构设计为10—12—1。运算过程均以Matlab R2016b软件来编程实现,以庆阳市1995—2015年耕地面积为研究对象,将1995—2010年作为训练数据,2011—2015年作为检验数据。
图2 庆阳市耕地面积预测模型预测精度均方误差变化
运用上述构建的耕地面积预测模型,对2011—2015年庆阳市耕地面积进行预测。此外,在预测2020,2025,2030年的耕地面积时,首先采用3次指数平滑法预测出各个影响因素相应年份的预测值,然后将预测值分别输入两种耕地面积预测模型中,得到预测年份的耕地面积,具体结果见表1。同时,为验证两种预测模型的精度,通过计算2011—2015年耕地面积实际数据和预测结果间的相对误差、均方根误差进行预测精度评价,最终得到预测精度对比结果(见表2)。
表1 庆阳市耕地面积的两种模型预测值结果104 hm2
表2 庆阳市耕地面积的两种模型预测结果精度对比
表1结果可知,随机森林算法预测出未来15 a间庆阳市耕地面积不断减少并且趋于稳定,更加符合实际情况;BP神经网络模型预测的2011—2015年耕地面积数量较实际值低,未来15 a间耕地面积整体结果也偏低。
表2结果可知,随机森林算法预测结果相对误差和均方根误差均低于BP神经网络模型相应值。随机森林算法预测结果中,表现出2015年的相对误差为0.459%,高于其他年份相应值,精度相对低,而均方根误差为0.121,满足预测要求;BP神经网络模型预测结果中,表现出2014年的相对误差高达2.112%,均方根误差为0.500,说明预测结果较随机森林算法预测结果差。在预测结果稳定性方面,2011—2015年随机森林算法预测结果波动不大,而BP神经网络预测结果变动幅度较大,说明随机森林算法预测结果的稳定性优于BP神经网络模型。针对BP神经网络而言,其结构设计和参数确定困难[23],即隐含层个数和训练函数难确定,隐含层个数只能通过对程序不断运行测试来确定,预测结果不稳定,精度有待进一步提高。随机森林算法设置参数较少,仅有决策树颗数和每次树模型重建时节点分裂的次数2个参数,而且在确定参数时,为不失一般性,通过随机化处理方式设置参数,预测精度高,稳定性好,更加适用于耕地面积预测。
运用随机森林算法进行耕地面积变化影响因素的重要性分析,本研究选用随机森林算法中的预测精度法比较变量重要程度,其主要通过扰动这些变量对精确度的影响大小而进行判断,比较平均准确率降低程度反映各变量的重要性。图3结果可知,预测精度法对影响因素重要程度由高到低排序为:农业机械总动力(x10)>农业人口(x2)>GDP(x4)>固定资产投资额(x5)>粮食总产量(x9)>农民人均纯收入(x6)>第一产业产值比重(x7)>第二、三产业产值比重(x8)>城市化水平(x9)>总人口(x10)。
图3 庆阳市耕地面积变化影响因素重要性
3.3.1 人口因素对耕地面积变化的影响重要性 通过预测精度法计算出耕地面积变化影响因素重要性得分,农业人口得分均高于总人口和城市化水平这2个影响因素得分值。将1995—2015年总体上可以分为2个阶段:1995—2005年庆阳市农业人口持续增加,从2.11×106人增加至2.26×106人,增加了1.56×105人。同期,耕地面积总体波动下降趋势,从4.45×105hm2减少到4.43×105hm2,减少了0.26 hm2,农业人口的增加必然需要占用更多的耕地用于农村居民点等建设。2005—2015年庆阳市农业人口总体上不断减少,2015年农业人口为1.91×106人,减少了3.54×105人。同期,耕地面积总体波动上升,从4.43×105hm2增加到4.55×105hm2,增加了1.18×104hm2,农业人口的减少,空闲出部分非农用地,尤其是农户对窑洞退出,通过实施土地整治项目,复垦窑洞等有效地增加了耕地面积。
3.3.2 经济因素对耕地面积变化的影响重要性 在影响耕地面积变化的经济因素中,地区生产总值(GDP)和固定资产投资额的重要性得分最高。1995—2000年,庆阳市GDP缓慢增长,由3.78×109元增加到了5.99×109元,增加了2.21×109元,同期固定资产投资也缓慢增长,增加了1.34×109元,但该时期耕地面积总体下降;2000—2015年,庆阳市GDP和固定资产投资额逐渐呈现快速增长现象,GDP增加到2015年的6.90×1010元,增加了10.18倍,固定资产投资额增加到2015年的1.22×1011元,增加了1.96×1011元。这一时期耕地面积总体波动上升。主要是由于:一方面,农业经济的发展势头逐渐变好,农民的生活水平的需求提高,对耕地的开垦与利用会变得更加重视;另一方面,经济发展使得农民看到经济收益,通过农业用地结构的调整来达到目的,导致土地利用结构变化[8],使得耕地面积不断变化。
3.3.3 农业因素对耕地面积变化的影响重要性 在影响耕地面积变化的农业因素中,通过预测精度法对影响因素进行重要性排序显示,农业机械总动力得分排第一,而且粮食总量与耕地面积的变化也有着密切关系。1995—2015年庆阳市农业机械总动力总体不断增长,其中1995—1997和2003—2006年增长速度较缓慢。总体上从1995年的4.50×105kW增加至2015年的1.95×106kW,增加了1.50×106kW,年均增加7.10×104kW。主要是由于庆阳市土地整治工程的实施,使道路通达程度逐年提高,农业机械总动力投入不断增加,使农民受益较多,激发了农民对耕种的积极性,农民对耕地开发和保护的意愿更强,影响耕地面积变化。
耕地面积变化影响因素多元,存在非线性关系,传统统计方法分析耕地面积变化影响因素较难。而传统智能算法虽具有较强的处理非线性问题的能力,比如BP神经网络模型,但其对训练数据样本依赖性大,稳定性不足。随机森林算法一种比较新的非线性建模工具,具有精度高、稳定性好、收敛快、参数少等特性,且不易产生过拟合现象[17]。随机森林算法对数据集前提条件的要求宽松,且对量纲不敏感,无需预处理,在综合性能上具有一定优势,耕地面积变化的各影响因素数据作为复杂的时间序列数据,数据分布特征多样,存在量纲,这些方面相比对训练样本有依赖、需要预处理的智能算法,运用随机森林算法构建耕地面积预测模型更加可行。同时,随机森林算法还能够测定变量重要性,能够采用预测精度法计算出变量重要性得分,进而分析耕地面积变化的影响因素。
本研究运用随机森林算法建立了庆阳市耕地面积预测模型,同时对影响耕地面积变化的因素进行了重要性排序。采用随机森林算法对耕地面积预测结果表明,与曹银贵等[13]和车明亮等[24]通过建立BP神经网络耕地面积预测模型研究表明预测精度相比灰色预测模型的传统方法优,但其结构设计需要测试,隐含层个数不好设定,结果稳定性差相比,随机森林算法预测耕地面积更可行。从预测结果来看,在单纯不考虑耕地政策或其他方面影响情况下,未来15 a间庆阳市耕地面积逐渐减少,而且相比BP神经网络模型,随机森林算法较适合耕地面积预测。从影响因素重要程度来看,耕地面积变化受农业机械总动力、农业人口和GDP等因素的影响,这与卞德鹏等[25]对属于黄土丘陵沟壑区的吴起县的研究结果是相同的。针对单项因素而言,由于研究区域的差异,选取的指标不同,研究结果也就不同。庆阳市耕地面积变化的影响因素重要程度不尽相同,更应要重视农业科技的投入,激发农民对耕种的积极性,协调耕地资源与区域经济的关系。本研究仅从人口因素、经济因素和农业发展方面分析影响因素来构建了耕地面积预测模型,并未考虑耕地保护政策因素等的影响,还需要进一步做更细致的研究。今后的研究将结合遥感影像来研究区域耕地空间格局变化特征,将自然因素、相关政策因素等因素共同纳入随机森林算法中进行实证研究,以期全面考察耕地面积变化的重要驱动因素。
(1) 预测精度方面,随机森林算法的预测值与实际值之间的相对误差和均方根误差均低于BP神经网络模型的,其预测出2020,2025,2030年耕地面积分别为4.515×105,4.513×105,4.512×105hm2,呈现减少的趋势;预测结果稳定性方面,随机森林算法预测结果波动较小,优于BP神经网络模型。
(2) 运用预测精度法得到主要影响因素重要程度排序为:农业机械总动力>农业人口>地区生产总值>固定资产投资额。农业机械总动力投入不断增加,促进了农民对耕种的积极性,对耕地开发和保护的意愿更强;农业人口的增减,经济发展使得人们对美好生活水平的需要不断提高,使得耕地面积呈现波动变化态势。