尤泰媛,程文仕
(甘肃农业大学管理学院,兰州 730070)
粮食安全是人类社会发展的命脉,解决好粮食问题是人类生存和发展的基础,也是稳定社会秩序、保障城乡经济社会高质量发展的重要物质条件。受各种不利因素的影响,世界粮食发展与安全格局发生了新变化,稳定发展粮食生产,继续解决好吃饭问题,成为治国理政的头等大事[1]。根据《中国统计年鉴》,1953—2018年,中国的粮食总产量从1.67 亿t 提高到6.58 亿t,提高了294.32%。相反,全国的粮食播种面积却从1.27亿hm2减少到1.17 亿hm2,减少了7.58%,粮食产量增长主要是依靠单位面积产量的提升而实现。因此,对粮食单产的动态进行研究及预测,有效地厘清粮食单产与影响要素之间的关系,针对性地采取管控措施,对提高粮食产能,切实保护耕地具有重要意义。
近年来,国内外学者针对粮食产量的预测研究较多,粮食产量的预测方法主要有:驱动因素控制的线性时变参数DLDGM(1,N)[2]、SVR 支持向量机等模型[3]、灰色预测模型[4]、改进BP 神经网络模型[5]、GM(1,1)灰色预测方法[6]、LASSO 与GM(1,N)模型[7]、马尔科夫模型[8-9],等。这些方法各具优点,大都具有计算量大的特点。近年来,大量的机器学习算法在预测模型中凸显其优越性。其中,随机森林(RF)模型是目前预测效果较好的回归模型之一,在分类回归等问题分析上有着独特的优势:两个随机性的引入,不会使其陷入过拟合,无需对变量之间进行假设性检验;对多元线性不敏感,对缺失数据和非平衡的数据有比较稳健的结果[10];与BPNN 相比,RF 模型无需多次调整参数,参数设置简单,可直接反映指标特征的重要性[11]。本文以甘肃省14 个市州为研究区域,选取13 个指标构建粮食单产预测指标体系,以2001—2019 年的相关数据为基础,采用RF 预测模型进行粮食单产预测,用线性回归模型和神经网络模型预测结果比较分析,试图研究RF模型在耕地保有量预测中的实用性,并以此分析确定粮食单产的影响因素,以期为耕地保护提供参考。
甘肃省位于我国西北内陆地区,东接陕西,南邻四川,西连青海、新疆,北靠内蒙、宁夏并与蒙古国接壤。辖区分属黄河、长江和河西内陆河三大流域。是古丝绸之路的咽喉、亚欧大陆桥沿线上的一个重要省份,随着国家经济建设重点的西移、国家粮食生产的北移,甘肃省将发挥联络东南沿海、开发西北内陆的桥梁和纽带作用,在国家粮食安全、“一带一路”建设和高质量发展中有着重要的地位。下辖兰州、天水、白银、金昌、嘉峪关、武威、庆阳、平凉、张掖、酒泉、定西、陇南12 个地级市以及临夏回族自治州、甘南藏族自治州2 个自治州。大致可分为陇南山地、陇中黄土高原、甘南高原、祁连山地、河西走廊、北山山地等6类地形区。全省土地总面积4 258.89 万hm2。其中,耕地面积537.67 万hm2,占总面积的12.63%。2001—2019 年甘肃省粮食总产量呈波浪式上升(年均增加23.05 万t),粮食播种面积呈波动式递减(年均减少0.805 万hm2),单产整体呈上升趋势(年均提高94.90 kg/hm2),2019 年,全省第一产业增加值921.3 亿RMB,增长5.0%。
本研究以甘肃省2001—2019 年14 个市(州)的粮食单产为研究对象,研究所使用的农业机械总动力、化肥施用量、农业总产值等数据来源于2001—2019 年《甘肃统计年鉴》;灌溉面积、耕地面积、农作物播种面积等数据来源于2001—2019 年《甘肃农村年鉴》;农民人均纯收入数据来源于2001—2019 年《甘肃调查年鉴》;人口等相关指标来源于2001—2019 年《甘肃发展年鉴》。
根据评价指标体系的科学性、目的性、有效性原则,参照国内学者对粮食产量预测的研究成果[12],结合甘肃实际,综合“投入- 产出”角度和“压力- 状态-响应- 可持续”模型建立粮食单产预测指标体系,从投入强度、利用程度等4 个方面,选取13 个指标建立评价指标体系(表1)。
表1 甘肃省2001—2019 年粮食单产影响指标
RF 是指以决策树为基础,以随机方式建立的一片森林。森林中每棵树之间没有关联关系。每当输入一个新样本时,森林中的每一棵决策树分别进行判断,观测这个样本所属类别。在观察哪一类样本被选择次数最多之后,就预测这个样本为哪一类[13]。RF 由多棵分类回归树(Classification And Regression Tree, CART)和装袋算法(Bagging 算法)构成。每棵树的使用训练集都是从总的训练集中,有放回采样得出[14]。即总训练集中部分样本可能多次出现在一棵树的训练集中,也有可能从未出现。在训练每棵树的节点时,使用的特征是从所有特征中按照一定比例随机无放回抽取。
RF 模型预测过程如下:
(1)采用自助样法有放回的抽取训练样本集,形成对应的回归决策树,没有被抽中的样本作为测试集来检验模型的正确性。
(2)在抽样得到的回归决策树上再生成的每一个结点:先随机不重复地选择D 个特征(D 控制单棵回归树的状况);利用这D 个特征分别对样本集进行划分,找出最优的特征划分。
(3)重复步骤1 到步骤2 共T 次,T 即为RF 中决策树的个数,一般T 值越大,准确性越高。
(4)用训练得到的RF 对测试样本进行预测,并用票选法决定预测的结果[15]。
2.3.1 建立原始数据集。以地均农业机械投入水平、地均科技投入等13 个指标作为输入变量,粮食单产为输出变量,选取各变量所对应的266 组样本数据作为原始数据集(图1)。
图1 样本数据图
2.3.2 RF 模型参数设置。从2001—2019 年原始数据集中选取2001—2016 年的224 组数据构建RF 模型的训练样本(测试集),用来确定RF 的参数选择、构建RF 型并进行重要性评分;2017—2019 年的42 组数据为测试样本(样本集),用来预测模型的准确性。
RF 模型对样本数据的量纲和单位不敏感,所以无需进行数据归一化处理[16]。经过RF 模型遍历得到mtry(D)为4 时,效果最佳,采用袋外数据误差率估计的方法最终确定ntree(T)为500。即确定节点分裂的次数为4、回归树的棵数为500。
2.3.3 模型验证。本文选取线性回归和神经网络预测结果对其作对比,进一步验证RF 模型的应用效果和可靠性。
3.1.1 随机森林预测结果。根据划分的测试集和样本集,基于地均农业机械投入水平、地均科技投入等13个特征,利用Python 软件,建立RF 粮食单产预测模型(Mtry=4,Ntree=500),其预测结果如图2。
3.1.2 神经网络、线性回归模型预测结果检验分析。建立神经网络和线性回归模型对粮食单产进行预测,结果分别如图3 和图4。
由图2、图3 和图4 对比可以看出,从2017、2018、2019 年的粮食单产预测结果看,神经网络预测结果波动幅度最大,线性回归变化幅度次之,RF 模型波动较小,变化幅度较为稳定,最接近真实值,说明RF 模型的预测结果稳定性优于其他两种模型。
图2 RF 模型粮食单产预测拟合效果图
图3 BPNN 模型粮食单产预测拟合效果图
图4 线性回归模型粮食单产预测拟合效果图
选用可决系数R2、平均绝对误差MAE 和均方误差MSE 来揭示三种模型的预测效果,R2的取值范围为(0,1),R2越接近1,说明模型拟合效果越好,MAE 和MSE 值越接近0,表示效果越好。不同模型测度结果误差分析可以看出,RF 模型的均方误差为0.041、绝对误差为0.202,均低于其他两种模型(均方差分别为0.426、0.124,绝对误差分别为0.653、0.352),且可决系数0.986,高于其他两种模型(分别为0.888、0.962),说明RF 模型预测结果和真实值之间较为相近,误差最小,预测结果更优。本文采用RF 模型进行预测分析。
基于RF 模型构建粮食单产的预测模型,对14 个市州预测年(2020、2025、2030、2035 年)的粮食单产进行预测,得出预测年粮食单产预测结果(表2)。
从2001—2019 年的实际粮食单产变化及其粮食单产预测结果(表2)可以看出:
表2 甘肃省未来粮食单产水平预测结果
(1)甘肃省各市州的粮食单产发展趋势呈现出平稳增长的良性态势,整体涨幅逐渐降低,这与近年来不断加大农业投入和农业扶持力度息息相关。
(2)从远景展望(2050 年)来看,甘肃省及其各市州粮食单产增长幅度将不会有明显提升,符合农业生产实际情况,在保证耕地面积不减少的前提下,需要针对影响粮食生产能力的因素,加大农业投入和农田基本建设,才能更进一步地提升粮食生产能力(单产)。
(3)河西走廊5 市(酒泉市、嘉峪关市、金昌市、张掖市、武威市)的粮食单产水平较高,符合河西走廊粮食主产区的定位,这与河西走廊优越的光温水等农业生产要素禀赋、灌溉条件、农业投入等情况完全吻合,未来需进一步加大农业投入力度,确保粮食生产能力的稳步提高。
(4)将2035 年预测值与2019 年实际值比较,嘉峪关市和武威市的粮食单产提高幅度最大(分别提高30.77% 和22.82%),临夏州、甘南州、兰州市的粮食单产提高幅度最小(分别提高5.71%、6.77%和6.88%),符合各市州粮食生产变化态势及其粮食单产时空差异特征。
(5)从2001—2019 年粮食单产变化看,提升幅度最大的有兰州市、临夏州、定西市、平凉市、庆阳市、天水市,这与近年来实施的土地整治项目(尤其是灌溉条件的改善)、农业投入水平提升相吻合;粮食单产提升幅度较小的有嘉峪关、金昌市、酒泉市、张掖市,这与河西走廊除灌溉以外的其他农业生产条件优越,粮食生产能力提升空间有限相吻合;粮食单产提升幅度最小的是甘南州,主要是因为甘南州以畜牧业为主。
在RF 模型中特征重要性往往看的是各个特征在RF 的每棵树上做了多大的贡献,然后取平均值,得到特征之间的贡献大小。本文采用袋外数据(OOB)误差率作为评价指标来衡量,求取特征重要性。经过模型构建,得到训练模型中各变量的重要性(图5)。
图5 特征重要性图
分析甘肃省14 个市州粮食产量的因素特征重要性(图5)可以看出,各个指标对14 个市州的粮食单产都有明显的影响,各因素的影响程度基本相同,其重要性排序由高到低依次为:地均化肥投入〉 灌溉指数〉农民人均农业产值〉地均农业机械投入水平〉单位面积农业产值〉 粮食安全系数〉 垦殖指数〉 地均劳动力投入〉 受灾面积〉 非农指数〉 万元产能值耗〉人均耕地面积〉 地均科技投入,重要性程度介于0.18~0.015 之间。其中,地均化肥投入对粮食单产的提升贡献最大,占0.18,也就是化肥投入量的增加对甘肃省近年来粮食单产不断上升有重要影响;灌溉指数次之,占0.16。水资源短缺对甘肃粮食产量有极大的制约,随着现代科技的不断发展,现代农业技术(包括灌溉技术)的不断革新,对粮食单产的提升有重要的促进作用。
4.1.1 今后相当长的时期内中国粮食供需将处于紧平衡状态[17],在耕地面积基本保持不变或略有下降、国家粮食生产北移的大趋势的背景下,要将“饭碗牢牢端在自己手中”,就必须不断提高自身的粮食生产能力,尤其是地广人稀的西北省份。然而,近年来甘肃省的耕地面积维持较为稳定的状态,粮食产量提升的关键在于提高粮食单产,提高粮食单产任重道远。
4.1.2 提高粮食单产的关键在于抓住影响粮食单产的影响因素,强化农田基础设施建设,加大农业投入和农村产业扶持力度,大力推进全域土地综合整治、高标准农田建设、节水灌溉设施等地力提升工程的建设,不断增加有效灌溉面积、提高粮食产能,推动农业现代化的加快发展,并通过严格管控永久基本农田、禁止耕地“非粮化”、培育职业农民、强化农业科技投入等策略,切实提高粮食单产。
4.1.3 RF 模型仅设置回归树的棵数ntree 和节点分裂的次数mtry 这两个重要参数,较少的预处理,训练过程简单,预测结果较稳定,精度高,说明RF 模型在处理复杂、动态、不确定的数据上具有绝对优势。
4.1.4 粮食单产是一个复杂非线性的动态系统,精准预测粮食单产比较困难,本研究采用了随机森林RF模型预测粮食单产,结果符合实际,是一种较好的预测方法。但研究中选取的指标以社会经济指标为主,没有考虑农业生产条件、气候、土壤条件、人口等自然因素的变化对粮食单产造成的影响,需要在今后的研究中进一步考虑自然条件变化对粮食单产的影响,深入开展研究。
4.2.1 RF 回归预测模型应用于粮食单产预测,对甘肃省及其14 个市州粮食单产进行预测,其结果更为符合甘肃省及其各市州粮食生产变化态势及其粮食单产时空差异特征,是粮食单产预测的较好方法。
4.2.2 13 个指标对粮食单产都有明显的影响,其影响程度及排序基本相同,其重要性由高到低依次为:地均化肥投入〉 灌溉指数〉 农民人均农业产值〉 地均农业机械投入水平〉 单位面积农业产值〉 粮食安全系数〉 垦殖指数〉 地均劳动力投入〉 受灾面积〉 非农指数〉 万元产能值耗〉 人均耕地面积〉 地均科技投入,重要性程度介于0.18~0.015 之间。这为更好地保护耕地、提高粮食生产能力指明了方向。