基于多元回归分析的农作物产量估测模型研究

2022-04-15 03:13周小红
中国农学通报 2022年8期
关键词:灰度农作物公式

周小红

(北京农业职业学院基础部,北京 102442)

0 引言

农业种植一直是中国赖以生存的根本,粮食对中国长远发展至关重要,关系到国家安定。据统计中国粮食产量已经连续6年超6.5亿t,生产量超过消费量,粮食达成了供过于求目标,人民的温饱问题得以解决。然而,受到中国地理环境和自然气候的影响,中国粮食生产呈现严重的不均衡现象,因此为了解决上述问题,满足所有人需要,农作物产量估测成为国家粮食局每年都会进行的重要工作[1]。对范围内粮食作物的种植面积、产量等进行监测,获取调查年度内各样本点种植用地上分品种粮食作物的种植面积和单产情况,农作物产量估测不仅可以更好地实现粮食调度,平衡粮食市场价格,同时也能有效地调整农业结构,增加农民收入。

农作物产量估测是确保粮食安全的前提和基础,关于这方面的研究已经很多。如张卓[2]等基于氮肥施用条件冬小麦气体交换和高光谱田间试验,获取不同叶位叶片的最大净光合速率,PSⅡ有效光化学量子产量,光化学猝灭系数和高光谱反射率,并对原始高光谱进行倒数,对数和一阶微分变换。根据3种光合参数和4种光谱的相关性分析结果,筛选显著性水平优于0.01的波段作为输入变量,采用偏最小二乘,支持向量机,多元线性回归和人工神经网络等方法建立冬小麦叶片光合参量反演模型,以建模和验证的决定系数和均方根误差为依据,对不同模型的模拟精度进行比较分析。郭霞霞[3]等通过线性回归模型利用菜花三维模型特征属性得到菜花重量的方法。利用Kinect获得菜花三维模型,再通过获取的菜花三维模型的长、宽、高、最大横截面积和体积等属性建立重量预测模型。引用相对误差、决策系数作为模型预测精度的评价指标,对线性回归模型正则化得到的岭回归,LASSO模型进行比较分析。韩文霆[4]等利用自主研发的多旋翼无人机多光谱遥感平台,对夏玉米进行多时相的遥感监测。采用牛顿-梯形积分和最小二乘法,构建了基于多种植被指数和多种生育期对应的夏玉米实测产量的6种线性模型,并采用阈值滤波法减少土壤噪声对模型精度的影响。

本研究结合前人经验,在基于多元回归分析的基础上构建农作物产量估测模型。该模型分为3部分,首先利用灰度模型找出影响农作物产量的主要因素,然后以此作为输入,建立多元回归方程,最后进行实例分析,证明该模型的有效性。

1 基于多元回归分析的农作物产量估测模型构建

中国是人口大国,每年对粮食的需求量都很大,因此农作物种植成为中国生存和发展的根本。中国粮食种类多,种植面积广,但是分布并不均匀,总体呈现南多北少、东多西少的分布局势[5]。在此情况下,为保证粮食安全和稳定,粮食需要进行调度,以维持粮食不足地区的粮食供给。基于此,进行农作物产量估测是十分重要的。本研究结合多元回归分析模型,进行农作物产量估测模型构建。

1.1 基于灰度关联分析的农作物产量影响因素提取

受到主观、客观等众多不确定因素的影响,农作物产量并不是完全固定不变的,因此为了提高后期多元回归建模的准确性,通过灰度关联分析影响农作物产量的主导因素[6]。

灰度关联分析是通过度量指标之间的灰色关联度,以此来判断因素之间关系强弱、大小以及次序的一种方法[7]。该方法基本流程如下。

步骤1:根据研究主题(农作物产量预测)收集资料,确定指标因素。

步骤2:对指标因素进行清洗和约简,提高指标质量。

步骤3:将指标因素进行重新排列组合,组成具有n个数据序列的矩阵形式。矩阵形式见公式(1)。

式(1)中,m为指标的个数。

步骤4:基于上述公式(1)建立所要分析的数据序列,包括一个母序列(参考数列)和若干个子序列(比较数列)。其中,前者是一个理想化的标准数据序列,所有子序列都需要以其作为标准,进行对比[8]。母序列由于是理想序列,因此选取的组成因素需要具有明显的特征,一般选取因素最优值或最劣值组成,其形式见公式(2)。

后者若干个子数列是由实际选出的指标因素构成的数列,见公式(3)。

步骤5:指标因素无量纲化处理。不同的指标因素所携带的量纲单位不同,而不同量纲单位的指标因素是无法进行比较运算的,因此需要对指标因素进行无量纲化处理[9]。常用的无量纲化方法有初值化法和均值化法,初值化法见公式(4),均值化法见公式(5)。

无量纲化后的数据序列见公式(6)。

步骤6:将上述公式(3)若干个子数列与公式(2)母序列进行一一对比,然后计算二者之间差值,最后对差值进行绝对化,得到公式(7)。

式中,i=1,2,...,n,k=1,2,...,m,p为绝对差值;n为被评价对象的个数[10]。

步骤7:基于上述步骤,选出p的最大值和p的最小值,见公式(8)和公式(9)。

步骤8:根据p的最大值和p的最小值,计算子数列和目数列中每个对应指标因素的关联系数fi(k),见公式(10)。

式中,q为分辨系数,0<q<1,一般情况下,取中间值0.5。

步骤9:根据计算出来的每个对应指标因素的关联系数,计算数列整体之间的关联度,即计算所有对应指标因素关联系数的平均值e0i[11]。见公式(11)。

每个指标因素对农作物产量影响程度不同,可以通过赋予权重的方法来调节[12],见公式(12)。

式中,wk是各指标权重。

步骤10:关联度排序。根据上述步骤计算出来的关联度值进行大小排序,然后选取联度值前z个指标因素作为农作物产量影响的主导因素[13]。

1.2 农作物产量的多元线性回归估测模型

回归分析的作用是通过输入自变量来预测因变量[14]。回归分析有很多种,其中多元回归是最常用的一种。多元回归,顾名思义,存在多个自变量,即解释多个自变量与因变量质量的线性关系[15]。多元回归模型一般表达式见公式(13)。

多元线性样本回归方程见公式(14)。

式中,Y为因变量;X1,X2,...,Xk为自变量;β0,β1,β2,...,βk为回归系数;e为误差项[16]。

基于1.1中灰度关联分析,得到10个因素对农作物产量影响最大,其中X1、X2、X3为自然影响因素,X4~X10为人为影响因素,由此建立农作物产量的多元线性回归估测模型[17],见公式(15)。

式中,Y为农作物产量;X1代表温度;X2代表播种面积;X3代表受灾面积;X4代表降水量;X5代表农用塑料薄膜;X6代表农村用电量;X7代表农业机械总动力;X8代表农业劳动力;X9代表农药施用量;X10代表化肥施用量。β0,β1,β2,…βk,为待定的回归系数,可以选择普通最小二乘估计方法来确定[18]。

在确定下来回归系数后,就可以列出相应的回归方程,接着进入多元回归模型的检验环节[19-20]。通过检验来判定估计值是否可靠。回归模型的检验主要包括3个方面,3种检验对比如下表1所示。

表1 多元回归模型检验表

2 仿真实验分析

为测试所构建的基于多元回归分析的农作物产量估测模型的有效性,在MATLAB 2015b平台上进行仿真实验分析。

2.1 研究区概况

中国农作物种类众多,其中玉米在中国分布最广。玉米对环境的要求性不高,适应性很强,且种植成本低廉,因此在全国各地都有种植,但是分布并不均匀,主要集中在东北、华北和西南地区,如下图1所示。

图1 中国玉米产区分布图

在图1各个玉米种植区中,北方是玉米的主要产地之一,因此在本研究中选择其中3个省作为研究区,以这3省玉米历年产量数据为基础,对未来玉米产量进行估算。

2.2 历年农作物产量数据

从《中国统计年鉴》《东北统计年鉴》中调取2007—2016年东北3个省农作物产量信息,得到数据如下表2所示。

表2 2007—2016年东北3个省农作物产量

2.3 影响因素数据

利用灰度关联分析方法计算影响东北3个省农作物产量各因素的关联度。根据关联度,得到10个因素对农作物产量影响最大,其中X1、X2、X3为自然影响因素,X4~X10为人为影响因素。各影响因素数据如下表3和表4所示。

表3 农作物产量影响因素-自然影响因素表

表4 农作物产量影响因素-人为影响因素表

2.4 回归系数计算以及检验

基于上述表3和表4数据,利用统计软件SPSS20.0计算得到回归方程回归系数,并进行检验,得到检验结果,如下表5所示。

表5 回归系数及其模型检验结果

由表5,建立玉米产量的多元线性回归估测模型,见公式(16)。

2.5 估测准确性检验

利用建立好的农作物产量的多元线性回归估测模型,对2017—2019年3年间的东北3个省玉米总产量进行估测,并与实际值进行对比。实际值来自《中国统计年鉴》、《东北统计年鉴》。结果如下表6所示。

表6 估测准确性检验结果

从表6中可以看出,所构建的基于多元回归分析的估测模型所预测出的东北3个省玉米总产量与实际产量之间的误差均小于1%,说明该模型的估测准确性较高,具有广泛的应用前景。

3 结束语

综上所述,粮食是维持一个国家安定和发展的基础。中国作为国土面积位居世界第三的国家,农作物种植范围广泛,因此粮食产量巨大。在此背景下,为保证粮食安全,平衡粮食市场价格,对农作物的产量进行估测具有重要的现实意义。为此,结合多元回归分析方法,建立农作物产量估测模型。该模型通过灰度关联分析确定的影响农作物产量的主要因素,并以此作为多元回归估测模型的输入,得出预测结果。通过仿真实验,该模型的估测精度得到的了验证,因此具有广泛的应用前景。然而,本研究还是存在一定的不足,有一些突发事件的发生,因此在构建的模型中还要引入那些模糊因子,进一步提高估算模型的精度。

猜你喜欢
灰度农作物公式
高温干旱持续 农作物亟须“防护伞”
俄发现保护农作物新方法
夏季农作物如何防热害
基于二值化灰度图像的大豆蛋白液喷雾相对雾化程度的研究
组合数与组合数公式
排列数与排列数公式
天津港智慧工作平台灰度发布系统和流程设计
Arduino小车巡线程序的灰度阈值优化方案
趣味象声词
“两两三三”解决天体问题