冯亚枝,胡彦蓉,刘洪久
(1.浙江农林大学 信息工程学院,杭州 311300;2.浙江省林业智能监测与信息技术研究重点实验室,杭州 311300)
《关于促进乡村产业振兴的指导意见》[1]提出“突出地域优势特色,培育壮大乡村产业,做精乡土特色产业。因地制宜发展小宗类、多样性特色种养,加强地方品种种质资源保护和开发”。杭州市临安区是山核桃栽植的中心区域,被称为“中国山核桃之都”,临安山核桃极具地域特色,对促进乡村产业振兴有积极的导向作用。近年来,杭州市临安区政府高度重视山核桃产业发展,出台了《临安市山核桃产业可持续发展实施细则(试行)》[2-3]等文件,政策出台之后,随着乡村经济的发展和生活质量的提高,山核桃的种植数量逐年增加。但是,在发展过程中,周围地区越来越多的山核桃品牌涌现出来,国内市场竞争激烈,临安山核桃的地域优势也逐渐降低。目前,农户在种植山核桃时使用化学试剂过多,生态环境不断恶化,而山核桃的生长周期又很长,所以一旦被破坏,损失将是无法计量的。如何有效地控制临安山核桃生产,促进产量的提升,保证山核桃市场进一步发展,是当下山核桃市场所需要解决的问题。
农产品产量的准确预测一直是国内外学者研究的热门问题之一,关于农产品产量影响因素及预测模型的研究已经取得较多成果。回顾国内外学者对农产品或粮食产量预测的文献发现,研究方法大致分为两类:
1)采用灰色系统以及改进的灰色预测模型进行产量的预测,吴潇等[4]采用GM(1,1)模型对2015—2020 年中国总油料、木本油料及油茶(CamelliaoleiferaAbel)籽油料产量进行了预测;尹世久等[5-7]基于灰色系统模型分别对不同的农产品或粮食产量进行预测;刘浩然等[8]、范震等[9]和马云倩等[10]分别采用因子分析法、灰色关联分析法和Lasso模型选取主要的影响因素构建灰色预测模型进行农产品的预测,以更好地掌握产量变化规律;崔兴凯等[11]提出新的农产品预测模型,基于NGM(1,1,k )模型的农产品产量预测方法。
2)采用人工智能的方法对农产品产量进行研究,樊超等[12]构建粮食产量的主成分分析和极限学习机预测模型,预测精度大幅提高;刘世锦等[13]主要是建立一个农业发展长期预测模型,利用截至2013 年底的最新统计数据和相关资料对未来10年粮食、畜水产品以及其他农产品进行了预测;Schwalbert等[14]提出了一种使用长期短期记忆(LSTM)神经网络对巴西南部的季节(“近实时”)大豆(Glycinemax)产量进行预测;Madhav等[15]使用MT-CV2模型获得了针对所有性状的新环境更高的预测能力;陈全润等[16]从多个角度建立不同的预测模型;高心怡等[17]和庄星等[18]分别提出基于混合智能算法的支持向量机预测模型和基于粒子群算法和人工蜂群算法的改进BP神经网络模型,分别对粮食产量进行了研究。
国内外学者用不同的方法对农产品产量进行了研究,这些评价研究大多采用基于灰色系统的研究方法或人工智能的方法对农产品产量进行预测,但缺乏灰色系统与常用农产品预测模型之间的横向对比。本文使用了Lasso进行变量筛选和灰色预测结合的方法,建立气候因素和种植规模的指标体系,模型经检验之后,将其与Lasso-BP,Lasso-RBF,Lasso-GRNN预测结果进行对比,同时根据本文使用的方法预测临安山核桃(CaryacathayensisSarg)2020—2024年的产量及主要影响因素值,也为山核桃产业规划等提供了参考依据。
2012年临安山核桃总面积已达30 666.67hm2,年产量1.19万t,从业人员9.2万人,登记在册的加工企业有220多家,全年山核桃产业总产值达15.48亿元。截至2019年8月,临安区现有山核桃种植面积达41 333.33 hm2,主要分布在临安区昌化、昌北和太阳镇的横路等地,是全国山核桃的生产中心、集散中心和加工中心,面积、产量、加工量均为全国第一。2020年临安区政府将加大财政投入力度,安排山核桃生态化治理专项资金1.7亿,争取省级乡村振兴产业发展示范县,加快推进山核桃传统产业结构性改革,实现山核桃产业数字化、生态化、规模化、品牌化发展。
本文所采用的临安山核桃种植规模和产量数据来自杭州市《临安年鉴(1967—2019)》,积温、气温和降水量等气象数据来源于临安市气象局(1967—2019)。分析1967—2019年临安山核桃产量动态变化如图1所示,1967—2002年临安山核桃产量处于稳定波动状态,参考吕秋菊[19]关于山核桃产业发展阶段识别,这是因为改革开放以后,山核桃处于产业形成期,山核桃发展缓慢,无论是种植面积、产量和产值都处于缓慢增长状态;2002—2009年临安山核桃处于成长期的早期,产量进入了快速增长阶段,增速较快,2008年进入成长期后期;2010—2019年总体呈现先下降后上升的趋势。
图1 1967—2019年临安山核桃产量动态变化图
1.2.1Lasso方法
Lasso(Least Absolute Shrinkage and Selection Operator)方法是由Tibshirani提出的将参数估计与变量选择同时进行的一种正则化方法,在传统变量选择方法的基础上做了改进,使得一些不重要变量的估计值为零,在实现参数估计的同时还可以压缩变量,可以较好解决变量间的多重共线性问题[20]。因此,本研究选择Lasso 方法[15,19]来做变量选择,筛选山核桃产量的影响因素。
在考虑一般的线性回归问题时,给定n个数据样本点,{(x1,y1),(x2,y2),…,(xn,yn)},其中每一个xi∈Rd是一个d维向量,表示临安山核桃产量影响因素的具体数值,观测到的数据点是由d个变量值组成,每个yi∈R是一个实值,表示临安山核桃每年的产量,根据观察到的数据点,寻找到一个映射f:Rd→R,使得误差平方和最小,优化目标为:
(1)
(2)
将得到的结果带入原优化目标得到:
(3)
从上面式子可以看出,假如事先对数据进行标准化(中心化),即每个样本数据减去均值,从而得到零均值的数据样本,此时做线性回归就可以不使用偏置。下面为了方便介绍,假定给定的n个数据样本点,{(x1,y1),(x2,y2),…,(xn,yn)}是零均值的,线性回归的优化目标可以记为:
(4)
Lasso的优化目标为:
式(5)中:λ为非负正则参数,而且当λ值越大,惩罚力度就越大,保留的变量也就越少,反之亦然。其思想是在系数绝对值总和不能太大的前提下运用最小二乘法,残差平方和最小。
1.2.2灰色模型
灰色模型是一种对含有不确定因素系统进行预测的方法。将随机无规律的原始数据经过累加生成有规律的数据列,再根据生成的数据列建立白色化形式的微分方程,白色化形式微分方程的解就是灰色预测模型。
设原始变量数据列为:X(0)=(X(0)(1),X(0)(2),…,X(0)(n)),其中X(0)(1)为研究变量:每年临安山核桃的产量,X(0)(2),…,X(0)(n)为相关因素变量:每年临安山核桃产量各影响因素值[6],n为研究变量和相关因素变量的个数之和。计算数列的级比:
(6)
y(0)(k)=x(0)(k)+c,k=1,2,…,n
(7)
取c使得数据列的级比都落在可容覆盖内。
设X(0)=(X(0)(1),X(0)(2),…,X(0)(n))满足以上要求,以它为数据列建立模型:
x(0)(k)+αz(1)(k)=b
(8)
用回归分析求得a,b的估计值,相应的白化模型为:
(9)
解为:
(10)
于是得到预测值:
(11)
从而相应地得到预测值:
(12)
根据公式(12)可求得山核桃产量的预测值,进而对灰色模型的预测值进行检验,常用的检验方法包括相对误差检验(e)、后验差比值(C)和小误差概率(p)检验。
相对误差检验公式为:
(13)
公式(13)中x(0)的均值为:
残差的均值为:
由此可以得到后验差比值公式:
C=S2/S1
(14)
小误差概率公式:
p=p{|E(k)-E|<0.6745S1}
(15)
由上述公式(13)(14)(15)可对灰色模型的预测值进行检验。
山核桃具备较强的地域性特征,由于临安处于山核桃种植的中心区域,因此,研究临安区山核桃产业具有一定的代表性。根据有关气候因素对农产品产量的影响研究[21-24],选择14个影响因素(表1):选取积温、气温、降水量、种植面积和株数5个方面的指标,积温指标分别为秋季9—11月积温(x1)(℃)、冬季12—2月积温(x2)(℃)、春季3—5月积温(x3)(℃)、夏季6—8月积温(x4)(℃);气温方面选取年最高气温(x5)(℃)、年最低气温(x6)(℃)、≥35℃高温日数(x7)(d)、≥37℃高温日数(x8)(d);降水量方面选取秋季9—11月降水量(x9)(mm)、冬季12—2月降水量(x10)(mm)、春季3—5月降水量(x11)(mm)、夏季6—8月降水量(x12)(mm);种植规模选取种植面积和株数。选取山核桃产量(y)(t)为研究变量。
表1 指标体系
运用Lasso方法公式(5)可计算出临安山核桃产量影响因素回归系数(表2),从表2中的结果可知,选择了13个变量,分别是:秋季9—11月积温、冬季12—2月积温、春季3—5月积温、夏季6—8月积温、年最高气温和最低气温、≥35℃高温日数、≥37℃高温日数、冬季12—2月降水量、春季3—5月降水量、夏季6—8月降水量、面积、株数,即x1-x8和x10-x14,这13个变量的Lasso回归系数显著不为0,即剔除了秋季9—11月降水量(x9)(mm)。这是因为临安秋季9—11月降水量的Lasso回归系数为0,该项指标原数据对临安山核桃产量没有发挥作用,因此,将其余13个变量作为影响临安山核桃产量的主要影响因素。
表2中除了秋季降水量(x9)Lasso回归系数为0,其余13个指标Lasso回归系数绝对值越小,表明该项指标原数据对临安山核桃产量发挥的作用越大,反之作用越小。首先对临安山核桃产量影响最大的是种植面积和株数,其次是一年四季的积温和冬季、夏季降水量,最后影响程度最小的是气温方面年最高和最低气温、≥35℃和≥37℃高温日数。
表2 Lasso回归系数
在进行预测之前,首先利用Lasso-灰色预测模型对2015—2019年临安山核桃产量及影响因素预测值进行模型精确度的检验,然后将Lasso模型分别与常用的农产品预测模型BP神经网络(反向传播神经网络)、RBF(径向基神经网络)、GRNN(广义回归神经网络)结合的组合模型对2015—2019年临安山核桃产量进行预测,最后将3种组合模型的预测结果与Lasso-灰色预测模型结果进行对比。
2.2.1Lasso-灰色预测模型检验
将Lasso模型计算结果选取的13个变量带入灰色预测模型,经公式(12)计算可得出2015—2019年临安山核桃产量及影响因素的预测值,从表3中的预测结果可知,除了春季3—5月降水量(x11)(mm)处于稳步下降趋势外,其余各指标参数均处于稳步上升的状态。预测结果是否可行需要进行进一步检验,本文对预测结果和各项指标实际值进行了相对误差检验(e)、后验差比值(C)和小误差概率(p)检验。
表3 2015—2019年临安山核桃产量及影响因素预测值
精度检验的标准如表4所示,相对误差检验(e)、后验差比值(C)和小误差概率(p)检验结果分别由表3预测值带入公式(13)—(15)计算可得,模型检验计算结果如表5所示。结合表4的模型精度检验标准,由表5中的计算结果可知:秋季9—11月积温(x1/℃)、春季3—5月积温(x3/℃)、夏季6—8月积温(x4/℃)、最高气温(x5/℃)、面积(x13/(1/15hm2)),以及研究变量山核桃产量(y/t)对影响因素所建立的灰色模型均通过了相对误差检验(e),并且精度都达到了比较好的效果;从后验差比值(C)检验结果来看,所有指标均通过了模型精度检验(C≤0.65),其中面积(x13/(1/15hm2))和株数(x14/株)的检验结果(0.06和0.25)达到了一级优秀(C≤0.35),有2项指标检验结果为良好(0.35 表4 模型精度检验标准 表5 模型精度检验结果 2.2.2组合预测模型的比较 精度较高的预测模型有助于更准确地预测农产品产量,因此本文进行了预测模型的比较。为了有效进行预测效果的比较,将1967—2014年的样本数据作为训练样本,2015—2019年的数据作为测试样本。本文对4种模型进行比较分析,第一种是Lasso模型与灰色预测模型的组合,即Lasso-GM;第二种是Lasso模型与BP神经网络模型的组合;第三种是Lasso模型与RBF神经网络模型的组合;第四种是Lasso模型与GRNN神经网络模型的组合。 计算结果如表6所示,Lasso-GM计算结果从2015—2019年逐步上升,预测结果的平均相对误差为6.99%;Lasso-BP的预测结果为2016年临安山核桃产量最高,达到14 375.38t;最低的是2015年11 009.62t,预测平均相对误差为8.41%;Lasso-RBF的预测结果呈现波动的状态,2019年的预测结果为13 228.47t,预测平均相对误差为11.56%;Lasso-GRNN预测结果2018年有所降低,预测值为13 005.79t,预测平均相对误差为9.40%。 4种模型预测结果对比来看,Lasso-GM模型的预测平均相对误差最小,即预测效果最好,其次是Lasso-BP模型和Lasso-GRNN模型,而Lasso-RBF模型的预测效果最差。另一方面,Lasso-GM不仅可以预测临安山核桃的产量,同时可以预测出其产量主要影响因素各参数值,而Lasso-BP,Lasso-RBF和Lasso-GRNN组合模型仅能预测产量不能预测影响因素,因此选择Lasso-GM来进行临安山核桃产量及影响因素各参数的预测。 表6 4种模型预测值及预测效果比较表 进一步利用Lasso-GM由公式(5)和公式(12)得出2020—2024年的临安山核桃产量及影响因素预测值,从表7中的结果可知,在积温方面,未来5年秋季9—11月积温(x1/℃)、冬季12—2月积温(x2/℃)、春季3—5月积温(x3/℃)、夏季6—8月积温(x4/℃)都有稳定上升的态势;在气温方面,最高气温(x5/℃)、最低气温(x6/℃)、≥35℃高温日数(x7/d)、≥37℃高温日数(x8/d)都有略微的上升,与整体的大气气温趋势符合[25];从降水量方面看,冬季12—2月降水量(x10/mm)和夏季6—8月降水量(x12/mm)有略微的上升的趋势,春季3—5月降水量(x11/mm)在未来5年有所下降;随着经济的发展以及种植山核桃所带来的效益,山核桃的种植面积、种植株数及产量都有所上升,所研究变量山核桃产量(y/t)到2024年将达到16 289.76t。 表7 2020—2024年的临安山核桃产量及影响因素预测值 在学者对农产品产量预测研究的基础上,本文搜集了1967—2019年临安山核桃的气象、种植规模等相关数据,利用1967—2014年的数据为训练集,2015—2019年的数据为测试集,采用Lasso-GM对2020—2024临安山核桃年产量进行预测,得出以下结论: 1)由于临安山核桃产量的影响因素众多,本文采用Lasso方法筛选影响临安山核桃产量的主要影响因素,分别是一年四季的积温、年最高和最低气温、≥35℃和≥37℃的高温日数、春夏冬3个季节的降水量以及种植规模。分析Lasso计算结果可知:种植规模对临安山核桃产量影响最大,其次是一年四季的积温和冬季、夏季降水量,年最高和最低气温、≥35℃和≥37℃高温日数影响程度最小。 2)在Lasso变量选择的基础上,用灰色模型来预测临安山核桃各指标数据,对2015—2019年临安山核桃产量及影响因素预测结果和各项指标实际值进行了相对误差检验(e)、后验差比值(C)和小误差概率(p)检验,检验结果显示了该模型预测数据的准确性,即预测的数据具有一定的参考价值。 3)以2015—2019年的临安山核桃产量进行测试,将Lasso-GM模型与Lasso-BP,Lasso-RBF和Lasso-GRNN预测结果进行对比,实现灰色系统与常用农产品产量预测模型之间的横向对比,并验证Lasso-GM模型的有效性,从预测效果来看Lasso-GM模型都优于另外3个组合模型,预测结果的平均相对误差为6.99%,达到了较好的预测效果。 4)用验证好的Lasso-GM对2020—2024年临安山核桃产量及各指标做预测。预测结果显示:临安山核桃未来5年的各指标数据均有所上升,2024年临安山核桃的产量将达到16 289.76t,其产量的上升将促进经济的发展,为后期制定科学合理化决策提供一定的数据。 本文的创新点在于:实现Lasso-GM与常用的农产品产量预测模型之间的横向对比,预测未来5年临安山核桃产量及影响因素值。基于上述分析结果,Lasso-GM检验结果说明了该模型预测数据的准确性,其预测效果优于常用的农产品产量预测模型——Lasso-BP,Lasso-RBF和Lasso-GRNN,预测结果显示未来5年临安山核桃产量及影响因素预测值都处于不断上升的趋势。临安山核桃种植规模不断上升,促进社会经济发展的同时,种植山核桃的农民也过上了小康生活,为实现第一个百年奋斗目标全面建成小康社会奠定了基础。最后,在现有的临安山核桃气象数据和种植规模数据基础上,对临安山核桃产量进行预测分析,预测中仅用可获取的气象数据和种植规模数据对2020—2024年的产量进行预测,今后可以运用更多的数据进行全方位的预测与评价。2.3 基于Lasso-GM的预测
3 结论与讨论