魏晓奕 张佩 徐进 朱宝
摘要:以油菜单株第一分枝数、单株籽粒质量、单株荚果数、千粒质量、籽粒与茎秆比、产量等为预测对象,利用观测品种同为秦油2号的淮安站1995—2004年油菜农业气象观测资料及对应的气象观测资料,充分考虑油菜各生育阶段的生理特性及其对气象条件的不同要求,梳理确定育苗期≥0 ℃有效积温等35个气象因子,分别采用多元线性回归及BP神经网络等2种方法构建油菜产量因素的预测模型,并利用观测品种也为秦油2号的镇江站及射阳站1996—2000年、金坛站1997—2000年数据资料验证所构建模型的预测效果。对比分析2种模型的预测效果发现,BP神经网络模型在预测精度和稳定性上均优于线性回归模型,能对具有交互作用下的众多气象因子和产量因子进行非线性映射,可以更好地反映出油菜产量因素与相关气象因子间的函数关系。
关键词:BP神经网络;多元线性回归;产量预测方法;油菜产量因素
中图分类号:S165+.27 文献标志码: A
文章编号:1002-1302(2021)07-0089-06
收稿日期:2020-07-27
基金项目:江苏省“333工程”高层次人才培养科研项目(编号:BRA2019348);2019年国内外作物产量气象预报专项;江苏省气象局科技项目(编号:KM201905)。
作者简介:魏晓奕(1984—),女,山东济南人,工程师,主要从事气象资料研究。E-mail:topw4489@sina.com。
通信作者:张 佩,硕士,副研级高级工程师,主要从事应用气象研究。E-mail:78073954@qq.com。
我国作物产量预测研究发展至今,成熟应用于业务服务中的模型仍以构建气象因子与对应气象产量间的数学模型为基础[1-3]。气象产量的获取,须要对实际产量数据进行平滑处理,由于此过程消减了气象因子的波动性,导致气象产量并不能精确反映实际产量的变化。而气象因子的波动性直接影响作物特定生育阶段的生长状况,并反映在产量因素的变化上。准确预报产量因素不仅可以辅助预测最终产量,更重要的是可以揭示气象因子影响作物生育过程的机制,使产量预测更具有生理学意义。目前有关气象因子与产量因素的研究还主要集中在1个或几个气象因子对特定生育阶段的影响[4-6];由于影响产量因素的因子复杂,不同因子间还存在相互影响甚至消减作用,对产量因素预测的研究鲜见报道。
目前,产量预测普遍直接选用时段内的平均气温、累积降水量及总日照时数等常规气象因子进行模型构建[7-11],而较少考虑作物自身的生理特性。在实际生产中,作物在不同生育阶段对气象因子波动的响应是不同的[6,12-13],因此本研究结合油菜生理特性,选用不同生育阶段的关键气象因子进行产量因素预测模型的构建。
在眾多作物产量预测模型的构建方法中,多元回归法由于原理简单、使用便捷,在研究中被普遍使用[14-15]。它采用线性顺序处理的方法,适用于以多个自变量因子来解释某一因变量,但它对复杂过程的模拟有一定的局限。与多元回归不同,BP(back propagation)神经网络可学习并存储大量输入-输出模式的映射关系,而又无需事前揭示描述其数学方程,因此可以逼近任意连续函数,从而具有很强的非线性映射能力,已得到广泛应用[16-19],如病虫害预测[20-21]、小气候预测[22]、产量预测[23-24]等农业气象预测。这些应用大多数还只是采用了多因素对单因素关联模型的构建方法。
江苏省油菜种植面积近年来有所调减,但仍是最重要的油料作物,且单位面积产量水平一直位于全国前列。因此,本研究以秦油2号油菜5个产量因素及最终产量为研究对象,选用淮安站1995—2004年、镇江站1996—2000年、射阳站1996—2000年、金坛站1997—2000年的油菜农业气象观测资料进行分析,以避免因品种差异对预测结果带来误差。首先结合油菜的生理特性,梳理并确定不同发育期的气象指标因子;在此基础上,运用多元线性回归和BP神经网络2种方法进行油菜产量因素预测模型的构建,并对比分析2种方法在预测效果的差异,以确定适用于江苏省油菜产量因素预测的最佳方法。
1 资料与方法
1.1 资料来源
江苏省油菜农业气象观测普遍从20世纪 80年代初至中后期开始。由于油菜种植区域的调整缩减,油菜的农气观测站点于2000、2011年也相应进行了调整。为了避免品种差异对产量预测的影响,确定观测品种同为秦油2号的年序为分析样本,数据分别来自淮安站(1995—2004年)、镇江站(1996—2000年)、射阳站(1996—2000年)及金坛站(1997—2000年)。
油菜农业气象观测资料及气象观测资料源于江苏省气象信息中心。其中,油菜农业气象观测资料主要包括各发育期出现时间、产量因素(单株第一分枝数、单株籽粒质量、单株荚果数、千粒质量、籽粒与茎秆比)及产量,气象观测资料为对应年份前一年9月中旬至当年5月下旬的逐日观测资料,气象因素主要包括平均气温、最低气温、最高气温、降水量、日照时数、日出日落时间等。
1.2 气象因子的选择
本研究将油菜一生划分为育苗期(播种至移栽期)、大田苗期(移栽至现蕾期)、蕾薹期(现蕾至开花期)、花果期(开花至成熟期)4个生育期阶段进行研究。
1.2.1 热量因子 已有研究表明,油菜不同生育阶段对温度的要求不同,其中育苗期温度过低,不利于出苗及出苗后生长,一般5 ℃以下要20 d以上才能出苗;苗期适宜生长温度为10~20 ℃,遇短期 0 ℃ 以下低温不致受冻,但若持续时间长则也会受害。蕾薹期是油菜搭好丰产架子的关键时期,一般春后气温达5 ℃以上即现蕾,10 ℃以上迅速抽薹,此时若遇0 ℃以下低温则导致裂薹和死蕾发生,进而影响产量。花果期前期当气温低于10 ℃时,会减少开花数量,当气温低于5 ℃,则开花停止;当籽粒灌浆时日最高温度超过30 ℃,会出现高温逼熟现象[25]。
因此,本研究以各生育阶段的关键温度(育苗期为0 ℃;大田苗期、蕾薹期皆为0、5 ℃;花果期为0、10 ℃)为节点,统计了4个生育期阶段内各大于等于关键温度的有效积温(Ti),日平均温度低于关键温度的日数(Dtm Ti=∑nm=1(tm-t0);(1) Dtm Dtl≤t0}=∑nm=1dm,dm=0,tl>t01,tl≤t0;(3) Dtm≥t0=n-Dtm Dth≥30i=∑nm=1dm,dm=1,th≥30 ℃0,th<30 ℃。(5) 式中:i表示生育階段序号数,取1、2、3、4;m表示每个生育阶段内的日序;n表示每个生育阶段的长度,即时间,d;tm为逐日平均温度,℃;tl为逐日最低温度,℃;th为逐日最高温度,℃;t0为生长关键温度,℃,育苗期取{0}、大田苗期、蕾薹期取{0,5}、花果期取{0,5,10}。 1.2.2 日照、降水因子 日照、降水因子主要统计了4个生育期阶段内的总日照时数Si、总可照时数Sai、总降水量Ri 。 Si=∑nm=1Sm;(6) Sai=∑nm=1(Sasm-Sarm);(7) Ri=∑nm=1Rm。(8) 式中:Sm为逐日日照时数,h;Sasm逐日日落时间,h;Sarm逐日日出时间,h;Rm为逐日降水量,mm。 最终梳理确定35个自变量因子。 1.3 预测模型构建方法 1.3.1 多元线性回归模型构建 本研究利用SPSS软件,采用全相关方法首先对育苗期≥0 ℃有效积温等35个气象因子与单株第一分枝数等5个油菜产量因素及产量进行相关分析,然后基于最小二乘法(ordinary least square,OLS),采用逐步回归法构建油菜各产量因素预测的最优回归模型。 设Yc为油菜产量因素,xj分别代表不同气象因子,以用来说明Yc,则构建油菜产量因素与各气象因子之间的线性关系模型: Yc=∑qj=1ajxj+a0。(9) 式中:a0为随机变量,为常数项;aj是各气象因子xj对应的偏回归系数,表示在其他气象因子不变的情况下,xj增加或减少1个单位引起Yc增减的平均值。c为油菜产量因素数量,本研究取6个;j为气象因子序号;q为参与建模的气象因子数量,个。 1.3.2 BP神经网络模型构建 BP神经网络模型拓扑结构包括输入层(input)、隐层(hide layer)和输出层(output layer)。为做有效对比,使用与多元回归模型相同的35个气象因子作为输入层因子,输出层为单株第一分枝数等5个油菜产量因素及产量。 神经网络法的预测精度主要受制于隐含层节点数;若节点数过少,将影响网络的学习效果,则须要增加训练次数,而这又会降低训练的精度;反之,网络训练时间增加,网络易过拟合。本研究先由经验公式(10)确定不同的神经元数[26],然后进行训练对比,以得到最佳的隐含层神经元数。 p=o+l+α。(10) 式中:p、o、l分别为隐含层、输入层及输出层的神经元数,个;α代表1~10的常数。 本研究主要采用MATLAB 2016R软件的Neural Network Toolbox来构建气象因子与油菜产量因素的BP网络神经预测模型,操作步骤如下:(1)数据的归一化处理。由于影响油菜产量因子的气象因子较多,且气象因子原始数据的级差差异明显,本研究在进行BP神经网络构建前先对原始数据进行归一化处理。(2)网络训练。将数据的70%用于模型训练,30%用于预测检验。设置模型的收敛误差为 0.000 1,学习速率为0.05,最大训练轮回数为5 000。 利用所构建的多元回归模型和BP神经网络模型对镇江站及射阳站1996—2000年、金坛站1997—2000年各产量要素进行模型预测精度PAc验证,并将二者进行对比分析。预测精度PAc的计算公式如下: PAc=(1-Yc-YaYa)×100%。(11) 式中:Ya为油菜产量要素的实际值。 2 结果分析 2.1 多元线性回归模型及其变量解释 由表1可以看出,5个油菜产量要素及产量预测模型的拟合优度均较好,模型R2均在0.8以上,尤其Y2、Y3和Y4的R2达到0.96以上。 由表1可知,对于油菜产量来说,它主要由花果期≥0 ℃有效积温、育苗期总日照时数解释。从各产量因素的解释变量来看,油菜的单株第一分枝数以育苗期总日照时数和总降水量、大田苗期总日照时数为主要解释变量;单株籽粒质量主要由大田苗期总可照时数、蕾薹期日最低温度≤5 ℃时间、大田苗期日最低温度≤0 ℃时间及花果期≥0 ℃ 有效积温共同解释;单株荚果数主要由育苗期总日照时数、大田苗期总降水量及大田苗期日平均温度>5 ℃时间共同解释;千粒质量、籽粒与茎秆比均主要由花果期日最低温度≤10 ℃时间及育苗期≥0 ℃有效积温2个因子解释。 2.2 2种模型对产量因素的预报效果对比 根据公式(10),经过多次优选后,发现o=35,l=6,α=7时,p=14,此结构下BP网络收敛效果最佳,由此确定本研究最佳BP神经网络结构为35-14-6。 通过BP神经网络模型得到的预测值与多元回归模型的预测结果进行比较后发现,BP神经网络模型预测精度普遍表现更优。从总体预测精度(图1)来看,BP神经网络模型对油菜各产量因素的预测精度平均较多元回归模型明显提高,其中除对单株第一分枝数的预测精度略低于多元回归模型外,在其他各产量因素的预测上,BP神经网络模型均具有更高的精度,其中单株籽粒质量和千粒质量分别提高8.96、8.01百分点,籽粒与茎秆比提高了2241百分点,产量提高4.66百分点。同时,BP神经网络模型对不同产量因素的预测精度的标准差为5.41%,明显低于多元回归模型的10.75%,这说明BP神经网络非线性的建模特征对处理多因子有着更强的能力,对不同产量因素预测的稳定性更高。 2.3 2种模型在不同地区的预报效果对比 进一步对镇江、金坛和射阳的预报效果(图2至图4)进行分析发现,无论是BP神经网络模型还是多元回归模型,对镇江、金坛地区油菜各产量因素的预测精度均普遍高于射阳,这可能是由于射阳地处江苏东部沿海,具有较明显的海洋性气候特征,镇江、金坛与淮安同处中西部内陆,气候特征较为相似。 其中,BP神经网络模型对镇江油菜各产量因素的预测精度平均达81.54%,较多元回归模型提升7.43百分点,且在对每一个结构因素的预测上,BP神经网络均表现更优,提升效果依次为单株荚果数(19.11百分点)>千粒质量(8.37百分点)>单株籽粒质量(7.00百分点)>籽粒与茎秆比(5.08百分点)>单株第一分枝数(3.35百分点)>产量(1.65百分点)。BP神经网络模型对金坛油菜各产量因素的平均预测精度达87.00%,较多元回归模型提升了5.19百分点,就各产量因素来看,对单株第一分枝数和产量的预测精度略低于多元回归模型,对千粒质量的预测精度提升最高,达17.52百分点,对单株荚果数、籽粒与茎秆比和单株籽粒质量的预测精度分别提升了11.31、889、1.05百分点。射阳站油菜各产量因素的多云回归模型的预测精度平均仅为66.49%,采用BP神经网络建模后,预测精度提高了8.46百分点;但对单株第一分枝数和单株荚果数的预测效果,多元回归模型明显优于BP神经网络模型。 3 讨论与结论 从农学角度来看,正是各产量因素的波动才引起作物产量的变化。本研究以油菜单株第一分枝数、单株籽粒质量、单株荚果数、千粒质量、籽粒与茎秆比与产量等作为预测对象,选用淮安站油菜观测品种同为秦油2号的数据资料进行模型构建,有效避免了地区、品种对产量因素的影响。另外,淮安1995—2004年油菜观测为同一地块,可认为土壤条件基本不变,且农业气象观测人员的田间管理措施也基本一致。因此,可以近似认为该观测地块1995—2004年油菜产量因素的波动主要是由气象因子的变化造成的。 在气象因子的选择上,充分考虑油菜不同生育阶段对温、光、水的不同要求[25],本研究以各生育阶段的关键温度为节点,统计与油菜产量因素密切相关的育苗期≥0 ℃有效积温等35個气象因子,并利用多元回归模型在众多气象因子中寻找出限制各产量因素的主要因素。从多元线性回归模型分析结果可以看出,油菜产量主要由花果期≥0 ℃有效积温及育苗期总日照时数解释,其中花果期≥0 ℃有效积温越大,越利于油菜产量的提高。从各产量因素的解释变量来看,油菜的单株第一分枝数和单株荚果数均主要取决于油菜生长前期的气象条件,其中单株第一分枝数以育苗期总日照时数和总降水量、大田苗期总日照时数为主要解释变量,这可能是由于江苏省冬春季热量条件可完全满足油菜前期生长的需求,日照和降水成为了生长的主要限制气象因子[27]。单株籽粒质量受影响的生育阶段较多,其主要由大田苗期总可照时数、蕾薹期日最低温度≤5 ℃时间、大田苗期日最低温度≤0 ℃时间及花果期≥0 ℃有效积温共同解释,其中蕾薹期日最低温度<5 ℃时间与单株籽粒质量成负相关,这主要是因为蕾薹期若遇到低于5 ℃低温天气,不利于油菜现蕾抽薹及开花授粉,会影响油菜荚果的发育,进而影响后期籽粒形成[25]。单株荚果数与生长前期的光温水条件均关系密切。千粒质量、籽粒与茎秆比均主要由花果期日最低温度≤10 ℃时间及育苗期≥0 ℃有效积温2个因子解释,其中育苗期≥0 ℃有效积温越高,越利于油菜千粒质量的提高,这说明油菜籽粒的灌浆充实不仅与生长后期的气象条件有关,前期的生长积累,也影响了后期的生长;花果期日最低温度≤10 ℃时间越多,可能会拉长籽粒的灌浆充实时间,从而增加籽粒的积累,同时也使茎秆的营养向籽粒转化得更多,促使籽粒与茎秆的比值增大。从以上模型构建的结果可以看出,产量因素的多元线性回归预测模型都反映出了实际生产中出现的油菜生长状况,弥补了气象产量模型的不足。 但气象因子不是独立存在的,它们之间相互影响、相互制约,而由于多元回归模型摒弃了其他因子,仅把与产量因素相关性大的主要因子作为预报因子进行建模,当气象条件出现较大波动尤其是当被摒弃的因子发生异常时,多元回归模型就会放大气象因子的波动性,其预测结果就会产生较大误差。因此,它仅适用于气象条件稳定的时间区段。同时,由于多元回归模型是一种线性估计算法,受因子互作的影响易出现对称、丛聚及屏蔽等效应而导致模型的预测精度不高,且缺乏稳定性。 BP神经网络模型对油菜各产量结构的预测精度总体优于多元线性回归模型,且具有更好的稳定性。但BP神经网络自身也存在缺点,由于其没有对主导预测因子进行筛选的功能[22],大部分基于BP神经网络的产量预测研究普遍只针对产量一个因素,即为非线性多对一映射,且多为纯方法论研究,对模型的生理学意义较少关注。本研究在建模前,充分考虑了油菜各生育阶段的生理特征及其对气象条件的不同要求,梳理了具有生理学意义的35个因子,在一定程度上弥补了BP神经网络缺少生理解释的不足。同时,充分利用了BP神经网络的非线性映射的优势,实现多因素对多因素关联预测模型的构建。 综上,在进行油菜产量因素的预测过程中,BP神经网络模型的预测效果优于多元回归,且预测稳定性高,说明BP网络神经模型有更好的抗干扰性,能对具有交互作用下的气象因子和产量因子进行非线性映射,可以更好地反映出油菜产量因素与相关气象因子间的函数关系。同时,BP网络神经可以实现多因子输入及多因子输出,较多元回归模型每种因变量都要建立不同模型,更为简便快捷,可以应用在油菜产量预测的气象业务服务上,但仍有一些问题有待进一步研究。如模型对单株籽粒质量、单株荚果数的预测结果误差较大,且对射阳地区油菜各产量因素的预测效果总体仍有偏差。 因此,下一步仍将继续对提升模型对不同预报对象、不同地区的预测效果开展研究。同时,本研究仅分析了油菜各产量因素与光、温、水因子的关联模型,但众所周知,影响作物产量形成的气象因素还有很多,如太阳辐射、环境二氧化碳浓度等,甚至大尺度的海温、环流背景都会对产量的形成产生影响。另外,除了气象因素,土壤条件、人为的田管措施等也会影响产量形成。由此可见,如何综合考虑多种因素、利用非线性理论提高产量因素的预测效果是未来的另一个研究重点。 参考文献: [1]王贺然,张 慧,王 莹,等. 基于两种方法建立辽宁大豆产量丰歉预报模型对比[J]. 中国农业气象,2018,39(11):725-738. [2]王培娟,张佳华,谢东辉,等.A2和B2情景下冀鲁豫冬小麦气象产量估算[J]. 应用气象学报,2011,22(5):549-557. [3]王 媛,方修琦,徐 锬,等. 气候变化背景下“气候产量”计算方法的探讨[J]. 自然资源学报,2004,19(4):531-536. [4]孙 建,饶月亮,乐美旺,等. 干旱胁迫对芝麻生长与产量性状的影响及其抗旱性综合评价[J]. 中国油料作物学报,2010,32(4):55-533. [5]袁 晋,罗庆明,刘卫国,等. 气象因子对川中丘陵地区带状套作大豆產量的影响[J]. 中国油料作物学报,2014,36(6):777-783. [6]涂玉琴,戴兴临. 花期低温阴雨对甘蓝型油菜产量和种子含油量的影响[J]. 中国油料作物学报,2011,33(5):470-475. [7]吴普特,赵西宁. 气候变化对中国农业用水和粮食生产的影响[J]. 农业工程学报,2010,26(2):1-6. [8]高永刚,顾 红,姬菊枝,等. 近43年来黑龙江气候变化对农作物产量影响的模拟研究[J]. 应用气象学报,2007,18(4):532-538. [9]蔺 涛,谢 云,刘 刚,等. 黑龙江省气候变化对粮食生产的影响[J]. 自然资源学报,2008,23(2):307-318. [10]谢远玉,张智勇,刘翠华,等. 赣州近30年气候变化对双季早稻产量的影响[J]. 中国农业气象,2011,32(3):388-393. [11]孙卫国,程炳岩,杨沈斌,等. 区域气候变化对华东地区水稻产量的影响[J]. 中国农业气象,2011,32(2):227-234. [12]张海燕,解备涛,段文学,等. 不同时期干旱胁迫对甘薯光合效率和耗水特性的影响[J]. 应用生态学报,2018,29(6):1943-1950. [13]宋广树,孙忠富,孙 蕾,等. 东北中部地区水稻不同生育时期低温处理下生理变化及耐冷性比较[J]. 生态学报,2011,31(13):3788-3795. [14]钱锦霞,郭建平. 郑州地区冬小麦产量构成要素的回归模型[J]. 应用气象学报,2012,23(4):500-504. [15]易 雪,王建林,宋迎波. 气候适宜指数在早稻产量动态预报上的应用[J]. 气象,2010,36(6):85-89. [16]Green T R,Salas J D,Martinez A, et al. Relating crop yield to topographic attributes using Spatial Analysis Neural Networks and regression [J]. Science Direct, 2007,139(1/2):23-37. [17]邵月红,张万昌,刘永和,等. BP神经网络在多普勒雷达降水量的估测中的应用[J]. 高原气象,2009,28(4):846-853. [18]瞿 英,王 冕,董文旭,等. 基于BP 神经网络的农田大气氨浓度预测[J]. 中国生态农业学报(中英文),2019,27(4):519-528. [19]侯艺璇,赵华甫,吴克宁,等. 基于BP神经网络的作物Cd 含量预测及安全种植分区[J]. 资源科学,2018,40(12):2414-2424. [20]刘庭洋,李 烨,浦仕磊,等. 基于BP神经网络的稻瘟病预测预报研究[J]. 西南农业学报,2017,30(7):1546-1553. [21]靳 然,李生才. 基于小波神经网络和BP 神经网络的麦蚜发生期预测对比[J]. 植物保护学报,2016,43(3):353-361. [22]温永菁,李 春,薛庆禹,等. 基于逐步回归与BP 神经网络的日光温室温湿度预测模型对比分析[J]. 中国农学通报,2018,34(16):115-125. [23]戎陆庆,陈 飞,欧阳浩. 基于GRA&BPNN的广西粮食产量预测研究[J]. 中国农业资源与区划,2017,38(2):105-111. [24]庄 星,韩 飞. 基于混合群智能算法优化BP 神经网络的粮食产量预测[J]. 江苏大学学报(自然科学版),2019,40(2):209-215. [25]杨文钰,屠乃美,张洪程,等. 作物栽培学各论[M]. 北京:中国农业出版社,2003. [26]陶海龙. 基于混合智能算法的铁路运量预测研究[D]. 兰州:兰州交通大学,2012. [27]张 佩,田 娜,赵会颖,等. 江苏省冬小麦气候适宜度动态模型建立及应用[J]. 气象科学,2015,35(4):468-473.