基于BP神经网络的油茶产量预测模型构建

2022-12-05 06:53曾庆扬丁楚衡谷战英陈文豪刘一哲王泽菲
经济林研究 2022年3期
关键词:油茶籽油茶气象

曾庆扬,丁楚衡,谷战英,陈文豪,刘一哲,王泽菲

(中南林业科技大学 林学院,湖南 长沙 410004)

油茶Camellia oleifera又被称为茶油树,是一种亚热带常绿灌木或小乔木,主要分布于我国南方,湖南、江西、广西、浙江是重点产区。油茶籽油是茶籽仁经过压榨或浸出所制得的油脂,茶籽油不饱和脂肪酸质量分数达90%以上,主要成分为油酸和亚油酸,其中油酸的质量分数可达80%以上。茶籽油中还富含维生素E、总酚、β-甾醇和角鲨烯等多种功能性活性物质[1],具有较高的营养价值和药用价值[2-4]。油茶籽油的脂肪酸组成可与地中海地区的橄榄油媲美,油脂稳定性强,并且有一定的降低胆固醇和抗癌的功效,长期食用有利于预防血管硬化,因此在国际上被称为“长寿油”或“东方橄榄油”[5]。除食用外,油茶籽油还是一种天然的护肤品原料,是化妆品生产中常用的植物油之一,还被用于重度烫伤患者的治疗[6]。截至2019年,我国油茶林种植面积453.3 万hm2,油茶籽产量268 万t,油茶籽油产量62.7 万t[7]。我国对进口食用油的依存度过高,油茶作为我国四大木本油料树种之一,对于食用油安全有着至关重要的作用[8]。通过科学的手段发展油茶产业是践行绿色农业和可持续发展的前提,对提高我国经济林产量,增加农民经济收入,建设社会主义新农村具有重要作用[9]。

油茶一般为露天种植,其产量受到诸多气象因子的影响,国内外众多学者就气象因子对油茶产量的影响进行了研究。何超[10]分析了油茶产量与气象因子间的相关性,提出影响油茶产量的主要气象因子为日平均气温和日照时长等。郭文扬等[11]经研究发现,花期低温影响油茶开花、授粉和受精,花期积温与油茶产量呈正相关。左继林等[12]分析了气象因子对油茶的出籽率、鲜果含油率和种仁含油率等经济性状指标的影响,提出最低气温、日降雨量、风速和日均温等因子对油茶鲜出籽率影响较大。曾燕如等[13]经研究发现,油茶花期的降雨和霜冻等气象条件会影响坐果率,进而影响产量。吴丽华等[14]探究了气象因子对油茶嫁接成活率的影响,提出5月下旬平均气温与油茶嫁接成活率的关联度最高。黄超等[15]构建了油茶产量预测的决策树算法模型,将预测相对误差率下降到15%以下。吴潇等[16]通过构建GM(1,1)模型对未来5年油茶籽的产量趋势进行预测,得出油茶籽产量未来有较大增长,产业发展势头良好。但目前已有的产量预测模型存在敏感性较高、预测精度较低的不足。构建油茶产量的精准预测模型有利于指导油茶生产布局[17],保障油茶市场供需动态平衡,对于有关部门制定管理政策具有一定的指导意义。

随着人工智能技术和机器学习技术的发展,神经网络以其较强的自适应和自组织能力被广泛应用于农业生产预测领域[18-20]。BP 算法作为神经网络模型中较为成熟的算法,具有泛化能力强、容错率高等优点。但传统神经网络模型会受到因素数量的制约,输入太多无关因素会导致学习速度变慢,使模型结构过于复杂,降低模型预测效率。本研究中选取油茶栽培面积较为集中的湖南、江西、浙江、广西4 个地区作为研究区域[21],以其单位面积油茶籽年产量作为因变量,以17 个气象因子作为影响因子,将提取出的主成分作为输入向量构建主成分分析与BP 神经网络组合模型,寻找影响油茶籽单产的气象因子间的复杂作用关系,旨在简化和改进传统神经网络模型,为油茶籽产量预测的高效化和精准化提供新的研究思路。

1 材料与方法

1.1 数据来源与获取

构建模型所需数据为1990—2019年湖南、江西、浙江、广西4 个地区油茶籽年度总产量和实有油茶林面积[22-24]。气象数据来源于中国气象网和各省气象局相同时段与区域共77 个气象站点的17 个主要气象因子的数据,包括3—5月平均温度、6—8月平均温度、9—11月平均温度、12月—翌年2月平均温度、平均最高气温、平均最低气温、全年日照时长、平均露点温度、3—5月降水量、6—8月降水量、9—11月降水量、12月—翌年2月降水量、平均相对湿度、平均风速、平均最大持续风速、平均最大瞬时风速、平均海平面气压。油茶产量数据共240 条,气象数据共38 760 条,其中湖南11 220 条,江西8 670 条,浙江9 180 条,广西9 690 条。

1.2 数据预处理

使用MATLAB 2018B 软件对数据进行清洗,缺失值采用3 次样条插值法处理,异常值则基于聚类的方法进行检测。根据油茶籽总产量和年末油茶林面积计算4 个地区单位面积油茶籽产量。计算各地区气象站点数据平均值,为便于指标间的计算和比较,对数据进行标准化处理,消除量纲:

式中:x*j为j指标的无量纲化值;xkj为k样本j指标的原始值;和sj分别为j指标的平均值和标准差;n为样本数量;p为气象指标数量。

1.3 预测模型的构建

1.3.1 主成分分析

在进行主成分分析前,首先计算各气象指标的相关系数矩阵,进行KMO 和巴特利球形检验,确保各气象指标间存在相关性和交叉关系,并且数据可信度高、效度良好。

首先计算出相关系数矩阵R,其次计算出R的特征值λ和单位正交特征向量U′,满足URU′=diag(λ1,λ2,…,λp)。根据如下模型求出主成分对应的特征值和贡献率,得到主成分方程:

式中:ai为第i主成分的方差贡献率;λi为第i主成分的相关系数矩阵特征值。

特征值与气象指标的重要程度具有紧密联系,确定主成分保留数量时,为保证提取信息的完整度,要求主成分累计方差贡献率大于80%。最终利用主成分方程计算出保留主成分在4 个地区每年的得分,将其作为BP 神经网络的输入数据。

1.3.2 BP 神经网络模型原理

神经网络是一种模仿动物神经元进行信息处理的算法数学模型。BP 网络算法包括反向传播和正向传播2 个部分,由隐含层、输出层和输入层构成,每层神经元的状态仅影响其下层的神经元[25]。首先,通过正向传播将信号从输入层传输到隐含层,并在隐含层中进行计算。然后将隐含层计算的结果传输到输出层并输出。最后将结果与期望值进行比较,通过反向传播即回溯,对误差进行修正。流程中使用的隐藏层中的函数称为激活函数。回溯的过程将会重复,每次反求时会根据最后一层的结果改变权值和阈值,以减少误差,当误差满足要求时停止计算。

1.3.3 油茶籽产量预测组合模型

在本研究中以年为研究单位,选择由17 个气象因子提取出的主成分作为输入变量,以单位面积油茶籽的产量作为输出变量。将所提取的主成分作为神经网络的输入矩阵,其隐含层的输出模型(Hj)和输出节点的输出模型(Ok)分别为

式中:h是作用函数;r是阈值;w为权重;X和T分别为输入向量。选择sigmoid 函数σ(y) = 1/(1 +e-y)作为激活函数[26]。改进后神经网络模型拓扑结构如图1所示。

图1 改进后神经网络拓扑结构Fig.1 The improved neural network topology

设置隐含层节点数量为10,选择75%的数据作为训练集,25%的数据作为测试集。通过MATLAB 软件自带的神经网络工具箱和神经网络函数构建并训练神经网络,设置训练目标误差为0.000 1,学习率为0.01,通过sim 函数进行仿真。

2 结果与分析

2.1 主成分分析结果

对1990—2019年4 个油茶主要产区气象数据进行KMO 和巴利特球形检验,结果见表1。由表1可知,KMO 值均大于0.5 且通过了可信度为95%时的巴利特球形检验,表明数据可信度较高,效度良好,各气象指标间存在相关关系。

表1 1990—2019年4 个油茶主要产区气象数据的KMO 及巴利特球形检验结果Table 1 KMO and Barit sphericity test results of meteorological data from 1990 to 2019 in four major C.oleifera producing areas

对预处理后的数据进行主成分分析,结果见表2。由表2可知,按照累计方差贡献率大于80%的原则,从4 个地区的气象指标数据中分别提取出8、9、8、8 个主成分。所提取主成分的总贡献率分别为80.56%、81.98%、80.19% 和82.32%,说明所提取的主成分携带原始数据大部分的信息,满足进一步研究的要求。

表2 1990—2019年4 个油茶主要产区气象数据的主成分分析结果Table 2 Principal component analysis results of meteorological data from 1990 to 2019 in four major C.oleifera producing areas

所提取4 个地区的主成分的特征向量载荷如图2所示。由图2可见,H1、J1、Z1 和G1 在各自的主成分中贡献率最大,从主成分特征向量系数来看,主成分H1 与6—8月平均温度、9—11月平均温度、3—5月降水量、平均露点温度、平均最大持续风速密切相关;主成分J1 与6—8月平均温度、9—11月平均温度、平均最低气温、全年日照时长、平均最大持续风速密切相关;主成分Z1与平均最低气温、全年日照时长、3—5月降水量、平均海平面气压密切相关;主成分G1 与平均最低气温、全年日照时长、平均露点温度、平均风速、平均海平面气压密切相关。

图2 1990—2019年4 个油茶主要产区气象数据主成分特征向量载荷Fig.2 Principal component eigenvector load of meteorological data from 1990 to 2019 in four major C.oleifera producing areas

2.2 BP 神经网络组合模型预测结果

将改进后的BP 神经网络组合模型与传统神经网络模型进行对比,训练集和测试集选择1990—2018年4 个地区的数据。2 个模型结构的参数见表3。由表3可知,改进后的BP 神经网络模型在迭代次数上优于传统模型,相对误差较小,拟合度较高。改进前模型平均收敛耗时为3 min 35 s,改进后为1 min 21 s。改进后的模型在遍历较少次数后即能找到较优的结果,较传统模型在油茶籽单产的预测效率和精度上有了较大的提高。4 个主要产区油茶单位面积产量的模型预测结果如图3所示。由图3可以看出模型改进前后的预测效果。

图3 4 个主要产区油茶籽单位面积产量的模型预测结果Fig.3 Model prediction results of seed yield per unit area of C.oleifera in four major producing areas

表3 传统模型和改进模型的预测效果对比Table 3 Comparison of prediction effect between traditional model and improved model

2.3 模型预测效果验证

使用原始BP 神经网络模型和改进后的模型预测2019年4 个地区的单位面积油茶籽产量,对网络模型的预测效果进行验证。由于不同研究区具有不同的生产投入、土壤情况等属性,所以不同地区模型的预测精度不同。总体来说,模型的预测精度均较高,且改进模型均优于传统模型。传统神经网络模型和改进模型对4 个产区油茶籽单位面积产量的预测结果的平均相对误差如图4所示。由图4可见,改进模型对江西地区油茶籽单位面积产量的预测效果最好,其平均相对误差为1.95%,对于广西地区的预测效果较差,但其平均相对误差仅为2.27%。改进后模型预测结果的平均相对误差均下降到3%以下,与传统模型相比,预测误差分别下降了4.70、5.72、3.91、5.90 个百分点。

图4 传统模型和改进模型对4 个产区油茶籽单位面积产量预测结果的平均相对误差Fig.4 Average relative error of prediction results of seed yield per unit area of C.oleifera by traditional model and improved model in four producing areas

2.4 模型应用

所有天气因子均为内生变量,即因子间可以相互影响[27],使用向量自回归的方法预测出2025年的天气指标值,标准化后的气象指标的预测值如图5所示。

图5 2025年4 个油茶产区气象指标标准化预测值Fig.5 Standardized forecast values of meteorological indicators in four C.oleifera producing areas in 2025

将标准化后的气象指标的预测值代入模型最终得到4 个地区2025年油茶籽的单位面积产量的预测值,如图6所示。由图6可见,2025年,湖南、江西、浙江、广西的油茶籽单位面积预测产量分别为0.831、0.583、0.449、0.512 t/hm2,油茶籽的单位面积产量预测值较目前的单位面积产量有显著提升。

图6 2025年4 个产区油茶籽单位面积产量预测值Fig.6 Predicted seed yield per unit area of C.oleifera seed in four producing areas in 2025

3 结论与讨论

本文中通过主成分分析提取出气象指标中的主成分,将其作为神经网络的输入集,建立了主成分分析与BP 神经网络组合模型,对原有BP 神经网络模型进行了改进和优化。对主成分有重要贡献的气象因子有日照时长、6—11月气温、3—5月降水量、最低气温、露点温度、平均风速、最大持续风速、海平面气压。改进后的模型改善了原有模型输入参数过多导致神经网络过于复杂、迭代时间过长的缺点,降低了无效信息的提取,极大地提高了信息利用率。将模型应用于预测湖南、江西、浙江、广西4 个地区的油茶籽单位面积产量。根据仿真结果,改进后模型收敛速度更快,效率和准确度较传统预测方法均有了大幅提升。优化后模型的平均相对误差均下降至3%以下,预测精度上升,表明主成分分析与BP 神经网络组合模型可以应用于油茶籽产量的预测。应用模型得出2025年湖南、江西、浙江、广西4 个地区的油茶籽单位面积产量较现在有显著提升,相关部门可根据模型预测结果进行相应的发展战略部署。

从4 个地区影响油茶产量的主要气象因子的主成分分析结果可知,日照时长为重要的影响因子。油茶喜欢光照充足的环境,同时油茶为虫媒授粉植物,光照的增加有利于昆虫外出活动。从物候期的角度分析,油茶果实第1 次膨大期为2—4月,果实膨大高峰期和油脂转化积累高峰期为6—11月[28],其间需要充足的水分和足够的温度来保障果实的发育,所以这一时段的气温和降水量起到至关重要的作用,适宜的温度和降水量能够提高油脂的转化率和油茶籽产量。平均最低气温也是重要的影响因素。低温会抑制花粉的开裂,导致成熟期果实偏小、产量减少53%[29]。风速过强会影响植物生长,从而间接影响产量。露点温度是空气湿度的直接反映[30]。空气湿度和气压会影响植物的蒸腾速率,制约部分植物的花药开裂、花粉萌发、授粉受精等过程[31],这些气象因子十分重要却难以控制。彭嘉栋等[28]经研究发现,湖南省油茶开花期的平均气温、果实膨大高峰期的降水日数量、油脂转化期和积累高峰期的日照时长及花芽成熟期的平均气温是影响油茶产量的主要气象因素,与本研究结果一致。目前,露点温度、风速、最大持续风速、海平面气压对油茶产量的影响尚未从生理学角度加以证明,气象因子对油茶产量的影响有待进一步深入研究。

从模型预测效果来看,改进后模型的预测效率和准确度较传统预测方法均有了大幅提升,表明主成分分析与BP 神经网络组合模型可以应用于油茶籽产量的预测。本研究中仅考虑了气象指标对油茶产量的影响,后期可以考虑研究不同地区、不同年份及不同抚育状况下油茶产量的差异,增加劳动力、农业投入等因素使预测模型更完善。本研究中未充分考虑油茶良种替代传统油茶品种,以及各级林业部门和油茶种植户积极推广应用油茶低产林改造等先进生产技术的情况,故实际油茶产量应高出预测结果,下一步应收集低产林改造方面的统计数据,进一步改进该模型。

猜你喜欢
油茶籽油茶气象
气象树
《内蒙古气象》征稿简则
霉变油茶籽对压榨油茶籽油的影响研究
大国气象
油茶籽粕中茶皂素的优化提取及抑菌活性的研究
油茶芽苗嫁接育苗技术
高产油茶的整形修剪技术
美丽的气象奇观
永胜油茶的深情厚意
“四化”举措做大做强油茶产业