摘要:黑腹果蝇侵害严重影响蓝莓产量,现已成为遏制贵州省蓝莓产业发展的主要原因之一,快速、准确预测黑腹果蝇发生有利于及时采取防控措施,但目前对蓝莓园黑腹果蝇发生预测的研究尚少。为此,本研究提出了一种蓝莓黑腹果蝇发生预测模型。首先,利用Pearson相关系数分析温度、湿度、风速等相关气候特征指标与黑腹果蝇发生的相关性:然后,利用随机森林算法选出影响黑腹果蝇发生的重要气候特征指标:最后,提出一种随机森林和长短期记忆网络相结合的虫害预测模型。将该模型与其他传统模型的预测效果进行对比,结果表明其在预测黑腹果蝇发生方面表现出良好的性能,均方根误差为2.120 3,平均绝对误差为1.865 9,决定系数为0.979 5。本研究结果可为预测黑腹果蝇发生并及时采取相应防治策略提供技术支持。
关键词:黑腹果蝇:蓝莓:虫害发生预测:随机森林:长短期记忆网络:Pearson相关系数:气候特征
中图分类号:S126:S436.63 文献标识号:A 文章编号:1001-4942(2024) 08-0158-07
近年来贵州省蓝莓产业发展迅速,栽培面积和产量均居全国首位,为贵州省带来了巨大的经济效益。但随着栽培时间的延长和栽培面积的扩大,蓝莓病虫害的发生越来越严重,贵州省蓝莓园的害虫种类多达11种,其中黑腹果蝇(Drosophilamelanogaster)是较为严重的害虫之一。黑腹果蝇的生长发育与气候条件密切相关,研究表明,16-29℃是其生长发育的最佳温度区间,当温度超出这个范围时,它的寿命会显著减短,在12℃以下或32.5℃以上几乎不可能生长发育:另外,温度对其成虫体型也有显著影响。研究人员还发现湿度对果蝇的生长发育也起着至关重要的作用,日平均湿度与其种群增长之间存在很强的正相关关系,在200%- 94%的相对湿度范围内,湿度越高,成虫的产卵量和寿命增加越显著。因此,温度和湿度可作为预测果蝇发生的基础气候条件。明确影响黑腹果蝇发生的主要气候条件,对于建立气候条件一虫害发生预测模型并提高预测准确性具有重要意义。
数据处理和分析工具的优劣影响着虫情预测的准确率,随着大数据和人工智能的快速发展,机器学习方法已被广泛应用于虫害预测。早在20世纪初,Chon等就利用反向传播神经网络(Back Propagation Neural Network,BPNN)建立了农业害虫分类的预测模型;后来,Shang等将遗传算法(Genetic Algorithm,GA)与BPNN相结合,提升了虫害预测的准确性。近年来,研究者们在虫害预测方面做了大量工作,并提出了多种预测模型,包括广义回归神经网络(GeneralizedRegression Neural Network,GRNN)、模糊神经网络(Fuzzy Neural Network,FNN)、支持向量回归(Support Vector Regression.SVR)、卷积神经网络(Convolutional Neural Network,CNN) 等。Li等提出了一种基于深度学习技术的自动检测方法,能够实时监测、识别不同种类的田间害虫,具备较高的识别和定位准确性。Li等开发了具有密度图的多分支卷积神经网络(Multi-branch Convolutional Neural Network,Mb-CNN)用于蚜虫数量估计,可以提高蚜虫在密集分布区域和重叠区域的计数精度。Xie等利用无监督特征学习方法从大量未标记的图像块中提取虫害图像的特征,优化了大多数分类方法中依赖手工提取特征的过程。
利用机器学习方法预测虫害的发生需要大量数据作为基础,而与农业环境监测技术相结合可为虫害预测提供更丰富的数据源。Xiao等在2019年利用Apriori算法发现了天气因素与棉花害虫发生之间的关联规则,并基于此建立了一个基于长短期记忆网络(Long Short-Terrn Memory,LSTM)的虫害暴发预测模型,用该模型准确地预测了未来一段时间内虫害发生的严重程度;之后,Chen等使用双向长短期记忆网络(Bidirection-al Long Short-Term Memory,Bi-LSTM)来捕捉双向信息流,可更好地了解时间序列数据的相关性,且基于Bi-LSTM的气候和大气环流预测模型能够有效地预测害虫的发生率。
目前关于贵州省蓝莓园黑腹果蝇发生预测的研究较少,在前人研究的基础上,本研究首先通过Pearson相关系数和随机森林(Random Forest,RF)算法选出影响黑腹果蝇发生的重要气候特征,然后提出一种基于LSTM网络的蓝莓黑腹果蝇发生预测模型,以期为贵州地区蓝莓园及时监测、防控黑腹果蝇发生提供技术支持。
1 材料与方法
1.1 数据来源
1.1.1 气候特征相关数据
本研究所用气候数据来自天气预报网站(http://www. wunderground.com/),该网站提供温度、湿度、风速和降水量等相关历史和最新数据。本研究选用贵州省黔东南地区2022年6月初-9月底的历史气候数据,经相应处理后将原始数据转换为每天的最高、最低和平均值,具体见表1。
1.1.2 黑腹果蝇发生数量调查
黑腹果蝇发生数量的调查地点为贵州省黔东南宣威镇蓝莓种植园,调查时间为2022年6月初-9月底。调查期间,在蓝莓植株枝条中间离地面1.2 m处悬挂1张黄色的粘虫板,两张粘虫板间距2m,10张为一组,每7天统计一次粘虫板诱捕到的黑腹果蝇数量,并及时更换新的粘虫板。统计结果(图1)显示,调查蓝莓园的黑腹果蝇发生数量呈现出先增加后减少的趋势,即6月下旬随着蓝莓进入开花期,黑腹果蝇数量逐渐增加,7月下旬进入结果期后数量迅速增加,在8月初达到峰值,之后黑腹果蝇数量逐渐减少。
1.2 气候特征指标选择
1.2.1 Pearson相关分析
气候特征与植物病虫害发生间存在着一定的关系。Pearson相关系数通常被用于分析两个连续变量之间的关系,其计算公式见式(1)。本研究首先采用Pearson相关系数来衡量各气候特征指标与黑腹果蝇发生数量之间的线性关系。
其中,xij是第i天第i个输入特征的值;xj是第j个输入特征的平均值;Yi是第i天的黑腹果蝇数量;y是黑腹果蝇数量的平均值;Pi取值范围为[-1,1]。
1.2.2 应用RF算法筛选重要气候特征指标
相关性分析对于评估变量之间的线性关系是有效的,然而当变量之间存在非线性关系时,其有效性会显著降低。因此,本研究应用RF算法进一步分析各气候特征指标对黑腹果蝇发生的影响程度,并筛选出影响显著的指标。
RF是一种利用决策树作为集成学习基础模型的机器学习算法,具有很高的鲁棒性,对噪声数据和异常值不敏感,具有强大的复杂多维特征分析能力。用RF评估特征重要性的标准是准确度的平均降低(Mean Decrease Accuracy,MDA),基本思想是使用噪声数据来替换与特定特征相对应的样本数据,并用袋外(Out of Bag,OOB)数据(决策树构建中未使用的数据)计算预测误差。特征在模型构建中的重要性越高,用噪声数据替换特征后预测误差的增加就越大。使用RF评估特征重要性的具体步骤:
①应用自举采样方法,通过对原始样本集进行重新采样来生成n个新的样本集,每个样本集用于训练决策树Tb,并将对应的OOB数据表示为LbOOB;
②使用决策树Tb对OOB数据进行预测,并将预测误差记录为EOOB;
③将OOB数据中的特征xi(i=l,2,…,m,其中m是特征总数)替换为噪声,然后使用Tb对修改后的OOB数据进行预测,并将所得到的预测误差表示为Eri OOB。特征xi的重要性计算如下:
本研究使用RF算法计算出每个气候特征指标的重要性度量EMDA,然后按降序对其进行排序,选出排名前50%的气候特征指标构建特征变量子集,用于建立预测模型。
1.3 RF-LSTM模型构建
LSTM是一种特殊类型的递归神经网络(Re-current Neural Network,RNN)结构,由Hochreiter和Schmidhuber于1997年首次提出。LSTM结合了存储单元和门机制,能够更有效地捕获和处理时间序列数据中的长期依赖关系。LSTM单元的核心组成部分是细胞单元状态,它可以在不同的时间步长上携带信息。在每个时间步长,LSTM通过遗忘门(Forget gate)、输入门(lnput gate)和输出门(Output gate)三种门机制控制信息流。LSTM的结构单元如图2所示。
遗忘门负责决定从细胞状态中丢弃哪些信息,该过程将前一个时间步长(或输入)的隐藏状态与当前时间步长的遗忘门权重相乘,通过Sig-moid函数得到结果:
ft=σ(Wf·[ht-1,xt]+bf)。(3)
输入门确定哪些新信息应该被添加到细胞单元状态,使用Sigmoid函数来确定应该更新哪些信息:
it=σ(Wi`[ht-1,xt]+bi);(4)
并使用tanh函数来计算新的候选值:
Ct =tanh(Wc·[ht-1,xt]+bc);(5)
然后,遗忘门的输出与上一个时间步长的细胞单元状态相乘,输入门的输出与新的候选值相乘,两者相加的结果为当前时间步长的细胞单元状态:
Ct=ft·Ct-1+it·Ct。(6)
输出门确定在当前时间步长应该输出什么信息,使用Sigmoid函数来确定应该输出细胞状态的哪些部分:
Ot=σ(Wo·[ht-1,xt]+bo);(7)
并使用tanh函数缩放细胞单元状态:
ht=Ot·tanh(Ct)。(8)
式中,ft、it、Ot分别是遗忘门、输入门、输出门的输出问题;xt表示输入序列;σ是Sigmoid函数;tanh是双曲正切函数;Wf、Wi、Wo和WO分别是与遗忘门、输入门、当前时间步长的候选细胞状态和输出门相对应的权重矩阵;bf、bi、bc和bo分别是遗忘门、输入门、当前时间步长的候选细胞状态和输出门的偏置向量;Ct表示当前时间步长的候选细胞状态;Ct-1和ht-1分别表示前一时间步长的细胞状态和输出向量;Ct和ht分别表示当前时间步长的细胞状态和输出向量。
RF-LSTM首先通过RF评估各个输入特征的重要性,从而选出重要特征,构建最具预测能力的特征子集,以降低过拟合风险,提高模型的解释性:然后将挑选出的特征输入到LSTM中,以捕获其中的复杂关系,达到预测虫害发生的目的。因此,RF-LSTM模型既能充分利用RF的特征选择能力,又能充分发挥LSTM在虫害预测建模方面的优势,在保留关键信息的同时提高预测的准确性和稳定性,从而实现更高水平的预测性能。
RF-LSTM预测模型的工作流程如图3所示。使用Pearson相关系数分析计算气候特征指标与虫害数据之间的相关性后,使用RF算法通过特征重要性排序选出影响虫害发生的重要气候特征指标:然后对预处理后的气候特征指标和虫害数据进行数据分析,包括去除异常值、插补缺失值、标准化和归一化过程:将处理后的数据分为训练集和测试集,使用训练集对LSTM模型进行训练,训练完毕就可以使用测试集预测害虫的发生,而预测结果又会被反馈到模型评估过程中,用于模型的改进。
1.4 模型性能评估指标
为了有效地评估预测模型的性能,选择机器学习回归算法预测中常见的三种评估指标:决定系数(R2)、均方根误差(RMSE)、平均绝对误差(MAE)。公式如下:
其中,fi是i预测节点预测值;yi是i预测节点的实际值;yi是实际值的平均值;RMSE表示RMSE;MAE表示MAE。
2 结果与分析
2.1 LSTM网络参数的设置
为了测试所提出模型的准确性和泛化能力,随机选择数据集中70%的数据来训练LSTM网络并确定网络参数。首先将LSTM中隐藏单元的数量、全连接通道的数量均设为1,进行网络初始化。然后进行如下实验:
(1)分别设置隐藏单元数为4、8、16、32,比较隐藏单元数量不同时的模型预测性能。如表2所示,当隐藏单元数为16时,模型表现最好,R2最高,而RMSE和MAE最低:而设置更多的隐藏层并不总能带来更好的性能,这可能是因为更多的隐藏层会导致结果不稳定。因此,在下面的实验中将隐藏单元的数量设置为16。
(2)在上一步实验的基础上,分别设置全连接通道数为1、2、3,比较全连接通道数量不同时的模型预测性能。如表3所示,随着全连接通道数的增加,模型的预测误差增加,模型拟合度降低,当全连接通道数为1时模型表现最好。这可能是因为全连接层的通道数多会导致由于数据集有限而造成的对较大权重的训练不足。因此,在下面的实验中将全连接通道的数量设置为1。
(3)在确定上述两个参数后,调整其他参数:学习率(learningrate)设置为0.001,批量大小(batch size)设置为32,丢弃率(dropout rate)设置为0.1。在网络训练过程中,使用Adam算法更新所提出的深层结构中的网络。
2.2 与黑腹果蝇发生相关的重要气候特征选择
本研究使用Pearson相关系数和RF算法对气候特征指标进行了冗余特征筛选。Pearson相关分析结果如表4所示,可见,有关温度、露点温度的特征指标与黑腹果蝇发生均呈中等相关关系,夜间相对湿度、最大风速、平均湿度则呈弱相关关系,其余特征呈微弱相关或无相关关系。
进一步通过RF算法对气候特征指标的重要性进行排序,将决策树的数量设置为20,最小叶大小设置为5,所得重要性排序结果如图4所示。可以看出,排名前6的特征分别为maxT、RH2、meanT、minDP、meanDP、minWS,表明这些气候特征指标能够显著影响黑腹果蝇的发生,特别是日最高温度(maxT),其重要性位列第一,说明其可能是影响黑腹果蝇发生的主导因素。
RF的优势在于其对异常值和缺失值的鲁棒性,以及处理高维数据和非线性关系的能力,这可以补充Pearson相关分析的局限性。综合两种方法的结果,我们选取特征重要性排名前6的气候特征指标作为输入特征。
2.3 RF-LSTM模型性能评价
2.3.1 RF-LSTM模型预测结果
用测试集样本验证RF-LSTM模型预测性能,结果如图5所示,预测值曲线可以很好地对真实值曲线进行拟合,最高误差保持在个位数以内,达到了预期的精度。
2.3.2 RF-LSTM与其他模型的对比分析
与原始LSTM模型相比,改进后的RF-LSTM模型在3个评估指标上都表现出更优的结果,且模型训练时间缩短1.568 s(表5)。表明本研究提出的RF -LSTM模型在预测蓝莓园黑腹果蝇发生方面更可行、有效。
将RF-LSTM与3种经典机器学习网络模型(BPNN、SVR和CNN)的预测效果进行比较,结果见表6。其中3种经典模型的参数设置如下:对于BPNN,隐藏层数为8,学习率为0.01,误差阈值为10-6:对于SVR,核函数选择径向基函数,gamma参数设置为0.8,惩罚因子设置为2.0;CNN由两个连续的卷积池模块和一个全连接层组成,两个卷积层的核大小均为3xl,激活函数使用ReLU函数。可以看出,本研究提出的RF - LSTM模型的RMSE为2.120 3,MAE为1.865 9,R2为0.979 5,均明显优于3种经典模型,表明本研究提出的预测模型对黑腹果蝇的发生具有较好的预测性能,可用于预测蓝莓园黑腹果蝇的发生。
3 结论
本研究首先利用Pearson相关系数分析气候特征指标与黑腹果蝇发生数量的相关性,然后用RF算法计算各指标的重要性并排序,选出对黑腹果蝇发生有重要影响的6个指标作为LSTM网络的输入特征,从而构建了蓝莓园中黑腹果蝇发生的预测模型RF - LSTM。用测试集数据对模型的预测效果进行验证,结果显示其RMSE为2.120 3,MAE为1.865 9,R2为0.979 5,均优于LSTM、BPNN、SVR、CNN,表明该模型具有优越的预测性能,可以根据气候特征预测蓝莓园黑腹果蝇的发生,有助于农户及时采取防控措施,保护蓝莓生产。
黑腹果蝇的发生受到多种因素的影响,但本研究仅考虑了气候因素,这使得黑腹果蝇发生的数据集输入特征不够全面。在今后的研究中,我们将进一步丰富数据集涵盖的信息,如病虫害发生周期等,优化预测模型,提高预测的准确性,以更好地为及时制定病虫害防治策略提供技术支撑。
基金项目:国家自然科学基金项目(62003106);贵州省科技支撑计划项目(黔科合支撑[2022]一般133);贵州省科学技术基金项目(黔科合基础-ZK[2021] 一般321)