基于多原型指导的小样本水稻害虫识别与分类

2023-12-02 07:26李军李志伟李艳红

江苏农业科学 2023年20期

李军　李志伟　李艳红

摘要：精确识别与分类复杂场景下水稻害虫对水稻病害治理与产量提升具有重要的研究意义，提出一种基于多原型指导的小样本水稻害虫识别与分类模型。首先，利用Vision Transformer网络作为主干网络进行特征映射，将水稻害虫图片映射到深度特征空间；其次，利用可微分的超像素聚类算法实现深度特征图中类特定原型的聚类分组，构造水稻多类型害虫的特征表达；再次，提出一种双通道特征融合注意力模块实现水稻害虫支持特征和查询特征的深度融合；最后，利用无参数的度量学习算法计算待测水稻病虫害图片特征与深度融合特征之间的距离，根据距离值实现待测病虫害图片的识别与分类。试验结果表明，所提出的水稻害虫识别模型可以实现0.955的识别准确率、0.941的精确率、0.949的召回率和0.962的F1值，与AlexNet、ResNet、YOLO v5、Vgg-16、Inception v3和LeNet5等模型相比，所提出模型的各项指标表现良好。该方法的提出为农作物害虫的智能化识别提供了新的思路。

关键词：水稻；害虫识别；多原型；小样本学习；超像素聚类；注意力机制

中图分类号：TP391.41文献标志码：A

文章编号：1002-1302（2023）20-0193-08

水稻是中国乃至世界的主要粮食作物之一，随着全球气候变暖，农作物病虫害发病率逐年上升，严重影响了农作物的产量和质量［1］。因此，研究水稻病虫害的定位与识别，可以及时预防病虫害对农作物的破坏，对提高农作物的产量和质量具有重要的意义。

传统的水稻病虫害检测工作主要依靠人工经验完成［2-4］，该类方法虽然可以实现部分病虫害的定位与识别，但费时费力、主观性强、效率低、识别精度不高。之后，随着机器学习技术在圖像处理领域的成功应用，利用K最近邻算法［5］、支持向量机［6］、决策树算法［7］和随机森林［8］等机器学习模型构造农作物病虫害图片的纹理、颜色、形状等特征的决策模型，并在各类农作物病虫害测试数据集中验证了模型的有效性。然而，该类基于机器学习算法的农作物病虫害识别模型的性能主要依赖人工提取的各种分类特征或复杂的图像特征提取算法；然而，农田环境复杂，并非单一的农作物；此外，利用人工拍摄的方式难以将水稻病虫害的颜色和纹理等特征与其他非病虫害区分［9］。因此，基于机器学习算法的农作物病虫害识别模型的性能局限，难以满足实际生产中的高要求。

近年来，随着计算机视觉技术的快速发展，将深度学习的相关技术应用到农作物病虫害检测任务中成为智慧农业领域的热点研究课题［10-11］。此外，深度学习网络可以自动逐层编码压缩感知农作物病虫害图片的深度特征，根据提取的特征进行下游水稻病虫害的定位与识别。如梁勇等利用YOLO v5设计了一种多源数据集的水稻病虫识别模型，对不同采样场景的测试图像中进行了测试，验证了所提出模型的性能［12］。曾伟辉等针对现有识别模型识别精度低的问题，提出了一种低分辨率的水稻病虫害识别模型，通过利用生成对抗网络对低分辨率图片进行数据增强，并借助注意力机制强化了模型对于目标区域的定位精度［13］。Li等以无人机采集的水稻图像为数据源，将胶囊网络应用到水稻图像的定位与识别任务中［14］。肖小梅等针对传统机器学习算法主观性强和特征提取过程复杂的问题，通过在每个卷积层后加入归一化层对AlexNet网络进行改进，并将其应用到水稻病虫害图像识别任务中，通过在自采集的数据集上进行测试，验证了所提出模型的有效性［15］。虽然上述模型均可以自动实现水稻病虫害的定位与识别，但模型的参数量较大，导致识别开销较大，不符合实际生产中对于实时性的要求。为此，Rahman等通过利用深度可分离卷积对卷积神经网络进行改进，构造了一种轻量级的水稻病虫害识别模型，通过降低模型参数来缓解时间开销大的问题［16］。之后，鲍文霞等针对同样的问题，设计了一个融合局部和全局多尺度特征的轻量级残差网络的水稻病虫害识别模型，通过增加卷积层数和分支数来提高特征的表达能力，在多种病虫害识别数据集中验证了所提出算法的有效性［17］。

虽然上述基于深度学习模型的水稻病虫害定位与识别模型取得了新的突破，但模型的性能仍然依赖训练数据集样本的个数。然而，田间环境下，水稻害虫易动，难以近距离拍摄，并且水稻病虫害类型多，无疑给数据采集人员造成了极大的难度，导致数据采集成本较高。针对上述问题，受小样本学习的启发，本试验利用小样本学习网络构建了一种新的水稻病虫害识别与分类模型。首先，利用Vision Transformer网络将水稻病虫害图片映射到深度特征空间；其次，利用可微分的超像素聚类算法构造不同块、不同区域的超像素，用于表示水稻病虫害的语义类；最后，设计了一种双通道特征融合注意力模块，实现支持图片和查询图片特征的深度融合，利用目标任务强化特征的表达能力。

1 小样本水稻害虫识别与分类模型

1.1 任务定义

小样本学习网络旨在利用少量带标签的图片实现大规模数据集相近的性能。现有小样本学习网络大多采用Episodic的训练机制［18］，即将整个数据集划分为Base集和Novel集，并在Base和Novel集中利用相同的学习机制实现支持图片指导查询图片的学习过程。假设Base集为Dbase={（Dbasesi，Dbaseqi）Li=1}，Novel集为Dnovel={（Dnovelsj），Dnovelqj}Kj=1，其中Dbasesi表示Base集中的第i个支持集；Dbaseqi表示Base集中的第i个查询集；Dnovelsj表示Novel集中的第j个支持集；Dnovelqj表示Novel集中的第j个查询集。此外，Base集中的支持集 Dbasesi={Ibases，Lbases}和查询集Dbaseqi={Ibaseq，Lbaseq}由支持图片和标签组成；类似地，Novel集的支持集和查询集由支持图片和标签组成，但对于查询集Dnovelqj，标签仅用于测试阶段的模型损失计算。

1.2 络模型结构

所提出模型的识别与分类流程如图1所示。首先，利用Vision Transformer网络实现水稻病虫害图片的窗口划分，并采用Vision Transformer编码器将支持图片和查询图片映射到深度特征空间；其次，改进传统不可微分的超像素聚类算法为可微分算法，便于深度网络进行端到端训练，并将改进后的超像素聚类算法用于生成水稻病虫害的类特定原型；再次，提出一种新的双通道特征融合注意力模块，利用查询图片携带的目标任务特征来强化类特定原型的表达能力；最后，借助无参数度量学习算法逐位置对待测的查询图片进行距离计算，根据距离值快速识别与分类待测水稻病虫害图片的类型。

1.3 水稻害虫害图片特征提取

近年来，Vision Transformer（ViT）［19］因其对图片中像素点位置的编码能力、区域间目标信息的关联学习能力，在语义分割、目标检测和语义理解等任务中被广泛应用。本试验尝试将ViT应用到农业病虫害检测任务中，尤其考虑到ViT对本研究的水稻病虫害小目标区域的特征捕获能力，通过利用ViT的编码块将水稻病虫害图片映射到深度特征空间。具体地，为了细粒度地捕获输入图片的细节和边缘信息，首先对水稻病虫害图片Is∈RH×W×C进行分块处理，将Is展开成一个大小为Isp∈RN×（P2×C）的图像块序列；其中P2为图像分辨率，N=HW/P2表示整张图像分块的个数。然后，将每一展开后的图像块进行线性变换，并嵌入图像块的类标签信息和分块后图片的位置编码信息。最后，整合所有信息，作为ViT编码器的输入，ViT编码块结构如图2所示，具体计算如公式（1）所示。

（1）

其中，Iclass为图像块类标签信息，E∈R（P2×C）×D表示线性变换矩阵，Epos∈R（N+1）×D表示位置编码。

ViT编码块主要由多头注意力机制（Multi-Head Attention，MHA）和感知机（Multilayer Perceptron，MLP）交替连接组成，在特征提取过程中，多头注意力MHA经过迭代L次获得特征图Zi′；然后，经过多层感知机MLP与标准化操作后得到更新后的特征图ZL，即水稻病虫害图片的映射特征。具体计算如公式（2）和（3）所示。

1.4 类特定原型生成

大多现有模型通过利用水稻病虫害图片的全局特征进行建模；然而，相对整张图片，病虫害占据区域比例较小，极易造成病虫害的漏报与误报。为此，在图像分块处理的基础上，利用超像素聚类算法构造不同区域、不同块的超像素，利用超像素表示当前块的类特定原型，这有助于模型对于小目标或小区域目标的识别性能。此处，选择文献［20］改进的可微分超像素聚类算法，便于深度网络进行端到端训练。具体流程如下：

（1）假设支持图片Is的序列特征为ZL，类标签信息为Iclass，初始化的超像素种子节点为S0。

（2）计算每个像素p和超像素种子节点Si之间的关联，计算如公式（4）所示。

（3）更新超像素质心，计算如公式（5）所示。

通过迭代计算超像素与像素之间的距离，获得最终的Nsp个超像素，即Nsp个类特定原型。超像素聚类的计算流程如图3所示。

传统聚类算法对于种子节点的选择按照均匀划分的策略，即大小为H×W的图片被均匀划分为m个大小为h×w的网格，选择每个网格的中心作为超像素；然而，考虑到水稻害虫目标小、区域占比小等因素，借鉴MaskSLIC算法对于种子节点的选取规则，即利用目标识别算法首先粗略确定目标，并在目标区域进行超像素聚类，极大地减少背景噪声信息的干扰，有效提高目标的识别。

1.5 双通道特征融合注意力

在小样本学习网络中，查询分支的输入为待识别的目标任务，如何充分利用目标任务信息可以有效提升模型对水稻病虫害的识别性能。此处，本研究提出一种双通道特征融合注意力网络，将支持分支捕获的类特定原型与目标直接关联的查询分支特征进行深度融合，提高特征的區分能力，特征融合流程如图4所示。

考虑到通道注意力机制有选择性地关注水稻病虫害目标的位置信息，首先将ViT映射的支持特征ZqL与类特定原型S进行拼接，并利用大小为1 ×1的卷积进行尺度融合得到标准化后的特征图FZS；然后，采用平均池化操作获得特征图的全局表示，并借助sigmoid函数计算通道维度的注意力权重矩阵，计算如公式（6）和（7）所示。

式中：wca表示通道维度的权重注意力矩阵；conv1×1（·）表示1×1的卷积操作，apool（·）表示平均池化操作。

空间注意力机制通过聚焦特征图中像素间的关联来强化目标的特征表达。此处，首先采用余弦相似度计算实现多原型与查询特征之间的关联性度量，并过滤背景信息的干扰，提高模型的识别性能；空间注意力权重矩阵计算如公式（8）所示。

然后，对通道注意力权重矩阵和空间注意力权重矩阵进行对应位置乘法运算，获得最终的融合注意力权重矩阵；最后，将类原型特征表达与查询特征分别与注意力权重矩阵进行加权重组，获得最终的融合特征F。具体计算如公式（9）和（10）所示。

1.6 度量学习

为了减少模型参数、降低时间开销、防止模型过拟合，利用无参数的度量学习直接计算待识别水稻病虫害图片映射特征与带标签的支持特征之间的距离，此处采用余弦相似度作为特征间的度量方法。

首先，利用ViT将待识别的查询图片映射到深度特征空间；然后，利用余弦相似度逐位置计算映射的查询特征ZqL与双通道融合特征F之间的相似度值，并借助Argmax函数获得每个位置处的最大值；最后，将所有位置的结果进行拼接，得到水稻病虫害的识别结果。具体计算如公式（11）和（12）所示。

式中：cos（·）表示余弦相似度函数；Θ（·）表示拼接函数，h和w表示特征图的长和宽；此外，为了优化多原型指导的小样本水稻害虫识别模型的性能，采用交叉熵损失函数进行损失计算，根据损失值端到端优化模型。

2 试验结果与分析

2.1 试验环境与评价指标

试验环境选择64位Windows 10操作系统，40 GB NVIDIA A100 GPU，PyTorch版本为1.11，Python选择3.9，CUDA版本为11.6。初始学习率为1×10-3，batch大小为6。为了防止模型过拟合，选择Dropout为0.8。图5给出了模型在训练阶段Support集和Query集上的损失和准确率变化曲线；可以看出，大约经过80个Epoch后模型基本收敛，此时对于水稻病虫害的识别准确率大约为95%，损失值也达到了最低；为此，选择Epoch为80，并且所有试验均在Epoch为80的基础上进行。

使用准确率（Accuracy，Acc）、精确率（Precision，P）、召回率（Recall，R）和F1得分来评估所提出模型对于水稻病虫害的识别性能，计算方法如公式（13）至公式（16）所示。

式中：TP表示模型预测为正的样本数，TN表示模型预测为负的样本数，FN为错误地将样本预测为负的样本数，FP表示错误地将样本预测为正的样本数。

2.2 数据集介绍

选择当前主流模型使用的开源水稻害虫数据集IP102，该数据集包括102种水稻害虫，总共包括75 000张图片。本试验选取其中6种害虫作为训练集，4种害虫作为测试集，每种害虫选择400张图片。数据集中部分图像可视化如图6所示。

2.3 检测结果与分析

为了验证所提出模型的性能，选择当前主流的目标检测模型AlexNet、ResNet、YOLO v5、Vgg-16、Inception v3和LeNet5，并在相同的数据集和评价指标下进行对比分析，结果如表1所示。此外，为了直观展示本模型对于每种测试水稻害虫图片的识别结果，绘制图7所示的混淆矩阵。其中0表示稻赤斑沫蝉、1表示黄脊蝗、2表示鹿蛾、3表示稻水象甲，对角线上的结果表示模型正确预测的数量。

由表1可以看出，与当前经典的目标检测模型相比，所提出模型在准确率、召回率和F1值上均有所提升。在准确率方面，本模型可以获得0.955的得分，相比LeNet5模型，提升了0.9%；在精确率方面，本模型实现了0.941的得分，相比Inception v3模型，提升了0.3%；虽然在召回率方面，本模型相比LeNet5有所下降，但相比Inception v3和ResNet模型，提升了1.0%；在F1值方面，本模型实现了0.962的得分，相比所有对比模型，优势明显。究其原因是：（1）本模型直接利用目标任务来强化特征的表达能力，并从双通道维度进行特征增强；（2）在小样本学习网络的基础上，采用超像素聚类算法生成多个细粒度类原型，有效强化了小目标物体的识别能力；（3）利用的无参数度量学习可以有效减少信息丢失或歧义的问题。

图8给出了所提出模型对常见水稻病虫害的泛化性测试试验，可以看出，所提出模型整体識别精度良好，尤其是对于图8-a和图8-c中的小目标物体仍然可以保持较高的识别精度，验证了本设计模型的合理性。此外，为了进一步验证所提出模型对更具挑战性样本（缺陷、低能见度）的测试性能，进行了图9所示的测试试验。可以看出，所提出模型对于田间环境中更复杂的场景，包括水稻害虫部分遮挡样本、可见度不强样本的测试，所提出模型的平均检测精准率可以达到92.47%，对遮挡样本可以实现93.63%的测试精度，对低能见度样本可以实现91.30%的测试精度。从试验结果中可以看出，能见度对于模型检测性能的干扰程度较大，主要原因是光照因素会导致病害区域的颜色发生变化。此外，虽然缺陷类也会影响模型性能，但目标区域的整体特征依然存在，虽有影响，但影响不大。总的来说，模型整体鲁棒性和泛化性能较好，可以为实际场景中对水稻病虫害检测提供一定的指导。

2.4 实时性对比与分析

为了测试所提出模型的时间开销，分别选择当前主流的水稻病害检测模型AlexNet、ResNet、YOLO v5、Vgg-16、Inception v3和LeNet5。对比结果如图10所示。

可以看出，本模型在测试数据集上可以实现 41.9 s 的测试时间开销，相比所有对比模型中时间开销最低的Inception v3模型，降低了9.2 s，优势明显。究其原因是在特征匹配阶段，所提出模型采用了无参数的度量学习工具（余弦相似度），即通过计算待测试图片的深度映射特征与所学病害区域类的特定语义表示之间的相似度来实现待测图片病害的定位与识别，该阶段无任何可学习的参数参与，有效降低了时间开销；其次，在特征提取阶段，无论支持分支还是查询分支，均采用了预训练的主干网络，进一步降低了模型的时间开销。

2.5 消融试验

为了分析不同模块对于基于多原型指导的小样本水稻害虫识别模型的性能，进行表2所示的消融试验。特别地，此处选择单一的ViT映射特征和查询特征之间的度量计算流程作为基线模型。可以看出，相比基线模型，引入超像素聚类算法提升了11.9百分点的准确率、19.1百分点的精确率、18.9百分点的召回率和12.2百分点的F1。类似地，虽然引入单一的通道注意力或空间注意力可以进一步提高模型的识别性能；然而，模型的最佳识别性能是综合超像素聚类、通道注意力和空间注意力，通过深度聚焦目标任务和查询特征之间的关联，强化了模型的识别性能。

3 结论

提出了一种基于多原型指导的小样本水稻病害识别模型，经过试验得到如下结论：

（1）针对传统水稻病害虫识别模型精度低的问题，在小样本学习网络双分支指导策略的基础上，引入超像素聚类算法生成多个细粒度原型，利用多个原型逐像素度量待测图片的映射特征，有效缓解了水稻病害虫目标小导致信息丢失的问题。

（2）为了进一步挖掘目标任务和支持特征的关联，采用双通道特征融合注意力网络深度融合双分支的映射特征，有效强化了特征的表达能力。

（3）结果表明，所提出的水稻病虫害识别模型表现出了较好的性能，平均准确率达到了0.955、精确率达到了0.941、召回率达到了0.949、F1值达到了0.962，优于AlexNet、ResNet、YOLO v5、Vgg-16、Inception v3和LeNet5等经典目标检测模型。

参考文献：

［1］Li D S，Wang R J，Xie C J，et al. A recognition method for rice plant diseases and pests video detection based on deep convolutional neural network［J］. Sensors，2020，20（3）：578.

［2］Yang G F，Chen G P，Li C，et al. Convolutional rebalancing network for the classification of large imbalanced rice pest and disease datasets in the field［J］. Frontiers in Plant Science，2021，12：671134.

［3］Li L L，Zhang S J，Wang B. Plant disease detection and classification by deep learning-a review［J］. IEEE Access，2021，9：56683-56698.

［4］Kharim M，Wayayok A，Abdullah A，et al. Predictive zoning of pest and disease infestations in rice field based on UAV aerial imagery［J］. The Egyptian Journal of Remote Sensing and Space Science，2022，25（3）：831-840.

［5］Larijani M，Asli A，Kozegar E，et al. Evaluation of image processing technique in identifying rice blast disease in field conditions based on KNN algorithm improvement by K-means［J］. Food Science & Nutrition，2019，7（12）：3922-3930.

［6］Xiao D Q，Feng J Z，Lin T Y，et al. Classification and recognition scheme for vegetable pests based on the BOF-SVM model［J］. International Journal of Agricultural and Biological Engineering，2018，11（3）：190-196.

［7］Chen J，Lian Y，Li Y M. Real-time grain impurity sensing for rice combine harvesters using image processing and decision-tree algorithm［J］. Computers and Electronics in Agriculture，2020，175：105591.

［8］Sangeetha T，Lavanya G，Mythili K，et al. Detection of pest and disease in banana leaf using convolution Random Forest［J］. Test Eng Manag，2020，83：3727-3735.

［9］Sun D Q，Rickaille M，Xu Z G. Determinants and impacts of outsourcing pest and disease management：evidence from Chinas rice production［J］. China Agricultural Economic Review，2018，10（3）：443-461.

［10］He Y，Zhou Z Y，Tian L H，et al. Brown rice planthopper （Nilaparvata lugens Stal） detection based on deep learning［J］. Precision Agriculture，2020，21（6）：1385-1402.

［11］衛雅娜，王志彬，乔晓军，等. 基于注意力机制与EfficientNet的轻量化水稻病害识别方法［J］. 中国农机化学报，2022，43（11）：172-181.

［12］梁勇，邱荣洲，李志鹏，等. 基于YOLO v5和多源数据集的水稻主要害虫识别方法［J］. 农业机械学报，2022，53（7）：250-258.

［13］曾伟辉，张文凤，陈鹏，等. 基于SCResNeSt的低分辨率水稻害虫图像识别方法［J］. 农业机械学报，2022，53（9）：277-285.

［14］Li Y，Qian M Y，Liu P F et al. The recognition of rice images by UAV based on capsule network［J］. Cluster Computing，2019，22：9515-9524.

［15］肖小梅，杨红云，易文龙，等. 改进的Alexnet模型在水稻害虫图像识别中的应用［J］. 科学技术与工程，2021，21（22）：9447-9454.

［16］Rahman C，Arko P，Ali M，et al. Identification and recognition of rice diseases and pests using convolutional neural networks［J］. Biosystems Engineering，2020，194：112-120.

［17］鲍文霞，吴德钊，胡根生，等. 基于轻量型残差网络的自然场景水稻害虫识别［J］. 农业工程学报，2021，37（16）：145-152.

［18］Chang Z B，Lu Y G，Wang X W，et al. MGNet：Mutual-guidance network for few-shot semantic segmentation［J］. Engineering Applications of Artificial Intelligence，2022，116：105431.

［19］Han K，Wang Y H，Chen H T，et al. A survey on vision transformer［J］. IEEE Transactions on Pattern Analysis and Machine Intelligence，2022，45（1）：87-110.

［20］Li G，Jampani V，Sevilla-Lara L，et al. Adaptive prototype learning and allocation for few-shot segmentation［C］//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition，2021：8334-8343.

收稿日期：2023-01-30

基金項目：山西省重点研发计划（编号：201903D211005）。

作者简介：李军（1981—），男，山西泽州人，硕士，讲师，研究方向为农业工程。E-mail：lijun198060@163.com。