基于多尺度注意力U-Net的结球甘蓝青虫检测方法

2023-11-25 06:58齐国红许新华师晓丽
江苏农业学报 2023年6期
关键词:青虫结球甘蓝

齐国红, 许新华, 师晓丽

(郑州西亚斯学院电子信息工程学院,河南 郑州 451150)

结球甘蓝青虫检测是青虫防治的前提,但由于田间青虫的形状、姿态变化多样,青虫与环境背景差异较小,使得田间青虫准确检测成为现阶段一个重要的研究课题[1-2]。很多特征提取方法能够应用于害虫识别[3]。Martineau等[4]探讨了关于昆虫分类的44项研究,包括害虫图像采集、图像特征提取与选择以及害虫分类与识别等处理方法。Ebrahimi等[5]提出了一种基于改进支持向量机(Support vector machine,SVM)的害虫分类方法,该方法利用害虫图像的大直径与小直径之比,以及颜色特征构建SVM结构,取得了较高的识别率。传统的基于图像预处理和特征提取的害虫检测与识别方法的准确性、泛化能力较低,主要原因是田间害虫在不同时期具有不同的表象,以及害虫形状、大小、姿态、位置变化很大。

深度学习被广泛应用于复杂图像的分割、检测和识别等方面[6]。Li等[7]介绍了一种基于改进GoogLeNet模型的作物害虫识别方法,该方法对农田背景下害虫的分类结果优于原始的GoogLeNet模型。Xia等[8]利用卷积神经网络(CNN)进行昆虫多分类研究。Liu等[9]将模块通道-空间注意、区域建议网络和位置敏感评分图结合,提出了一种基于改进卷积神经网络(Improved convolutional neural network,ICNN)的多类害虫检测分类算法。Wang等[10]建立了一个大规模标准化农业害虫数据集Pest24,包含24种害虫,25 378幅野外害虫标注图像,并采用快速区域卷积神经网络(Faster RCNN)、单次多目标检测器(SSD)、YOLOv3、级联卷积神经网络(Cascade R-CNN)等深度学习模型进行作物害虫检测。张博等[11]提出了一种基于空间金字塔池化和改进YOLOv3相结合的作物害虫识别方法,该方法结合上采样和卷积实现反卷积,使YOLOv3能够有效检测农作物中的小害虫。

以上基于CNN及其改进网络模型的检测方法需要大量训练样本,并且训练时间很长。U-Net是一种改进的CNN结构,在医学图像检测和分割任务中取得了明显效果[12]。空洞Inception可以在不增加网络参数和不损失空间分辨率的情况下扩大卷积层的感受野,能够减少CNN中池化操作造成的特征损失[13],被应用于图像识别以及作物病害检测中[14]。将注意力引入到深度学习模型中,能够加快深度学习网络训练并且克服梯度消失问题[15-16]。超像素聚类方法利用图像的灰度、颜色、纹理和形状等特征将图像划分为几个区域,以使每个点到聚类中心的平均值最小化,为后续的图像特征提取及其检测、识别任务提供一种紧凑的图像数据表示,能够极大降低后续图像处理的复杂度[17-19]。本研究拟构建基于多尺度注意力U-Net(MSAU-Net)的结球甘蓝青虫网络检测模型,在U-Net中引入多尺度空洞Inception提取多尺度特征,并通过注意力将MSAU-Net同层的浅层、深层特征进行拼接,得到结球甘蓝青虫图像的关键特征,减少计算量,加速网络训练,最后在结球甘蓝青虫图像数据集上进行试验,以期能够有效检测大小不同的结球甘蓝青虫。

1 材料与方法

1.1 图像采集与扩充

结球甘蓝青虫是一种比较常见的对结球甘蓝质量、产量影响较大的害虫。在中国陕西省宝鸡市农业科学研究所结球甘蓝试验基地采集结球甘蓝青虫图像250幅,包含不同尺度、不同场景、不同背景、不同图像分辨率下的结球甘蓝青虫图像,部分青虫图像如图1所示。图像的分辨率约为4 928×3 264像素,利用物联网得到的视频图像每帧1 920×1 080像素。图1显示,结球甘蓝青虫的形状、颜色、大小、姿态和方向随机变化,图像中青虫的尺寸相对较小。

图1 姿态、颜色、形状、大小和背景等不同的结球甘蓝青虫

由于所收集的青虫图像有限,只有250幅,对每幅图像进行图像扩充以增加样本数量。考虑到图像变形、图像含噪声以及图像的拍摄角度不确定等常见问题,通过以下方法对图像进行扩充:(1)分别将每幅图像旋转45°,得到4幅扩充图像;(2)将盐和胡椒噪声添加到图像,得到10幅扩充图像;(3)采用裁剪操作将每幅青虫图像裁剪成不同的尺度,得到6幅扩充图像。经过图像扩充后,每幅原始图像均生成20幅扩充图像,共得到5 000幅扩充图像,由此构建一个包含5 250幅青虫图像的扩展数据集。1幅图像的20幅扩充图像如图2所示。

图2 1幅结球甘蓝青虫图像的20幅扩充图

1.2 试验方法

(1)

(2)

DS=dLab+(β/S)·dxy

(3)

式中,1≤β≤20用于控制超像素的紧致性,β越大说明生成的超像素形状越规则,则空间邻近性集群越紧凑;DS越大则类似度越低。

SLIC的具体步骤如下:

步骤一:通过在规则网格S上采样像素来初始化聚类中心Ck=(Lk,ak,bk,xk,yk);

步骤二:K个超像素聚类中心被移动到3×3邻域的最低梯度位置,以避免将它们放置在边缘或有噪声的像素上。图像梯度计算如下:

G(x,y)=‖I(x+1,y)-I(x-1,y)‖+‖I(x,y+1)-I(x,y-1)‖

(4)

式中,I(x,y)为点(x,y)的标签向量。

步骤三:根据距离度量,图像中的每个像素与搜索区域中最近的聚类相关联;

步骤四:计算一个新的中心作为属于该簇的所有像素的参数平均向量;

步骤五:返回步骤三,将像素与最近的聚类中心关联并重新计算聚类中心的过程,不断迭代,直到收敛。

1.2.2 U-Net U-Net的结构图(图3)显示,图中左半部分为编码网络,右半部分为解码网络。编码网络包含4个模块,每个模块包含3个卷积和1个最大池化降采样,每次降采样后特征图个数增加1倍。解码网络包含4个模块,每个模块通过反卷积将特征图的尺寸乘以2,通过上采样将特征图放大1倍,再将特征图个数减半。将压缩路径的编码网络特征图裁剪到与解码网络特征图的尺寸相同,然后通过跳跃连接将编码网络和解码网络之间对应的特征图合并拼接,还原下采样过程中的信息损失。每次卷积后通过ReLU激活函数,加快收敛速度并避免梯度消失。

图3 U-Net结构

U-Net的损失表示为:

(5)

(6)

由于结球甘蓝青虫的形状多样、多变,仅利用传统的U-Net检测不能满足实际工作对精准度和速度的要求。

1.2.3 空洞卷积 空洞卷积通过在卷积核的中间填充0来扩展感受野,图4A表示膨胀率为1,即传统的卷积核为3×3,卷积后感受野为3×3;图4B表示膨胀率为2,虽然卷积核大小仍为3×3,但卷积后感受野扩大为5×5;图4C表示膨胀率为3,卷积后感受野扩大为7×7。结果(图4)表明,随着膨胀率的增加,感受野增大,而计算量不增加。因此,使用不同膨胀率的空洞卷积代替传统卷积,可以在不增加计算量的情况下获得具有更强分类能力的特征。

A:膨胀率为1;B:膨胀率为2;C:膨胀率为3。

1.2.4 多尺度注意力U-Net模型 为了能够准确检测不同大小、形态等的结球甘蓝青虫,本研究构建一种基于多尺度注意力U-Net(MSAU-Net)的结球甘蓝青虫检测方法。图5显示,MSAU-Net的结构主要包括超像素聚类、空洞Inception和U-Net。比较图5A与图3,可以看出MSAU-Net为U-Net的一个轻量级模型。

Fsq(.)表示对输出特征图进行全局平均池化;Fex(.,W)表示通过全连接层和非线性学习得到特征图各通道的权重值;Fscale(.,.)表示将各通道的权重信息融合到特征图中;C表示通道数。

图5B为空洞Inception模块,先将超像素聚类后的图像输入到4个1×1卷积,再经过4个3×3空洞Inception,然后拼接分别得到的结果,其中4个空洞Inception的空洞率分别为1、2、3、1,获取不同的感受野,从而提取多尺度特征。使用1×1卷积可以控制卷积核数量,实现降维或升维,也可以恢复为原图大小,最后为一个池化层。空洞Inception后连接一个注意力模块,如图5B所示,其中Fsq(.)表示对输出特征图进行全局平均池化;Fex(.,W)表示通过全连接层和非线性学习得到特征图各通道的权重值;Fscale(.,.)表示将各通道的权重信息融合到特征图中。设输入注意力模块的卷积图为X∈H×W×C,其长度、宽度和通道数分别为H、W和C,则全局平均池化和最大池化后的输出分别表示为Attavg∈1×1×C和Attmax∈1×1×C,其中Attmax可以滤掉目标对象的全局背景信息,同时显著突出目标对象。令X=[x1,x2,…xc],xc为第c个卷积核的参数集,则Attavg和Attmax计算如下:

(7)

(8)

outputavg=Sigmoid[FC4×ReLU(FC3×Attavg)]

(9)

outputmax=Sigmoid[FC4×ReLU(FC3×Attmax)]

(10)

计算通道注意模块的输出如下:

outputch=outputavg+outputmax

(11)

通过矩阵乘法执行以下特征加权操作:

W=(xc,outputch)=xc×outputch

(12)

通过通道特征选择后,输入W到新的空间注意力模块中,输出特征图的尺寸与输入的尺寸一致,不需要对网络结构进行重大改变。考虑到注意模块产生的过滤后的特征更有分类性,为了增加整个结构的非线性程度,在网络的残差连接上增加二阶项和偏置项。设输入特征向量为X,卷积操作后的输出向量为X′,最终融合输出的结果为f=X+X′,则融合后的结果如下:

f=X+X′+F″

(13)

式中,F″=F(X⊙X′+ξ),⊙表示矩阵元素相乘,ξ表示调优偏移参数,F(·)是一个可微函数。

采用平方根形式,F(·)取偏移量ξ=0.000 1用于保持反向传播过程中的梯度稳定性。改进后的残差连接计算如下:

(14)

2 结果与分析

为了验证MSAU-Net的有效性,在构建的结球甘蓝青虫图像数据集上进行试验,并与ICNN方法[9]以及基于空间金字塔池化的作物害虫识别(PPDCNN)方法[11]进行比较。在试验参数设置中,批处理数为32,迭代次数为3 000,动量为0.9,权重衰减为0.000 1,初始学习率为0.01,且每迭代200次下降10倍。试验环境为Python 3.5.2、Tensorflow-GPU 1.8.0,以及Intel Xeon E5-2643v3@3.40 GHz CPU、64 GB内存、Win 1 064 bit、NVidia Quadro M4000 GPU、CUDA Toolkit 9.0、8 GB显存、CUDNN V7.0[2]。

将结球甘蓝青虫图像中的3 000幅用于模型训练,剩余的2 250幅用于模型测试。本试验重复50次,得到稳定可靠的平均检测结果。

图6为一个小结球甘蓝青虫图像的超像素分割图,当超像素数为500时,经过超像素处理的青虫图像比较清晰。为此,试验设置超像素数为500。

m表示超像素数。

将训练图像的超像素图像输入MSAU-Net中,提取图像的分类特征。图7展示了得到的部分卷积图和池化图,MSAU-Net能够提取图像的细节,浅层的卷积图为图像中青虫的轮廓,深层的卷积图显示图像中青虫的纹理、细节特征。

A:原始结球甘蓝青虫图像的超像素图像;B:空洞Inception的特征图;C:U-Net第一卷积层的特征图;D:U-Net第二卷积层的特征图。

为了说明超像素聚类以及本研究构建的MSAU-Net模型的有效性,分析了MSAU-Net模型和传统的U-Net模型在超像素聚类前后模型的损失值与迭代次数的关系[20]。图8显示,超像素聚类依赖于模型收敛,而且MSAU-Net模型的收敛结果优于U-Net模型,说明超像素图像作为输入能够加速网络收敛,提高检测率;超像素聚类后的MSAU-Net模型在1 000次迭代后相对稳定,在1 500次迭代后趋于收敛,主要是因为MSAU-Net模型为U-Net的轻量级模型,训练参数少,训练时间短,MSAU-Net模型中包含空洞Inception和注意力;U-Net模型的收敛速度较慢,是因为U-Net模型含有大量训练参数。

图8 MSAU-Net模型和U-Net模型在超像素聚类前后的损失值

为了测试本研究构建的MSAU-Net模型的有效性,从数据集中随机选择8幅图像,将检测结果可视化并与2种广泛使用的图像分割模型[全卷积网络(FCN)[21]和U-Net[12]]的结果进行比较,结果(图9)表明,MSAU-Net模型优于FCN模型和U-Net模型,能够在复杂的背景中检测出结球甘蓝青虫,且青虫图像完整,边缘清晰。

图9 结球甘蓝青虫检测

图9显示,MSAU-Net模型的检测效果最好,能够有效检测到复杂背景下大小不同的青虫,而FCN模型和U-Net模型对于复杂背景下小尺度青虫的检测效果不理想,检测图像的边界模糊、形状不规则。为了合理、有效地比较青虫检测方法的性能,选择迭代次数为3 000的模型为训练好的网络模型。分析ICNN模型[9]、PPDCNN模型[11]和本研究构建的MSAU-Net模型对青虫图像的检测结果(表1),为了进一步说明超像素聚类与空洞Inception相结合的优势,将MSAU-Net与U-Net、Superpixel+U-Net(超像素聚类和U-Net相结合的检测方法)的检测结果(表2)进行比较,综合表1和表2的结果,可以看出,MSAU-Net模型取得了较好的检测结果。

表1 4种模型对结球甘蓝青虫的检测精度

表2 U-Net及其改进模型对结球甘蓝青虫的检测精度

3 结论

在大田中及时、准确地检测结球甘蓝青虫,对防治结球甘蓝青虫具有重要作用。由于野外青虫的姿态、形态各异,背景复杂,对其进行检测是一项艰巨的任务。本研究基于超像素聚类、空洞Inception、U-Net和注意力,提出了一种基于MSAU-Net的结球甘蓝青虫检测方法,该方法利用多尺度U-Net提取青虫的多尺度特征,并通过注意力提取重要特征,加快网络收敛。将本研究构建的MSAU-Net模型与FCN、ICNN、PPDCNN、U-Net、Superpixel+U-Net模型的试验结果进行对比,发现MSAU-Net模型整体优于FCN、ICNN、PPDCNN、U-Net、Superpixel+U-Net模型,MSAU-Net模型分割的青虫图像非常接近标注的青虫图像,并且可以提取微小青虫图像。主要原因是引入了空洞Inception,这是一种多尺度CNN模块。U-Net模型优于FCN模型,因为FCN模型是在不考虑图像像素之间关系的情况下对每个像素进行分类,而U-Net模型在通道维度上将编码、解码特征连接在一起,以形成更丰富的特征。U-Net模型可以完整地分割青虫图像,对于小青虫的分割效果优于FCN模型。FCN模型和U-Net模型分割的青虫图像中存在一些假阳性区域,即FCN模型和U-Net模型不能很好地区分青虫与背景。MSAU-Net模型整体优于ICNN模型和PPDCNN模型,具有最高的精度和最少的训练时间、测试时间。其原因是MSAU-Net模型引入空洞Inception和注意力,并使用超像素图像作为模型输入,在特征提取阶段用滤波后的加权特征向量代替原始特征向量进行残差融合,使用二值分类方法减少信息丢失,加快网络训练速度。在青虫图像数据集上的试验结果验证了MSAU-Net是一种有效的青虫检测算法,其精度达到95%以上,该方法能够应用于农业害虫管理中的青虫自动检测系统。

猜你喜欢
青虫结球甘蓝
甘蓝家族中的“颜值担当”——羽衣甘蓝
变色的紫甘蓝
小青虫
小蚂蚁智斗大青虫(三)
不同春化和授粉前处理对不结球白菜抽薹及种子产量的影响
耐热早秋甘蓝润夏一号栽培技术
不结球白菜根肿病抗性鉴定方法的研究
结球生菜的趋避栽培模式试验
保护地结球生菜为啥不结球
早熟甘蓝新品种旺旺