融合通道信息注意力网络的叶片病害识别

2020-12-07 08:20侯金秀邓红霞李海芳
计算机工程与应用 2020年23期
关键词:注意力准确率病害

侯金秀,李 然,邓红霞,李海芳

太原理工大学 信息与计算机学院,太原 030600

1 引言

植物叶片病害识别研究是农业生产中最基本、最重要的活动之一,也是图像处理领域的核心研究内容。近年来,植物病害识别面临诸多挑战[1],如:背景复杂无法分割感兴趣区域,多种病害相似性高难以区分等。

目前对于植物叶片病害识别问题的解决方法有传统方法[2-3]和深度学习[4-5]两大类。传统方法主要有:李广林等[6]采用K_means 方法对葡萄病斑图像进行分割,提取传统的颜色、纹理等特征,采用线性核函数的 SVM分类;Arivazhagan S等[7]对香蕉、番茄、马铃薯等植物叶片进行HIS 颜色空间转换,并对病斑图像进行分割,提取纹理特征,采用SVM 对病害进行分类。深度学习的方法[8-10]主要包括:Amara J[11]利用 LeNet 结构[12]的卷积神经网络对病害图像进行分类,初步证明该方法的可行性;Rangarajan A K等人[13]利用Alexnet[14]和VGG[15]网络对番茄病害进行分类,分类准确率进一步提高。但以上方法仍有不足:(1)传统方法虽然准确率较高,但其严重依赖病灶分割和手工设计特征,且预处理方法不具有普适性,限于小数据集,处理过程较为繁琐;(2)深度学习方法可以自动学习特征,且随着网络层数的增加,准确率有所提升。但其忽略了由于网络层数加深导致的信息量过大以及底层特征丢失问题,同时缺少对不同特征信息重要性的区分。

近年来,神经网络为解决大量信息的过载问题引入注意力机制。注意力来源于人类生物系统,如视觉处理系统倾向于选择性地关注图像的重要信息而忽略无关信息,其最先应用于机器翻译中。在图像处理领域,赵波等[16]针对细粒度目标分类问题,提出一种多样化的视觉注意网络(DVAN),结果表明,与无注意力模型相比,识别区域的局部信息更加准确;Hu J等[17]提出一种基于通道关系的注意力模型,并将其应用到分类问题中,结果表明,分类的错误率更低。

针对上述研究,本文提出融合通道信息注意力机制网络模型(Fusion Channels Attention Mechanism,FCAM_CNN),主要目的是在更浅层的网络中通过融合轻量级的注意力机制,提高多种植物叶片不同病害的分类准确率,同时降低模型的复杂度,进一步促进深度学习方法在植物病害识别方面的研究。模型主要由基础网络和通道信息注意力网络构成,基础网络的核心以残差结构为主,将其提取的特征输入注意力网络,通过全局信息融合多个特征通道来选择性地强调信息特征功能,并通过不同超参数的设置来训练和优化模型,最终使得模型表现更优的效果。

2 融合通道信息注意力网络模型架构设计

本章主要设计基础网络和通道信息注意力网络模型融合架构,并介绍其算法流程。搭建以残差结构为主的基础网络用于提取特征,通过融合多种通道信息的注意力网络实现特征的重标定,下面将分别介绍基础网络和通道信息注意力网络的构建,以及两种网络模型的融合。

2.1 基础网络

网络层数的加深是实现模型效果好的主要因素,但太深的模型会使网络出现梯度爆炸和弥散等问题,导致模型无法收敛。为解决上述问题,本文搭建以残差结构[18]为主的基础网络,并在网络中添加批规范化层用以加快模型的收敛速度,同时提升模型的稳定性。

其结构如图1 所示,一个输入层(Input),一个卷积层(Conv1),两个残差结构,每一个卷积层后面紧跟一个归一化层(Bn)和非线性层(LeakyRelu),最后通过两个全连接层(FC1,FC2)利用softmax激活函数实现植物叶片病害的分类。

输入层要求为224×224的RGB图像,卷积层用来提取特征,池化层主要对卷积层的输出特征进行降维,本文采用平均池化和最大池化两种操作。

残差结构是基础网络的核心部分,主要思想是在网络中加入恒等映射,其结构由两部分构成,第一部分计算表达式如式(1)所示:

其中,σ表示非线性函数Relu,W1和W2表示参数矩阵。

第二部分通过一个短连接与恒等映射相加,再通过一个非线性函数Relu,得到输出y,如式(2):

全连接层作用是对原图像进行预测分类。误差将通过Softmax 层进行反向传播,表示a 图像属于一个给定的类,见式(3):

其中,为样本x(i)属于第j类的概率值,Wj和aj为第j类的参数,C为预测图像的总类别数。

2.2 通道信息注意力网络

通道信息注意力网络通过建模卷积特征通道之间的相互依赖关系来提高分类准确率,CNN 通过学习全局信息来选择性的强调特征信息并执行特征通道重新校准。此网络结构如图2所示。

图2 通道信息注意力网络

将卷积层提取到的特征X∈RW×H×C记为X=[x1,x2,…,xc],其中xi∈RW×H,表示第i个特征图,特征图的总个数为C。

首先,将卷积层提取的特征图进行全局平均池化(GAP)操作,将其压缩为维度1×1×C的向量vc={a1,a2,…,aC},计算过程见式(4):

其次,采用两个全连接层(FC1,FC2)以及Sigmoid激活函数,通过训练得到的参数为每个特征通道赋予新的权值{ω1,ω2,…,ωC} ,如式(5)所示:

其中,δ指ReLu激活函数,W1∈Rc/r×c,W2∈Rc×c/r,W1表示降维层参数,r表示降维比例,实验中设r=16,经过ReLu激活后,通过W2参数进行升维。

最后,用新的特征权重和特征图做点积操作,完成对原始输入特征通道的重新标定。如式(6):

2.3 网络模型融合

为了增强底层特征,在浅层网络中实现更好的分类效果,将图3 FCAM_CNN网络模型中的Conv_1提取的64维特征输入到通道信息注意力网络进行特征增强,将结果进行非线性转换和最大池化后,输入到ResBlock_1中,再次通过信息通道注意力网络对64 维特征进行增强,并将结果输入到ResBlock_2和注意力网络进行增强得到128维特征,最后经过平均池化和两个全连接层进行叶片病害的分类。

3 交叉熵损失函数的设计

本文采用的损失函数为交叉熵(cross-entropy)函数,为了保证所提出的FCAM_CNN 模型能够在现有的数据集中取得较高的识别率,将约束条件引入损失函数中,目的是增加不同病害图像的类间间距,缩小同类病害图像的类内间距。根据类间和类内分散矩阵间的距离将总体损失函数定义为S,如式(7):

其中,L表示模型中的损失函数,yi表示第i张图像的真实标签,pi表示预测值。k是类别数,N是样本总数,λ1和λ2表示调整系数,S1和S2分别为类间和类内矩阵,将其定义如式(8):

其中,为属于第c类的全连接层的第i个输出,nc表示第c类中的样本数,一共有C类,M(i)为第i类的样本均值。

模型的误差可以通过整体损失函数的梯度来计算。网络权重通过计算L、S1和S2的梯度,然后整体经过迭代CNN来更新。在每次迭代中,S1作为损失函数的一部分,主要用于扩大类间预测值的距离,而S2主要用于缩小类内均值预测的距离。通过调整参数,模型可以在相对较少的数据集上实现快速分类目的。本文中,λ1设为0.03,λ2设为0.01。

图3 FCAM_CNN网络模型图

4 实验及分析

4.1 数据集介绍

本研究所用的数据集包括番茄、葡萄、马铃薯和苹果四种植物。其中每一种植物都包含其健康的一类以及多种不同的病害种类。原始数据集展示如表1。

表1 数据集展示

4.2 数据增强和数据平衡

原始数据分布如表2所示,数据集共26 000张。深度模型的训练需要大量数据的支持。扩充数据采用的数据增强方法主要包括5 种:随机裁剪、翻转、旋转、色彩抖动以及加噪处理,同时用平均值和标准偏差对数据进行归一化。处理后的数据如图4所示,以葡萄轮斑病为例。

为了使数据均衡分布,采用选择性部分扩充的方法,针对原始数据较多的类,主要采用色彩抖动方式,而对于原始数据较少的类,采用5种不同方法的不同参数设置来扩充数据。通过部分扩充的方法使得训练和测试数据达到一种均衡状态。扩充后的数据集总共约39 000张。

4.3 实验结果与分析

4.3.1 网络参数设置

将扩充后的4 种植物对应的16 类病害的数据集按不同比例划分训练集和测试集,且比例为4∶1 时,模型的效果较好,迭代次数最终设置为80,学习率设置为0.001,训练过程中设置的批尺寸为32,各个参数的微调过程如图5所示。

如图5(a)所示,保持其他超参数不变,通过设置不同的迭代次数来比较准确率。由图中曲线可知,浅绿色曲线即迭代次数为80 时,准确率最高且达到一个平稳状态,当迭代次数再次增加时,效果并不理想。所以,确定迭代次数为80。

表2 数据分布

图5 参数微调及选择

如图5(b)所示,学习率的设置会影响模型的收敛速度和稳定性。当学习率取值不同时,模型分类的准确率也会发生变化。设置迭代次数为80,由图可知,橘色曲线即学习率为0.001时,模型的测试准确率相对较高,并且曲线的震荡较小,说明取0.001时适合本模型。

4.3.2 实验结果及对比实验

(1)自对比实验

本文首先采用基础网络和融合了通道信息注意力网络的模型进行自对比实验。实验结果如图6所示。

图6 基础网络和FCAM_CNN对比

图6 中acc 为基础网络测试集的分类准确率,最高为83.13%;在基础网络中融合多种通道信息的注意力网络,由FCAM_CNN_acc表示,融合后模型的最高准确率为87.77%,比基础网络的准确率高4.64个百分点;并且,根据图中loss以及FCAM_CNN_loss可以看出,改进后的损失函数与原有的损失函数相比,可以加快模型的收敛速度,并较快达到相对平稳的趋势。

(2)与其他模型对比实验

本研究采用 Resnet18、VGG_11 和 VGG_16 网络进行对比实验,并按不同比例划分训练集和测试集,实验结果如表3所示。

表3 不同模型准确率对比 %

由表3可得,训练集和测试集按4∶1划分时,各个模型的效果较好。VGG_11网络准确率最高达到68.54%,而VGG_16的准确率最高为62.83%,Resnet18网络的准确率为78.05%,要比VGG_11 网络高9.51 个百分点;而本文提出的FCAM_CNN模型最高准确率为87.77%,比Resnet18模型高9.72个百分点,且网络模型更浅。

同时,4种网络模型进行了空间复杂度(Params)、时间复杂度(FLOPs)、理论乘加量(Madd)和内存(Memory)的对比。空间复杂度即模型的参数数量;时间复杂度表示模型的运算次数;理论乘加量用来衡量模型的计算量,即权重相乘后的相加次数算为一次;内存表示网络模型的内存占用情况,实验对比情况如表4所示。

表4 不同模型的复杂度对比

由于残差网络中加入了短链接可实现恒等映射,所以尽管Resnet18 网络要比VGG_11、VGG_16 的网络更深,但Resnet18网络的各项指标均低于VGG网络;而本文提出的FCAM_CNN 模型,基础网络以残差结构为主,融合了轻量级的注意力机制,相比于Resnet18,Params 降低了 4.29×106,FLOPs 降低了 0.82×109,Madd减少1.65×109,Memory降低44.92×106。综上,无论是在Params、FLOPs、Madd或Memory方面,都比Resnet18网络要低,效率更高。由此可证明FCAM_CNN 模型的网络性能更好。

4.3.3 实验结果展示

FCAM_CNN 模型预测输出的结果如图7 所示,为了简化表示结果,用1、2、3等表示健康和不同病害的种类,表5为病害类别对照表,例如:2表示番茄的斑点病。

图7 模型结果图

表5 植物病害种类对应表

5 结束语

本研究提出一种融合多种通道信息注意力网络的识别模型,采用残差结构的基础网络,将学习到的由浅层到深层的特征通过注意力网络进行特征的重标定,进而对多种植物叶片不同病害进行识别分类。最后实验证明,通过搭建融合轻量级注意力机制的网络模型,可以在降低各项复杂度的同时,提高分类准确率。本文所提出的方法没有完全充分地提取植物叶片病害的丰富特征,实验效果还可以进一步提高,后续工作将对提取多样性特征以及模型的设计进行进一步研究。

猜你喜欢
注意力准确率病害
早春养羊需防六大病害
让注意力“飞”回来
小麦常见三种病害咋防治
葡萄病害周年防治历
乳腺超声检查诊断乳腺肿瘤的特异度及准确率分析
不同序列磁共振成像诊断脊柱损伤的临床准确率比较探讨
2015—2017 年宁夏各天气预报参考产品质量检验分析
果树休眠期咋防病害
高速公路车牌识别标识站准确率验证法
“扬眼”APP:让注意力“变现”