李大湘,滑翠云,刘 颖
面向苹果叶部病害识别的细粒度蒸馏模型
李大湘,滑翠云,刘 颖
(西安邮电大学通信与信息工程学院,西安 710121)
为了提高轻型卷积神经网络(convolutional neural networks,CNN)在苹果叶部病害识别中的精度,使其更加适于布署到智慧农业移动终端,该研究设计了一种细粒度知识蒸馏(fine-grained knowledge distillation,FGKD)模型。首先,利用上下文信息与空间-语义关系分别设计了上下文空间注意力(spatial attention,SA)与细粒度特征提取(fine-grained feature extraction,FGFE)模块,且将它们嵌入到Resnet50与设计的轻型CNN,分别作为教师与学生网络;然后,构造SA与FGFE知识蒸馏损失函数,以将教师网络中的特征提取与细粒度知识表示能力迁移到学生网络之中,以增强其对苹果叶部病害图像的局部特征提取能力与高层语义表达能力,使轻型学生网络在参数量很小的条件下,其性能接近复杂的教师网络。基于标准苹果叶部病害数据集的对比试验结果表明,经知识蒸馏之后的学生网络精度为98.60%,模型参数量仅0.75 MB,平均推理时间为25.51 ms,能够有效地满足实际智慧农业移动端对模型的需求,快速准确地实现苹果叶部病害自动识别。
计算机视觉;图像处理;苹果树叶病害识别;细粒度知识蒸馏;上下文空间注意力
在苹果树生长的过程中,容易受到天气、环境和微生物等的影响而产生各种病害。植株叶部是病症最常出现的部位,由于病害区域较小且症状具有一定的相似性,仅靠种植者肉眼观察和经验判断不能及时诊断病害类型,造成巨大损失。因此,基于计算机视觉技术研究面向苹果叶部病害的识别算法,是确保苹果高效生产且可持续发展的一种重要手段[1]。
近年来,由于深度学习技术可自动提取病害特征,具有避免人工依赖的特点,在作物病害识别中取得了一系列的研究成果,SHIN等[2]使用6种不同的深度学习模型来检测草莓数据集的白粉疾病;张善文等[3]提出一种基于多尺度融合卷积神经网络(convolutional neural networks, CNN)的黄瓜病害叶片分割方法,平均分割准确率为93.12%;AGARWAL等[4]提出了一种基于CNN体系结构的番茄叶部疾病检测方法;李子茂等[5]提出一种基于迁移学习的SE-DenseNet-FL茶叶病害识别方法,利用SE-Net及Focal Loss方法,在小样本及样本分布不均情景下,对茶叶病害的识别准确率达到92.66%;李大湘等[6]提出全局与局部特征交互耦合的方法,以提升模型对苹果叶部病害图像的特征提取能力,其识别准确率达到98.23%;HU等[7]提出了一种用于玉米叶部疾病识别的CNN算法,通过使用数据扩充来增强训练集,并使用迁移学习技术来提高CNN模型的准确性,优化后CNN在包含4类玉米叶片的Plant Village数据集的子集上平均准确率达到97.6%。尽管深度学习的方法在特定病害识别任务上取得了理想的识别精度,但也存在网络参数多、计算量大且模型复杂的问题,实用性较差。
为解决深度学习模型的移动部署问题,研究者们提出了各种轻量级架构,为作物病害识别方法落地部署提供强有力的技术支撑,SEMBIRING等[8]提出了一种轻量级CNN,用于对番茄植物的叶片图像病害进行分类识别;DURMUS等[9]利用SqueezeNet检测番茄叶部疾病;BIR等[10]利用预训练的EfficientNet-B0对番茄叶部病害识别,在保持模型尺寸和计算量较低的同时,实现了与最先进技术相当的精度;王春山等[11]在ResNet18的基础上,通过增加多尺度特征提取模块改变残差层的连接方式,分解大卷积核并进行群卷积运算,提出了改进的多尺度残差(Multi-scale ResNet)模型,显著降低了模型参数和存储空间,在Plant Village数据集上取得了95.95%的准确率,在自己收集的7个真实环境疾病数据集上取得了93.05%的准确率;LIU等[12]提出了一种新的CNN结构来识别苹果叶部疾病,该网络由AlexNet-precursor网络和初始网络级联而成,用Inception网络取代了传统AlexNet模型中的全连接层,显著减少可训练参数的数量,从而降低了存储需求。但是,上述CNN模型只是直接运用或者改进现有的轻型卷积网络,未能针对苹果叶部病害“类间方差小、类内方差大”的细粒度问题[13-14]作进一步优化。
为兼顾苹果叶部病害粗粒度全局特征和细粒度局部病害的特点,现有方法通常采用多重CNN框架或者注意力模块[15-16],额外添加了参数量,不符合智慧农业对移动端部署的要求。本文提出面向苹果叶部病害识别的细粒度知识蒸馏(fine-grained knowledge distillation,FGKD)模型,即利用上下文信息和空间语义关系分别设计了空间注意力和细粒度提取模块,且将它们嵌入到教师网络和设计的轻型学生网络之中,旨在通过教师网络去指导学生网络的学习,使轻型学生网络在参数量很小的条件下,更能关注叶片中的病害区域,且提取到更具鉴别能力的细粒度特征而提高识别精度。
试验数据来源于Plant Village[17]和西北农林科技大学采集数据[18],其基本信息如下:1)Plant Village:植物病害数据集包含来自14种植物的54 305张植物叶片图,共38种常见病害,叶片图像均为实验室环境下拍摄的单一背景图像,本文只取其中的4类(黑星病、褐腐病、桧胶锈病和健康)苹果叶部病害图像;2)西北农林科技大学苹果病害数据集:在晴天光线良好的条件下获取,部分图像在阴雨天进行采集,不同的采集条件进一步增强了数据集的多样性,包含5类(花叶病、锈病、灰斑病、斑点落叶病、褐斑病)苹果叶部病害。
为保证模型的训练效果,避免因训练数据不足导致过拟合,对图像集进行增强,即采用随机翻转、尺度及亮度变换等方法对每张原图像进行扩充,图像集增强前后详细信息如表1所示。
表1 数据集信息
1)准确率
准确率为分类正确的样本占总样本个数的比例[11]。
2)混淆矩阵
混淆矩阵是总结分类模型预测结果的情形分析表,以矩阵形式将数据集中的记录按照真实的类别与分类模型预测的类别判断两个标准进行汇总[7]。
3)参数量
参数量是衡量深度学习算法的重要指标,对应的是算法的空间复杂度,参数量的减少能降低计算机内存资源的消耗。深度卷积神经网络的参数量主要是卷积层和全连接层[12]。
4)平均推理时间
在深度学习中,推理指的是神经网络的一次前向传播过程,也就是将输入数据送入神经网络,然后从中得到输出结果的过程。使用平均推理时间来观察模型是否适合加载到移动端[12]。
本节设计了面向苹果叶部病害识别的细粒度蒸馏模型(FGKD),如图1所示。该模型主要由三大部分组成,即:复杂的教师网络、轻型的学生网络与蒸馏函数模块,旨在通过设计的知识蒸馏函数迫使教师网络教授学生网络如何通过知识蒸馏提取细粒度特征,使其在参数量适宜移动端的条件下,具有与教师网络同等的局部特征提取与高层语义表达能力,以获得更高的病害识别精度。
在知识蒸馏模型中,由于教师网络要用于指导学生网络的训练,其性能直接影响到整个模型的精度。如图1中的教师网络所示,本研究利用上下文信息与局部语义关系,分别设计了空间注意力(spatial attention, SA)与细粒度特征提取(fine-grained feature extraction, FGFE)模块,且将它们分别加入到ResNet50[19]的第一层和第五层卷积块之后作为教师网络,具体来说,为了使教师网络的前端卷积更能聚焦到苹果叶部图像的病变区域,故将SA模块加入到第一层卷积块之后;为增强FGKD模型对苹果叶部病害图像的高层语义表达能力,故将FGFE模块加入到第5层卷积块之后。
2.1.1 基于上下文信息的SA模块
由于具有判别性的病害部位通常分布在苹果叶部图像中的局部区域,散乱且形状不统一。为了使教师网络的前端卷积操作更能聚焦到叶部图像的病变区域,最常用的方法是使用最大及平均池化来生成SA图谱[20-21]。当这些方法用于苹果叶部病害识别时,存在的缺点是:在产生注意力时,只利用通道维度的最大值或平均值,没有考虑到相邻像素的上下文信息,且对病变区域的旋转性不具有适应能力。
图1 面向苹果叶部病害识别的细粒度蒸馏模型(FGKD)结构示意图
Fig.1 Schematic diagram of a fine-grained distillation model (FGKD) for apple leaf disease identification
注:F是输入SA模块的特征图谱,W、H与C分别代表其宽度、高度和通道数,F1是经过1×1卷积后的特征图谱,S(i, j)是基于上下文的相似性矩阵,α是SA权重矩阵,是经过SA之后的特征图谱。Note: F is the feature map of the input SA module, W、H and C is the width, height and number of channels, F1 is characteristic map after 1 × 1 convolution, S(i, j) is context-based similarity matrix,αis the SA weight matrix, is the feature map after SA.
综上所述,SA加权过程可总结为
2.1.2 基于空间-语义关系的FGFE模块
由于不同的苹果病害只在叶部某个局部有细微差异,具有“高类内方差、低类间方差”的特点,属于典型的细粒度图像识别问题,则如图3所示,本节基于空间-语义关系设计了一个FGFE模块。
注:是第5个残差模块输出的特征图谱,W'、H'、C'分别代表其宽度、高度和通道数,Global feature是全局特征,x、y是横纵坐标轴,是显著特征,vL是局部特征,SR是空间依赖关系,CR是通道依赖关系,SCR是空间-语义关系,是融合细粒度特征,MP是最大池化。Note: is the feature map output by the fifth residual module, W', H', C' is the width, height and number of channels, global feature is global feature, x, y are the horizontal and vertical axes,is distinctive features, vL are local features, SR is a spatial dependency, and CR is a channel dependency,SCR is a spatial-semantic relationship andis a fusion of fine-grained features, MP is max pooling .
1)显著特征筛选
为了从特征图谱中筛选出有鉴别能力的局部区域从而获得其蕴含的细粒度特征,将中每个位置沿通道维度的数据抽取出来,称之为“局部特征”,记为
2)聚合空间-语义关系的FGFE方法
基于空间依赖关系SR与语义依赖关系CR,定义“空间-语义关系”SCR如下:
2.2.1 学生网络设计
复杂的教师网络精度优良,但无法满足模型加载在移动设备上的需求,因此,参照Resnet18网络[4]结构,如表2所示,设计了一个包含5个卷积模块的轻型学生网络,为了进一步减少网络参数,设计的学生网络除第一个卷积模块之外,将另4个卷积模块中的普通卷积替换为深度可分离卷积(depthwise separable convolution, DSC)[22],同时在第一和第五个卷积模块之后也各自添加了与教师网络相同的SA和FGFE模块,使其能在保持自身轻量级框架的同时,可蒸馏教师网络的特征提取和高层语义表示能力。
表2 学生网络设计
2.2.2 知识蒸馏设计
知识蒸馏是一种有效的模型压缩方法,首次被HITON等[23]提出,其利用复杂的教师网络向轻型的学生网络迁移知识,有效地改善了学生网络性能高度依赖于模型复杂度的问题,降低了其训练与应用成本而更有利于CNN模型的实施与部署。随后,ROMERO等[24]在知识蒸馏的基础上进行扩展,将教师网络的输出层和中间层特征作为指导信息,迁移到学生网络中;YIM等[25]将蒸馏的知识看作成一种解决问题的流,它是由不同层之间的特征通过内积计算得到,该方法可以使学生网络学的更快,同时使其性能超过教师网络,且适用于迁移学习;除此之外,还有ZAGORUYKO等[26]引入注意力、ZHOU[27]等提出教师和学生网络共享权重与AHN等[28]引入互信息知识的蒸馏方法。为了将教师网络中的SA与细粒度知识迁移到学生网络之中,本节设计了两种知识蒸馏函数,具体方法如下:
1)SA知识蒸馏
2)细粒度知识蒸馏
算法:知识蒸馏学生网络训练及测试
预处理:根据批量大小Q,对中的图像进行分批;
Step 1:训练教师网络
For epoch in Epochs:
3)采用余弦衰减策略更新学习率l。
End for
Step 2:训练学生网络
For epoch in Epochs:
7)采余弦衰减策略更新学习率l。
End for
Step 3:识别测试图像
在试验过程中,采用的软硬件平台配置如表3所示。首先,为了适应模型需求,将所有图片尺寸统一调整为224×224,然后按照8:2的比例将数据集随机划分为训练集和测试集,分别用于模型的训练与测试。在训练与测试过程中,选择Adam优化器,初始学习率l设置为0.001,且采用余弦退火衰减策略进行更新,批量大小Q设置为32,epochs设置为300。
表3 试验平台配置
为了验证所提FGKD模型的有效性,基于上述苹果叶部病害数据集与试验方法,与近几年最新的病害识别算法以及经典的CNN模型,进行了对比试验,其中包括深度学习、细粒度识别与轻量级网络等相关方法。试验过程中,所有网络均在Plant Village数据集上完成预训练,然后将参数迁移到西北农林数据集上进行试验,识别精度与模型参数量如表4所示。
表4 模型结果对比
在表4中,对比模型参数量可知,所提FGKD模型的学生网络的参数量为0.75 M,少于其他所有模型,在模型复杂度方面是最低的,较之经典的MobileNet V3[33]与Sufficient V2[34]网络,其参数量降低了50.66%与40.48%,相比于教师网络,参数量降低了97.10%;对比识别精度可知,除教师网络之外,所提FGKD模型是最高的,达到了98.60%,均优于其他识别方法。综上所述,所提FGKD模型在苹果病害识别任务中是有效的,能在参数量很小的条件下,具备接近教师网络的识别精度,更加适合部署到资源受限的农业物联网终端设备。为观察所提FGKD模型在训练过程中的损失变化情况,如图4所示,展示了1~70次迭代的损失变化曲线。
图4 模型训练过程中的损失变化曲线
从图4所示的两条损失曲线可知,教师模型在训练的时候波动大,随着训练轮数的增加损失趋于平稳,在约117轮后达到收敛;所提FGKD模型的学生网络在训练过程中波动小且在约60轮后达到收敛,相比于教师网络收敛速度较快,这主要得益于FGKD模型中学生网络构造两种知识蒸馏,以将教师网络中训练成功的特征提取与细粒度知识表示能力迁移到学生网络之中,有效地提高了学生网络的训练效率。
为了进一步观察所提FGKD模型的推理时间,使用perf_counter函数每隔10次迭代,依次输出多个CNN模型在第1~100次迭代内对苹果叶部病害识别的平均推理时间(ms),如图5所示。
图5 不同模型平均推理时间
从图5所示的平均推理时间曲线可知,所提FGKD模型的学生网络每次的平均推理时间在25.51 ms左右,少于其他所有模型,总体上来说是平稳的且可满足实时性要求,且较之经典的Sufficient V2[34]网络,其平均推理时间降低了60.66%,相比于教师网络,平均推理时间降低了72.65%,这主要得益于设计的FGFE模块复杂度不高,即设计的学生网络是轻型CNN网络(从表4可知它的参数量仅为0.75 MB)。
为了进一步观察所提FGKD模型在苹果叶部病害每个类别中的具体表现,如图6所示,绘制了5种病害预测的混淆矩阵。该矩阵中的每列表示预测标签,每列数据之和表示预测为该类的图像概率;每行表示测试图像的真实标签,每行数据之和代表该类别的图像概率,对角线单元格中的数值表示预测正确率,而非对角单元格中的数据则表示不同类别预测的错误率。
图6 苹果病害模型混淆矩阵
图6中5类苹果病害的测试集中,平均识别精度可达98.60%,比较容易发生混淆的类别在斑点落叶病与锈病之间,这是因为两者具有相似的病害纹理形状,在发生病害的时候,斑点落叶病叶片表面呈现褐色圆形枯死斑,rust叶片表面出现橘红色小圆点,容易混淆。
在所提FGFE模型中,为了验证设计的SA模块在苹果叶部病害识别过程中,所关注的是局部区域,如图7所示,使用Grad-CAM[35]将经过训练的学生网络进行了可视化,即利用梯度来计算最后一个卷积层中每个神经元的重要性,可视化结果显示图像中的哪个区域是模型做出分类决策的重要特征,热图中显示越红的区域表示这些地方更具辨别力,是模型在对该图像进行分类时最感兴趣的区域。从图7所示热图可见,较之经典的Mobile Net V3和VIT网络,学生网络FGKD在拥有复杂背景的病害识别中,其注意力聚焦的感兴趣区域更加精准且完整,这主要原因是:SA模块使得学生网络自适应病害区域;FGFE模块帮助学生网络提取信息更加丰富的细粒度区域;SA和FGFE知识蒸馏,以将教师网络中的特征提取与细粒度知识表示能力迁移到学生网络之中,增强其对苹果叶部病害图像的局部特征提取能力与高层语义表达能力,三个模块相辅相成,促进学生网络的性能更接近教师网络。
在苹果叶部病害识别中,为了验证所设计的SA与FGFE知识蒸馏模块的有效性,本节对设计的FGKD模型进行了消融试验,当不同的知识从教师网络中被蒸馏到学生网络之中,测试结果如表5所示。其中:“Baseline”指学生网络在训练时只使用标签作为监督信息,即式(20)中LSHTL()只保留LSCE(),学生网络的训练不使用任何蒸馏知识,且5个卷积模块中采用的是普通卷积操作;“Student_1”、“Student_2”、“Student_3”与“Student_4”指在学生网络中分别采用“DSC”、“DSC+FGFE”、“DSC +SA”及“DSC +SA+FGFE”模块,以指导学生网络的训练;“Teacher”指用“算法”中“Step 1”训练的教师网络。
注:权重越大越有利于苹果叶病害的正确分类。
从表5所示消融试验结果可以发现,在“Student_1”中采用DSC替换普通的卷积操作,学生网络的参数量降低到“Baseline”的84.96%,且它们的识别精度几乎相同;同时也可发现,较之无任何知识蒸馏的原始学生网络“Student_1”,采用SA蒸馏的学生网络“Student_3”平均精度提高了1.59个百分点,而采用FGFE蒸馏的学生网络“Student_2”精度提高了7.35个百分点。显然,本文设计的DSC、FGFE及SA模块是有效的,能提高病害分类精度,主要原因是:SA模块将上下文信息与空间注意力相结合,且设计了一个SA蒸馏函数,能将教师网络的SA知识有效地传递给学生网络,以提升其提取病害局部信息的能力;FGFE模块在学生网络训练过程中,能将每幅训练图像的细粒度特征利用空间-语义关系进行聚合,且利用FGFE蒸馏函数可将教师网络中FGFE知识迁移到学生网络之中,增强其对病害的高层语义提取与表达能力。同时也可看出,两个知识蒸馏模块同时使用的“Student_4”平均精度提高,比用任意一个模块提升更高,其识别精度达到98.60%,接近教师网络(但教师网络的参数量远高于学生网络),这证实了两个蒸馏模块可以相互补充,在苹果病害识别中是有效的。
表5 消融试验模型参数量和精度
注:√表示试验中采用了该模块,×表示试验中未采用该模块,*表示对比对象,↑表示增加量。
Note: √means the module was used in the experiment, × means the module was not used in the experiment, *represent the comparison object,↑indicates an increase in quantity.
为了进一步验证所提FGKD模型的实际应用性能,采用2022年7-10月在陕西省铜川市耀州区小丘镇移村秦脆苹果园种植基地拍摄的图像建立试验数据集。采集工具为华为nova8智能手机,拍摄距离10~15 cm,图像分辨率为2 268×4 032,共采集到病害图像2 213张(含535张褐斑病、669张黑星病、515张花叶病和494张锈病)。增强后的数据集被随机分为训练集(80%)和测试集(20%),再使用综合试验所述的方法对模型进行训练与测试,混淆矩阵如图8所示。
Fig.8 Example of disease in Qin crisp apple orchard
图8 苹果病害实际应用验证混淆矩阵
从图8所示的混淆矩阵可知,在实际采集的数据集中,4类苹果病害的测试集平均识别精度可达98.38%,其中比较容易发生混淆的类别在褐斑病与黑星病之间,这是因为两者的病变区域具有相似的颜色特征与叶斑形态,即它们在颜色方面通常均呈暗褐色,在叶斑形态方面通常均由数个近圆纹理结构连接在一起而形成的病理图案。
针对苹果叶部病害形态各异且占比小的特点,本研究设计了一种面向苹果叶部病害识别的细粒度蒸馏模型,通过对比试验与分析,得出如下结论:
1)设计的FGKD(fine-grained knowledge distillation)模型的学生网络参数量为0.75M,在标准数据集上的识别准确率达98.60%,平均推理时间在25.51ms左右,试验结果表明,对比其他主流的细粒度和轻量级卷积神经网络,FGKD模型的识别效果更好,参数量更少,推理时间更短;
2)利用上下文信息与空间注意力结合设计SA模块与 SA蒸馏函数,有效提升了模型提取病害局部信息的能力,消融试验表明,对比无任何知识蒸馏的原始学生网络“Student_1”,采用SA蒸馏的学生网络“Student_3”平均精度提高了1.59个百分点;
3)利用空间-语义关系聚合细粒度特征,增强其对病害的高层语义提取与表达能力,消融试验表明,对比无任何知识蒸馏的原始学生网络“Student_1”,采用FGFE训练的学生网络“Student_2”精度提高了7.35个百分点。
综上所述,在本研究设计的SA和FGFE知识蒸馏模块,可以将教师网络中的特征提取与细粒度知识表示能力迁移到学生网络之中,使轻型学生网络在参数量很小的条件下,其性能接近复杂的教师网络,识别精度优于其他各种先进方法,有利于后期模型在移动端和其他小型设备的部署和应用,提升了深度学习模型在病害识别领域的实用性。在后续工作中,将重点研究复杂背景下细粒度病害识别的可解释性分析,进一步降低模型的参数量和推理时间,并把研究成果延伸到其他作物病害中,以提升模型的泛化应用价值。
[1] 邵明月,张建华,冯全,等. 深度学习在植物叶部病害检测与识别的研究进展[J]. 智慧农业(中英文),2022,4(1):29-46. SHAO Mingyue, ZHANG Jianhua, FENG Quan, et al. Research Progress of deep learning in detection and recognition of plant leaf diseases[J]. Smart Agriculture, 2022, 4(1): 29-46. (in Chinese with English abstract)
[2] SHIN J, CHANG Y K, HEUNG B, et al. A deep learning approach for RGB image-based powdery mildew disease detection on strawberry leaves[J]. Computers and Electronics in Agriculture, 2021, 183: 106042.
[3] 张善文,王振,王祖良. 多尺度融合卷积神经网络的黄瓜病害叶片图像分割方法[J]. 农业工程学报,2020,36(16):149-157.
ZHANG Shanwen, WANG Zhen, WANG Zuliang. Method for image segmentation of cucumber disease leaves based on multi-scale fusion convolutional neural networks[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2020, 36(16): 149-157. (in Chinese with English abstract)
[4] AGARWAL M, SINGH A, ARJARIA S, et al. ToLeD: Tomato leaf disease detection using convolution neural network[J]. Procedia Computer Science, 2020, 167: 293-301.
[5] 李子茂,徐杰,郑禄,等. 基于改进DenseNet的茶叶病害小样本识别方法[J]. 农业工程学报,2022,38(10):182-190.
LI Zimao, XU Jie, ZHENG Lu, et al. Small sample recognition method of tea disease based on improved DenseNet[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2022, 38(10): 182-190. (in Chinese with English abstract)
[6] 李大湘,曾小通,刘颖. 耦合全局与局部特征的苹果叶部病害识别模型[J]. 农业工程学报,2022,38(16):207-214.
LI Daxiang, ZENG Xiaotong, LIU Ying. Apple leaf disease identification model by coupling global and patch features[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2022, 38(16): 207-214. (in Chinese with English abstract)
[7] HU R, ZHANG S, WANG P, et al. The identification of corn leaf diseases based on transfer learning and data augmentation[C]//Proceedings of the 2020 3rd International Conference on Computer Science and Software Engineering. Beijing, China: 2020: 58-65.
[8] SEMBIRING A, Away Y, ARNIA F, et al. Development of concise convolutional neural network for tomato plant disease classification based on leaf images[C]// International Conference on Industrial Automation, Smart Grid and its Application (ICIASGA) 2020. Jawa Timur, Indonesia: IOP Publishing, 2021, 1845(1): 012009.
[9] DURMUS H, GVNES E O, KIRCI M. Disease detection on the leaves of the tomato plants by using deep learning[C]// 2017 6th International Conference on Agro-geoinformatics. Fairfax, VA, USA: IEEE, 2017: 1-5.
[10] BIR P, KUMAR R, SINGH G. Transfer learning based tomato leaf disease detection for mobile applications[C]// 2020 IEEE International Conference on Computing, Power and Communication Technologies (GUCON). Greater Noida Fairfax: IEEE, 2020: 34-39.
[11] 王春山,赵春江,吴华瑞,等. 采用双模态联合表征学习方法识别作物病害[J]. 农业工程学报,2021,37(11):180-188.
WANG Chunshan, ZHAO Chunjiang, WU Huarui, et al. Recognizing crop diseases using bimodal joint representation learning[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2021, 37(11): 180-188. (in Chinese with English abstract)
[12] LIU B, ZHANG Y, HE D J, et al. Identification of apple leaf diseases based on deep convolutional neural networks[J]. Symmetry, 2017, 10(1): 11.
[13] XIANG X, ZHANG Y, JIN L, et al. Sub-region localized hashing for fine-grained image retrieval[J]. IEEE Transactions on Image Processing, 2021, 31: 314-326.
[14] LIU X, MIN W, MEI S, et al. Plant disease recognition: A large-scale benchmark dataset and a visual region and loss reweighting approach[J]. IEEE Transactions on Image Processing, 2021, 30: 2003-2015.
[15] WU Y, FENG X, CHEN G. Plant leaf diseases fine-grained categorization using convolutional neural networks[J]. IEEE Access, 2022, 10: 41087-41096.
[16] ZHENG X, SUN H, LU X, et al. Rotation-Invariant Attention Network for Hyperspectral Image Classification[J]. IEEE Transactions on Image Processing, 2022,4251-4265.
[17] HUGHES D, SALATHE M. An open access repository of images on plant health to enable the development of mobile disease diagnostics [EB/OL]. (2015-11-25). [2022-11-24]. https://arxiv.org/abs/1511.08060.
[18] 周敏敏. 基于迁移学习的苹果叶面病害Android检测系统研究[D]. 杨凌:西北农林科技大学,2019.
ZHOU Minmin. Apple Foliage Diseases Recognition in Android System with Transfer Learning-based[J]. Yangling: Northwest A&F University, China, 2019. (in Chinese with English abstract)
[19] HE K, ZHANG X, REN S, et al. Deep residual learning for image recognition[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, NV, USA: IEEE, 2016: 770-778.
[20] HU J, SHEN L, SUN G. Squeeze-and-excitation networks[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Salt Lake City, UT, USA: IEEE, 2018: 7132-7141.
[21] WOO S, PARK J, LEE J Y, et al. Cbam: Convolutional block attention module[C]//Proceedings of the European Conference on Computer Vision (ECCV). Munich, Germany: Springer, Cham, 2018: 3-19.
[22] CHOLLET F. Xception: Deep learning with depthwise separable convolutions[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, HI, USA: IEEE, 2017: 1251-1258.
[23] HINTON G, VINYALS O, DEAN J. Distilling the knowledge in a neural network [EB/OL]. (2015-03-09). [2022-11-24]. https://arxiv.org/abs/1503.02531.
[24] ROMERO A, BALLAS N, KAHOU S E, et al. Fitnets: Hints for thin deep nets [EB/OL]. (2014-12-19). [2022-11-24]. https://arxiv.org/abs/1412.6550.
[25] YIM J, JOO D, BAE J, et al. A gift from knowledge distillation: Fast optimization, network minimization and transfer learning[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, HI, USA, IEEE, 2017: 4133-4141.
[26] ZAGORUYKO S, KOMODAKIS N. Paying more attention to attention: Improving the performance of convolutional neural networks via attention transfer [EB/OL]. (2016-12-12). [2022-11-24]. https://arxiv.org/abs/1612.03928.
[27] ZHOU G, FAN Y, CUI R, et al. Rocket launching: A universal and efficient framework for training well-performing light net[C]//Proceedings of the AAAI Conference on Artificial Intelligence. Palo Alto, California USA: Computer Science, 2018, 32(1).
[28] AHN S, HU S X, DAMIANOU A, et al. Variational information distillation for knowledge transfer[C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Beach, CA, USA: 2019: IEEE, 9163-9171.
[29] DOSOVITSKIY A, BEYER L, KOLESNIKOV A, et al. An image is worth 16x16 words: Transformers for image recognition at scale [EB/OL]. (2020-10-22). [2022-11-24]. https://arxiv.org/abs/2010.11929.
[30] MEHTA S, RASTEGARI M. Mobilevit: light-weight, general-purpose, and mobile-friendly vision transformer [EB/OL].(2021-10-05).[2022-11-24].https://arxiv.org/abs/2110.02178.
[31] DU R, CHANG D, BHUNIA A K, et al. Fine-grained visual classification via progressive multi-granularity training of jigsaw patches[C]//European Conference on Computer Vision. Glasgow, UK: Springer, Cham, 2020: 153-168.
[32] CHANG D, DING Y, XIE J, et al. The devil is in the channels: Mutual-channel loss for fine-grained image classification[J]. IEEE Transactions on Image Processing, 2020, 29: 4683-4695.
[33] HOWARD A, SANDLER M, CHU G, et al. Searching for mobilenetv3[C]//Proceedings of the IEEE/CVF international conference on computer vision. Seoul, Korea (South): IEEE,2019: 1314-1324.
[34] MA N, ZHANG X, ZHENG H T, et al. Shufflenet v2: Practical guidelines for efficient cnn architecture design[C]//Proceedings of the European Conference on Computer Vision (ECCV). Munich, Germany: Springer, Cham,2018: 116-131.
[35] SELVARAJU R R, COGSWELL M, DAS A, et al. Grad-cam: Visual explanations from deep networks via gradient-based localization[C]//Proceedings of the IEEE International Conference on Computer Vision.Venice, Italy:IEEE, 2017: 618-626.
Identifying apple leaf disease using a fine-grained distillation model
LI Daxiang, HUA Cuiyun, LIU Ying
(,,710121,)
Apple trees are susceptible to various diseases that caused by weather, environment and microorganisms. The leaves of plants are the most common parts of the disease. The small area and similar symptoms of diseases have also posed great challenges on the manual observation and experience judgment in recent years. The disease type cannot be diagnosed in time, resulting in the huge losses in apple production. Deep learning can automatically extract features in crop diseases, but it also suffers from an excessive number of parameters and high computational effort. Furthermore, various lightweight architectures have been constructed to provide the strong technical support for the deployment of crop disease identifications, such as less network parameters, less computation, simple models, and low practicability of deep learning models. However, the direct application or improvement of the existing light convolutional neural network (CNN) can fail to further optimize the fine-grained problem in "small variance between classes and large variance within classes" of apple leaf diseases. Multiple CNN frameworks or attention modules can be utilized to consider the coarse-grained global and fine-grained local features of apple leaf diseases. It is necessary for the small number of parameters to meet the requirements of smart agriculture for mobile deployment. In this study, a fine-grained knowledge distillation (FGKD) model was proposed to improve the CNN accuracy in the disease identification of apple leaf suitable for the deployment to smart agricultural mobile terminals. Firstly, contextual information and spatial-semantic relations were used to design the spatial attention (SA) and fine-grained feature extraction (FGFE) modules respectively, and they were embedded into Resnet50 and the designed light CNN as teacher and student networks. Secondly, the SA and FGFE knowledge distillation loss functions were constructed to transfer the feature extraction and fine-grained knowledge representation of the teacher to the student network, in order to enhance the local feature extraction and high-level semantic expression of apple leaf disease images. Finally, the performance of the light student network was close to that of the complex teacher network under the condition of a small number of parameters. The comparative test was carried out on the standard apple leaf disease dataset. The results show that the accuracy of the student network was 98.60% after knowledge distillation, while the number of model parameters was only 0.75 MB, and the average inference time was 25.51 ms. The automatic identification of apple leaf diseases was be rapidly and accurately realized to fully meet the needs of the model of the actual smart agriculture mobile terminals. The SA module and SA distillation function were designed to combine the contextual information and spatial attention, in order to effectively improve the extraction of local information about the disease. The spatial-semantic relationship aggregation of fine-grained features was used to enhance the extraction and expression of high-level semantic information about the disease.
computer vision; image processing; apple tree leaf disease identification; fine grain knowledge distillation; contextual spatial attention
2022-11-24
2023-03-22
国家自然科学基金(62071379);陕西省自然科学基金(2017KW-013);西安邮电大学创新基金(CXJJYL2022014)
李大湘,博士,副教授,硕士生导师,研究方向为遥感图像分类、病害图像识别与机器学习。Email:www_ldx@163.com
10.11975/j.issn.1002-6819.202211209
S24; TP391.4; S431.9
A
1002-6819(2023)-07-0185-10
李大湘,滑翠云,刘颖. 面向苹果叶部病害识别的细粒度蒸馏模型[J]. 农业工程学报,2023,39(7):185-194. doi:10.11975/j.issn.1002-6819.202211209 http://www.tcsae.org
LI Daxiang, HUA Cuiyun, LIU Ying. Identifying apple leaf disease using a fine-grained distillation model[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2023, 39(7): 185-194. (in Chinese with English abstract) doi:10.11975/j.issn.1002-6819.202211209 http://www.tcsae.org