基于计算机视觉的玉米叶片表型检测方法研究

2023-12-11 19:43:26杨琳琳王建坤别书凡白振江常金攀贺小梅李文峰施杰
江苏农业科学 2023年16期
关键词:注意力机制

杨琳琳 王建坤 别书凡 白振江 常金攀 贺小梅 李文峰 施杰

摘要:针对玉米叶片表型检测传统方式存在耗费大量人力物力且存在人工主观性误差等问题,提出了一种基于计算机视觉技术和深度学习方法的玉米叶片表型检测方法,建立了玉米叶片表型回归检测模型。首先采集玉米叶片图像及对应的表型数据,然后搭建浅层卷积神经网络,通过调整浅层卷积神经网络模型结构,添加注意力机制以及RGB三通道分离结构对搭建的网络进行优化,最后将图像和表型数据输入到模型进行训练,并对不同任务组合分别进行模型训练,分析不同任务组合对模型预测精度的影响。结果表明,三通道分离结构和通道注意力机制的添加提高了模型在所有任务组合上的性能,且不同任务组合试验的结果表明,玉米叶片各个表型的检测在不同任务搭配后检测效果有较大波动,基于三通道分离结构和通道注意力机制的模型检测叶片叶面积的结果最高决定系数r2达到0.997,鲜质量r2达到0.988,叶宽r2达到0.982,SPAD值r2达到0.901。研究结果表明,三通道分离可以降低R、G、B三通道带来的影响,添加通道注意力机制,可以提高玉米叶片表型检测的模型性能。

关键词:叶片表型;表型回归检测;注意力机制;通道分离

中图分类号:TP391.41文献标志码:A

文章编号:1002-1302(2023)16-0195-07

收稿日期:2022-10-04

基金项目:国家自然科学基金(编号:31860331、32160420);云南省作物生产与智慧农业重点实验室开放基金课题;云南省重大科技项目高原特色农产品无损检测子课题果蔬无损检测。

作者简介:杨琳琳(1979—),女,山东寿光人,博士,副教授,研究方向为智能检测及自动控制。E-mail:29545343@qq.com。

通信作者:施 杰,博士,副教授,研究方向为深度学习。E-mail:km_shijie@126.com。

随着我国人口增长,粮食安全问题日益严峻,培育优良作物品种,提高粮食产量势在必行。作物表型检测能够精确分析作物表型、基因以及环境之间的相互关系[1,可为提高粮食产量、保障我国粮食安全提供技术支撑2。人工表型测量手段费时费力,且有人工主观性,易出现误差3;基于光谱技术的植物叶片表型检测成本较高,过程比较复杂,不适合大规模推广使用;通过提取图像特征进行作物表型检测的方法获得了较高的精度4-5,但此方法只考虑了图像像素数量和图像颜色分量等特征与测量值的相关性,没有考虑到图像中的空间位置和纹理等特征,基于深度学习的检测方法能够对作物图像的结构、纹理和空间信息充分利用,能够获得更精确的检测结果[6

植物叶片是植物生长发育过程中最重要的器官,植物叶片的叶面积、叶宽、鲜质量和SPAD值等表型对评估植物的营养状况和生长发育情况,以及预测作物产量都有很大的作用[7-11。本研究将玉米叶片的叶面积、鲜质量、叶宽和SPAD值作为研究对象,使用卷积神经网络实现对玉米叶片叶面积等表型的回归检测,通过搭建浅层神经网络模型,实现了对玉米叶片表型的快速精确检测,对比不同的神经网络结构以及注意力机制的使用,建立了基于通道注意力机制及颜色通道分离的最优模型,对比提取图像特征值回归的方式,基于深度学习的回归检测达到了更高的精度。

1 材料与方法

1.1 试验数据

1.1.1 试验数据采集 试验数据于2022年5月在云南农业大学机电工程学院实验楼209采集。试验种植玉米品种为凤糯6号,图像采集时玉米植株处在5~7叶时期,图像使用海康威视MV-CA060-10GC彩色工业相机进行采集,搭配海康威视MVL-HF0628M-6MPE镜头,镜头距离叶片75 cm,共采集玉米叶片图像313张。叶面积和叶宽的测量使用常州三丰仪器科技有限公司的YMJ-A型号的叶面积指数测量仪。SPAD值使用日本KONICA MINOLTA生产的 SPAD-502Plus 测量仪,该仪器是点检测,因此选取叶尖、叶中部和叶尾部各2点,避开叶脉进行测量,每部分重复测量2次,取总平均值作为叶片的SPAD值[12。叶鲜质量使用精度为0.01 g的电子秤进行测量。

1.1.2 图像预处理 图像拍摄过程中存在一定的噪音和无用背景,通过使用中值滤波图像进行降噪处理,中值滤波是一种非线性滤波,将某一点像素灰度设置为邻域各点灰度值的中值,能有效地消除噪音。试验条件下获取的图像背景较简单,将图像三通道分离后进行二值化处理,得到叶片轮廓,将叶片轮廓以外部分置0,得到无背景叶片图像,处理前后图像如图1所示。

1.1.3 试验数据集扩充 数据集共313张玉米叶片图片,预留12张图片做测试集,训练集和验证集共301张图片,按照7∶3的比例划分为训练集和验证集,为了避免过拟合问题,使用keras框架中图像生成器将图像随机水平翻转和垂直翻转进行数据增强。

1.1.4 不同任務分组 主要针对玉米叶片的叶面积、鲜质量、叶宽和SPAD值的回归检测进行研究,在多任务学习 (Multi-task learning) 领域中,模型对多个任务进行训练时,多项相关任务学习能够提升模型的性能[13。考虑到不同玉米表型检测任务之间相关性相差较大,因此将叶面积、鲜质量、叶宽和SPAD值进行不同组合(表1),寻找最优的任务组合。

1.2 卷积神经网络

卷积神经网络是深度学习的主要算法之一,典型的卷积神经网络由卷积层、池化层、全连接层组成,卷积层通过卷积核提取特征,卷积核参数通过反向传播进行参数更新,池化层将卷积层输出的特征图进行区域划分,并取每个区域的最大值或平均值,得到更小的特征图,全连接层把局部特征整合为全局特征。目前经典的卷积神经网络有LeNet[14、AlexNet[15、VGGNet[16、GoogleNet[17、ResNet[18、MobileNet等。AlexNet首次使用ReLU激活函数,在全连接层部分使用了Dropout避免了模型过拟合,提高了准确率和计算速度。VGGNet不断加深了网络深度,使用3×3小卷积核代替大卷积核,大大提高了模型性能。GoogleNet在增加网络深度的同时增加了网络宽度,同时使用1×1卷积核降低特征图尺寸,降低了模型计算量。ResNet使用残差结构解决了深层网络梯度消失问题,进一步加深了网络层数。MobileNet使用深度可分离卷积替代传统卷积,模型体积小,适用于部署到嵌入式设备和移动设备上。

1.2.1 回归任务loss函数 不同于分类任务中的离散变量预测,回归任务主要对连续变量进行预测,回归任务中常用的loss函数是均方误差(mean squared error,简称MSE),预测值与目标值之差的均方和,如式(1)所示:

训练过程中使用平均绝对误差(mean absolute error,简称MAE)进行精度评估,预测值与目标值之差绝对值的均值,如式(2)所示:

1.2.2 评价函数 相关系数r可以描述2个变量之间的相关程度,r值越接近1表示2个变量相关程度越强。决定系数r2可以表示2个变量回归方程拟合度的高低,r2越接近1表示2个变量回归拟合越好。因此使用相关系数r和决定系数r2评估模型在测试集上的预测精度,如式(3)和式(4)所示:

1.2.3 通道注意力机制 通道注意力机制[19通过对特征图进行全局平均池化和全局最大池化操作,并将池化后的特征向量输入到2层全连接层中进行Squeeze和Excitation操作,得到对应特征图的权重,将该权重与特征图相乘,如图2所示。实现了有选择性地对有用通道特征的增强和无用特征通道的抑制。

模型中的通道注意力层将输入张量分别进行全局平均池化和全局最大池化,得到2个大小为(1,1,C)的向量,将2个向量分别输入到通道为C/8的2个全连接层中,实现Squeeze操作,将Squeeze后得到的2个向量分别输入到通道为C的2个全连接层中,实现Excitation操作,得到2个特征图权重,将2个权重相加后与特征图相乘,得到权重增强后的特征图。

1.2.4 基础网络结构设计 考虑到叶面积、叶宽、鲜质量、SPAD值等叶片表型特征较明显,任务相对简单,因此本研究通过搭建包含6层卷积层的神经网络,并添加通道注意力机制,赋予不同的通道对应的权重,以实现玉米叶片表型精确检测,本研究4种模型均使用3×3大小的卷积核,每层卷积核个数为32。

在卷积层和全连接层之间通常使用Flatten操作把卷积输出的特征图展平成一维向量(图3),考虑到6层卷积输出的特征图尺寸较大,使用Flatten操作会产生大量参数,并且包含复杂且对本任务作用不大的特征,因此使用全局平均池化代替Flatten操作。Lin等研究提出全局平均池化(Global Average Pooling)[20,全局平均池化操作对单张特征图所有元素相加求均值得到该特征图的特征值,输出所有特征值组成的一维向量。尺寸为[H,W,C]的特征图经过Flatten操作后大小为[H,W,C],而经过全局平均池化后为[1,1,C],如图3所示,全局平均池化操作大大减少了参数量,对避免过拟合也有很好的作用。

相对于分类神经网络最后的Softmax激活函数,回归神经网络需要输出连续特征值,因此,全连接层最后一层使用线性激活函数。基础网络结构如表2所示。

将表1的基础网络结构命名为M1。在AveragePooling1、Conv4和Conv6层后加入通道注意力层,将加入注意力层的模型命名为M2。

1.2.5 分离RGB通道模型 将叶片RGB图像三通道分离(图4),不同通道灰度图叶片结构特征基本一致,不同通道灰度图灰度值相差较大。提取叶片R、G、B三颜色特征值和SPAD值进行相关性分析,发现叶片R、G、B三颜色特征值对SPAD值有不同的相关性(表4)。常见的卷积神经网络将RGB图像使用参数共享的卷积核,第1层卷积每个卷积核对R、G、B三通道进行卷积并生成1个包含R、G、B三通道特征的特征图。考虑到三通道灰度图特征可能对预测结果有不同的影响,因此本研究尝试通过分离三颜色通道并分别进行卷积操作,以达到不同通道特征赋以不同的权重的目的。

将三通道分离并分别进行卷积的模型命名为Split_M1,在该模型基础上添加注意力机制的模型命名为Split_M2,模型结构如图5所示。

1.2.6 卷积可视化分析 將M2和Split_M2在最后一层通道注意力层的输出可视化,观察可视化特征图,发现M2可视化特征图较为单一(图6),其中通过输出全部黑色特征图矩阵,发现全部特征值为负数,经过Relu激活函数输出为0,对最终精度没有影响。观察Split_M2卷积可视化特征图发现,不同通道特征图相差较大(图7、图8、图9),相比M2输出特征图,Split_M2输出特征图明显包含更多特征,且三通道特征图有较大差异。

2 结果与分析

2.1 图像特征提取

基于图像特征提取的叶片表型回归方式通过对图像像素数据的统计,提取图像R、G、B特征值,图像中叶片像素个数,叶片最小包围盒等操作提取叶片图片特征,将叶片图片特征与叶片表型实测值进行线性回归拟合,得到图片特征值与叶片实测值的回归函数,以实现对叶片表型的快速检测。

部分叶片图像提取特征值与实测值见表3。

将图片特征值与叶片表型实测值进行相关性分析,结果见表4。

由表4可知,叶片特征值与表型实测值r2均达到0.8以上,r均达到0.9以上,有很好的相关性。

2.2 基于卷积神经网络的检测

本研究模型使用Keras深度学习框架,采用Python 3.8编程语言实现。模型训练Batch_size设置为8,训练Epochs设置为300,保存验证集MAE最优的模型权重。4种模型对不同任务组合在验证集上的MAE如图10所示。

由图10可知,注意力机制和通道分离操作的使用提高了模型在大部分任务上的精度,Split_M2获得了最好的效果。

使用各任务训练得到的Split_M2模型权重对测试集进行预测,使用相关系数r和决定系数r2评估模型在测试集上的表现,检验模型的泛化能力。

由图11可知,叶面积在各个任务分组中,在测试集上的相关系数r均达到0.998,鲜质量在任务8及任务15中相关系数r最高,为0.994,叶宽在任务6中相关系数r最高,为0.991,SPAD在任务7中相關系数r最高,为0.949。

由图12可知,叶面积在各个任务分组中,决定系数r2均达到0.997,鲜质量在任务8及任务15中r2达到0.988,叶宽在任务6中r2最高,为0.982,SPAD在任务7中r2最高,达到0.901。

上述结果表明,基于通道分离和注意力机制的Split_M2在精度方面超过了其他模型和基于图像特征进行回归的传统方法,各个表型预测在不同任务中达到不同的预测精度,表明玉米叶片各表型不同组合进行模型训练对模型精度有直接影响。

4 结论

本研究提出的分离RGB三通道的模型通过对RGB三通道分别进行卷积,对不同通道特征调整了权重,增强了有效特征,相对于普通网络在验证集上取得了更低的MAE,通道注意力机制的使用进一步提高了模型的性能,由测试集结果可知,Split_M2预测结果与实际值有较高的相关性,达到了预期效果,结果优于提取图像特征的检测方法和普通深度学习模型,能够满足玉米叶片表型检测的精度要求。

不同任务组合的对比试验结果表明,不同任务组合在同一网络下有较大差距,叶面积与其余3种表型进行训练,均可达到较高精度,鲜质量在与叶宽组合,以及4种表型组合进行训练得到的模型精度较高,叶宽在与叶面积组合进行训练得到的模型精度最高,SPAD值在与叶面积组合进行训练得到的模型精度最高,上述结果为基于深度学习的作物叶片表型检测提高精度提供了方向。本研究在实验室环境下进行试验,在真实环境中由于光照强度问题需进一步优化,如采用标准比色板调整图像等方式,避免实际应用时光照强度和复杂背景带来的影响。

参考文献:

[1]岑海燕,朱月明,孙大伟,等. 深度学习在植物表型研究中的应用现状与展望[J]. 农业工程学报,2020,36(9):1-16.

[2]刘建刚,赵春江,杨贵军,等. 无人机遥感解析田间作物表型信息研究进展[J]. 农业工程学报,2016,32(24):98-106.

[3]翁 杨,曾 睿,吴陈铭,等. 基于深度学习的农业植物表型研究综述[J]. 中国科学(生命科学),2019,49(6):698-716.

[4]吴泽江. 基于RGB图像方法预测玉米表型特征[D]. 合肥:安徽农业大学,2020.

[5]孙 俊,张国坤,毛罕平,等. 基于介电特性与回归算法的玉米叶片含水率无损检测[J]. 农业机械学报,2016,47(4):257-264,279.

[6]Montes Condori R H,Romualdo L M,Martinez Bruno O,et al. Comparison between traditional texture methods and deep learning descriptors for detection of nitrogen deficiency in maize crops[C]//2017 Workshop of Computer Vision (WVC).October 30-November 1,2017,Natal,Brazil.IEEE,2018:7-12.

[7]陈 防,鲁剑巍. SPAD-502叶绿素计在作物营养快速诊断上的应用初探[J]. 湖北农业科学,1996,35(2):31-34.

[8]甘海明,岳学军,洪添胜,等. 基于深度学习的龙眼叶片叶绿素含量预测的高光谱反演模型[J]. 华南农业大学学报,2018,39(3):102-110.

[9]荣民希,班 彬,王智峥,等. 基于Macbm-RCNN的叶片周长和面积测量方法[J]. 江苏农业科学,2022,50(13):199-206.

[10]袁自然,叶 寅,武 际,等. 基于高光谱成像技术的辣椒叶片叶绿素含量估算[J]. 江苏农业科学,2021,49(16):189-193.

[11]张 伏,张亚坤,毛鹏军,等. 植物叶绿素测量方法研究现状及发展[J]. 农机化研究,2014,36(4):238-241.

[12]李媛媛,常慶瑞,刘秀英,等. 基于高光谱和BP神经网络的玉米叶片SPAD值遥感估算[J]. 农业工程学报,2016,32(16):135-142.

[13]Vandenhende S,Georgoulis S,van Gansbeke W,et al. Multi-task learning for dense prediction tasks:a survey[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence,2022,44(7):3614-3633.

[14]LeCun Y,Bottou L,Bengio Y,et al. Gradient-based learning applied to document recognition[J]. Proceedings of the IEEE,1998,86(11):2278-2324.

[15]Krizhevsky A,Sutskever I,Hinton G E.ImageNet classification with deep convolutional neural networks[J]. Communications of the ACM,2017,60(6):84-90.

[16]Simonyan K,Zisserman A.Very deep convolutional networks for large-scale image recognition[EB/OL]. [2022-09-05]. https://arxiv.org/abs/1409.1556.

[17]Szegedy C,Liu W,Jia Y Q,et al. Going deeper with convolutions[C]//2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR).June 7-12,2015,Boston,MA,USA.IEEE,2015:1-9.

[18]He K M,Zhang X Y,Ren S Q,et al. Deep residual learning for image recognition[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR).June 27-30,2016,Las Vegas,NV,USA.IEEE,2016:770-778.

[19]Hu J,Shen L,Sun G.Squeeze-and-excitation networks[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition.June 18-23,2018,Salt Lake City,UT,USA.IEEE,2018:7132-7141.

[20]Lin M,Chen Q,Yan S C.Network in network[EB/OL]. 2013:arXiv:1312.4400.https://arxiv.org/abs/1312.4400

猜你喜欢
注意力机制
基于注意力机制的行人轨迹预测生成模型
计算机应用(2019年3期)2019-07-31 12:14:01
多特征融合的中文实体关系抽取研究
基于注意力机制和BGRU网络的文本情感分析方法研究
从餐馆评论中提取方面术语
基于深度学习的手分割算法研究
基于序列到序列模型的文本到信息框生成的研究
面向短文本的网络舆情话题
基于自注意力与动态路由的文本建模方法
软件导刊(2019年1期)2019-06-07 15:08:13
基于深度学习的问题回答技术研究
基于LSTM?Attention神经网络的文本特征提取方法