张 盾,黄志开,王 欢,吴义鹏,王 颖,邹家豪
基于多尺度特征实现超参进化的野生菌分类研究与应用
张 盾1,黄志开1,王 欢2,吴义鹏1,王 颖1,邹家豪1
(1. 南昌工程学院信息工程学院,江西 南昌 330000;2. 南昌工程学院机械工程学院,江西 南昌 330000)
在我国,因误食不可食用野生菌而导致中毒的事件频发,尤其是云南等西南地区,由于野生菌种类的类间特征差异较小,且实际场景下的图像背景复杂,仅靠肉眼分辨困难。目前虽然有多种方法可对野生菌进行分类,且最为可靠的方法为分子鉴定法,但该方法耗时长、门槛高,不适合进行实时分类检测。针对这一问题,提出了一种基于深度学习的方法,即使用注意力机制(CBAM),配合多尺度特征融合,增加Anchor层,利用超参数进化思想对其模型训练时的超参数进行调整,从而提升识别精度。与常见的目标检测网络SSD,Faster_Rcnn和Yolo系列等进行对比,该模型能更准确地对野生菌进行分类检测;经过模型改进后,相较于原Yolov5,Map提升3.7%,达到93.2%,准确率提升1.3%,召回率提升1.0%,且模型检测速度提升2.3%;相较于SSD,Map提升14.3%。最终将模型简化,部署到安卓设备上,增加其实用性,解决当前因野生菌难以辨别而误食不可食用野生菌导致中毒的问题。
计算机应用;卷积神经网络;多尺度特征;超参数进化;注意力机制;可食用野生菌;目标检测
可食用野生菌因味道鲜美、营养丰富而深受国人的喜爱,但如何识别外观上极为相似的可食用与不可食用野生菌对于普通人群而言成为一个待解决的问题,因其不具备鉴别的相关知识,容易误食不可食用野生菌而发生中毒。据文献[1]统计显示,2011年—2017年,云南省共报告野生菌中毒事件1 789起,中毒7 966人,死亡219人。
目前在我国的传统野生菌交易市场,还不具备专业化的野生菌检测系统或设备,大多依赖于商家或购买者的人为分类,所以有误判的情况出现,基于此,研究一种便携式的野生菌识别工具就显得十分重要。传统野生菌的识别方法大致分为化学检测法[2]、动物实验检验法[3]、真菌分类学鉴定法[4]和形态特征识别方法[5]等,虽然方法众多,但也存在诸多问题,如实验器材难以获取、耗时长、实用性差、不易推广等。因此,基于图像处理、深度学习的野生菌识别显得极具优势,文献[6]探讨了基于Xception与ResNet50网络进行野生菌的分类识别,其数据集来源于网络开源数据集,大部分来自于Kaggle,但存在类别少、数据集不符合应用实际,导致泛化性能降低,通常难以达到实验过程中在测试集上获取的指标。文献[7]是基于深度学习的蘑菇图像分类研究,其数据集共计7类,但未涉及目前市场上常见的可食用野生菌种类,数据集不具备普遍适应性。文献[8]探讨了基于改进Xception迁移学习的野生菌种类识别研究,其数据集和文献[6]存在相同问题,即大部分来自于网络收集,存在不够贴近实际应用场景的问题,且文献[8]采集的数据集主要为不可食用的野生菌种类,缺乏可食用野生菌种类。
上述基于深度学习的野生菌检测方法对可食用野生菌的识别做出了一定贡献,但仍然有改进空间:如野生菌的生长受地域影响,其菌类繁杂,对于使用深度学习进行野生菌检测首先应该限定区域,并对特定区域的野生菌进行收集分类;部分野生菌类之间特征差异较小,从外观上仅表现为部分纹理的不同,因此对于数据集的图像分辨率要求较高;野生菌识别时因背景较为复杂,在收集时应该保持数据集背景的多样性,而非单目标的单一背景图片;收集的数据集应尽可能避免修图等破坏对象特征的情况存在。文献[9]利用多尺度特征引导的细粒度野生菌图像识别,使识别精确率得到了提升,但对实际应用未做过多探讨,未解决当前野生菌市场的野生菌识别系统或设备欠缺的问题。
深度学习广泛应用于微生物食品安全领域[10-11];在菌类测量等方面,图像分类技术也具备良好的效果[12];在农业疾病控制方面,图像分割技术也应用广泛,如文献[13-14]利用深度学习对病害孢子进行精准分割。利用深度学习实现可食用与不可食用野生菌的分类检测是解决问题的关键,但仍然需要做出诸多完善。在数据集方面,收集高质量、多种类具有代表性图片共计4 000张;在模型设计改进方面引入CBAM注意力机制,结合可食用野生菌的多尺度特征融合,增加Anchor层,利用超参数进化去优化训练超参数,最后结合自制数据集进行训练获取模型。从P-R曲线图可知,相较于原网络结构模型,野生菌的识别率得到明显提升,Map提升3.7%,达到93.2%,同时准确率(Precision)提升1.3%,召回率(Recall)提升1.0%,且模型检测速度提升2.3%;Map相较于其他目标检测网络如Faster_Rcnn和SSD网络分别提升了7.5%和14.3%。在实现可食用野生菌识别精确率提升的同时,结合NCNN框架,将其部署至安卓系统上,降低深度学习使用门槛较高的问题,实现人人能方便使用的目的。
每年7月和8月为可食用野生菌生长旺季,通过手机实地拍摄构建可食用野生菌数据集,其为高质量、多角度、具备普遍适用性的数据集。该数据集共计4 000张图片,包括16 000余朵野生菌对象,大部分图像分辨率为4344×5792 px,图片具备高清晰度。本次采集的数据集共计12类(图1),其中可食用野生菌10类,均为在云南野生菌市场常见种类,分别为青头菌、白牛肝菌、红牛肝菌、黑牛肝菌、红见手青、黄见手青、黑羊肝菌、鸡油菌、鸡枞菌、灵芝;2类不可食用野生菌分别为毒蝇伞和鹅膏菌。
图1 数据集种类
图1中,本数据集的对象并非为单一对象,其包含大量多种类对象图片,目的在于增强模型最终的泛化性能,增强目标检测能力,使得其在实际应用时得到较好的效果。在上述12类野生菌中,大部分为有毒野生菌,只是毒性强弱不等,且部分有毒野生菌经过适当加工后可以食用。
深度学习中关于模型训练参数可分为模型参数和模型超参数。模型超参数又可分为结构超参数和运行超参数2类,结构超参数是指在模型结构中起决定性作用的配置变量,也称为神经结构搜索(neural architecture search,NAS)[15]。如,隐藏层的层数、卷积核与池化核的大小和数量,其均为卷积神经网络(convolutional neural networks,CNN)的结构超参数;运行超参数即运行神经网络的超参数,如学习率、批量大小等[16],本文主要用于进化运行超参数。
文献[17]在训练时偶尔增大学习率而非持续地减少,虽然短期内会造成模型性能表现不佳,但最终训练结果在测试集上表现却比传统的逐渐衰减策略更好,以更大地学习率进行学习能加快速度逃离鞍点,从而加速模型收敛。余弦退火可通过余弦函数来调整学习率,随着值的增加,余弦值先缓慢下降,后加速下降,再缓慢下降。将这种模式用于学习率的调整,可产生很好的效果。
在SGDR实现中,学习率调整策略为:先确定学习率的极大值和极小值以及循环周期步长。根据式(1),确定训练步长,然后以最大学习率进行训练,并在每个训练步长结束后逐渐降低学习率,直到最小学习率,然后将学习率逐步恢复到最大学习率继续下一次训练,即
其中,max和min分别为学习率的最大和最小范围;T为步长。
在本文模型训练中,超参数进化列表共有36个,超参数包括:学习率、余弦退火超参数、学习率动量、权重衰减系数、预热学习步长、预热学习率动量、预热学习率等。文中超参数的进化原理为,首先根据设置的权重判断参数的优先级,如本文设置Map@0.5为第一参数,Map@0.5:0.95为第二参数,则权重参数设置为[0.9 0.1],然后将之前训练所得的超参数矩阵与权重相乘,通过排列的方式将mAP@0.5参数更优的超参数组合置顶在矩阵的首行,组成一个新的超参数矩阵;最后通过2种参数选择方法选择下一代超参数,其一根据权重随机选择,其二融合历代超参数作为下一代超参数。
在目标检测中,最为重要的评价指标有Precision,Recall,Map@0.5和Map@0.5:0.95。本文重点关注Map@0.5值的提升,所以预先设置权重=[0 0 0.9 0.1]。为×的一个矩阵,为超参数已迭代的次数,为超参数的个数。假设迭代次数为1,即=1,将权重与矩阵相乘,得到
若迭代次,则得到个,矩阵是一个1×的矩阵,且由组成。
将矩阵中的各项按照从大到小重新排列,以各项顺序作为矩阵的索引值,并将矩阵重新排列,实现将Map@0.5更优的参数列依次置顶,将重新排列后的矩阵称为矩阵,其是一个×的矩阵。
以为基础,计算一个新的权重为
其中,为防止*为零,增加一个常数b,b取值为1e-6。
有了权重*后,提供2种独立方法选择下一代超参数。从矩阵中根据权重*随机选择一组超参数,利用choices函数实现;再进行*与矩阵的运算,获得×的矩阵,即
之后对矩阵每一列进行求和,最终得到一个1×的矩阵,对其各项除以*的和,由此得到个新超参数,其为融合历代超参数特点所得的下一代超参数,即
在超参数进化的过程中,设置权重为[0.9 0.1],再次用choices函数对2种迭代方法交替使用,以实现在继承最优父类的同时,保持以往的延续。进行适当次数的超参数进化后获得了更适合于野生菌分类的参数,使用该系列参数进行模型训练,相较于基于COCO数据集进化参数所得的模型,最终Map值提升了1.8%。
在实际场景中应用可食用野生菌检测,需考虑应用场景的复杂性,对可食用野生菌特征进行多尺度融合可取得良好效果。进行多尺度特征融合不仅能提高验证集的表现,也能够加强模型在实际应用场景中的泛化能力。其广泛应用于,如食品安全[18]、信号分类[19]、目标跟踪[20]等领域。
由于多尺度特征网络结构较灵活,且没有清晰的界限,可将网络结构分为:多尺度输入、多尺度特征融合、多尺度输出。对于多尺度输入,顾名思义就是将多个尺度的图像输入网络,然后对每层图片提取不同尺度的特征,融合后得到新的特征图,最后对每个尺度的特征均进行单独的预测。多尺度图像输入如图2所示,本文对图像进行最小0.5倍,最大1.6倍的缩放,最后送往网络对其执行训练。
图2 多尺度图像输入
本文网络结构采用PANet作为特征融合,其为特征金字塔(feature pyramid networks,FPN)的改进版。FPN通过上采样,与上一层特征融合,经过多层融合,其具备了多分辨率特征检测的能力,以检测不同大小的对象。PANet经正、反向融合,相较于FPN提升了Map值。PANet结构如图3所示,其中的图3(a)区域为FPN骨干部分;相较于FPN,PANet开辟新的道路,将顶层信息快速与底层信息汇合;图3(b)区域为自下而上的特征融合。
多尺度目标检测方法中的Bounding Box设计,利用RPN网络生成不同尺度的Anchor,实现多尺度目标检测。在原网络结构中,Anchor共计3层,考虑到实际应用中的泛化性能,将3层增至4层。在骨干(Backbone)结构部分,在之前的1 024与512卷积层之间增加一个卷积层及一个C3模块;而在PANet部分也增加与之对应的特征融合层,如图4加粗标识所示。经过上述改动后,新模型的Map值提升2.3%。
图3 PANet结构细化图((a)FPN骨干;(b)特征融合)
图4 模型总体网络结构
注意力机制主要是通过模拟人眼的视觉注意力,在模型训练中主动关注感兴趣的区域,以便更好地学习图像中的重要特征,其被广泛应用于车辆分类[21-22]和行人属性识别[23],以及面部表情识别[24]等领域。
注意力机制通常分为通道(Channel)注意力机制以及空间(Spatial)注意力机制。本文选用常见的几种注意力机制进行实验,分别对比其各自的性能,以选择更好的注意力机制进行后续的组合实验。
本文选择CBAM (convolutional block attention module),SE (Selayer)和CA (coord attention) 3种注意力机制以及包含自注意力机制的TR (transformer block)进行实验,4组实验均将模块放于骨干网络(Backbone)的末端,如图4所示。
SELayer来源于SENet[25],SE模块主要为了提升模型对通道特征的敏感性,该模块属于轻量级,应用于现有的网络结构中,只需要增加较少的计算量就可以带来性能的提升。SE模块只考虑了通道间信息的编码,但忽略了空间位置信息的重要性,而位置信息对于很多需要捕获目标结构的视觉任务至关重要。
CA将通道注意力进行了分解,为2个不同方向的特征编码过程。其好处是可以沿着一个空间方向捕获长程依赖,沿着另一个空间方向保留精确的位置信息。然后,将生成的特征图进行分别编码,形成一对方向感知和位置敏感的特征图,并可互补地应用于输入特征图中以增强感兴趣的目标。CA通常是灵活且高效的,不会带来更多的额外计算量,使得目标检测更为有效。本文尝试在Backbone中引入CA,但结果不理想。以往学者常将CA,SE以及CBAM进行注意力机制性能对比,依据文献[26],本文尝试加入CBAM注意力机制。
CBAM[27]是一种用于前馈CNN的简单而有效的注意力模块;相较于SE只关注通道注意力机制而言,CBAM结合了通道和空间的注意力机制显得更为高效。CBAM将输入的特征图顺序通过通道和空间模块,即首先将输入的特征图经过全局最大池化(global max pooling)和全局平均池化(global average pooling),然后经过全连接层,加权后得到通道注意力特征图;之后将通道注意力特征图与输入特征图进行Element-Wise乘法操作,最终获得空间注意力特征图。通过实验可知,CBAM更适合应用于野生菌分类检测,相较于未添加CBAM的原生网络而言,前者的Map值提升了1.5%,召回率也提升了2.0%。
将数据集输入网络前,对输入图片进行Resize操作,统一缩放为640×640大小,并送入Focus进行切片操作,然后通过Concat操作进行连接,最后进行卷积,该模块的设计主要是减少参数量,以达到降维、提速的目的。卷积完成后送入C3模块,其与BottleneckCSP模块结构基本一致,在一般的CNN网络中,卷积层、BN层、激活函数均是配套出现的,但是从YOLOV5-V4.0开始,激活函数就由LeakyReLU改为SiLU函数,而C3模块取代了原CSP模块,C3由3个卷积组合,而CSP模块由4个卷积组合,通过C3替换CSP,可以起到精简网络结构,减少计算量及模型推理时间的作用。SPP模块分别采用3,5,7的最大池化,进行Concat融合,提高感受野。在Backbone的最后,加入CBAM注意力机制,以便更好地学习感兴趣区域,提高模型Map值。在网络的Neck部分,采用PANet,通过增加从最底层到最上层的信息传输路径,加强了FPN,使得模型泛化性能增强,提升识别对象的能力。
可食用野生菌分类数据集为自建数据集,共计12个种类,4 000张高清图像,16 000余朵野生菌对象。实验中数据集划分按照训练集﹕验证集﹕测试集=7﹕2﹕1进行划分。
实验操作系统为Windows 10服务器,CPU为i5 10400,GPU为3060。深度学习框架为Pytorch 1.9,编程环境选择Python 3.8,CUDA驱动版本选择11.1。实验共计4组,在模型训练时,训练步数均为200步;在获取模型指标时,交并比(intersection over union,IoU)和置信度阈值(Conf)等参数设置均保持一致,为0.6和0.001;关于Yolov5改进与对比部分实验均采用Yolov5s结构;所有实验均在COCO数据预训练所得的模型上进行迁移学习。
2.2.1 实验方法分析
实验共计4组,①将多尺度变化、使用进化所得超参数、增加Anchor层等方法单独实验,并与原Yolov5进行对比;②对比目前常见的注意力机制运用效果,即自带注意力机制(self-attention)的Transformer Block,和选用的Convolutional Block Attention Module,Selayer和Coord Attention 3种注意力机制;③分别将上述注意力机制与多尺度变化、超参数进化以及增加Anchor层相结合进行实验对比;④选择本文中最优模型与常见的目标检测网络进行对比,如历代Yolo,SSD和Faster Rcnn等。
主要评价指标为Map,Precision和Recall,即
其中,参数有TP (true positives),FP (false positives),TN (true negatives)和FN (false negatives);Map值为确定IoU以及Precision和Recall后,绘制P-R曲线计算出AP值,再对AP取平均值。
2.2.2 实验一
实验一对多尺度变化、超参数进化和增加Anchor层分别进行实验,其中增加Anchor层实验相较于原网络结构提升最大,Map达到91.8%,Precision达到94.1%,其P-R曲线图如图5所示。实验结果及其对比见表1。
2.2.3 添加注意力机制实验二
本文实验中引入了CBAM,SE和CA 3种注意力机制以及包含自注意力机制的TR。对比4组实验结果(表2),可以发现加入CBAM注意力机制对于模型的第一指标Map值有小幅提升,提升1.5%,召回率提升2.0%;对于模型的Precision而言,仅有SE注意力机制有小幅度提升。加入CBAM注意力机制训练所的模型的P-R曲线如图6所示。
图5 增加Anchor层的模型P-R曲线
表1 实验数据(%)
表2 注意力机制实验数据(%)
图6 加入CBAM机制的模型P-R曲线
2.2.4 组合实验三
第3组实验是在第1组和第2组实验的基础上进行组合的,即分别将几种注意力机制与多尺度变化、超参数进化、增加Anchor层进行组合实验的结果,见表3。由表3可知,CBAM注意力机制结合多尺度变化、超参数进化和增加Anchor层训练所得的模型结果达到最优,相较于未进行改进的Yolov5,该模型用于评价目标检测好坏的 3个指标均得到提升,Map值提升最大,达到3.7%;Precision提升1.3%;Recall提升1.0%。所有训练所得模型对400张测试图片进行检测时,CBAM组合模型耗时最短,相较于原生Yolov5减少2 s的时长。CBAM注意力机制结合多尺度变化、超参数进化以及增加Anchor层训练所得模型指标如图7所示。
表3 注意力机制组合实验数据
注:MS为多尺度变化;HE为超参数进化;FA为增加Anchor层至4层
图7 CBAM机制组合实验模型P-R曲线
2.2.5 与其他网络进行对比实验
从实验三中可以看出,CBAM组合实验所得的模型指标达到最优,较原生的Yolov5均得到提升,该模型即为本文推荐最优模型。
使用该模型与目前常见的目标检测算法One- Stage与Two-Stage所对应的代表网络进行对比,实验结果见表4。
表4 各网络对比实验数据
从上述4组实验中可以看出,对于超参数进化、增加Anchor层以及添加注意力机制均对模型有不同程度地提升,且多尺度变化会影响模型应用的泛化性能,因此本文最优模型将所述内容全部进行结合,最终训练所得模型在Map,Precision和Recall以及模型检测速度方面均得到提升,相较于Unchanged yolov5,Map提升3.7%,Precision提升1.3%,Recall提升1.0%,模型检测速度提升2.3%。
使用改进后的模型与目前主流的目标检测网络训练所得的模型进行对比,相较于其他Yolo系列网络,Map提升5.0%以上,Precision提升9.0%以上;相较于Faster-Rcnn网络,Map提升7.5%;相较于SSD网络,Map提升14.3%。
图8为模型实际测试效果对比图,选用了Yolov3,SSD以及Faster-Rcnn与本文改进后的模型进行对比。测试图片选用外观相似的菌种,如白牛肝菌、黄见手青以及青头菌;图片背景选用单一以及复杂2种背景;野生菌对象数选用单一目标以及多目标2种。从图8可以看出,其他3种模型在对复杂背景且对象数众多的图片进行检测时,均出现了不同程度的误检。
图8 模型测试效果图
本文致力于准确、快速地实现可食用野生菌的分类检测。针对目前野生菌的分类检测如分子鉴定法、化学检测法、动物实验检验法、真菌分类学鉴定法和形态特征识别方法等,通常不适合于广大群众。可食用野生菌作为一种常见的食物,人们在菜市场即可购得,并不会花费大量的时间和金钱去鉴别,分辨野生菌是否可食用一般通过个人认知或卖家介绍,这伴随着巨大的安全隐患,因此本文基于深度学习,提出一种快速、准确的检测方法,解决该问题。
NCNN是一个为手机端极致优化的高性能神经网络前向计算框架。在设计之初就考虑手机端的部署和使用。其无第三方依赖,手机端CPU运行的速度快于目前所有已知的开源框架。采用NCNN框架进行移动端本地部署,主要目的在于追求识别速度,因此模型的简化是必要的,识别效果如图9所示,其对野生菌的识别具有一定作用。
图9 模型部署安卓测试效果图
考虑到用户可能需要准确度更高的识别方式,因此拟通过云端部署模型进行识别的方式解决该问题。在云端部署准确度更高的模型,通过手机拍照上传图片,以阿里云OSS作为图片存储的中转站,最终通过云端服务器对图片进行检测,输出相应检测信息,回传至Mysql数据库等待手机端调用回传。
本App设计的初衷旨在于为广大民众在购买野生菌时提供一定的帮助,同时也起到科普及鉴别的作用。本地部署的识别方法已有相关报道[28],考虑到识别准确性问题,本应用程序提供了2种识别方法。在各种场景中为用户提供不同的识别方法供其选择,以改善用户体验。
(1) 本地识别(无需接入互联网)实时性好,但准确度不如云端部署模式;
(2) 云端部署模型的方法具有高精度,但由于网络波动等因素,实时性较差。
本文结合多尺度特征、超参数进化以及CBAM注意力机制提出了一种针对野生菌分类检测的网络。通过与其他的目标检测网络对比,该网络具备更准确、更快速地检测特点,其相较于原Yolov5网络,Map提升3.7%,达到93.2%,Precision提升1.3%,Recall提升1.0%,且模型检测速度提升2.3%。野生菌种类繁杂,文中提及种类共计12类,增加模型能鉴别的种类将提升应用的实际意义;对于模型鉴别种类准确性的进一步提升,使用具备更强计算能力的设备完善超参数可能会取得更好的效果。
[1] 万蓉, 刘志涛, 万青青, 等. 2011—2017年云南省野生菌中毒情况分析[J]. 卫生软科学, 2019, 33(10): 84-86, 97.
WAN R, LIU Z T, WAN Q Q, et al. Analysis on wild mushroom poisoning in Yunnan Province from 2011 to 2017[J]. Soft Science of Health, 2019, 33(10): 84-86, 97 (in Chinese).
[2] GRANDSTAFF D E, TERRY D O Jr. Rare earth element composition of Paleogene vertebrate fossils from Toadstool Geologic Park, Nebraska, USA[J]. Applied Geochemistry, 2009, 24(4): 733-745.
[3] ZHAO J, CAO M, ZHANG J, et al. Pathological effects of the mushroom toxin α-amanitin on BALB/c mice[J]. Peptides, 2006, 27(12): 3047-3052.
[4] 桂明英, 何容, 郭永红, 等. 基于形态特征和ITS序列对新疆芦苇根蘑菇的分类鉴定[J]. 食用菌, 2014, 36(4): 14-16.
GUI M Y, HE R, GUO Y H, et al. Classification and identification of Xinjiang reed root mushrooms based on morphological characteristics and ITS sequences[J]. Edible Fungi, 2014, 36(4): 14-16 (in Chinese).
[5] 曾令奎. 毒蘑菇中毒的识别和预防[J]. 中国林副特产, 2008(1): 97-98.
ZENG L K. Recognition and Prevention of Poisonous Mushroom Poisoning[J]. Forest by-Product and Speciality in China, 2008(1): 97-98 (in Chinese).
[6] 沈若兰, 黄英来, 温馨, 等. 基于Xception与ResNet50模型的蘑菇分类方法[J]. 黑河学院学报, 2020, 11(7): 181-184.
SHEN R L, HUANG Y L, WEN X, et al. Mushroom classification based on xception and ResNet50 models[J]. Journal of Heihe University, 2020, 11(7): 181-184 (in Chinese).
[7] 肖杰文, 赵铖博, 李欣洁, 等. 基于深度学习的蘑菇图像分类研究[J]. 软件工程, 2020, 23(7): 21-26.
XIAO J W, ZHAO C B, LI X J, et al. Research on mushroom image classification based on deep learning[J]. Software Engineering, 2020, 23(7): 21-26 (in Chinese).
[8] 陈德刚, 艾孜尔古丽, 尹鹏博, 等. 基于改进Xception迁移学习的野生菌种类识别研究[J]. 激光与光电子学进展, 2021, 58(8):245-254.
CHEN D G, AZRAGUL,YIN P B, et al. Research on identification of wild mushroom species based on improved xception transfer learning[J]. Laser & Optoelectronics Progress, 2021, 58(8): 245-254 (in Chinese).
[9] 张志刚, 余鹏飞, 李海燕, 等. 基于多尺度特征引导的细粒度野生菌图像识别[J/OL]. 激光与光电子学进展: 2021, 1-19. http://kns.cnki.net/kcms/detail/31.1690.tn.20210823.1131.008.html.
ZHANG Z G, YU P F, LI H Y, et al. Fine-grained image recognition of wild mushroom based on multi-scale feature guidance[J/OL]. Laser and Optoelectronics, 2021, 1-19. http://kns.cnki.net/kcms/detail/31.1690.tn.20210823.1131.008.html (in Chinese).
[10] BHAT R, KIRAN K, ARUN A B, et al. Determination of mineral composition and heavy metal content of some nutraceutically valued plant products[J]. Food Analytical Methods, 2010, 3(3): 181-187.
[11] ABDULLAH M Z, MOHAMAD-SALEH J, FATHINUL- SYAHIR A S, et al. Discrimination and classification of fresh-cut starfruits (Averrhoa carambola L.) using automated machine vision system[J]. Journal of Food Engineering, 2006, 76(4): 506-523.
[12] 朱怡航, 张小斌, 沈颖越, 等. 基于图像识别技术的金针菇表型高通量采集与分析[J]. 菌物学报, 2021, 40(3): 626-640.
ZHU Y H, ZHANG X B, SHEN Y Y, et al. High-throughput phenotyping collection and analysis of Flammulina filiformis based on image recognition technology[J]. Mycosystema, 2021, 40(3): 626-640 (in Chinese).
[13] ZHAO Y C, LIN F S, LIU S G, et al. Constrained-focal-loss based deep learning for segmentation of spores[EB/OL]. [2021-04-26].https://ieeexplore.ieee.org/document/8896836.
[14] ZHAO Y C, LIU S G, HU Z H. Focal learning on stranger for imbalanced image segmentation[J]. IET Image Processing, 2022, 16(5): 1305-1323.
[15] LUO R Q, TIAN F, QIAN T, et al. Neural Architecture Optimization[J]. Neural Information Processing Systems, 2018, 34(2): 7827-7838.
[16] 龚道庆. 深度神经网络模型超参数进化调优及其应用研究[D]. 南宁: 南宁师范大学, 2020.
GONG D Q. Research on hyperparameter evolutionary tuning of deep neural network mode and its application[D]. Nanning: Nanning Normal University, 2020 (in Chinese).
[17] LOSHCHILOV I, HUTTER F. SGDR: stochastic gradient descent with warm restarts[EB/OL]. [2021-05-10]. https://arxiv.org/abs/1608.03983.
[18] ANUKRISHNA P R, PAUL V. A review on feature selection for high dimensional data[C]//2017 International Conference on Inventive Systems and Control. New York: IEEE Press, 2017: 1-4.
[19] 张繁, 尹鑫, 徐宇扬, 等. 基于多尺度特征提取的多导联心跳信号分类[J]. 图学学报, 2021, 42(4): 581-589.
ZHANG F, YIN X, XU Y Y, et al. Multi-lead heartbeat signal classification based on multi-scale feature extraction[J]. Journal of Graphics, 2021, 42(4): 581-589 (in Chinese).
[20] 牟琦, 张寒, 何志强, 等. 基于深度估计和特征融合的尺度自适应目标跟踪算法[J]. 图学学报, 2021, 42(4): 563-571.
MU Q, ZHANG H, HE Z Q, et al. Scale adaptive target tracking algorithm based on depth estimation and feature fusion[J]. Journal of Graphics, 2021, 42(4): 563-571 (in Chinese).
[21] 李宇昕, 杨帆, 刘钊, 等. 基于改进残差网络的道口车辆分类方法[J]. 激光与光电子学进展, 2021, 58(4): 384-390.
LI Y X, YANG F, LIU Z, et al. Classification method of crossing vehicle based on improved residual network[J]. Laser & Optoelectronics Progress, 2021, 58(4): 384-390 (in Chinese).
[22] 陈钱球. 基于深度多任务学习的车辆细粒度分类方法研究[D]. 南昌: 华东交通大学, 2021.
CHEN Q Q. Research on the fine-grained classification of vehicles based on deep multi-task learning[D]. Nanchang: East China Jiaotong University, 2021 (in Chinese).
[23] 李娜, 武阳阳, 刘颖, 邢琎. 基于多尺度注意力网络的行人属性识别算法[J]. 激光与光电子学进展, 2021, 58(4): 290-296.
LI N, WU Y Y, LIU Y, et al. Pedestrian attribute recognition algorithm based on multi-scale attention network[J]. Laser & Optoelectronics Progress, 2021, 58(4): 290-296 (in Chinese).
[24] 史浩, 邢瑜航, 陈炼. 基于多尺度融合注意力机制的人脸表情识别研究[J]. 微电子学与计算机, 2022, 39(3): 34-40.
SHI H, XING Y H, CHEN L. Research on facial expression recognition based on multi-scale fusion attention mechanism[J]. Microelectronics and Computer, 2022, 39(3): 34-40 (in Chinese).
[25] HU J, SHEN L, SUN G. Squeeze-and-excitation networks[C]// 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2018: 7132-7141.
[26] HOU Q B, ZHOU D Q, FENG J S. Coordinate attention for efficient mobile network design[C]//2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2021: 13708-13717.
[27] WOO S, PARK J, LEE J Y, et al.Convolutional block attention module[EB/OL]. [2021-05-23]. https://arxiv.org/ abs/1807.06521.
[28] 兰宁. 基于Android平台的图像识别设计方法与实现[J]. 电子技术与软件工程, 2021(19): 61-64.
LAN N. Design method and implementation of image recognition based on Android platform[J]. Electronic Technology & Software Engineering, 2021(19): 61-64 (in Chinese).
Research and application of wild mushrooms classification based on multi-scale features to realize hyperparameter evolution
ZHANG Dun1, HUANG Zhi-kai1, WANG Huan2, WU Yi-peng1, WANG Ying1, ZOU Jia-hao1
(1. School of Information Engineering, Nanchang Institute of Technology, Nanchang Jiangxi 330000, China; 2. School of Mechanical Engineering, Nanchang Institute of Technology, Nanchang Jiangxi 330000, China)
In China, there are frequent poisoning events caused by ingestion of inedible wild mushrooms every summer, especially in Southwest China, such as Yunnan. This is due to the slight differences in inter-class characteristics of wild mushrooms and the complex image backgrounds in actual scenarios, making it difficult to distinguish only by naked eyes. At present, although there are many methods to classify wild mushrooms, and the most reliable way is molecular identification, the relevant techniques are time-consuming and require a high threshold, so they are not suitable for real-time classification and detection. To solve this problem, an approach based on deep learning was proposed. This approach employed the attention mechanism convolution block attention module (CBAM), was combined with multi-scale fusion, and added the anchor layer. The hyperparameter evolution idea was adopted to adjust the hyperparameter during the model training, so as to improve the recognition accuracy. Compared with standard target detection networks, such as SSD, Faster Rcnn, and Yolo series, the proposed model can classify and detect wild mushrooms more accurately. Compared with the original Yolov5, after the proposed model was improved, Map was improved by 3.7% and reached 93.2%, precision by 1.3%, Recall by 1.0%, and model detection speed by 2.3%. Compared with SSD, Map was improved by 14.3%. Finally, the model was simplified and deployed on Android devices to increase its practicability, thus solving the current problem of poisoning caused by eating inedible wild mushrooms because of the difficulty of identification.
computer application; convolutional neural network; multi scale features; hyperparameter evolution; attention mechanism; edible wild mushrooms; target detection
24 December,2021;
National Key Research and Development Plan of China (2019YFB1704502); National Natural Science Foundation of China (61472173); The Grants from the Educational Commission of Jiangxi Province of China (GJJ151134)
ZHANG Dun (1996–), master student. His main research interests cover image processing and target detection. E-mail:zzzd0413@163.com
TP 391
10.11996/JG.j.2095-302X.2022040580
A
2095-302X(2022)04-0580-10
2021-12-24;
2022-03-24
24 March,2022
国家重点研发计划项目(2019YFB1704502);国家自然科学基金项目(61472173);江西省教委资助项目(GJJ151134)
张 盾(1996-),男,硕士研究生。主要研究方向为图像处理与目标检测。E-mail:zzzd0413@163.com
黄志开(1969-),男,教授,博士。主要研究方向为图像处理等。E-mail:huangzhik2001@163.com
HUANG Zhi-kai (1969-), professor, Ph.D. His main research interest covers image processing, etc. E-mail:huangzhik2001@163.com