? 孔得溦 李尚 陈义明
摘要:针对传统人工判别克氏原螯虾性别效率低、成本高的问题,提出了一种基于YOLO v5的克氏原螯虾性别检测模型,实现了克氏原螯虾性别特征的自动判别。采用自主设计装置拍摄克氏原螯虾图像,使用Labelme工具进行基于雄虾交接器检测和基于区域特征检测两种方法的数据标注,在Pytorch框架下以Resnet-18为特征提取网络训练二分类模型,基于YOLO v5训练交接器检测和区域特征检测两种模型。结果表明:基于区域特征检测的模型具有较高的检测性能和准确性,能够高效、低成本地提取克氏原螯虾性别特征,对克氏原螯虾品种改良具有重要意义。
关键词:YOLO v5;目标检测;克氏原螯虾;深度学习;卷积神经网络
中图分类号:TP391.4文献标识码:A文章编号:1006-060X(2024)03-0059-05
A Gender Detection Method for Crayfish Based on YOLO v5
KONG De-wei,LI Shang,CHEN Yi-ming
(College of Information and Intelligence, Hunan Agricultural University, Changsha 410128, PRC)
Abstract: In response to the low efficiency and high cost of traditional manual discrimination of the gender of crayfish (Procambarus clarkii), this study proposed a gender detection model for crayfish based on YOLO v5, achieving automatic discrimination of the gender of crayfish. Crayfish images were captured using a self-designed device, and data annotation was performed using two methods, i.e., detection based on the petasma and detection based on regional features, using the Labelme tool. A binary classification model was trained using Resnet-18 as the feature extraction network under the Pytorch framework, and two models, one for petasma detection and the other for regional feature detection, were trained based on YOLO v5. The results showed that the model based on regional feature detection had high detection performance and accuracy, efficiently and cost-effectively extracting the gender characteristics of crayfish, which was of great significance for the breeding improvement of crayfish.
Key words: YOLO v5; target detection; crayfish; deep learning; convolutional neural network
克氏原螯虾(Procambarus clarkii),俗称小龙虾,是我国淡水养殖的品种之一[1-2]。克氏原螯虾在湖南省的渔业发展中具有重要的地位和作用。2022年,湖南省克氏原螯蝦养殖面积达到24.13万hm2,年产量为42.35万t,养殖面积和产量均居全国第三位,已成为湖南省发展农村经济、提高农民收入的重要途径。
获取小龙虾的表现型数据是研究小龙虾基因型、环境和表现型相互关联性,从而指导遗传育种的重要环节。性别是小龙虾的一个重要特征,克氏原螯虾的性别特征明显,雄虾第1、2腹足演变成管状交接器,而雌虾第1腹足退化,第2腹足羽化[3]。因此,雌雄螯虾具有比较明显的性别特征,且该特征易被机器识别,如图1所示。
近年来,针对人工观察和测量获取螯虾表现型数据耗时耗力的问题,学者们将图像分析技术引入克氏原螯虾的生产和监测过程,实现了对克氏原螯虾的自动识别与检测。Tan等[4]利用远程操控水下潜水器获取视频序列,通过目标检测与跟踪算法对水下克氏原螯虾数量进行统计;Sistler[5]采用彩色图像处理方法,通过分析克氏原螯虾脱壳前颜色的变化来预测脱壳时间;卢文超等[6]应用近红外光谱技术,建立克氏原螯虾新鲜度与光谱特征之间的数学模型,实现对螯虾新鲜度的快速检测。
以克氏原螯虾为研究对象,对螯虾的第1、2腹足处进行检测,并采集、标注数据集,构建和训练基于螯虾区域特征检测的深度学习模型,实现螯虾性别的自动、准确识别,具体工作包括:设计和建造螯虾表现型数据获取设备,采集螯虾腹部图像;使用标注软件工具Labelme对螯虾的第1、2腹足处进行标注,获取训练数据集;构建并训练螯虾区域特征检测模型,用训练好的模型对测试集进行检测识别。
1 材料与方法
1.1 图像采集
2022年7—8月,于湖南省长沙市开福区水产科学研究所进行了数据采集。该研究自主设计了克氏原螯虾活体检测平台,平台由1个机箱和6个海康威视摄像头构成,能够同时从6个不同的角度对克氏原螯虾进行拍摄,每只克氏原螯虾的拍摄时间为60 s,所采集图像的分辨率为2 560像素×1 920像素。该研究的目的是判别克氏原螯虾的性别,因此只需提取2号摄像头拍摄的螯虾腹部图像,检测其第1、2腹足处,拍摄图像如图2所示。
1.2 图像标注
从采集的数据中,随机选取了1 680幅图像作为克氏原螯虾数据集。由于样本数量较少,为了避免数据出现过拟合问题,在训练数据集里囊括了设备光照条件改进前后2种采集环境下的数据,并使用Labelme软件对数据集中的图像进行了标注[7]。
1.2.1 基于雄虾交接器检测的数据标注 该数据标注方法只对雄性克氏原螯虾的腹部交接器进行标注,标注的数据量少,可节省人工成本。但螯虾腹部数据集的图像质量差,图中交接器特征不明显,影响对交接器的特征提取和数据标注。
1.2.2 基于区域特征检测的数据标注 该数据标注方法对雌雄2种性别的克氏原螯虾的第1、2腹足处进行矩形框标注,并给出雌和雄2种类别,分别用0和1表示。基于区域特征的检测模型能够提取低清晰度的图像特征,增强模型的检测精度和可靠度,获得更好的训练效果。
1.3 检测模型
YOLO系列模型是基于深度学习的单阶段目标检测模型,它使用卷积神经网络直接进行目标区域定位和目标类别判断,而无需先产生候选框再进行后续的分类和回归,因而具有训练和推断速度快的优势[8]。笔者使用YOLO v5模型对克氏原螯虾进行检测,从而推断螯虾的性别。
1.3.1 模型输入输出 模型输入端读入具有3个通道的RGB图像,并将每张图像规范为640像素×
640像素的大小,送入特征提取主干网络。图像经过8、16和32倍的降采样特征提取后,依次输出3个80×80×21、40×40×21和20×20×21的特征图,分别表示将输入图像划分为80×80、40×40和20×20的网格,其中每个单元格用来预测3个边界框,每个边界框用一个7维向量表示,分别为置信度C,矩形框参数中的边界框中心点的平面直角坐标系坐标(cx,cy)、边界框长度h、边界框宽度w和2个类别(0和1)。因此,特征图的第3个维度大小21表示预测的3个边界框的结果。
1.3.2 特征提取网络 克氏原螯虾第1、2腹足检测模型的特征提取网络结构主要分为3个部分:Backbone、Neck和Head,模型如图3所示。
Backbone部分包括Conv模块、C3模块和SPPF(Spatial Pyramid Pooling Fusion)模块,作用是提取图像中的物体信息,用于后续的目标检测。YOLO v5网络在Backbone部分采用CSPDarknet53作为主干网络,CSP(Cross Stage Partial)结构是Backbone部分中的重要组成模块,可以减少特征图的通道数、降低计算量、减少内存占用,同时保持特征的多样性和丰富性[9]。Conv模块由Conv2d、BatchNorm2d(BN)和激活函数SiLU构成,Conv模块会将特征图的宽高减半,得到下采样特征图,同时提取目标特征。
C3模块在Backbone中作为主要的特征提取模块,由3个Conv模块和1个Bottleneck模块组成。特征图进入C3后,将会分为2路,左路经过Conv和1个Bottleneck,右路只经过1个Conv,最后将2路进行Concat连接,再经过1个Conv。C3中的3个Conv模块均为1×1卷积,起到降维或升维的作用。
SPPF模块将3个kernel为5×5的MaxPool做串行计算,第一个MaxPool表示较大的尺度,第二个MaxPool在第一个MaxPool的基础上进一步做池化,进一步缩小产生的尺度。SPPF能将任意大小的特征图转换成固定大小的特征向量,并且保持较快的处理速度。
Neck部分的网络结构设计采用了FPN+PAN的结构。FPN(Feature Pyramid Networks)是用自顶向下的侧边连接,在所有尺度构建出高级语义特征图,构造了特征金字塔的经典结构[10]。FPN中间经过多层的网络后,底层的目标信息已经非常模糊,因此PAN(Path Aggregation Network)又加入了自底向上的路径[11]。PAN是一种路径聚合网络,增加自底向上的路徑,使高层特征能够获得低层特征的细节,加强了定位信息,实现了特征的多尺度融合。Head的主体部分是3个检测器,检测器进行检测的过程即为利用基于网格的边界框在不同尺度的特征图上进行目标检测的过程。
2 结果与分析
2.1 试验设置
试验环境为Python 3.7.4,Pytorch 1.13.0;模型为YOLO v5 7.0;硬件配置为AMD Ryzen 7 5800H CPU,内存32 G,Tesla T4 GPU。数据集中训练集、验证集与测试集的比例为8∶1∶1。
由于数据集样本较少,需进行图像增强以扩充样本数量。笔者主要采取以下几种方式进行图像增强:对图片进行Mosaic增强,将4张不同的图像拼接成一张新的图像;HSV随机选择色彩变换的参数对图像进行变换;用Fliplr将图像的每个像素沿着水平方向翻转。这些变换后的图像会被直接用于模型的训练,而不会被保存为新的图像文件,可以有效减少存储空间的占用,并保证训练过程中数据的实时性和多样性,提高模型的泛化能力和鲁棒性。
2.2 参数配置
克氏原螯虾数据集为小样本数据集,但图像复杂度高且特征不明显,模型易过拟合。将超参数epoch(即训练轮数)设为1 000,并采用早停机制,参数patience设为100,表示模型效果在100轮内未提升则提前停止训练。采用较大的训练轮数和适当的早停机制可以有效防止模型过拟合。batch_size为每次训练时在训练集中一次取的训练样本个数。根据数据集特点和硬件条件,采用小批次训练,将batch_size设为16,使梯度下降更平滑,以增加模型的泛化能力;将workers设置为4,加快训练和模型推理的速度。
2.3 评价指标
混淆矩阵(Confusion Matrix)是机器学习中评估分类模型预测结果的情形分析表,体现模型对不同类别样本判断正确和错误的情况[12],如表1所示。
准确率(Average Precision,AP)的平均值。AP是一个综合召回率和准确率的指标,反映了模型在不同的置信度阈值下,能够正确检测出目标的概率[13]。mAP按公式(3)计算。
笔者采用了2种mAP评价指标:mAP@0.5表示交并比(Intersection over Union,IoU)阈值为0.5时所有类别AP的平均值;mAP@0.5:0.95表示在不同的IoU阈值(从0.5到0.95,步长为0.05)计算该IoU阈值对应的mAP,最终将区间内求得的所有mAP取平均值,代表模型在多个IoU阈值下的综合性能。
2.4 试验结果
为了避免过拟合,使用早停机制,在第668轮完成训练集上的模型训练,损失函数随训练轮数收敛的曲线如图4所示。
在同样的训练集上,将所有的螯虾图像分为雄虾和雌虾2类,以Resnet-18为特征提取网络训练一个二分类模型实现对螯虾的雌雄分类,作为本实验的对照组。从表2可以看出,与Resnet-18二分类方案和基于雄虾交接器检测的方案相比,基于区域特征检测的方案具有绝对的优势,检测准确率达96.55%,比Resnet-18模型高6.97个百分点,比基于雄虾交接器检测的模型高0.7个百分点;召回率达99.54%,比Resnet-18模型高7.54个百分点,比基于雄虾交接器检测的模型高0.75个百分点;mAP@0.5和mAP@0.5:0.95比基于雄虾交接器检测的YOLO v5分别高1.76和44.44个百分点。检测结果表明,基于区域特征检测的YOLO v5模型平均检测时间为8 ms,较其他2个模型而言,检测性能大幅增强,能够完成高速、精确获取螯虾性别特征的任务。模型在验证集上的预测结果如表2所示。将训练好的模型应用到测试集,结果发现模型可以准确检测出螯虾的性别,并输出性别标签和置信度,准确率达96.00%。
3 结论
笔者构建了一个基于YOLO v5神经网络的目标检测模型,对克氏原螯虾的第1、2腹足处进行特征检测,实现了克氏原螯虾的性别特征提取。训练后得到的模型在常用评价指标上达到了较高的水平,在测试集中表现优异,能够高速、精确地获取螯虾性别特征,完成克氏原螯虾的性别分类检测,有助于高效、低成本地提取克氏原螯虾性别特征,对克氏原螯虾的品种改良具有重要意义。
参考文献:
[1] 陆剑锋,赖年悦,成永旭. 淡水小龙虾资源的综合利用及其开发价值[J]. 农产品加工(学刊),2006(10):47-52,63.
[2] 于秀娟,郝向举,党子乔,等. 中国小龙虾产业发展报告(2022)[J].
中国水产,2022(6):47-54.
[3] 刘其根,李应森,陈蓝荪. 克氏原螯虾的生物学[J]. 水产科技情报,2008,35(1):21-23.
[4] TAN C S,LAU P Y,CORREIA P L,et al. Automatic analysis of deep-water remotely operated vehicle footage for estimation of Norway lobster abundance[J]. Frontiers of Information Technology & Electronic Engineering,2018,19(8):1042-1055.
[5] SISTLER F E. Grading agricultural products with machine vision[C]//IEEE International Workshop on Intelligent Robots and Systems 90 Towards a New Frontier of Applications. Ibaraki,Japan:IEEE,1990:255-261.
[6] 盧文超,邱亮,熊光权,等. 近红外光谱技术快速检测小龙虾新鲜度[J]. 肉类研究,2022,36(6):36-41.
[7] RUSSELL B C,TORRALBA A,MURPHY K P,et al. LabelMe: a database and web-based tool for image annotation[J]. International Journal of Computer Vision,2008,77(1):157-173.
[8] REDMON J,FARHADI A. YOLO9000:better,faster,stronger[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu,HI:IEEE,2017:6517-6525.
[9] WANG C Y,MARK LIAO H Y,WU Y H,et al. CSPNet:a new backbone that can enhance learning capability of CNN[C]//2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops. Seattle,WA,USA:IEEE,2020:1571-1580.
[10] LIN T Y,DOLLAR P,GIRSHICK R,et al. Feature pyramid networks for object detection[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu,HI:IEEE,2017:936-944.
[11] LIU S,QI L,QIN H F,et al. Path aggregation network for instance segmentation[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City,UT:IEEE,2018:8759-8768.
[12] TOWNSEND J T. Theoretical analysis of an alphabetic confusion matrix[J]. Perception & Psychophysics,1971,9(1):40-50.
[13] HENDERSON P,FERRARI V. End-to-end training of object class detectors for mean average precision[C]//Asian Conference on Computer Vision. Cham:Springer,2017:198-213.
(责任编辑:王婷)