房俊龙,胡宇航,戴百生,吴志东
采用改进CenterNet模型检测群养生猪目标
房俊龙,胡宇航,戴百生※,吴志东
(1. 东北农业大学电气与信息学院,哈尔滨 150030;2. 农业农村部生猪养殖设施工程重点实验室,哈尔滨 150030)
为实现对群养环境下生猪个体目标快速精准的检测,该研究提出了一种针对群养生猪的改进型目标检测网络MF-CenterNet(MobileNet-FPN-CenterNet)模型,为确保目标检测的精确度,该模型首先以无锚式的CenterNet为基础结构,通过引入轻量级的MobileNet网络作为模型特征提取网络,以降低模型大小和提高检测速度,同时加入特征金字塔结构FPN(Feature Pyramid Networks)以提高模型特征提取能力,在保证模型轻量化、实时性的同时,提高遮挡目标和小目标的检测精度。以某商业猪场群养生猪录制视频作为数据源,采集视频帧1 683张,经图像增强后共得到6 732张图像。试验结果表明,MF-CenterNet模型大小仅为21 MB,满足边缘计算端的部署,同时对生猪目标检测平均精确度达到94.30%,检测速度达到69 帧/s,相较于Faster-RCNN、SSD、YOLOv3、YOLOv4目标检测网络模型,检测精度分别提高了6.39、4.46、6.01、2.74个百分点,检测速度分别提高了54、47、45、43 帧/s,相关结果表明了该研究所提出的改进型的轻量级MF-CenterNet模型,能够在满足目标检测实时性的同时提高对群养生猪的检测精度,为生产现场端的群养生猪行为实时检测与分析提供了有效方法。
计算机视觉;图像处理;群养生猪;目标检测;MobileNet;FPN;CenterNet
目前在中国生猪养殖过程中,对生猪的质量体态、冷热应激、饮食排泄、攻击咬尾等状态和行为的监测主要以人工监测为主,这使得生猪养殖管理成本增高,同时还会带来生猪的应激反应,更严重的会出现人畜交叉感染的风险[1]。随着计算机视觉技术的发展,使得利用该技术对群养生猪进行非接触式、低应激的健康监测成为可能,对生猪个体目标进行检测是实现对生猪自动化监测与智能化分析的前提[1-3]。快速而又准确的生猪目标检测,对实现精准、个性化的生猪健康智能监测具有重要意义。
近年来,已有研究人员开始利用计算机视觉技术对生猪个体目标进行检测,所采用的方法主要包括传统目标检测方法和基于卷积神经网络(Convolutional Neural Networks,CNN)的目标检测方法。杨心等[4]通过粘连猪体分割和基于广义Hough聚类的方法对生猪头、尾进行检测,检测平均正确率达到87.28%。马丽等[5]经过图像处理获取猪只轮廓图,提出联立猪只外接矩形高宽比和低频傅里叶系数构建猪只侧视图的特征向量,利用马氏距离判别法进行检测,检测准确率达到91.7%。谢双云等[6]采用GMM和图像粒化方法,依据图像序列的前景图分析粒子运动属性,融合前景图和粒化图,最终得到精确的猪只目标检测。然而,传统检测方法在复杂条件下检测精度不高、检测速度慢,随着深度学习特别是CNN模型在图像识别和目标检测领域的成功应用,基于CNN的目标检测方法也逐渐被应用到群养生猪的检测中。基于CNN的目标检测可分为两阶段(Two-Stage)和单阶段(One-Stage)两大类。基于Two-Stage的模型主要包括R-CNN系列[7-8](R-CNN,Fast R-CNN,Faster R-CNN等),基于单阶段的模型主要包含YOLO(You Only Look Once)系列[9-12]和SSD(Single Shot MultiBox Detector)系列[13]。在生猪个体检测领域,Riekert等[14]利用2D摄像机和Faster R-CNN检测模型对生猪的位置和姿态进行检测,平均检测精度达到80.2%。Yang等[15]通过Faster R-CNN模型对生猪个体以及头部位置进行检测,再通过关联算法检测生猪进食行为,检测准确度达到95%以上,召回率达到80%以上。Cowton等[16]利用Faster R-CNN模型对生猪位置进行检测,精度达到90.1%,满足试验预期效果。王婷婷等[17]通过采用Faster R-CNN模型对有无遮挡的生猪分别进行检测,进而通过改进Faster R-CNN模型完成对生猪质量的评估。基于Two-Stage的生猪目标检测方法检测精度高但检测速度相对较慢,难以满足实时检测要求,且模型体量较大,使得向嵌入式平台移植带来挑战。谢涛[18]提出了一种基于稀疏化深度可分离网络结构的快速SSD生猪目标检测模型,可以快速而精准的检测生猪姿态,满足实时检测要求。苏恒强等[19]针对图像光照强度、生猪种类颜色、障碍物遮挡等干扰,提出了基于YOLOv3的生猪目标检测方法。燕红文等[20]提出了将特征金字塔注意力信息融入Tiny-YOLO特征提取过程中,对群养生猪进行了高精度的目标检测。Hanse等[21]使用YOLO对生猪姿态进行检测并对身体部位(头、身、臀)进行训练,进而检测出生猪头部位置。李泊等[22]通过YOLOv3检测生猪头尾目标,并采取阈值分割与前景椭圆拟合推理缺失部位,生猪头尾检测精度达到96.22%。上述基于One-Stage的模型能够在检测精度和检测速度达到一定的平衡,但其检测精度和检测速度仍然有待提高。
特别地,上述目标检测模型主要采用先验框的设定,未能较好解决模型检测时图像中目标尺寸大小以及目标相互遮挡等因素对检测结果的影响,同时模型检测实时性不高、体积较大、需要算力较高,难以满足向移动式终端或嵌入式设备进行移植的需求,给实际场景的应用带来挑战。
为使得生猪目标检测模型更加易于向计算资源有限且性能较低的边缘计算硬件平台上进行部署,在保证实时性检测的同时尽量提高检测精度,本文有针对性的提出了一种基于MF-CenterNet(MobileNet-FPN-CenterNet)模型的群养生猪目标检测方法,该方法在保证检测实时性、可移植于边缘计算端的同时,对存在不同目标尺寸、相互遮挡等因素下的生猪个体都有较好的检测能力。
本文所研究的生猪视频采集于黑龙江省齐齐哈尔市建华区双合村金城养殖场,为了试验结果的普遍性,分别于2020年7月20号(天气晴,光照强)和2020年9月27号(多云,光照弱)进行2次采集,选取了大白、长白2个品种的猪作为采集对象,猪场单个猪舍面积(长 ×宽)为7 m×5 m,每个猪舍生猪数量10~25头,选取其中4舍日龄80 d、质量平均约41 kg的育肥期的群养生猪共计85头作为试验对象。本文采用手持设备对不同光照和不同数量的生猪进行视频采集,共拍摄得到时长为20 ~40 min的10段视频,每个猪舍选取2段时长超过30 min的视频作为原始视频。原始视频格式为MP4,分辨率为(帧宽度×帧高度)1 280像素×720像素,帧速率29.9 帧/s,本文所采集数据中,包含不同头数生猪的监控画面统计结果,如表1所示。
1.2.1 视频帧抽取
通过对所采集视频数据进行预处理,以得到群养生猪目标检测图像数据集。具体对采集到的视频进行视频帧抽取,为防止数据重复冗余,本文每隔20 s抽取一张视频帧图片,在抽取过程中由于生猪运动会在图片中出现运动模糊和目标重影现象,删去这些目标不清晰的图片,再对其进行随机排序,共获得包含25 563只生猪个体目标的1 683张群养生猪目标检测原始图像数据集。
表1 不同生猪头数所对应的图像张数
1.2.2 数据增强
为了增加可供模型训练的数据量,提高模型的泛化能力和鲁棒性,本文对生猪原始图像数据进行旋转(90°,180°,270°)、翻转、增加噪音等数据增强操作,共获得6 732张图像,增强后的图像如图1所示。
1.2.3 图像标注
目标检测模型在训练和测试过程中,需要提供群养生猪目标的真实位置信息,本文使用labelImg图像标注工具(https://github.com/tzutalin/labelImg)对增强后的共计6 732张图像中的生猪目标进行标注,并将标注好的信息按照通用的PASCAL VOC 格式保存为与图像相对应且同名的xml格式文件,该文件中记录了图片中每个目标的类别名称、矩形框位置等信息。
1.2.4 数据集划分
经上述整理后,共获得6 732张标注过的图像及其对应的标注文件,本文按照6∶2∶2比例将数据集划分为训练集、验证集、测试集,训练集包含4 038张图像,验证集包含1 347张图像,测试集包含1 347张图像。训练集和验证集用于模型训练,测试集用于模型检测结果验证。
CenterNet是由Zhou等[23]近些年提出的无锚点(Anchor-Free)目标检测方法[23],其在遮挡目标检测方面相比于采用先验框设定的目标检测网络具有更好的检测效果,且在目标检测过程中仅需提取每个目标的中心点,无需进行后处理,相比于传统目标检测网络提高了检测速度。CenterNet使用残差网络(ResNet50)[24]作为主干特征提取网络,残差网络结构由Conv Block和Identity Block组成,并通过转置卷积(Transpose Convolution)进行上采样,其具体网络框架如图2所示。
CenterNet网络在数据输入后,首先进行一次卷积、批标准化(Batch Normalization,BN)、激活函数(ReLU)和最大池化;其后,经历4组残差结构,每组残差结构分别由改变网络的维度的Conv Block和加深网络的Identity Block组成,每组的Block个数分别为3、4、6、3。在经过第4次Conv Block和Identity Block的堆叠之后,完成了网络的特征初步提取,获得维度为(16,16,2 048)的有效特征层;随后,对获取到的有效特征层利用转置卷积进行3次上采样,获得了高分辨率特征图,最后使用CenterNet检测层进行结果预测。
尽管CenterNet在检测精度和检测速度上较现有目标检测算法均有不同的提升,且对存在遮挡情况下的目标检测具有一定的鲁棒性,但其仍不能满足低计算资源平台上的实时检测要求,且由于模型体积过大难以部署在边缘计算端,另外,其对小目标检测的效果也不理想[23]。
为进一步提高该目标检测模型的检测速度和对具有低计算资源的边缘计算端的可移植性,以及对真实养殖环境中易出现的小目标的检测能力,基于文献[25],本文提出一种轻量级的群养生猪目标检测网络,其在CenterNet目标检测网络的基础上,首先改进其主干特征提取网络,在保证检测精度的同时降低了模型总参数量,提高了模型检测速度。考虑到MobileNet的基本单元是深度可分离卷积,相较于传统卷积极大的减少了计算量及模型参数量,为此,本文使用轻量型的MobileNet系列网络[26-28]对CenterNet的主干特征提取网络进行改进。由于MobileNet网络具有不同的实现版本,其具体网络实现结构的选择将在3.1节进行具体讨论。
此外,为进一步加强模型特征提取能力,本文进一步使用特征金字塔结构(Feature Pyramid Networks,FPN)来融合低分辨率的高层语义信息和高分辨率的低层特征信息,以提高该模型对群养生猪目标检测的精度,尤其是具有较小尺寸的生猪目标的检测精度。FPN的网络结构如图3所示。
本文所使用的FPN是在一个自顶向下连接的跳跃式传递(Skip Connection)的网络结构上仅使用最后一层进行检测,图像经过多次上采样并进行特征融合,仅使用最后一步生成的特征进行检测。
为便于后文讨论,本文将融合了轻量型MobileNet网络和FPN结构的CenterNet,记作MF-CenterNet(MobileNet-FPN-CenterNet),其整体网络框架如图4所示。
考虑到CenterNet属于Anchor-Free型的目标检测方法,其检测层与传统Anchor-based型目标检测方法有所不同,其主要包括3个预测分支,即热力图预测、中心点预测和尺寸(宽高)预测,各预测示意如图5所示。
基于CenterNet的群养生猪目标检测模型就是将图像视为由无数关键点组成,通过关键点估计即热力图峰值确定生猪个体的中心点,再根据中心点位置回归得出目标宽高,最后确定生猪目标,其检测过程主要包含以下3个部分(三者为并行结构):
1)热力图(Heatmap)预测
CenterNet检测层先对输入的特征图进行3×3的卷积,进行特征整合,再通过BN及ReLU,最后利用1×1的卷积,将特征层的通道数调整为num_classes。热力图预测的结果会判断每一个特征点是否存在对应的物体,以及物体种类和概率。
热力图的Loss整体思想和损失函数(Focal Loss)类似,对于容易分类的样本,可以适当减少其训练比例。热力图损失值(L)的计算公式如下:
式中Y为高斯核,、是Focal Loss的超参数,是图像中关键点个数。
2)中心点(Reg)预测
CenterNet检测层先对输入的特征图进行3×3的卷积,进行特征整合,再通过BN及ReLU,最后利用1×1的卷积,将特征层的通道数调整为2。中心点预测结果可以对特征点的轴、轴坐标进行调整,获得物体中心的轴、轴坐标,即每一个特征点上对应的物体轴、轴坐标相对于同一个特征点轴、轴坐标的偏移情况。中心点偏移损失值(off)公式如下:
3)宽高(WH)预测
CenterNet检测层先对输入的特征图进行3×3的卷积,进行特征整合,再通过BN及ReLU,最后利用1×1的卷积,将特征层的通道数调整为2。宽高预测结果直接回归获得对应物体框的宽高。目标宽高损失值(size)公式如下:
式中k为目标的包围框(bounding box)的中心位置,S为目标尺寸。故总的损失值()为
式中off、size分别为Reg预测和WH预测的系数,根据文献[23],off、size分别取0.1、0.2。
2.3.1 试验平台
本文试验所用的模型训练环境为64 位 Windows10 操作系统,硬件配置CPU为Intel(R) 12-Core(TM) i7-10750H,主频2.60 GHz,显卡为NVIDIA GeForce GTX 1660Ti GPU,内存为16GB。试验采用的Python编程语言,并在 Torch 1.2.0 进行网络搭建、训练和测试,并采用迁移学习思想,使用mobilenet_weights.pth对轻量型骨干网络参数进行初始化。
2.3.2 评价指标
为验证所提目标检测算法的有效性,本文试验主要采用以下6个评价指标:准确率(Precision)、召回率(Recall)、平均精确率mAP(Mean Average Precision)、平衡分数1(F1-Score)、检测速度FPS(Frame Per Second)、模型大小Model Size。
准确率是度量目标检测模型对某一类别目标检测结果的准确性,即模型检测出的真实生猪目标数量占所有检测出目标数量的比例,其计算公式为
式中TP为图像中生猪目标被正确检测为生猪的个数,FP为图像中非生猪目标被检测为生猪的个数。
召回率是衡量一个目标检测模型把所有的检测目标都找到的能力,即模型正确检测出的生猪目标数量占所有真实生猪目标数量的比例,其计算公式为
式中FN为图像中生猪目标被检测成其他种类物体的个数。
精确率是PR曲线与坐标轴所围成的面积,平均精确率是多类别AP的平均值即对的积分。
平衡分数又称为1分数(1-Score),它同时兼顾了分类模型的准确率和召回率,被定义为精确率和召回率的调和平均数。
检测速度FPS又称每秒帧率是每秒内目标检测模型可以处理的图片数量,即检测速度越快越能实现实时检测,其计算公式如下:
式中为图像的总张数,为目标检测过程中处理所有图片所用的时间,s。
模型大小(Model Size)是目标检测网络训练所生成模型的空间利用率,即模型大小由网络的基本结构决定。
2.3.3 模型训练参数设置
为了在训练模型时进行迁移学习,本试验将网络的输入图像全部转化为512×512(像素)尺寸大小,同时为加快训练速度、防止训练初期权值被破坏,采用冻结训练的方式,前50次迭代(Epoch)进行冻结训练,每32张图像作为一个Bach Size,50次Epoch训练完成后解冻,解冻后每8张图像作为一个Bach Size,每完成一个Epoch更新一次权值并保存,权值衰减速率设为0.5,冻结时初始学习率设置为0.001,解冻后初始学习率设置为0.000 1。
MobileNet系列网络当前主要有3个版本(v1、v2、v3),为验证不同版本模型作为特征提取主干网络对生猪目标检测的影响,本文将分别采用MobileNetv1、v2、v3对CenterNet主干网络进行替换,并对比集成不同版本MobileNet后模型性能与原始CenterNet性能的差异。
值得注意的是,MobileNet系列网络的核心是通过引入深度可分离卷积来降低网络的参数以达到模型轻量化的目的,但在进行深度卷积的过程中,高、低维度信息转换会造成一定的特征信息损失,特别是在MobileNetv1中,再经过ReLU函数激活后,特征信息的损失会进一步加大[26]。为此,MobileNetv2引入倒置残差(Inverted Residuals)和线性激活函数来改善网络中特征信息的损失问题[27],在性能上有所提升。MobileNetv3则进一步引入神经结构搜索NAS(Neural Architecture Search)技术来进行网络参数的优化,以提高模型的特征提取能力[28],并提出了面向高资源应用场景的MobileNetV3-Large和面向低资源应用场景的MobileNetv3-small两个版本。为了对比不同版本的MobileNet应用于生猪目标检测任务中的效果,以及考虑本文重点关注面向边缘计算端的生猪目标检测模型,本文通过试验重点对比分析集成MobileNetv1、MobileNetv2以及MobileNetv3-small的目标检测性能。图6给出了集成不同版本MobileNet(v1、v2、v3)的MobileNet-CenterNet在训练集上的损失值变化曲线,横坐标为迭代次数,纵坐标为模型训练损失值。
从图6不同版本MobileNet进行模型训练时的Loss值(损失)曲线可以看出,MobileNetv2-CenterNet在训练时模型收敛更快,且在模型损失曲线达到收敛时,模型预测结果与真实目标位置所产生的误差也更小,因此,相较于其他版本,MobileNetv2-Center更容易在生猪目标检测数据集上进行训练。为了进一步验证,集成不同版本MobileNet的CenterNet模型对生猪目标的检测性能,本文接下来对相关模型在测试集上的性能表现进行对比分析,其试验结果如表2所示。
从对比试验结果表2可以看出,CenterNet检测精度最高,达到93.67%,检测速度为27 帧/s低于本文所采集视频的真实帧速率29.9 帧/s,模型总体参数量过大,算法实时性和移植能力有待提高。在使用MobileNet对CenterNet主干网络进行改进后,MobileNetv1-CenterNet的检测速度最快,达到了78 帧/s,相比于原CenterNet提高51 帧/s,MobileNetv3-CenterNet模型的总体参数量约为6 000 000 个,相比于原CenterNet降低了27 000 000 个。在检测精度方面,主干网络改进后相比原CenterNet均有不同下降,其中MobileNetv2-CenterNet检测精度为93.37%,在所有改进后的模型中为最高,且与原CenterNet精度较为接近,但MobileNetv2-CenterNet检测速度达到62 帧/s比原CenterNet提高了35 帧/s,总体参数量为8 000 000 个降低了25 000 000 个。
在利用MobileNetv2对CenterNet主干网络进行改进的基础上,进一步使用FPN替换原有的转置卷积,以加强网络特征提取能力,达到提高模型检测精度的目的,也即本文所提出的MF-CenterNet模型。为验证使用FPN的效果,本文对使用FPN改进MobileNetv2-CenterNet前后的网络结果进行对比,并与其他常见用于目标检测的CNN模型进行比较,其结果如表3所示。
由表3可见,本文所提出的MF-CenterNet目标检测模型对真实场景下群养生猪目标检测精度最高,其检测精度达到94.30%,较没有集成FPN的MobileNetv2-CenterNet检测精度提高了0.93个百分点,比Faster-RCNN、SSD、YOLOv3、YOLOv4、CenterNet目标检测模型分别提高了6.39、4.46、6.01、2.74、0.63个百分点。与此同时,检测速度达到69 帧/s,比改进FPN之前MobileNetv2-CenterNet快了7 帧/s,与Faster-RCNN、SSD、YOLOv3、YOLOv4相比,检测测速度分别提高了54、47、45、43 帧/s。
表2 原CenterNet与集成不同版本MobileNet后的试验结果对比
表3 不同生猪目标检测模型性能对比
模型大小上,MF-CenterNet仅为21MB,相比于Faster-RCNN、SSD、YOLOv3、YOLOv4分别降低了249、70、214、223 MB,较MobileNetv2-CenterNet减小了104 MB。因此集成FPN后的目标检测模型MF-CenterNet有效的提高了生猪检测效果。本节所做试验证明了使用FPN结构替换原转置卷积,不仅可以提高一定的检测精度,而且进一步提高了检测精速度、降低了模型大小。为了更直观展示本文所提出模型在不同召回率下所对应的准确率,将MF-CenterNet目标检测网络的精确度结果可视化为PR曲线,曲线与横纵坐标所围成的面积即为精确度值,MF-CenterNet目标检测网络PR曲线如图7所示。
为更直观体现MF-CenterNet目标检测模型的检测结果,本节将MF-CenterNet模型和原始CenterNet模型以及只改进主干网络的MobileNetv2-CenterNet模型的生猪目标检测结果进行对比,如图8所示,图中CenterNet及MobileNetv2-CenterNet均有未被检测出的生猪目标,由此可见,MF-CenterNet模型有效提高了群养生猪的目标检测效果,尤其是对遮挡目标和小目标均有很好的检测,满足对真实场景下群养生猪目标检测的需求。
表4给出了本文所提MF-CenterNet模型在本文测试集中的生猪目标检测结果以及现有生猪目标检测方法在其文献中报告的检测结果。其中,文献[17]是通过采用BING算法提取图像候选区域,通过改进CNN模型对候选框分类,最后利用非极大值抑制算法剔除冗余候选框,实现对生猪目标的检测。文献[20]是将深度为3的特征金字塔注意力模块FPA(即FPA-3)与Tiny-YOLOv3相结合,对不同场景下的多目标生猪个体进行检测。文献[21]则通过使用稀疏化可分离卷积(S-DSC)对SSD进行改进,训练时自主采样困难样本并精简模型预测网络实现生猪目标的快速检测。
由表3可以看出,本文所提出的MF-CenterNet模型尽管在检测精度上并未达到最高,相比于其他文献中所提方法在平均精度上低1~2个百分点,考虑可能存在的原因是,一方面,本文所用图像均为斜侧方位进行拍摄,生猪相互遮挡情况较其他文献中使用的数据较为明显,提高了对生猪目标检测的难度;另一方面,本文试验所用的图像中,生猪个数平均在13头以上,而文献[17,20—21]所使用的图像中生猪个数平均在6~7头,这也提高了目标检测的难度。与文献[17]及文献[21]的网络相比本文所改进的网络更加轻量化,满足实时检测的需求。与文献[20]相比,本文所选用的基础网络CenterNet相比于YOLOv3具有更好的检测精度,再通过特征金字塔结构进行优化,进一步提高检测效果。虽然本文所提出的改进方案有效地提高了原始模型的检测效果,但在目前生猪检测领域并未处于最前端行列,尤其是检测精度相对较低。虽然本文所改进的MF-CenterNet检测精度相对较低,但在检测速度上,本文所改进的MF-CenterNet模型提升较为显著,分别较现有工作提高了67、57、21.5 帧/s。同时在模型大小上,与现有文献中的参数相比,本文所提的MF-CenterNet模型也具有较为突出的优势。
表4 MF-CenterNet与现有检测方法结果对比
综上,本文提出的轻量型MF-CenterNet群养生猪目标检测模型在保证模型轻量化、检测实时性的同时,在检测精度上也达到很好的效果,满足对真实养殖环境下群养生猪的实时、精准检测。
本文提出了一种轻量型的MF-CenterNet群养生猪目标检测模型,在满足实时检测和模型轻量化的同时,有效提高了群养条件下相互遮挡和较小尺寸生猪目标的检测能力,在群养生猪出现拥挤或遮挡的场景下,平均精度达到94.30%,目标检测速度达到69 帧/s,模型大小仅为21 MB。与经典网络模型Faster-RCNN、SSD、YOLOv3、YOLOv4相比,平均精度分别提高了6.39、4.46、6.01、2.74个百分点,检测速度增加了54、47、45、43 帧/s,模型大小减少了249、70、214、223 MB。通过采用MobileNetv2改进CenterNet的主干网络,并结合FPN加强模型特征提取能力,在保证模型检测实时性和轻量化的同时增加了平均精度,与原网络CenterNet相比平均精度提高了0.63个百分点。本文工作为实现生猪养殖过程中实时精准的数量盘点提供了方法,此外,通过与生猪个体质量估测、饮食排泄频次统计、攻击咬尾行为识别等健康监测模型相结合,为规模化养殖场实现精准、个性化的生猪健康监测提供了思路。接下来,本文将进一步研究改进加强特征提取网络、减少网络结构层、增加注意力机制等方法,在保证实时检测及网络轻量化的同时提高检测精度,根据应用需求与资源限制,构建精确度与速度相平衡的轻量级网络。
[1] 华利忠,冯志新,张永强,等. 以史为鉴,浅谈中国非洲猪瘟的防控与净化[J]. 中国动物传染病学报,2019,27(2):96-104.
Hua Lizhong, Feng Zhixin, Zhang Yongqiang, et al. Prevention and control of African swine fever in China[J]. Chinese Journal of animal infectious diseases, 2019, 27(2): 96-104. (in Chinese with English abstract)
[2] 刘杏,王凤雪,温永俊,等. 猪繁殖与呼吸综合征病毒和猪圆环病毒2型混合感染的流行病学调查[J]. 吉林农业大学学报,2016,38(4):456-459.
Liu Xing, Wang Fengxue, Wen Yongjun, et al. Epidemiological investigation on mixed infection of porcine reproductive and respiratory syndrome virus and porcine circovirus type 2[J]. Journal of Jilin Agricultural University, 2016, 38(4): 456-459. (in Chinese with English abstract)
[3] 任鹏举,李鹏,张秋雨,等. 新型猪瘟疫苗的研究进展[J]. 中国畜牧兽医,2018,45(7):1958-1964.
Ren Pengju, Li Peng, Zhang Qiuyu, et al. Research progress of new classical swine fever vaccine[J]. Chinese animal husbandry and veterinary, 2018, 45(7): 1958-1964. (in Chinese with English abstract)
[4] 杨心,朱伟兴. 基于广义Hough聚类的粘连猪头尾识别[J]. 江苏农业科学,2018,46(9):230-235.
Yang Xin, Zhu Weixing. Recognition of conglutinated pig head and tail based on Generalized Hough clustering[J]. Jiangsu Agricultural Sciences, 2018, 46(9): 230-235. (in Chinese with English abstract)
[5] 马丽,纪滨,刘宏申,等. 单只猪轮廓图的侧视图识别[J]. 农业工程学报,2013,29(10):168-174.
Ma Li, Ji Bin, Liu Hongshen, et al. Side view recognition of single pig contour map[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2013, 29(10): 168-174. (in Chinese with English abstract)
[6] 谢双云,王芳,田建艳,等. 融合高斯混合建模和图像粒化的猪只目标检测[J]. 黑龙江畜牧兽医,2016(1):29-32.
Xie Shuangyun, Wang Fang, Tian Jianyan, et al. Pig target detection based on Gaussian mixture modeling and image granulation[J]. Heilongjiang Animal Husbandry and veterinary, 2016(1): 29-32. (in Chinese with English abstract)
[7] Shaoqing R, Kaiming H, Ross G, et al. Faster R-CNN: Towards real-time object detection with region proposal networks[J]. IEEE transactions on pattern analysis and machine intelligence, 2017, 39(6): 1137-1149.
[8] Girshick R. Fast R-CNN[C]//Proceedings of the IEEE international conference on computer vision. 2015: 1440-1448.
[9] Redmon J, Divvala S, Girshick R, et al. You only look once: Unified, real-time object detection[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition(CVPR). IEEE Computer Society: Piscataway, NJ. 2016: 779-788.
[10] Redmon J, Farhadi A. YOLO9000: Better, faster, stronger[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). IEEE, 2017: 6517-6525.
[11] Redmon J, Farhadi A. Yolov3: An incremental improvement[J/OL]. [2019-07-10]. USA: 2018. https: //arxiv. org/abs/1804. 02767
[12] Bochkovskiy A, Wang C Y, Liao H. YOLOv4: Optimal speed and accuracy of object detection[J]. arXiv preprint arXiv: 2004. 10934, 2020.
[13] Liu W, Anguelov D, Erhan D, et al. Ssd: Single shot multibox detector[C]//European conference on computer vision(CVPR). IEEE Computer Society: Piscataway, NJ. 2016: 21-37.
[14] Riekert M, Klein A, Adrion F, et al. Automatically detecting pig position and posture by 2D camera imaging and deep learning[J]. Computers and Electronics in Agriculture, 2020, 174: 105391.
[15] Yang Q, Xiao D, Lin S. Feeding behavior recognition for group-housed pigs with the Faster R-CNN[J]. Computers and Electronics in Agriculture, 2018, 155: 453-460.
[16] Cowton J, Kyriazakis I, Bacardit J. Automated individual pig localisation, tracking and behaviour metric extraction using deep learning[J]. IEEE Access, 2019, 7: 108049-108060.
[17] 王婷婷. 改进的Faster R-CNN在目标参数测量方面的研究与应用[D]. 哈尔滨:哈尔滨工程大学,2018.
Wang Tingting. Research and Application of Improved Fast r-cnn in Target Parameter Measurement[D]. Harbin: Harbin Engineering University, 2018. (in Chinese with English abstract)
[18] 谢涛. 基于深度学习的生猪行走行为视频检测与分析[D]. 太原:太原理工大学,2019.
Xie Tao. Video Detection and Analysis of Pig Walking Behavior Based on Deep Learning[D]. Taiyuan: Taiyuan University of technology, 2019. (in Chinese with English abstract)
[19] 苏恒强,郑笃强. 基于深度学习技术生猪图像目标检测算法的应用研究[J]. 吉林农业大学学报,2020,5:1-8.
Su Hengqiang, Zheng Duqiang. Application research on pig image target detection algorithm based on deep learning technology[J]. Journal of Jilin Agricultural University, 2020, 5: 1-8. (in Chinese with English abstract)
[20] 燕红文,刘振宇,崔清亮,等. 基于特征金字塔注意力与深度卷积网络的多目标生猪检测[J]. 农业工程学报,2020,36(11):193-202.
Yan Hongwen, Liu Zhenyu, Cui Qingliang, et al. Multi target pig detection based on feature pyramid attention and deep convolution network[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2020, 36(11): 193-202. (in Chinese with English abstract)
[21] Hanse A, Wonseok C, Sunhwa P, et al. Image processing and deep learning techniques for fast pig's posture determining and head removal[J]. KIPS Transactions on Software and Data Engineering, 2019, 8(11): 457-464.
[22] 李泊,沈明霞,刘龙申,等. 基于YOLO v3与图结构模型的群养猪只头尾辨别方法[J]. 农业机械学报,2020,51(7):44-51.
Li Bo, Shen Mingxia, Liu Longshen, et al. Head and tail discrimination method of group pig based on YOLO v3 and graph structure model[J]. Acta mechanization agrica Sinica, 2020, 51(7): 44-51. (in Chinese with English abstract)
[23] Zhou X, Wang D, Krhenbühl P. Objects as points[J]. arXiv preprint arXiv, 2019, 1904: 07850
[24] He K, Zhang X, Ren S, et al. Deep residual learning for image recognition[C].// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, Las Vegas: IEEE, 2016: 770-778.
[25] Xu Y, Yan W, Sun H, et al. CenterFace: Joint face detection and alignment using face as point[J]. Scientific Programming, 2020, 1314-1324 .
[26] Howard A, Zhu M, Chen B, et al. MobileNets: Efficient convolutional neural networks for mobile vision applications [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Hawaii: IEEE, 2017, 1704–1712.
[27] Sandler, Howard A, Zhu M, et al. MobileNetV2: Inverted residuals and linear bottlenecks [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Salt Lake City: IEEE, 2018, 4510–4520.
[28] Howard A, Sandler M, Chu G, et al. Searching for MobileNetV3[C]. // Proceedings of the IEEE International Conference on Computer Vision, 2019, 140.
Detection of group-housed pigs based on improved CenterNet model
Fang Junlong, Hu Yuhang, Dai Baisheng※, Wu Zhidong
(1.,,150030,; 2.,,150030,)
Rapid and accurate detection of pigs has been critical to intelligent monitoring of health status within a group-housed breeding environment on large-scale farms. However, a large number of parameters make it difficult to achieve real-time performance in edge computing platforms for practical production. In this study, an improved CenterNet model (named MF-CenterNet) was proposed to detect pigs in group-housed breeding conditions, in order to improve the real-time performance of detection and the accuracy of localizing pigs with body occluded and small body size. An anchor-free CenterNet was also used to ensure the accuracy of detection, especially for the pig with body occluded. A lightweight MobileNet network was first introduced into the CenterNet (instead of ResNet50), as the backbone network of feature extraction for the smaller model size and higher detection speed. In addition, the feature pyramid structure (FPN) was then added to improve the ability of feature extraction for small pig objects. As such, the CenterNet was integrated with the MobileNet and FPN, named MF-CenterNet (i.e., MobileNet-FPN-CenterNet, MF-CenterNet). An image dataset of a private pig was collected to evaluate the performance of MF-CenterNet. All images were then captured from Jincheng Farm, Qiqihar City, Heilongjiang Province, China. Specifically, 1683 video frames were extracted from the video recording of pigs collected in the commercial pig farm, and 6732 images were obtained with the operation of the data argument. All pig objects within the images were then labeled with the labeling tool. The experimental results show that the size of the MF-CenterNet model was only 21MB, which satisfied the deployment of the model to an edge computing platform. The mean average precision (mAP) of pig detection was 94.30%, and the detection speed was up to 69 frames/s. The model of CenterNet integrated with MobileNetv2 achieved the best performance, in terms of accuracy, speed, and model size, where different versions of Mobile Net were combined. The CenterNet model integrated with the MobileNetv2 and FPN (MF-CenterNet) further improved the detection performance, indicating more robust in detecting the pig objects with small body size and body occluded. The improved MF-CenterNet greatly increased the mAP by 0.63percentage points, and the speed by 42 frames/s, while the size of the model was reduced by 104 MB, compared with the original CenterNet. Furthermore, the mAP detection was improved by 6.39, 4.46, 6.01, and 2.74percentage points, while, the detection speed was improved by 54, 47, 45, and 43 frames/s, respectively, compared with the common CNN-based object detection models, including Farster RCNN, SSD, YOLOV3, and YOLOV4 model. Consequently, the MF-CenterNet achieved the state-of-the-art mAP performance, higher detection speed, and the deployability of the model in a substantial manner. Therefore, this lightweight object detection model, MF-CenterNet, can meet the requirements of real-time, rapid, and high accuracy of detection on the group-housed pigs. The finding can also be expected to serve as a new way for real-time detection and prerequisite model in the behavior analysis of pigs during modern intensive production.
computer vision; image processing; group-housed pig; object detection; mobileNet; FPN; centerNet
房俊龙,胡宇航,戴百生,等. 采用改进CenterNet模型检测群养生猪目标[J]. 农业工程学报,2021,37(16):136-144.doi:10.11975/j.issn.1002-6819.2021.16.017 http://www.tcsae.org
Fang Junlong, Hu Yuhang, Dai Baisheng, et al. Detection of group-housed pigs based on improved CenterNet model[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2021, 37(16): 136-144. (in Chinese with English abstract) doi:10.11975/j.issn.1002-6819.2021.16.017 http://www.tcsae.org
2021-03-10
2021-07-21
国家重点研发计划项目(2018YFD0500704);国家自然科学基金青年科学基金项目(31902210);黑龙江省高校青年创新人才培养计划项目(UNPYSCT-2018142);黑龙江省科学基金青年科学基金项目(QC2018074);东农学者计划“青年才俊”项目(18QC23);农业部生猪养殖设施工程重点实验室开放课题(SK201707);财政部和农业农村部:国家现代农业产业技术体系资助
房俊龙,博士,教授,博士生导师。研究方向为智能检测与控制。Email:junlongfang@126.com
戴百生,副教授。研究方向为视觉智能计算、智慧畜牧。Email:bsdai@neau.edu.cn
10.11975/j.issn.1002-6819.2021.16.017
TP391
A
1002-6819(2021)-16-0136-09