基于改进YOLOv4 的航拍图像目标检测方法研究

2023-05-10 06:09:04蒲家鹏王雪梅高宏伟
沈阳理工大学学报 2023年3期
关键词:池化张量骨干

蒲家鹏,王雪梅,高宏伟

(沈阳理工大学自动化与电气工程学院,沈阳 110159)

基于深度学习的图像目标检测技术应用范围广泛,无论在民用领域还是在军事领域都发挥着重要作用[1]。 无人机的大力发展,使得航拍图像技术达到了新的高度,为目标检测提供了丰富的图像数据支撑。

YOLO[2]系列目标检测网络凭借出色的检测速度与精准度获得了学者的一致好评。YOLOv3[3]采用了改进残差网络DarkNet53 和特征金字塔结构( Feature Pyramid Networks,FPN)[4]实现了多尺度检测,奠定了后续YOLO 系列的发展。 第四代和第五代均在该结构基础上加以改进,在数据预处理、骨干网络、激活函数、损失函数以及网络训练等方面进行了优化。

YOLO 系列虽然在检测速度上有一定优势,但对于小目标的检测效果仍不太理想,并且其骨干网络的参数量庞大,增加了设备运行的负担。因此有必要对YOLO 的结构进行精简化并提升对小目标的检测精度。 航拍图像普遍存在背景复杂、目标较小且分布散乱、目标与背景占比失衡问题,易导致目标的漏检和误检,给航拍图像目标检测带来了一定的挑战。

由此,本文考虑选用YOLOv4[5]模型进行优化,构建M-YOLOv4(OURS)网络模型。 首先,将轻量化网络MobileNetV3[6]的部分骨干结构插入YOLOv4 骨干网络中,保留YOLOv4 骨干网络的浅层部分,提高小目标检测精度;MobileNetV3 的结构能够减轻骨干网络的参数量,减轻设备运行的负担。 其次,YOLOv4 中的空间金字塔池化结构(Spatial Pyramid Pooling Module,SPPM)[7]能够有效丰富网络的感受野,但只能解决局部短距离目标之间的联系,对于全局信息的捕获能力不足,为获得目标之间长距离的信息依赖,将条纹池化结构(Strip Pooling Module,SPM)[8]与 SPPM进行特征通道融合,使得密集或稀疏分布的目标都能被捕获到,减少漏检或误检的情况发生。 最后,在网络模型颈部的路径聚合网络(Path Aggregation Network,PANet)[9]中设计残差结构(Res-Net)[10]取代串联的卷积结构,丰富和补充高分辨率特征层中小目标的语义信息,提升小目标的检测精度,并减少残差结构中标准化和激活函数的操作[11]。

1 网络结构

1.1 M-YOLOv4(OURS)整体结构

M-YOLOv4(OURS)网络模型由骨干网络的Mobile-CSPDarkNet53、颈部网络的混合池化结构(Mixed Pooling Module,MPM)[8]、改进的 PANet以及YOLOv4 的多尺度检测头组成,同时骨干网络和颈部网络之间通过卷积与深度可分离卷积的串联结构进行连接。 M-YOLOv4(OURS)结构如图1 所示。

图1 M-YOLOv4(OURS)结构图

1.2 轻量化骨干网络

MobileNetV3 的骨干网络是由多个倒置残差结构串联而成,即深度可分离卷积[6]、通道注意力机制网络[12]以及残差连接的过程,其结构如图2所示。 在通道注意力机制网络中的激活函数使用Hard-Sigmoid[6],如式(1)所示;改进后得到非线性激活函数 Hard-Swish,如式(2) 所示,Hard-Swish 可消除网络潜在的精度损失,并提升对小目标的检测精度,提高运算效率。

图2 MobileNetV3 模块结构

式中 ReLU6(x) = min(6,max(0,x)),表示在使用ReLU 激活函数时的最大输出值为6,减少了精度的损失。

本文选择MobileNetV3 嵌入YOLOv4 的骨干CSPDarkNet53 中,构成 Mobile-CSPDarkNet53 骨干网络,将 CSPDarkNet53 的前半部分衔接 MobileNetV3 的后半部分。 保留 CSPDarkNet53 骨干的前半部分可在一定程度上保留高分辨率特征层中小目标的语义信息,CSPDarkNet53 通过与MobileNetV3 进行衔接,减轻骨干网络的参数量,保留了小目标的检测精度。

1.3 MPM

MPM 由 SPPM 和 SPM 组成。 在 SPPM 中,若输入的张量为X∈RC×H×W(C表示通道数、H表示高度、W表示宽度),池化核的高度为h、宽度为w,输出特征y∈RH0×W0(H0=H/h,W0=W/w),则SPPM 的过程可表示为

式中:i0、j0表示池化区域的初始坐标位置,0

在SPM 中,对输入的张量X并行进行池化核大小为1 ×W的水平条纹池化和池化核为H×1的垂直条纹池化操作,可得垂直方向的张量,记为,m表示垂直方向的张量数量;水平方向的张量记为表示水平方向的张量数量,对垂直和水平方向的张量按元素位置做加法得到yC,m,n,如公式(4) 所示。 对输出yC,m,n进行卷积和激活函数的操作后与输入的张量X按位置做乘法,可得最后的输出Y,如公式(5)所示。

式中:Scale(•,•)表示元素按位置做乘法;σ表示Sigmoid 激活函数;f表示卷积核大小为1 ×1的卷积操作。

MPM 结构如图3 所示。 对于输入的特征层分别进行SPPM 和SPM 的操作;然后将二者输出后的特征进行通道维度的拼接;最后将拼接后的信息嫁接到输入特征层上完成混合池化的过程。MPM 融合了SPPM 和 SPM 的优点,使得特征层中的局部特征信息和全局特征信息均被捕获到。

图3 混合池化网络结构图

本文对骨干网络输出后用于通道数调整的三次卷积结构进行改进,将使用3 ×3 卷积核的卷积替换为深度可分离卷积,以减轻网络的参数量;由于Mobile-CSPDarkNet53 骨干输出后的特征层尺寸为 19 ×19,而 MPM 中的 SPPM 池化核大小为12 ×12、20 ×20,故将该池化核大小改进为 6 ×6、10 ×10,以便适应网络的结构。

1.4 改进PANet

PANet 主要以 FPN 为骨架,对 YOLOv4 骨干网络输出的三个特征层分支中的信息进行反复提取。 本文对PANet 中串联的五次卷积结构进行改进,设计一种基于深度可分离卷积的残差结构,称为Res∗Convs Block,简称R∗CB,其结构如图1中所示。 首先对输入该模块骨干的特征层进行二次卷积操作,将其中使用3 ×3 卷积核的卷积替换为深度可分离卷积,同时对分支仅进行一次卷积操作;随后将该模块的主干输出与分支输出进行通道维度上的拼接,再进行标准化和使用Leaky-ReLU 激活函数的操作;最后进行一次卷积、标准化与Hard-Swish 激活函数操作后输出。 R∗CB的设计借鉴了CSPDarkNet53 中的ResNet,能够有效保留图像信息的完整性。 深度可分离卷积与减少标准化和激活函数的操作都能够减轻网络的运算量,提升检测精度与效率。

1.5 损失函数

M-YOLOv4(OURS)在处理目标检测的问题时,将输入的图片分割成K×K的网格(K=19,38,76),每个网格包含M(M=3)个建议框,最终形成K×K×M个建议框,若目标的中心点落在某个网格内,由该网格负责检测此目标。 使用非极大值抑制算法筛选出真实框与建议框之间完整交并比(CIOU)大于0.5 的建议框用于回归预测框。

M-YOLOv4(OURS)在预测框回归损失中使用和YOLOv4 相同的CIOU 值计算方式[13]。 CIOU 值考虑了建议框与真实框之间的边框重合度、中心距离以及高宽比的问题。 预测框回归损失函数Losspre计算如式(6)所示。

M-YOLOv4(OURS)中的置信度损失函数Lossconf计算如式(7)所示。

M-YOLOv4(OURS) 中的类别损失函数Losscls计算如式(8)所示。

式中:c表示类别;s表示类别的集合、pu(c)分别表示该类别预测概率与真实概率。

综上所述,M-YOLOv4(OURS)总体损失函数Loss计算如式(9)所示。

2 实验

2.1 数据集

本文使用的数据集CARPK[14]在大约40 米高的无人机视图中收集,其中包含89 777 辆汽车的图像,所有图像的分辨率均为1 280 ×720。

数据集图像格式为jpg 格式,标签格式为xml格式。

2.2 实验细节与评价指标

实验平台硬件配置为:Inter i7 10th Gen 处理器、NVIDIA RTX 3090 显卡、32 GB 运行内存、500 GB固态硬盘。 系统环境配置为: Ubuntu 20.04版本、PyTorch1. 9 版本、CUDA11. 1 版本。在进行训练时,未使用预训练权重,均采用冻结训练的方法,前100 轮对网络的骨干进行冻结,其权值不发生改变,仅对分支网络进行训练,减轻网络的负担,学习率设为0.001,骨干网络解冻后的训练学习率设为0.000 1。 单次输入的图片数量均设置为8,输入图像经裁剪后大小为608 ×608。同时使用马赛克数据增强方法、余弦退火衰减方法,避免损失函数陷入局部最优解。 为避免训练过程中出现过拟合的现象,使用标签平滑技术,设定平滑值为0.01。 M-YOLOv4(OURS)的其他参数设置均与YOLOv4 相同。 通过多次训练实验,M-YOLOv4(OURS)最终在第400 轮之前完成收敛,训练效果如图4 所示。

图4 M-YOLOv4(OURS)训练损失

2.3 实验对比与结果分析

实验中所采用的网络模型均在相同环境和条件下使用 CARPK 数据集进行消融实验。 由于CARPK 数据集只有汽车一类目标,故实验中采用精准度AP 值评价网络的检测精度,并采用每秒检测帧率FPS[15]评价网络的检测速度。

2.3.1 激活函数的影响

为验证不同激活函数(Mish、Leaky-ReLU、Hard-Swish)对 M-YOLOv4(OURS)的 AP 值和FPS 的影响,实验使用不同的激活函数在骨干网络和颈部网络进行组合配置,如表1 所示(AF 表示激活函数)。 本文选取了 Mish +Hard-Swish 的组合,对小目标的AP 值相较于Mish +Leaky-Re-LU 和 Hard-Swish + Hard-Swish 的组合分别提升了29. 9% 和 41. 2%;FPS 相较于 Mish + Leaky-ReLU 的组合增加了1. 4,相较于 Hard-Swish +Hard-Swish 的组合减少了0.7。

表1 激活函数的影响

2.3.2 骨干网络的影响

实验验证不同的骨干网络(CSPDarkNet53、MobileNetV3 Block、Mobile-CSPDarkNet53)对整体网络的AP 值和FPS 的影响,实验结果如表2所示。 本文通过对骨干网络的改进得到了Mobile-CSPDarkNet53,总体 AP 值略微下降,FPS 为59.9,相较于MobileNetV3 Block 的参数量仅增加1 MB,但提升了小目标的AP 值。

表2 骨干网络的影响

2.3.3 其他改进方法的影响

MPM 和R∗CB 能够有效提升密集小目标的检测效果。 本文通过实验对比了MPM 和R∗CB两种方法在YOLOv4 中的检测效果,如表3 所示。采用 YOLOv4 +Mobile-CSPDarkNet53 + MPM +R∗CB 的方式得到本文的方法 M-YOLOv4(OURS),相较于 YOLOv4 + Mobile-CSPDark-Net53,参数量减小了64.2%;FPS 减少了6.7;而小目标的AP 值提高了50.0%;总体AP 值提高了1.5%。

表3 其他改进方法的影响

2.3.4 与其他YOLOv4 系列的对比

M-YOLOv4(OURS)与YOLOv4 以及其轻量版YOLOv4-Tiny 的对比如表4 所示。 YOLOv4-Tiny 的参数量仅占 YOLOv4 的9.1%;而 FPS 最快可达125. 4;但总体 AP 值较低。 M-YOLOv4(OURS)提升了小目标的AP 值,并且参数量仅占YOLOv4 的19.6%;总体AP 值仅下降了2.3%;中、大目标AP 值分别下降了2.3%和3.3%,但小目标的 AP 值提高了 10. 2%;同时 PFS 增加了4.2。

表4 与其他YOLOv4 系列的对比

2.3.5 部分实验效果展示

使用M-YOLOv4(OURS)在CARPK 数据集的测试集部分检测结果如图5 所示。 在复杂背景下M-YOLOv4(OURS)对稀疏、密集以及遮挡的车辆目标都能检测到,并且对车辆目标的检测效果不受不同光线条件影响。 YOLOv4 和 M-YOLOv4(OURS)对其他场景下航拍图像的检测结果对比如图6 所示。 该场景下背景复杂、目标较小,YOLOv4的检测效果如图6(a)所示,只有小部分目标被检测出来,甚至出现了误检的情况,M-YOLOv4(OURS)检测效果如图6(b)所示,小目标检测效果明显优于YOLOv4,但仍有一定的提升空间。

图5 M-YOLOv4(OURS)部分检测效果图

图6 YOLOv4 与M-YOLOv4(OURS)在其他航拍场景的检测效果对比

3 结论

本文提出了具有轻量化结构的M-YOLOv4(OURS)网络模型,模型的参数量较小,减轻了在设备上运行的负担;同时使用混合池化结构,丰富网络感受野的同时增加了远距离目标间的交互;在颈部网络中的金字塔结构中加入了残差结构,提升了对小目标的检测精度。 消融实验结果表明,M-YOLOv4(OURS)的检测指标在总体AP 值略微下降的情景下,小目标的AP 值和FPS 大幅提升,保证了精度与速度的平衡。

猜你喜欢
池化张量骨干
面向神经网络池化层的灵活高效硬件设计
基于Sobel算子的池化算法设计
卷积神经网络中的自适应加权池化
软件导刊(2022年3期)2022-03-25 04:45:04
偶数阶张量core逆的性质和应用
四元数张量方程A*NX=B 的通解
核心研发骨干均16年以上!创美克在产品研发上再发力
当代水产(2019年11期)2019-12-23 09:02:54
基于卷积神经网络和池化算法的表情识别研究
骨干风采展示
扩散张量成像MRI 在CO中毒后迟发脑病中的应用
关于组建“一线话题”骨干队伍的通知