改进Yolov4 的车辆弱目标检测算法

2023-09-19 07:47项琦鑫

中国惯性技术学报 2023年8期

王坤，项琦鑫

（中国民航大学电子信息与自动化学院，天津 300300）

随着中国汽车保有总量的逐年上升，行车安全问题日趋严重。得益于人工智能的发展，智能汽车系统通过车辆目标检测来规避一定的行车风险。传统的车辆目标检测方法基于手工提取特征，检测精度低且无法满足车辆目标实时检测的需求，深度学习近年来在水下检测[1]、智慧医疗、导航定位[2,3]等领域取得巨大成功。根据目标边框产生以及变化的过程，基于深度卷积神经网络（Deep Convolutional Neural Networks,DCNN）的目标检测算法主要分为两类，一类是以Faster R-CNN、Cascade RCNN 等为代表的two-stage算法，另一类是SSD、Yolo 系列算法[4,5]为代表的onestage 算法。由于two-stage 算法首先通过卷积神经网络（Convolutional Neural Networks,CNN）产生候选框，然后对相应候选框进行分类，而one-stage 算法将输入图片通过CNN 直接完成分类和定位任务，所以twostage 算法检测精度较高，但是检测速度远远不如onestage 算法。上述目标检测算法在公开的通用数据集中已经取得成功，可以满足一般目标的检测需要。小目标所占像素单元较少；遮挡目标有很多共享像素且可见像素有限，将类似遮挡目标或小目标这种可见像素或所占像素单元少的目标定义为弱目标。道路车辆目标中包含大量弱目标，上述算法对弱目标的检测效果不甚理想。

当前的目标检测算法无法有效完成遮挡目标及小目标等弱目标的检测任务，存在大量漏检和错检等问题。近年来，有不少学者针对小目标和遮挡目标等弱目标检测展开研究。文献[6]提出通过半空间捷径模块建立骨干网络来加强背景感知能力，抑制复杂背景信息对小目标信息的干扰，同时引入特征金字塔增强模块，通过细化的尺度层次提高小目标的特征表示。文献[7]提出M-CBAM 注意力机制并添加到特征强化提取模块中来过滤背景信息和克服物体重叠问题，同时引入自适应融合因子过滤多余的特征，有效缓解了复杂场景中小目标的漏检和误检问题。上述文献利用金字塔结构与注意力机制增强了特征提取能力，虽然减少了背景信息对小目标信息的干扰，但忽略了浅层特征层的细粒度特性和通道间的信息关联对小目标检测的重要性。

文献[8]针对密集的遮挡目标改进Yolov4-Tiny 网络结构，使用变形预测头（Transformer Prediction Heads,TPH）替换锚点检测头并使用自注意力机制与TPH 集成“卷积块注意模型”。改进后的Yolov4-Tiny 网络能在目标密集的场景中定位关键的注意区域，对密集的遮挡目标进行准确有效的实时检测。文献[9]将深度残差网络作为Yolov3 的骨干网络，设计不同尺度的卷积特征图与残差网络对应尺度的特征图进行融合，形成最终的特征金字塔执行车辆预测任务，实验结果表明提出的模型能更好地检测出遮挡目标。上述文献通过多尺度融合构建金字塔结构在一定程度上提升了遮挡目标的检测精度，但是不同尺度的目标先验框稀疏度不同，浅层也有大目标和中目标的存在，小目标不易分得检测框，影响了小目标的检测并忽略了融合特征带来的计算量。

针对上述问题，本文以Yolov4 作为基础模型，利用注意力机制与通道分割设计特征增强注意力模块（Feature Enhancement Attention Block,FEAB），并添加至PANet 网络。FEAB 利用浅层特征层的细粒度特性与通道间的信息关联，增强小目标信息的提取能力；在骨干网络与颈部网络之间添加像素重组残差模块，通过超分辨率的方法将位于同一网格的多个遮挡目标中心点分离到不同网格中，克服Yolov4 锚框机制对被遮挡目标检测的限制，提升车辆遮挡目标的检测能力；考虑到车辆目标检测的实时性需求，使用深度可分离卷积替换多尺度特征融合模块的普通卷积，提升检测速度。

1 Yolov4原理

如图1 所示，Yolov4 的整体结构分为三个部分：使用CSPDarknet53[10]作为主干网络Backbone、由SPP和特征融合模块PANet[11]构成颈部Neck 以及与Yolov3 相同的3 检测头Head。

图1 Yolov4 的网络结构Fig.1 The network structure of Yolov4

图1 中以416×416 的输入图像为例，将原始输入图像调整到416×416 大小并输入到主干特征提取网络CSPDarkNet53 中进行图像特征提取，得到P1、P2、P3作为有效特征层输入到由FPN 和PANet 构成的特征金字塔中进行特征加强提取，PANet 网络获取3 个尺度的有效特征图并输入Yolo Head 结构。通过解码网络处理并进行非极大值抑制后将最终结果显示在原图上，Yolov4 输出三个不同尺寸的特征图用于不同尺寸的物体预测。因为下采样倍数越大，代表网络的感受野越大，所以输出的13×13、26×26、52×52 三个特征层分别实现大、中、小目标的检测。检测头网络将原始图像分成K×K个网格，每个网格设置三个先验框来预测目标边界。每个网格的张量计算公式为：

其中，K代表网格数，3 代表先验框个数，4 代表边框坐标，1 代表边框置信度，N代表对象类别数。

根据基本组件分成5 个部分，如图2 所示。图2(a)中的CBM 模块是Yolov4 网络结构中最小的组件，由Conv、Bn、Mish 激活函数三者组成；图2(b)中的CBL模块由Conv、Bn、Leaky_relu 激活函数三者组成；图2(c)中的SPP 模块采用1×1、5×5、9×9、13×13 的最大池化，进行多尺度融合，有效地增加感受野并分离出显著的上下文特征；图2(d)中的Res unit 残差模块借鉴了Resnet 网络中的残差结构，构建更深的网络，特征图使用add 进行张量相加，不增加通道；图2(e)中的CSPX 模块借鉴了CSPNet 思想，由三个卷积层和X个Res unit 模块堆叠组成。

图2 Yolov4 网络组件Fig.2 Yolov4 network components

2 改进Yolov4的车辆弱目标检测方法

在车辆目标检测的实际应用中，被遮挡目标可见像素太少，小尺寸目标自身所占像素太少容易被忽略等难题一直困扰着研究人员。原始Yolov4 算法在通用数据集上表现出色，但是Yolov4 的锚框机制对遮挡目标的训练检测并不友好，同时Yolov4 忽视了浅层特征层的细粒度特性和通道间的信息关联对小目标检测的重要性。针对车辆弱目标普遍存在且不易检测的问题，提出了改进Yolov4 的车辆弱目标检测算法。

2.1 像素重组残差模块

在实际的交通场景中，严重遮挡的目标可见像素有限且有很多共享像素。Yolov4 确定锚框时，只有包含物体中心点的网格才被视为正确，多个目标的中心点位于同一网格时，Yolov4 只会保留一个目标，其余目标在训练过程中会被忽略，这严重限制了Yolov4 对遮挡目标的检测能力。为了在训练时保留更多的遮挡目标，将多个严重遮挡目标的中心点分散到不同的网格中，引入像素重组模块如图3 所示。

图3 像素重组原理图Fig.3 Principle diagram of pixel shuffle

由图3 可知，引入像素重组[12（]Pixel Shuffle,PS）将低分辨率（Low Resolution,LR）特征图通过多次卷积核为f1的卷积操作，最终得到通道数为r2的特征图，r是其分辨率。通过通道重组获取高分辨率（High Resolution,HR）特征图有效地扩大感受野并提供更多的上下文信息，通过超像素方式将同一网格的多个遮挡目标的中心点分散到不同网格中。但是由于边界处的卷积都只涉及到相同的像素点，像素重组在边界处存在反卷积层不平整的问题。

为了改善像素重组反卷积层不平整的问题并且使得网络能完整学习相关特征，利用空洞卷积和非对称卷积建立像素重组残差模块。超分辨率实质上是从一张特征图变换到另一张相似特征图的过程，特征不需要全学，通过学习残差特征去恢复一些细节。为了从遮挡目标的有限可见像素中提取细化信息并生成可区分表示，本文提出像素重组残差模块，记为PS-R，结构如图4 所示。由图4 可知，分支1 采用不同大小和膨胀率的空洞卷积，不同的卷积核覆盖不同的空间范围。通过不同的感受野查看同一位置4 次。该层次结构从不同的感受野提取信息，不仅有细节信息还兼顾当前区域的全局信息。通过像素重组模块改善遮挡目标的信息提取能力和可区分表示，但伴随有反卷积层的不平整。分支2 使用非对称卷积代替正方形卷积，在学习残差特征信息的同时降低参数量的引入，分支1和2 元素求和后得到高分辨率特征层。

图4 像素重组残差模块Fig.4 Pixel shuffle residual module

2.2 特征增强注意力双分支模块

原始Yolov4 网络忽视了浅层特征层的细粒度信息和通道间信息的关联对小目标检测的重要性。针对此问题，提出具有对象感知能力的特征增强双分支模块FEAB，如图5 所示。FEAB 模块由两个分支组成：注意力分支和基于通道分割的特征增强分支，其中特征增强分支通道分割得到子特征图C1、C2。特征增强分支得到的增强特征图C3，与注意力分支得到的归一化重要性特征图C4进行元素相乘，生成具有对象感知能力的增强特征图。为了保留更多的细粒度信息，将具有对象感知的增强特征图和输入特征图进行特征图相加得到C5作为下一个卷积层的输入特征图。

图5 特征增强注意力模块Fig.5 Feature enhancement attention block

由图5 可知，为了节约算力，注意力分支仅使用通道维度的平均池化去压缩特征图的所有通道获得自我注意特征图。在自我注意特征图中，高像素值的语义信息被确定为重要通道，在后续处理中会得到更多的关注。用Sigmoid 激活函数对自我注意特征图的所有通道进行归一化得到归一化重要性特征图C4。特征增强分支对输入特征图进行通道分割，对得到的（C1，C2）进行不同的操作：C1不进行任何操作，保留浅层高分辨率特征图的小目标信息和边缘信息；C2分三个支路对其进行膨胀率不同的空洞卷积操作，获取不同感受野的特征图后进行Concat 操作，并使用非对称卷积操作整理维度。将操作后的C1和C2进行Concat 操作获得增强特征图C3，与归一化重要性特征图元素相乘得到具有对象感知的增强特征图。最后，将具有对象感知的增强特征图与输入特征图进行元素求和，获得最终的特征图C5。

2.3 k-means++遗传算法聚类

Yolov4的初始先验框尺寸由Pascal VOC和COCO两大通用数据集聚类确定，本文使用针对交通道路目标的车辆数据集KITTI 与UA-DETRAC 进行实验。与通用数据集相比，车辆数据集的宽高比更大，初始先验框的尺寸不适用于本文数据集。因此，本文使用k-means++聚类结合遗传算法对道路车辆数据集的真实标注框进行聚类。通过对数据集中车辆及行人目标的形状及特点进行分析，手动选取k-means++的初始聚类框，以此降低算法在初始聚类中心上带来的误差。使用Genetic Algorithm 遗传算法，在k-means++聚类的结果上对聚类中心进行mutation 变异，遗传算法随机对先验框的宽高比进行变异，将变异后更好的结果赋值给原有的先验框。模型保留Yolov4 的三检测头结构，基于每个检测层保留三个尺寸的先验框，所以本文选取聚类中心k=9。在KITTI 数据集上的先验框聚类结果是：[9，26]、[15，35]、[8，72]、[27，40]、[20，56]、[39，71]、[23，165]、[61，115]、[99，198]；在UA-DETRAC数据集上的先验框聚类结果是：[12，17]、[16，23]、[22，29]、[32，31]、[27，43]、[40，44]、[57，51]、[63，83]、[103，115]。使用结合了遗传算法的k-means++算法聚类得到的先验框更贴合数据集包含的目标特点，保证训练过程的进行。

2.4 深度可分离卷积

深度可分离卷积[13]由逐深度卷积和逐点卷积组合而成，为了提高网络的表达能力，在卷积之后均使用BN 和ReLu 激活函数。与普通卷积相比，在精度不变的情况下，深度可分离卷积大幅减少了模型的参数量。在原有的加强特征提取结构中PANet 由普通卷积块堆叠而成，引入太多计算量，因此，本文用深度可分离卷积替换PANet++中的普通卷积。假设输入特征图尺寸为DF×DF×M，卷积核尺寸为DK×DK×M，输出特征图尺寸为DF×DF×N。

深度可分离卷积与普通卷积的参数量之比为：

如式(2)所示，深度可分离卷积的参数量远远少于普通卷积，有效降低网络的计算量，提升检测速度。

2.5 改进的Yolov4网络结构

本文提出的改进Yolov4的网络结构如图6所示，主要分为三部分：设计像素重组残差模块PS-R，通过超分辨率的方式将多个遮挡目标的中心点分散到不同网格中，遮挡目标在训练中被更多的保留，有利于遮挡目标检测；设计FEAB模块并添加至PANet中构成PANet++，保留更多细粒度信息，同时加强浅层细粒度特征的提取与通道信息关联，像素重组残差模块与特征增强注意力双分支模块均用于加强网络的弱目标特征信息的提取能力；最后使用深度可分离卷积替换PANet++中的普通卷积，提升检测速度。在通过非极大值抑制删除多余的检测窗口后，获得最终的预测结果。

图6 改进的Yolov4 结构Fig.6 The improved Yolov4 structure

3 实验与结果分析

3.1 实验环境

本文实验运行的环境见表1。

表1 实验运行环境Tab.1 Experimental operating environment

3.2 数据集

本文在两个公共车辆数据集 KITTI 和UA-DETRAC 上进行实验。KITTI 数据集包含8 个类别，训练集中有7481 张图片。数据集中的Misc 类别是杂项，舍弃这个类别。为了更好地进行自主驾驶算法的训练和验证，将数据集中的person 和pedestrians合并为一类，van、truck、tram 与car 合并为一类，最终分为Car、Person、Cyclist 这三个类别。UA-DETRAC数据集包含使用相机在中国北京和天津的24 个不同地点拍摄的10 个小时视频。视频以每秒25 帧的速度录制，分辨率为960×540 像素。数据集包含82085 张图片作为训练集，56167 张图片作为测试集。实验中的训练集和测试集的划分如表2 所示。为了验证模型的普适性，选择使用Pascal VOC 2007 通用数据集来评估本文模型。Pascal VOC 2007 包含9963 张图片，该数据集共有20 个物体类别。Pascal VOC 2007 的训练集（5011 张图片）被用来训练网络，而Pascal VOC 2007的测试集（4952 张图片）则被用来测试。选择Pascal VOC 2007 的车辆和行人等类别进行结果预测。模型被测试时使用全类别平均准确度（Mean Average Precision,MAP）作为评价的标准性能指标。所有的指标都按照Pascal VOC 标准计算。

表2 实验数据集分布Tab.2 Experiment dataset distribution

3.3 参数设置

在Pytorch 框架上用预先训练好的CSPDarknet53权重对骨干网络进行冻结训练。对网络总共训练150个epoch，包括50 个冻结训练的epoch 和100 个解冻训练的epoch。基于GPU 的内存容量，当训练被冻结时，PASCAL VOC 2007 的Batch size 大小为16；训练不冻结时，Batch size 大小为 8。在 KITTI 和UA-DETRAC 数据集的训练过程中，训练冻结时的Batch size 大小为8，训练不冻结时的Batch size 大小为4。实验过程输入图片的尺寸为416×416，同时启用了马赛克数据增强，整个网络采用随机梯度下降法（Stochastic Gradient Descent，SGD）进行优化，初始学习率为1×10-3，权重衰减为5×10-4，动量为0.9。正负样本通过IoU 阈值来区分，大于设定阈值的认定为正样本，小于设定阈值的是负样本，两个阈值中间的样本会被抛弃，通常情况下负样本会很多，所以通常选取较小的阈值来确定负样本。考虑到正负样本比例的均衡，本文将IoU 阈值设置为0.5。

3.4 评价指标

本文采用MAP 和每秒传输帧率（Frames Per Second,FPS）作为评价指标。MAP 是多个类别AP 的平均，其大小一定在[0，1]区间，越大越好；AP 值为Precision-recall 曲线下面的面积；P为准确率（Precision）；R为召回率（Recall）。计算公式为：

其中，PAP为单类别平均准确度；PMAP为全类别平均准确度；XTP为正确检测的目标物体；XFP为错误检测的目标物体；XFN为没有检测出的目标物体；XTN为正确检测出的非目标物体。

3.5 实验结果

3.5.1 消融实验

为了验证特征增强注意力双分支模块、像素重组残差模块、深度可分离卷积和k-means++结合遗传算法获得先验框有利于模型精度和速度的提升，本文在KITTI 数据集上进行消融实验，实验结果如表3 所示。Yolov4 是原始模型；Yolov4-1 使用k-means++结合遗传算法生成先验框；Yolov4-2 只使用特征增强分支；Yolov4-3 只使用注意力分支；Yolov4-4 表示特征增强注意力双分支模块的引入；Yolov4-5 表示引入像素重组残差模块；Yolov4-6 表示引入深度可分离卷积；Yolov4-Our 表示以上三个模块同时引入。实验中除了原始Yolov4，其余实验均使用k-means++结合遗传算法生成先验框。

表3 模块的消融实验Tab.3 Ablation experiments of modules

由表3 可知，使用原始Yolov4 模型时，在KITTI数据集上精度达到了94.4%。实验结果表明，Yolov4-1通过使用k-means++结合遗传算法生成先验框，在没有引入其他参数量的情况下，检测算法精度提升0.4%。在考虑聚类方式带来的提升时，Yolov4-2 通过特征增强分支在KITTI 数据集上比Yolov4 提高了1.2%的精度。Yolov4-3 通过注意力模块加强了通道特征间的关联性比Yolov4 精度提高了0.7%。与上述添加单分支的方法相比，Yolov4-4 的精度提高了1.4%，特征增强注意力双分支模块的性能优于只添加单分支模块，验证了Yolov4 在PANet 中引入特征增强注意力双分支模块构成PANet++时，通过全局平均池化等局部跨通道交互操作增强了通道特征之间的相关性，通道分割后的卷积操作保留了更多细粒度特征。Yolov4-5 引入像素重组残差模块，通过像素重组的方式保留更多遮挡问题严重的目标信息，并使用残差模块解决像素重组特征层不平整的问题，精度提高了0.8%。上述模型加强了小目标和遮挡目标等弱目标的检测能力，但是引入了更多的计算量。如Yolov4-6 所示，为了提升检测速度，用深度可分离卷积替换特征加强提取网络PANet++中的普通卷积，损失了少量的精度，但是检测速度提升了约11%。Yolov4-Our 将上述几种模块同时引入网络，精度相比于Yolov4 提升了1.9%，并且通过深度可分离卷积将检测速度提升，虽然仍稍慢于原始Yolov4。

由于特征增强分支使用了通道分割，为了实验的完整性，进行消融实验来比较通道分割的选择规则。在特征增强分支中，将输入特征图根据通道分为1/4，2/4，3/4 和4/4（4/4 表示特征图未被分割），并对它们进行卷积操作。每个模型的精确度在KITTI 数据集上进行评估。与上述实验一样，在PANet 的26×26 和52×52 特征图后添加特征增强注意力双分支模块，实验结果如表4 所示。

表4 特征图分割在KITTI 数据集上的检测结果Tab.4 Detection results of feature map split on KITTI dataset

由表4 可知，当输入特征图被分成两个相等的部分时获得最高的精度。由于FPS 的差异很小，只考虑MAP，最终选择将输入特征图在通道维度分为2 个子特征图。应用于该消融实验的所有特征增强注意力模块都包含一个注意分支和一个特征增强分支。

3.5.2 不同模型间的对比实验

选取Faster R-CNN、Cascade R-CNN、SSD、Yolov2、Yolov3、Yolov4 和Yolov4-Our 在使用相同参数的情况下，在KITTI 和UA-DETRAC 两大车辆公共数据集上进行实验对比分析，验证改进Yolov4 的车辆弱目标检测的有效性，实验结果如表5 所示。

表5 不同模型在车辆数据集上的测试结果Tab.5 Test results of different models on the vehicle dataset

由表5 可知，Yolov4 模型与二阶段模型Faster RCNN 和Cascade R-CNN 模型及一阶段模型Yolov2 相比，在检测速度和检测精度上都得到大幅提升。在KITTI 和UA-DETRAC 车辆数据集上验证，与SSD 相比，虽然检测速度61.4 fps 慢于SSD，但是检测精度分别提升了9.9%和7.1%；与Yolov3 相比，精度分别提升了5%和4.8%。与原始Yolov4 比较时，Yolov4-Our 在KITTI 和UA-DETRAC 数据集上的检测精度分别提高了1.9%和2.4%，本文改进方法的PMAP值高于表中其他方法。Yolov4-Our 在特征图输入到PAN 前添加像素重组残差模块，通过超分辨率的方式将多个遮挡目标的中心点分散到不同网格中，在训练中保留更多的遮挡目标；通过引入特征增强注意力双分支模块保留更多细粒度信息并加强通道间的信息关联，提升了小目标的检测能力。最后使用深度可分离卷积替换PANet++中的普通卷积，提升检测速度。实验结果表明，本文提出的算法精度提高，有效提升实际交通场景物体和遮挡物体等弱目标的检测能力，算法检测速度达到61.4 fps，高于车辆数据集视频采集25 fps 的帧率，满足车辆目标实时检测的要求。

3.5.3 车辆目标预测结果

在KITTI 数据集和UA-DETRAC 数据集上，原始Yolov4 模型与Yolov4-Our 模型的预测结果如图7-8 所示。左侧(a)为原始Yolov4 模型的预测结果，右侧(b)为Yolov4-Our 模型的预测结果。

图7 KITTI 数据集上的预测结果Fig.7 Prediction results on KITTI dataset

从检测效果对比来看，图7(a)中原始Yolov4 对图中红色框标注的弱目标存在漏检问题，图7(b)的Yolov4-Our 模型成功将其检测出来；图8(a)中原始Yolov4 对图中绿色框标注的弱目标存在漏检问题，图8(b)的Yolov4-Our 模型成功将其检测出来。原有的Yolov4 模型忽略了通道之间的相关性，在特征融合过程中丢失过多细粒度信息，因此图中弱目标漏检的情况较多。Yolov4-Our 在骨干网中加入特征增强注意力模块，它增强了信道特征与网络细节信息之间的相关性，使网络能够更好地预测遗漏对象。被遮挡物体的可见像素比较少，而且Yolov4 确定锚框的机制，只有包含物体中心点的网格才会被视为正确的，当多个目标严重重叠时，它们的中心点位于同一个网格中，在训练过程中只保留一个目标，其他的都忽略。通过像素重组残差模块从不同范围提取的信息不仅有细节信息，而且有相对当前区域的全局信息。结果表明，相比于原始Yolov4 模型，Yolov4-Our 模型更好地检测出了车辆小目标与遮挡目标，提升了弱目标检测能力。

图8 UA-DETRAC 数据集上的预测结果Fig.8 Prediction results on UA-DETRAC dataset

为了验证通用性，利用通用数据集 Pascal VOC2007 对车辆类别进行了准确度和预测结果对比。在训练过程开始前，使用k-means++结合遗传算法生成先验框，在Pascal VOC2007 上的先验框聚类结果是：[11，18]、[20，40]、[42，28]、[40，76]、[78，54]、[74，148]、[140，112]、[192，243]、[459，401]，准确度对比如表6 所示。

表6 Pascal VOC2007 数据集结果Tab.6 Results on Pascal VOC2007 dataset

由表6 可知，在Pascal VOC2007 的Bicycle、Bus、Car 及Mbike 这些类别上，Yolov4-1 相较于Yolov4 只改变了聚类方式，却带来了精度上的提升，验证了kmeans++与遗传算法结合生成先验框的有效性；Yolov4-Our 在精度上全面提升，最终的PMAP提升2.5%，验证了模型的通用性。

Pascal VOC2007 上的预测结果对比如图9 所示。图9 显示了Yolov4 和Yolov4-Our 模型在 Pascal VOC2007 数据集上的预测结果，对比图9(a)(b)的检测效果，可以看出，在对通用数据集的车辆类目标进行检测时，本文提出的模型依然能够检测出更多的车辆遮挡目标与小目标这些像素不足的弱目标，有效增强了像素信息较少的弱目标特征提取能力，具有一定的通用性。

图9 Pascal VOC2007 数据集上的预测结果Fig.9 Prediction results on Pascal VOC2007 dataset

4 结论

针对实际交通场景下存在大量可见像素较少的车辆弱目标，本文提出改进Yolov4 的车辆弱目标检测算法。设计像素重组残差模块PS-R，通过超分辨率的方式将位于同一网格中的多个目标中心点分散到不同网格中，避免遮挡目标被Yolov4 锚框机制忽略，在网络训练中保留更多的遮挡目标，提升了遮挡车辆目标的检测能力；设计特征增强注意力双分支模块FEAB 并添加至PANet 构成PANet++结构，保留更多浅层特征层的细粒度信息并加强通道关联，提升了弱目标检测性能；最后使用深度可分离卷积替换PANet++中的普通卷积，提升检测速度。在训练前，使用k-means++结合遗传算法针对车辆数据集的目标样本标注框生成更适用于车辆目标检测的先验框。相比于原始Yolov4 网络，在满足车辆检测实时性的同时，改进后的Yolov4车辆弱目标检测算法精度有所提升，对道路车辆小目标及遮挡目标等弱目标有更出色的检测能力。