基于深度监督特征融合的车辆目标检测方法研究*

2022-05-13 06:53:58雷嘉豪

小型内燃机与车辆技术 2022年2期

雷嘉豪李江刘波

（陕西工业职业技术学院汽车工程学院陕西咸阳 712000）

引言

逐渐趋于饱和的公路通行容量已成为了制约道路交通的主要因素之一。在保持相同速度水平的情况下，减小车辆辅助驾驶系统在巡航控制行驶时的跟车间距可以有效地增加道路容量，缓解交通压力。而要减小车辆行驶的间隔，就对基于机器视觉的前方车辆目标检测提出了更高的要求。

目标检测是大部分机器视觉应用的基本流程，如文本识别、行人检测、人脸识别等，同时也广泛地应用于辅助驾驶系统[1]和自动驾驶系统[2]中，它不仅可以对目标类别进行识别，还可以通过一个包围框预测每个目标的位置，所以在车辆处于辅助驾驶巡航状态时，目标检测的准确性、效率和低系统内存消耗等受到了相关研究者的广泛关注。与此同时，语义分割在该领域的微观层面也扮演着重要角色，其目标是预测像素级分类器，为每个像素指定特定的类别标签，从而提供更丰富的图像信息。通过语义分割，可以使行驶中的车辆通过机器视觉识别图像中哪些区域可以安全驾驶，哪些路径有障碍物等。因为车辆处于间距较小的自适应巡航状态时必须能够更准确高效地感知和理解路况环境（包括其他车辆、建筑物，行人和障碍物），以便为车辆的上层控制器提供决策信息，应对相应情况，从而达到在安全行驶的基础上提高通行效率的目的。

而实例分割任务既可以检测出路况上的目标实例的所属类别，又具备语义分割的特性，实现了像素层面上的分类，能够较强地理解图像的语义线索和空间信息，即实例分割结合了目标检测任务和语义分割任务的优势。此外，路况实例分割任务能为车辆驾驶辅助系统提供元数据，为汽车巡航控制提供更好的安全性和舒适体验，而安全舒适高效就是当前L2 至L3 或更高级别的先进辅助驾驶系统的需求和发展方向。但与此同时，这种任务属性也决定了实例分割任务比上述两种任务更具有挑战性和复杂性。综上所述，在车辆处于驾驶辅助系统或无人驾驶系统的控制时，在机器视觉中实现更高精度的定位结果和分割结果有利于提升车辆在跟车巡航状态下的安全性，从而可以尽可能地缩小跟车间距，增大道路的交通容量，缓解交通拥堵。在高速巡航时减小跟车间距还能够降低车辆气动阻力，将燃油消耗和排放进一步降低。

1 目标分割网络分析

当前的自适应巡航控制系统主要通过毫米波雷达和视觉传感器二者结合来实现。毫米波雷达主要用于测量与前车距离，视觉传感器用于进行车辆启停或行驶中的前方目标确认。由于毫米波雷达只能提供单一的距离信息，故在复杂路况的跟车行驶时就需要视觉传感器提供更多更高效的前方路况信息，具体技术路线如图1 所示，其中核心技术是检测模块。

近年来基于视觉的目标分割任务取得了很大的进步，部分原因就是利用了目标检测领域的成熟技术。

1.1 传统分割方法

早期通过人工设计的特征来检测图像中物体的解决方案包括颜色直方图、几何特征和小波变换等。之后出现了大量基于关键点的方法，其中，color-SIFT、PCA-SIFT 和SUFR 都可以有效地实现目标检测任务。另一组人工算法试图使用基于增强的方法来实现目标检测，通过使用级联策略和Haar 特征来检测对象，以通过积分图像有效地计算Haar 类特征。通过聚合信道特征算法[3]，可以从图像中提取不同通道的特征，然后利用决策树和AdaBoost 检测目标对象。此外，一种基于HOG+SVM 框架的方法[4]可以首先对每个图像块生成基于边缘的特征，即定向梯度直方图，然后利用支持向量机对这些特征进行分类。

1.2 深度学习框架原理

计算机视觉相关技术的发展在近年来主要依托于人工智能和深度学习。同时，相对于传统方法，基于深度学习的图像检测分割方法取得了显著进展。如今，它被用于频分析、物体识别、图像分类[5]以及机器人和自动驾驶系统的图像处理等应用领域。

在车辆处于高级辅助驾驶或无人驾驶时，基于机器视觉的目标检测任务需要对图像进行智能分割，使计算机能够理解图像中的特定信息，同时可以让每个模块更加易于分析。通过基于机器视觉的深度学习模型来理解图像中的每个像素所显示的具体含义，与传统的固定检测模型有着本质的区别。

在学习视觉输入的模式后，深度学习模型可以预测构成图像的对象类别。技术处理使用多层结构，逐级将初始的“低层”特征提取出来，再使其转化为“高层”特征表示，用“简单模型”即可完成较为复杂的图象分割、检测、分类等学习任务[6]。

用于图像处理的主流深度学习框架是卷积神经网络（CNN），或是依托于此的特定CNN 框架，如ResNet、Inception、VGG 以及AlexNet[7]。深度学习模型一般会在专用的图形处理器（GPU）上进行训练和执行，用来减少大量计算所耗费的时间。

目前，主流的基于深度学习的目标分割主导框架仍然是两阶段方法的Mask R-CNN[8]，它将目标分割变成了两阶段的检测和分割任务。首先使用一个物体检测器Faster R-CNN 来预测每个实例的边界框，然后对于每个实例，使用ROI 对齐操作从网络的特征地图中裁剪出感兴趣的区域。为了预测每个实例的最终掩码，在这些候选区域中使用一个紧凑的全卷积网络（FCN）来进行前景/背景分割。

1.3 FPN 网络架构

多尺度物体检测问题的处理一般通过特征金字塔来实现。但由于在深度学习的过程中，制定检测算法需要考虑到计算量和内存限制的因素，所以大部分都会尽可能地将特征金字塔排除在外。为了应对并解决此问题，FPN（Feature Pyramid Network）利用深度卷积网络本身固有的多尺度、层次结构来构造特征金字塔，从而达到了极小的额外消耗。为了构建不同尺度下的高层语义特征，FPN 采用自上向下、带有侧向连接的分层结构，它可以作为一种通用的特征提取器，在多个任务上带来显著的性能提升。

图3 FPN 网络架构

1.4 目标检测算法改进

在FPN 网络的基础上，结合深度监督以及特征融合。提出一种应用于ADAS 系统中基于深度监督特征融合的车辆目标分割算法，该方法具备两个创新点：

1）利用多级特征跳跃融合策略，有效弥补网络编码阶段多次下采样带来的信息损失；

2）利用深度监督策略提高隐藏层学习过程中特征提取的辨别力以及稳健性。通过在公开车辆数据集上的实验结果分析证明了基于深度监督特征融合的车辆目标检测算法的有效性。

2 深度监督特征融合的车辆目标检测算法

2.1 检测原理

基于FPN 的改进车辆目标检测网络主要包括三个部分，共享的底层卷积层，区域建议网络（RPN）和基于区域感兴趣（ROI）的分类器。

首先，将输入图像表示为由共享的底层卷积层生成的卷积特征图。基于该特征映射，RPN 生成候选对象建议，使用ROI-pooling 获得特征向量，然后ROI 分类器从这些特征向量中预测类别标签。训练损失包括RPN 损失和ROI 分类器损失。与多数网络一样，在编码阶段提取特征，重复的下采样操作是不可避免的。但在使用多个下采样操作的过程中会损失部分图像的细节信息，为了解决此问题，将深度监督策略和特征融合策略加入到检测网络中来。网络模型如图4 所示，具体策略实施过程如下。

图4 本文网络模型框架

2.2 特征融合策略

大多网络框架的设计在编码器的下采样过程中缺少空间信息，以及非相邻层的特征之间缺乏足够的连接。为了弥补来自上层缺失的空间信息以及充分利用不相邻层的特征信息，一般方法是利用模型强大的特征提取能力，融合前不同层提取到的特征信息，输出至网络下一层。但是，由于来自不同层次的特征具有不同的尺度和维数，简单地使用拼接的特征融合效果较差。因此本文提出一种双融合策略，一方面，网络融合编码层特征继续完成解码阶段；另一方面，网络也融合同一级别特征信息，之后经过1×1 卷积操作，将最终特征图用于RPN 中，以生成分类信息。具体操作为：

式中：Ci代表编码阶段层序，ui代表解码阶段层序，⊕表示element-wise addition 操作，conv表示卷积操作。此处的编码阶段与解码阶段层序相反，这一操作可以有效弥补编码阶段多次下采样带来的信息损失问题，也可以为获得分类信息的RPN 模型提供更具代表性的特征信息，进而获得更具增益性的分割定位结果。

图5 为该网络特征学习过程中的网络特征图结果展示，从图5b、c 可以看出，提取的细节特征会随着网络层数的增加而变得越来越明显，高层语义信息也随之抽象和丰富，如图5d 所示。而从图5e 中可以看出，融合后的特征图更能代表图像的完整信息。

图5 网络特征输出结果

2.3 深度监督策略

在深度神经网络的训练中，深度监督可以有助于减少过拟合问题，提取到更有意义的特征，促进网络收敛，解决梯度消失的问题。过程中通常利用深层框架的中层特征，因为更深层次的网络可以编码更高层次的功能。在解码器的各个阶段都去采用深度监督，可以利用每个中间阶段的输出进行监督。在该策略中，通过利用三层特征（L2，L3，L4）的误差来实现网络的深度监督，具体操作是：

式中：l 为误差，up 代表上采样操作，sm 代表Softmax操作，用于导出概率结果。通过上采样，每个解码器的输出可以调整到与最终输出的分割图具有相同的尺寸。这些中间阶段的输出被合并到最终的输出分割图中，利用标签（Ground truth）和Softmax 函数输出来计算误差。这样，中间阶段和最终输出将潜在地包含损耗和梯度反向传播，中间阶段的输出也将逐渐接近标签。

3 实验结果分析

3.1 实验数据与实验设置

实验主要在包含车辆的图像数据集D2-City 上进行实验，D2-City 的数据采集自多个城市，具体包含了不同的交通路况、道路情况以及天气变化，在此基础上还特别增加了较为复杂多变的交通场景，如表1 所示。

表1 常用车辆数据集

数据集共包含：训练集6 785 张，验证集1 823张，测试集1 500 张。实验中使用单张NVIDIA GeForce RTX3090 24GB GPU 进行了200 次训练。在训练模型时，使用了具有自调整学习率的Adam 优化方法。设定学习率衰减因子10-5，初始的学习率10-4。此外，文中使用mAP 指标来定量分析，验证所提出方法的性能。

3.2 实验结果与分析

为了验证所提出方法的可行性，给出三种对比方法来与所提出方法进行对比实验，三种对比方法分别为Mask R-CNN、Faster R-CNN 和PointRend，图6 所示为几种方法的实时分割结果和定位结果。其中图6a～c 依次为Mask R-CNN、Faster R-CNN 和PointRend 三种对比方法，图6d 为本文所提出的方法。可以看出几种对比方法都能将目标区域大致分割出来，而本文所提出方法的视觉效果更为显著；且对于车辆目标，所提出方法的置信度指标较对比方法均有所提升。

图6 四种方法实验结果对比

为了进一步说明本文算法的优越性，在表2 中给出了本文方法和对比方法的mAP（平均精度）值。在目标检测问题中，mAP 是最常用的性能评测指标，它能够对定位模型、目标检测模型和分割模型进行有效的评价。四种方法的mAP 指标和均值对比图如表2 和图7 所示。

表2 本文方法及对比方法的mAP 指标

图7 AP 均值对比图

通过对比可以看出基于深度监督特征融合的ADAS 目标检测算法相较于其他三种方法拥有更高的mAP 指标，体现出了该方法在车辆图像实例分割中的准确性和高效性。

4 结论

本文在总结了车辆辅助驾驶系统中基于机器视觉目标检测算法的基础上，详细分析了相关方法，并在此基础上，提出了一种基于深度监督特征融合的ADAS 目标检测算法。该方法利用两种策略在车辆目标检测过程中有效弥补了网络编码阶段多次下采样带来的信息损失，同时有助于在网络中减少过拟合问题，进而提取到了更有意义的图像特征。最后，通过原理分析和实验结果证明了此方法相较于其他现有方法在车辆图像数据集上的优越性。

当前的车辆高级辅助驾驶系统和自动驾驶系统仍然无法在高速巡航或复杂路况下同时兼顾通行容量与安全性，但随着基于机器视觉的目标分割检测网络的不断完善，课题的后续工作中将结合车辆巡航控制系统的相关性能指标，探索实际交通路况环境下车辆自适应巡航所能达到的最小安全间距。

要强化研究型大学建设同国家战略目标、战略任务的对接，加强基础前沿探索和关键技术突破，努力构建中国特色、中国风格、中国气派的学科体系、学术体系、话语体系，为培养更多杰出人才作出贡献。

——习近平总书记在中国科学院第二十次院士大会、中国工程院第十五次院士大会、中国科协第十次全国代表大会上的讲话