一种基于特征融合的道路目标检测方法

2022-03-24 02:37:56杨浩杰王璐杨省伟

长沙大学学报 2022年2期

杨浩杰，王璐，杨省伟

（1. 铁道警察学院网络信息中心，河南郑州 450053；2. 铁道警察学院图像与网络侦查系，河南郑州 450053；3. 河南质量工程职业学院计算机技术学院，河南平顶山 467000）

随着我国经济和社会的发展，汽车作为主要的交通工具步入了千家万户，城市交通拥堵等问题愈发严重。虽然我国已经采取机动车限行、提高停车费、车牌摇号等措施限制城市的汽车总量，但却难以从根本上解决城市交通拥堵的问题［1］。在汽车总量大、交通事故频发的背景下，如何通过相关的技术手段在一定程度上缓解道路交通压力成了学者们重要的研究方向。道路目标检测是保障道路交通安全的关键技术，在当前智慧交通的应用大背景下，道路交通场景的繁杂性以及道路目标的多样化，给道路目标的检测带来了困难。在复杂场景下，密集物体相互遮挡以及小目标的检测是影响检测精度的关键因素。解决目标检测过程对中小目标及遮挡目标的误检和漏检问题，是当前目标检测的研究热点［2］。

传统的目标检测方法在图像检测方面彰显了独特的优势，能够在一定程度上实现对道路交通目标的有效检测。但由于道路交通场景中目标尺度分布的特殊性和复杂多变性，传统的基于手工特征的目标检测方法和经典的深度学习目标检测方法在实际道路交通场景中的目标检测应用上还存在着一定的困难，主要表现为无法提取到能够适用于道路多目标检测的有效特征，从而影响目标检测的准确性。目前，针对智慧公安及智慧交通领域中道路目标检测实际应用需求，如何使用更具适用性的目标检测方法从复杂的道路交通场景中提取出更有效的特征并更精准地检测出道路目标，成了道路多目标检测中一个亟待解决的问题。

文章针对道路目标精准检测中的技术难点，以当前先进的卷积神经网络技术为基础，研究并提出了一种基于特征融合的特征学习和目标检测方法，为当前复杂交通环境下的道路目标检测问题提供一些技术参考。

1 基于特征融合的特征学习方法

在当前的视觉图像处理领域，尤其是道路交通场景图像中，很多使用深度神经网络方法的场景都是在同一尺寸感受野的单一尺度上进行特征的提取和学习的。这种方法具有一定的可取之处，但在道路交通场景繁杂以及图像上下文结构信息复杂的视频图像场景中，单一尺度的特征学习方法表现出了一定的局限性［3］。因此，为了更进一步地提高对道路交通场景各类复杂多目标特征提取的性能，文章提出了一种基于多尺度特征融合的道路目标特征学习方法。该方法通过多尺度方式的特征表达，可以提升道路目标特征的学习和表达能力，进而也能够提高网络模型对图像上下文结构信息的捕获能力。

基于多尺度特征融合的道路目标特征学习模型如图1 所示。

图1 基于多尺度特征融合的目标特征学习模型

从图中可以看出，该目标特征学习模型主要分为三个部分，即多尺度特征提取模块、多尺度特征融合模块和多尺度特征优化模块。

1.1 多尺度特征提取模块

此模块是为了解决单一尺度提取输入数据特征时所表现出的提取特征表达能力不足的问题而设计的。在这种多尺度卷积核并联结构中，每一个卷积核具有一个与其他卷积核不同的尺寸，可以用来对输入图像数据在该尺度卷积核上进行一次特征的提取，而不同尺寸的卷积核则可以同时对输入图像数据进行并行式的特征提取，从而获取到输入图像数据的不同尺度的特征。在多尺度特征提取的设计上，可以采用1×1 卷积核、3×3 卷积核、5×5卷积核、7×7 卷积核以及9×9 卷积核的不同卷积核尺寸。同时使用五个不同尺度的卷积核，将会提取到五个不同尺度的图像特征。

根据神经网络和卷积神经网络的设计思想，需要使用非线性激活函数对网络模型进行非线性激活，从而使其具有良好的非线性性能。设整个网络的输入图像数据为X，并且该网络模型包含多个卷积层，每个卷积层操作过程中的多尺度卷积核也都不相同，那么，各卷积层的带有非线性激活函数的卷积操作表达式可以表示为：

在式（1）中，i代表某一卷积层的所有多尺度卷积核中的第i个卷积核，Wi表示第i个卷积核的权值参数，Bi表示第i个卷积核的偏置参数，σi表示第i个卷积核在卷积操作之后的非线性激活函数。而在卷积神经网络中，常使用的非线性激活函数是线性整流函数ReLU，因而，此处σi的表达式为：

上述式子中，x代表输入到非线性激活函数中的卷积值。

1.2 多尺度特征融合模块

在对输入图像数据进行多尺度特征提取之后，每个卷积层得到了n个卷积特征图（n亦为该卷积层中不同的卷积核的数目）。然后文章对这n个卷积特征图进行特征的融合操作和处理，即多尺度特征融合。在对这n个多尺度卷积特征图进行融合的时候，将特征融合方法设计为：对各个不同尺度卷积核得到的不同特征图进行叠加。叠加后的特征图通道数等于多尺度特征提取过程中各个不同卷积核的总通道数。多尺度特征融合的原理如图2所示。

图2 基于多尺度的目标特征融合原理

对这n个由不同尺度卷积核所得到的卷积特征图使用上述基于多尺度的特征融合方法，则有：

在式（4）中，i代表某一卷积层的所有多尺度卷积核中的第i个卷积核，X表示输入数据。

1.3 多尺度特征优化模块

在对输入图像数据进行多尺度特征提取的过程中，所使用的不同尺度的卷积核都有一定数量的通道数，因此能从输入图像数据中提取到丰富的特征。然而，当各个不同尺度的卷积核都具有较多的通道数并且对这些卷积核并联式地进行操作时，多尺度特征的进一步融合将会使融合后的通道数相当多。因此，文章使用1×1 的卷积核对其进行优化处理。在具体的实现上，将1×1 的卷积核设计为少于特征融合后的特征通道数，即可保证卷积操作之后的特征图的通道数也相应减少，而使用1×1 的卷积核又可以确保融合后的特征图中所有的特征信息不会丢失。对多尺度特征融合后的特征图进行优化的表达式如下：

该式中的X表示输入的图像数据，f（X）表示进行了多尺度特征融合后的输出特征图，W代表进行优化的权值参数，B代表进行优化的偏置参数，而σ则表示该卷积操作之后所使用的ReLU 非线性激活函数。

同时，针对上述基于多尺度的目标特征学习和提取方法，还可以进行级联式的设计和使用。其表达式为：

式（6）所表示的级联式的目标特征学习方法能够更好地提取到原始图像数据的特征，因此具备更好的表达性能。但在具体使用时，还需考虑卷积计算时的时间性能，寻求最为适中的设计模型和相关网络参数。

2 基于特征融合的目标检测方法

文章基于当前经典的卷积神经网络Faster-RCNN 模型，将所提出的基于多尺度的道路目标特征学习方法提取出的道路目标特征应用到该模型中，充分利用基于多尺度方法所提取出的目标特征进而获得更高效的表达，构建更加高效的目标检测方法和模型，更有效地实现对道路目标的检测。

2.1 Faster-RCNN 目标检测算法

文章所使用的Faster-RCNN 目标检测模型，是在原有Fast-RCNN 目标检测模型的基础上，使用区域生成网络（Region Proposal Network，RPN）代替Fast-RCNN 模型中的Selective Search（选择性搜索）方法［4-5］，即使用RPN 首先对图像中的每个像素点生成锚框而形成的模型。当总共有n个锚框大小以及m个锚框缩放比例时，将会生成n×m个锚框。在卷积神经网络模型框架中对每个锚框进行判断，过滤掉那些属于背景的锚框，而对那些属于目标的锚框进行进一步ROI（感兴趣区域）池化以及边框回归处理等操作。图3 为Faster-RCNN 目标检测模型中的锚框选取。

图3 Faster-RCNN 目标检测模型中的锚框选取

2.2 基于特征融合的目标检测

实验基于以上Faster-RCNN 目标检测模型，在设计上将基于多尺度的目标特征学习方法所获取到的目标特征输出结果应用到Faster-RCNN目标检测模型的RPN 中，使用表达性能更强的多尺度特征融合后的目标特征进行下一步的目标检测，进而从整体上达到更精准的目标检测性能。

文章在Faster-RCNN 目标检测模型的基础上，提出的基于特征融合的目标检测模型如图4 所示。

图4 基于特征融合的目标检测模型

3 实验仿真与分析

实验使用KITTI 数据集所提供的数据图像对文章所提出的方法进行验证。KITTI 数据集是国际上当前使用最为频繁，并且具有较完备道路交通场景的计算机视觉相关算法评估的道路交通数据集。该数据集包含城市市区、公路、村庄等实景采集图像，每张图像中都包含不同类别的车辆和形态各异的行人等诸多复杂道路目标。在实验的具体设计上，选取KITTI 数据集中具有代表性的图像组成训练集和测试集。其中，组成训练集的图片共有7 481 张，组成测试集的图片共有3 600 张。使用文章所提出的方法，将基于多尺度的目标特征融合方法提取出的特征输入到Faster-RCNN网络中，分析验证该方法用于Faster-RCNN 网络后的目标检测性能。并在此基础上，分别采用Faster-RCNN网络和基于多尺度特征融合的Faster-RCNN 网络对其进行评测。实验平台电脑配置为Windows7 64位，CPU i7 6700K，内存16G，显卡GTX1080（8G显存）。

表1 为两种方法下对平均精度均值mAP 这一目标检测性能指标的对比统计分析。

表1 两种方法下的道路目标检测性能统计

从表1 中可以看出，使用Faster-RCNN 网络模型，对道路交通图像中的各类目标车辆的检测准确率为65.56%，对目标行人的检测准确率为63.12%。而使用文章所提出的方法，对各类目标车辆以及目标行人的检测准确率均稍有提升。这说明文章所提出的方法通过使用不同尺度的卷积核对原始目标图像进行特征的提取，并对各种不同尺度下所提取的特征进行融合和优化，能够更有效地得到道路交通目标的表达特征，通过所获得的更具丰富表达能力的目标特征，能达到相对更高的目标检测精度。

为进一步验证所提出方法的有效性，分别开展3 次对比实验，对mAP 性能指标进行对比统计分析，如表2 所示。

表2 两种方法下的3 次对比实验性能统计

从表2 中可以看出，在3 次独立的对比实验中，文章所提出的方法在各类目标车辆以及目标行人的检测准确率上相对原始的Faster-RCNN 网络模型均有一定的提升，说明该方法在道路交通目标检测方面具有一定的适用性和可行性。

同时，为了验证多尺度特征对道路交通目标特征学习和检测的性能影响，文章选取了不同的卷积核尺寸组合作为多尺度特征融合进行对比实验，所获得的mAP 性能指标结果如表3 所示。

表3 多尺度特征对道路交通目标检测的性能影响

从表3 中可以看出，不同卷积核尺寸的特征融合对道路交通目标特征学习和检测也有不同的性能影响。在实验的设计范围内，所融合的不同尺寸的卷积核越多，网络的性能就越好，所检测的道路交通目标的效果也就越好。这表明不同尺寸的卷积核能够更好地提取到局部或全局等不同结构空间的特征，这为之后的目标检测提供了更高效的特征表达，也充分证明了文章所提出的方法的有效性。

然而，从表2 中还可以看出，在对目标图像进行特征提取和检测的过程中，文章所提出的方法的平均检测时间比Faster-RCNN 方法的更长，反映出文章所提出的基于特征融合的目标检测方法在具体的实现过程中耗费了一定的时间，而这增加了网络模型的计算成本。这种时间上的消耗是文章所提出的方法有待优化和改进的地方。

4 结语

道路交通场景中目标尺度分布的特殊性和复杂多变性，使传统的基于手工特征的目标检测方法和经典的深度学习目标检测方法在实际道路交通场景中的目标检测应用上存在一定的困难。文章针对这一问题，以当前先进的卷积神经网络技术为背景，以特征融合为主要研究对象，在分析探讨了基于特征融合的特征学习方法的基础上，进一步提出了基于特征融合的道路目标检测方法，并通过模型框架的构建，对道路目标检测技术进行了深入研究，为道路目标检测领域相关理论的进一步研究提供了思路，也为构建安全的道路交通出行环境提供了技术支持。