基于多源信息融合的智能目标检测技术

2021-08-10 02:25宋文姝侯建民崔雨勇

电视技术 2021年6期

宋文姝，侯建民，崔雨勇

（1.山西省无线电监测中心，山西太原 030009；2.晋西车轴股份有限公司，山西太原 030027；3.西南技术物理研究所，四川成都 610041）

0 引言

目标检测（object detection）作为计算机视觉的基本技术，在无人驾驶和行为识别等方面具有广泛应用[1]，是计算机视觉应用的重要方向。传统的检测方法，特别是基于图像的方法有基于特征的方法，如方向梯度直方图（Histogram of Oriented Gradient，HoG）和尺度不变特征变换（Scale invariant feature Transform，SIFT）[2]，特征的人为选取往往需要经验，由于目标的种类不同，因此特征构建往往存在一定的差异。随着深度卷积网络技术的发展，当前已经能够从更高层特征完成典型目标的表征，同时具备更强的目标细节表现能力。典型的IMGENet和COCO等标准库[3]的构建，在基于深度学习网络的目标检测方面具有重要优势，主要表现在两方面：一是由于其深度学习特征模拟人的理解过程，可完成物体特征的深层抽象；二是样本库的丰富程度对深度网络架构训练的结果影响比较大，由于深度网络参数丰富，因此具备很强的学习能力。大量的数据训练有助于激活深度网络的神经元，使其可以从物体的形态、环境属性及颜色等多维度对目标进行深入认知，因此深度网络在目标检测中具有独特的优势，且随着样本的丰富能够获得比普通方法更有效的检测效果。

本文针对红外和可见光获取的不同目标信息，采用two-stage模式，完成对同一目标的不同成像条件下的深度特征提取，完成典型特征提取，并通过特征融合模式，形成深度学习网络输入，采用YOLOV3网络思想，通过网络的轻量化设计提升网络训练和检测效率，实现在机载平台的应用需求，最后通过典型实验验证，提高了多源图像特征级融合的深度检测网络的效能。

1 相关工作

采用多源图像特征完成典型目标检测具有重要的意义，特别是针对不同典型的目标检测。目前基于深度学习的目标检测已经成为研究的热点，依托深度卷积神经网络特征描述的优势，有效完成单一目标或多种目标的检测，特别是在目标受到干扰等情况下，具有一定的优势。当前，two-stage系列算法有OverFeat[3]，Braham等利用卷积神经网络（Convolutional Neural Network，CNN）完成典型视频序列目标分析[4]，完成目标训练，实现对背景与目标的分离。文献[5]提出一种深度自编码网络训练，设计一种代价函数，有效提高深度自编码网络提取背景效果。文献[6]提出一种将视频对比模式引入背景的高层特征，实现块级别的快速运动目标检测。文献[7]构建多层自组织映射网络完成背景模型训练，有效提高了目标智能检测效果。Fast R-CNN在R-CNN的基础上，针对候选区域重叠问题，进行了多次特征迭代并多次参与卷积运算，造成资源浪费的情况，采用对特征一次提取并进行归一化表示的思想，检测效率得到大幅提高，文献[8]提出一种采用LSSVM和多数投票原则的遥感影像道路提取技术，构建典型特征金子塔有效提取目标信息，从而形成特征空间和尺度上完全活跃的特征交互，从而提高目标检测准确度[9-10]。

2 基于多源信息融合的智能目标检测技术

2.1 图像的深度特征提取

基于典型的卷积神经网络模型，进行典型的特征分析，在大规模训练级的基础上，采用AlexNet网络的模型前5层特征进行典型图像的深度特征提取。模型的初始参数通过训练传统的数据集获取（本文采用ImageNet数据集）。通过对数据集的训练，可以对目标模型进行深度特征提取，采用典型的池化和卷积操作，提高典型目标的特征提取模式。通过取消典型网络的全连接层和最后的卷积层，完成典型特征的提取。通过5层卷积模型，完成图像特征的逐层分解，形成目标多层特征模型。训练特征获取如图1所示。

图1 红外/光电图像融合

通过对可见光图像和红外图像分别进行特征提取，将图像转为3通道的7层金字塔图像，针对典型图像的特征训练，构建如图2的输出图像。由于传统的网络是224*224的，而本文图像获取的是512*512的，因此，为了能够获得其准确数据，直接对其进行第一层的网络参数提取。

采用典型的图像和可见光的图像融合模式，形成典型特征分析结果，由于采用特征级的融合，具体的融合模式在章节3.2中叙述。在原始图像的基础上，形成典型的单源图像提取模式，具体提取模式采用本文方法进行。针对典型的飞机特征进行提取，形成对典型目标特征的提取模式，如图3所示。

图3 目标不同层次特征模型

根据不同图像融合的深度特征，形成典型目标特征表达。由于深度学习的本质是通过目标的混合组件进行检测，通过训练得到最高得分的组件，形成典型的训练目标特征，因此能够针对不同目标在不同数据源的特征表征，有效区分目标和背景。

2.2 红外/光电图像特征深度融合模式

针对典型的打击目标和实际目标信息特征的需求，需要根据不同的目标特征进行特征的融合模式分析，构建红外/光电图像融合模式，形成特征级融合模式。

针对两者在特征级检测的优势，采用典型的特征检测融合模式，形成多级特征检测深度融合模式。通过对于两种图像目标的显著性区域特征检测和融合，可以有效地获得感兴趣区域，减少数据量，提高计算效率。现有的检测显著性目标算法都取得了较好的效果，然而，由于融合影像中受到红外图像的信噪比低，边缘扩散效应明显的特点使得传统的基于边缘提取的分割算法在显著目标的精确位置定位及目标实际大小获取上存在一定的局限。采用深度特征完成典型目标提取，形成显著性目标特征。通过在不同特征层次上进行特征的融合，提升典型目标的细节特征。这一过程不仅能准确提取目标的特征信息，同时有效处理包含多个显著目标的图像，提高处理效率，而且能进一步去除伪装目标。具体如图4所示。

图4 显著性特征提取深度融合图

显著目标的提取主要采用不同的特征，在融合前通过配准完成典型目标的融合，形成对典型目标特征的模式，提升目标细节特征，有助于提高融合后的目标检测效果。

红外图像与可见光图像的成像机理不同，融合模式设置中需要根据成像机理进行设置。针对同一层次的不同特征细节，采用多个特征关联模式进行评价，采用如下评判规则：

式中：α是采用的两个图像关联参数向量，F(a,b)表示两者的融合模式。一般而言，对于不同的特征融合，需要根据其特征进行分选。因此，两者的特征在互补时，特征向量可以认为是稀疏的，构建典型的特征融合模式，F(a,b)可以表示为：

式中：p(ai,j,bi,j)为两者的特征关联相关度量，用于衡量两者图像间的融合问题。

2.3 基于融合图像的智能目标检测技术

针对典型融合图像的智能目标检测问题，采用多源信息融合的智能目标检测模式，以红外/可见光图像深度特征融合为基础，完成典型目标检测。如图5所示。

图5 基于多源信息融合的智能目标检测技术

根据红外与可见光图像的大小，假设原始图像为Iop与IIR，由于图像本身没有大小和分辨率不一致，首先完成图像的规则化处理：I′op=f(Iop)，I′IR=f(IIR)。其中：

在图像处理过程中，均值采用红外与光电图像处理模式，δ为图像的误差值。在归一化处理中，同时对图像大小进行统一变换，形成512*512图像，在特征融合过程中，采用章节2.2给出的方法，完成典型特征在不同层次的融合，形成典型目标的特征表示模式。候选区位置预测的目标是预测哪些区域应该作为中心点来生成候选区，是一个二分类问题。形状预测是给定候选区的中心点，预测最佳的长和宽，这是一个回归问题。可以使用两个分支网络来分别对候选区的位置和形状进行分类和回归，生成候选区。通过采用融合特征进行训练，形成典型目标的特征输出，形成目标检测结果。

为了能够对目标精确检测，采用最优置信度模式，假设IoU是目标检测的真实方框区域，0标记为非目标区域。

分表表示配准的检测集与真实的标注集。

3 实验和分析

3.1 实验环境

本文基于嵌入式应用平台进行网络模型结构的设计，但由于嵌入式硬件平台计算和存储能力有限，难以实现在有效的时间内完成模型的训练优化任务。针对此问题，本文采用服务器与嵌入式协同的网络模型进行训练和测试。先将上述网络模型结构在高性能服务器平台进行训练，并在此硬件平台上完成模型的实际性能测试，之后将模型导入到嵌入式硬件平台上。实验环境详细信息如表1所示。

表1 实验环境

3.2 实验结果及分析

由于同一场景的红外和光电图像在打击武器视角下获取困难，同时为了测试本算法的有效性，采用COCO数据集作为可见光图像的飞机数据，而相应的红外图像采用仿真软件生成。同时，数据集中加入实际采集数据，形成完整的测试数据，红外和可见光图像各10 000张。

3.2.1 模型性能对比

针对单源图像和融合后图像分别计算其检测结果，采用典型的融合模式，针对飞机和舰船目标进行多次实验。在COCO数据集算法性能方面，采用同样的模型对以上3种输入数据进行训练，并完成性能测试，具体测试结果如表2所示。

表2 模型性能对比

考虑到本文算法的应用背景，采用了一些原始数据，在COCO数据集飞机和舰船目标的基础上，对数据进行了综合，同时采用8 000张图像进行训练，2 000张图像进行测试。可以看出，融合特征检测模式下的检测准确率较高，这是因为，在具体的检测中，目标特征在深度特征提取后因池化操作而隐藏了很多关键点，但是特征融合又增强了池化特征的表征能力，因此获得了较好的检测效果。

3.2.2 模型复杂度对比实验

由于武器系统往往存在硬件资源受限的情况，模型的评价不仅需要从准确率方面进行判定，而且需要考虑资源和准确度的关联。因此针对本方法提取的模型的参数计算情况进行分析，具体实验结果如表3所示。

表3 模型复杂度对比

可以看出，本文的特征融合算法在计算量方面相比单传感器增加，同时，由于深度特征融合在特征层进行，需要根据典型的特征相似性计算，因此计算时间较长，但增加的时间在可控范围内。另外，由于特征需要同时存储，因此内存增加较多。

在模型准确率方面，本文的特征融合算法相比单传感器都有提高，相比红外特征，增加了2.3%，而相比可见光则增加了3.4%，具体原因在于，目标被遮挡和特征模糊时，由于红外特征对可见光的补充性比较强，且由于选择的目标具有一定热辐射，因此其红外图像单独检测准确率略高于可见光图像，针对典型目标增加了可靠性，满足精确打击武器和相关车载目标检测的需求。

4 结语

针对对地打击的目标检测需求，提出一种红外/可见光图像融合算法，采用图像深度特征融合模式，通过对红外图像和可见光图像的深度特征融合，提升目标深度特征的完整性，从而提升不同层次特征检测的有效性，实现目标的检测，有效提升战场目标的发现和检测概率。

本文通过在不同层特征的融合达到目标检测的目的，采用目标深度特征融合检测的模式，无法确定融合的层次或在哪个层次获得的融合效果更佳，因此下一步将通过特征在不同层次的融合和对比，提高特征的利用率。