段辉军,王志刚,王 彦
(1.湖南财经工业职业技术学院电子信息系,湖南 衡阳 421002;2.电子科技大学计算机科学与工程学院,四川 成都 610054; 3.中国电子科技集团公司第五十四所信息传输与分发技术重点实验室,河北 石家庄 050081)
随着作战模式由平台中心战向一体化联合作战转变,地面装甲突击系统承担的任务日益复杂,迫切需要通过智能化手段提高平台作战效能,以及多平台协同作战的能力。同时,陆战场环境比较复杂,敌方目标善于伪装且机动性大,如何快速检测、识别并锁定目标是战场成败与态势感知的关键[1]。
图像是自然景物的客观反映,也是环境感知的关键数据[2]。大多数装备都是利用采集的视频序列实现对外环境探测、观测与瞄准,最终由操作手完成目标的锁定与打击,其识别、锁定目标精度的高低将直接影响打击目标的效果。为了降低操作手的捕获误差,国内外的武器装备集成了各种辅助功能。例如,坦克火控系统利用电子稳像设备使炮长瞄准线的双向稳定,确保坦克瞄得更准[3];目标指示器具备动目标检测功能,检测出视场中的运动目标,并编号,提升炮手的反应时间[4];美军的全球鹰无人机集成了基于机器学习的智能增强系统,无需人在回路也能获得高精度的识别效果,但最终也是需要操作手对结果进行判别[5]。可以看出,这些辅助策略仍然需要人工辅助进行决策,并没有真正意义上实现智能识别。
随着智能信号处理技术的发展,学术上也提出了大量的智能识别算法,但这些算法大都是针对单模态图像进行处理,其应用环境局限性较大。例如,装甲目标在迷彩伪装、夜晚、能见度低的情况下,可见光的目标识别能力有限,而红外图像具有作用距离远,穿透力强,且不受光照影响,但其图像模糊,空间分辨率较低[6]。众所周知,现有的地面装备光电设备大都集成了红外热像仪与电视摄像机,并输出两路独立的视频信号。光电系统输出的多路视频信号存在大量互补信息和冗余信息,有利于提高目标检测与识别的精度。近年来,国内外专家学者的研究方向大都集中在将不同类型图像的互补信息结合起来,生成信息量更大的合成图像,以此增强同一场景的图像表征能力[7]。文献[8]提出了基于多尺度变换的红外与可见光融合算法,通过互信息配准基础上对不同尺度特征进行融合,具有较高的融合精度,但易受抖动、噪声的影响。文献[9]在多模融合的基础上对目标进行识别,其识别性能严重依赖于配准与融合的精度。刘佶鑫等人[10]利用类字典稀疏识别方法对融合后的可见光-近红外HSV图像进行场景分类。由于该方法采用了搜索树特征和分层梯度方向直方图进行特征提取,其场景分类性能仅仅适用简单场景下的典型目标。
随着智能硬件技术的突飞猛进和大数据建模工具的利用,深度学习模型在图像识别领域获得极大的发展,涌现了许多优秀的网络模型,如Faster R-CNN[11],Mask R-CNN[12],YOLO-v3[13]等。江泽涛等人[14]使用加权融合算法对红外和可见光图像融合,然后利用改进的深度络提取融合图像的有效特征向量,再进行分类与识别。Sarfraz等人[15]提出了一种跨模态的深度识别算法,该算法使用多模态图像的不同特征形式分别训练四个独立的深度卷积神经网络,分别学习出不同且互补的目标特征信息,最终提高目标的识别精度,其核心模块是引用了特征对齐模块与像素对齐模块。可以看出,基于深度学习的红外-可见光图像的识别算法大都是在图像配准的基础上进行融合,然后采用深度学习算法进行目标识别。虽然深度模型提高了双模态图像的互补特征的表征能力,但现有的算法都是在已配准图像上进行独立网络训练与识别,且资源消耗较大。然而,光电系统的红外图像与可见光图像视场大小存在偏差,光轴也并不是完全重合,直接采用红外与可见光图像进行深度识别,其效果不利于军事装备工程应用。因此,本文提出一种基于改进YOLO网络的双通道显著性目标识别算法,该算法首先结合双通道网络提取红外与可见光图像的融合特征进行图像融合,然后利用融合图像目标显著性特性可以快速获取疑似目标区域,最后通过改进的YOLO模型提高目标识别精度。仿真结果表明,本文提出的模型可以有效地提高现有目标检测与识别的性能。
YOLO系列网络是目标检测领域常用的一种端到端深度网络,该网络将检测问题转化为回归问题,可以预测边界框坐标的同时,在端到端网络中对目标进行分类,大大提高了检测速度[13]。与R-CNN系列的两级网络相比,这种网络结构思路更明晰,并不需要穷举疑似区域,网络更简洁。
YOLO网络衍生出许多高效率的改进网络,如YOLO-v1,YOLO-v2,YOLO-v3,YOLO-v3-tiny等[16]。YOLO系列网络的主干网络模型如图1所示。YOLO 目标检测方法将输入图像划分为S×S个互补重叠的网格,其中每个网格最多预测K个边界框。每个边界框的特定类别置信分数可以用如下等式表示:
(1)
xl=f(yl)=f(xl-1⊗wl+bl)
(2)
卷积神经网络中第l层的输入表示为xl;激活函数为f(·)。中间变量表示为yl=xl-1⊗wl+bl,其中wl是卷积核的权重,bl是偏置参数,⊗表示卷积。YOLO的网络可以预测出多个边界框及其类概率,最终选择输出具有最高IoU的检测结果。为了防止输出过多的虚假冗余边界框,YOLO采用了阈值策略消除了大多数无用的边界框。由于单个目标的预测结果可能同时包含多个边界框,从而导致不同边界框对应同一个目标。YOLO采用非极大值抑制算法来组合多个预测边界框,从而消除预测置信度较低的边界框,并将具有较高置信度得分的预测边界框选择为目标检测框。最终,预测边界框的损失函数由四部分组成,如下所示:
L=loss1+loss2+loss3+loss4
(3)
其中,loss1是预测中心坐标的损失;loss2是预测边界框的宽度和高度的损失;loss3是预测类别的损失;loss4是预测的置信度损失。随着卷积网络前向传播,其损失函数L的梯度可以表示为:
(4)
以上分析可以看出,YOLO将图像分成固定尺度的网络,虽然可以获得较快的检测速度,但其边界框的定位不准确,且对小目标检测精度不高。为了解决这个问题,YOLO-v2引入了锚框(anchor)机制的思想,并使用聚类方法生成合适的先验边界框。随着网络的不断加深,在训练过程中存在梯度消失或梯度爆炸问题,YOLO-v3引入了残差结构,采用Darknet-53作为主干网络,主要由53个卷积层组成,并包含大量3×3、1×1卷积内核。在进入残差模块之前将特征与残差模块输出的特征进行组合可以提取更抽象的深度特征。
现有的光电系统大都如图2所示,集成了电视摄像机和红外热像仪两种探测设备。红外图像可以全天候全天时获取场景图像信息,但由于辐射成像原理的限制,红外图像存在对比度低、细节模糊,目标检测与识别精度低;而可见光图像分辨率高,细节丰富,符合人眼视觉习惯,但容易遭受烟雾、光线、天气的影响[17]。红外图像与可见光图像间信息存在冗余和互补,利用双通道目标融合识别,可提高目标的识别精度。本文采用文献[18]提出的图像融合算法进行红外与可见光图像融合,该算法在稀疏编码和融合过程中,充分考虑了每个局部图像块的信息及其空间上下文信息,并利用鲁棒稀疏表示确保空间相邻图像块之间的局部一致性。实验结果表明,该算法对未经校正的多源图像的融合效果也非常理想。
图2 光电系统
为了定位到目标的具体位置,大多数检测算法通常会把图像分成许多子块,并提取子块的特征进行识别。目前存在两类子块划分策略:滑动窗口法与选择性搜索法,前者通过穷举整个区域获得大量疑似区域,再进行类别分类,但复杂度太高;后者则有效地去除冗余候多尺度选区域,使得计算量大大的减小,但需要先验信息进行辅助。
为了有效地利用光电系统不同通道的互补数据,提升目标识别的精度与速度,本文提出了一种双通道显著性目标识别算法,如图3所示。首先利用融合策略获取红外图像与电视图像的融合结果,然后采用显著性检测获取红外图像中的疑似目标区域;最后在融合结果基础上利用改进YOLO网络对疑似区域进行多层次目标识别。
图3 双通道显著性目标识别算法
由于视距内的装甲目标红外特征明显,其目标特征与背景存在一定的差异。即便是沙漠地带,典型目标仍然可以通过显著性检测进行定位。为了实现目标显著性检测,本文采用了一种基于特征聚类的显著性检测算法,该方法逐点提取特征向量,并在先验信息未知情况下利用均值漂移算法进行目标聚类。本文选用的特征向量xi涵盖区域的强度、对比度、空间属性等多种特征,其可以有效地捕获显著性区域中的对比度和空间信息,便于后续特征聚类。
假定d维空间Rd中存在n个样本点xi(i=1,…,n),在x点的核密度函数估计可以表示为如下等式:
(5)
其中,h是核密度估计函数的带宽,一般设置为30;K(x)=ck(‖x‖2)是核函数。等式(5)的核密度梯度可以为:
(6)
其中,c=3。核函数表征了样本密度分布估计情况,工程应用中常采用高斯核函数作为核密度估计公式中的加权函数。假定G(x)是高斯核函数;w(xi)(w(xi)≥0)是样本xi所对应的权值,因此均值偏移向量Mh(x)可以表示为如下等式:
(7)
因此,给定一个初始点x,核函数G(x),此过程可以通过交替迭代沿着梯度的方向不断移动,并采用xt+1=xt+Mh(xt)进行更新,最终获得最优的聚类结果。在聚类结果的基础上对图像进行分块,计算每个块的质心i。以质心i为中心点,计算特征向量xi。若与xi相邻的图像块xj的欧式距离d(xi,xj)比其他任意的图像块都大时,则该点的特征是显著的。
由于基于特征聚类的显著性粗分割结果中包含大量的虚假目标,大大提高了后续检测的复杂度。因此,为同时均衡检测效率与检测精度,本文采用消除虚假目标,同时利用空间特征筛选出疑似目标。
(8)
经过多尺度融合的显著性区域大大地消减了不必要的背景干扰,其覆盖的区域最能代表目标所在的位置、大小与尺度信息。然而,红外场景内的显著性目标类型多样,且形态各异,仅仅靠多层次显著性目标差异,很难排除虚假目标的干扰。由于装甲目标具有明显的形状特性,因此本文采用装甲目标的结构性特征剔除虚假目标区域。最直观的策略就是采用几何特性进行判别。文献[19]采用长宽比对目标的几何特性进行判断,其车辆的长宽比在2~3之间。文献[20]采用SVM分类对显著性区域的几何特征进行分类,其中几何特征包括方向梯度、Hu不变矩等,然后采用SVM进行训练与学习,最终可以实现桥梁、车辆、建筑等典型目标的识别。由于本章的目的仅仅是消除虚假区域,缩短后续深度学习的识别时间,并不需要获得准确的车辆显著性目标。因此,本章采用简单的几何特征进行判断,不增加漏检概率的情况下,尽可能的剔除虚假区域,为下一步目标识别提供可靠的目标位置,缩小识别的空间复杂度。
目前,依靠更深的网络层提取目标特征并增强卷积层的语义信息来提高识别精度是一种常见的网络结构设计方法。然而,由于红外与电视融合图像的疑似目标区域已经明确,为了降低处理时间其识别网络的深度也不宜太深,尤其是小目标在多次卷积与池化后,其特征表征能力也在下降。因此,本文提出了一种基于改进YOLO-v3的目标识别网络,该网络增加了一路辅助网络,改善整个特征提取网络的性能;并采用注意机制对辅助网络和骨干网络的特征信息融合,增强有效信息通道,抑制无效信息通道,提高网络识别效率。
与单一结构的YOLO-v3网络相比,本文增加了一个特征提取辅助网络,其规模比骨干网络略小。主干网的原始残差模块使用3×3卷积核提取特征,而辅助网络中的残差模块使用两个连续的3×3卷积核进行残差提取,获得5×5的感受野,然后将提取的特征融合到骨干网中。辅助网络中使用的感受野大小为5×5。特征图上使用大的感受野进行全局特征提取有助于得到目标区域特征,因此辅助网络将获取的位置特征传输到骨干网络。骨干网络结合使用3×3局部感受野和辅助网络提供的目标位置信息,可以更准确地学习目标详细特征。因此,辅助网络在一定程度上促进了高级和低级语义特征的融合,从而大大提高了网络的识别性能。YOLO-v3的原始网络具有很深的深度。如果将辅助网络添加到整个骨干网络,则会引入更多计算,从而导致运行速度变慢。基于上述原因,改进的网络仅将辅助网络添加到YOLO-v3的三个相应尺度检测的特征提取层中。
本文中辅助网络和主干网的连接方式是在两个网络之间添加注意机制。当网络达到一定深度时,特征越容易聚合成针对任务的更高级语义特征。本文增加的辅助模块主要完成对有效特征的处理和传输,对无效特征进行信道抑制。两个网络之间的注意机制的实现使用了SE模块(Squeeze-and-Excitation模块),该模块结构简单,易于部署。添加SE模块的目的是重新校准辅助模块的输出特性。首先对特征映射进行压缩,通过平均池化将二维特征通道转化为一维。此时,将特征图的大小转换为1×1×C,将二维特征图合并成一维特征图的目的是为了更好地显示该层各通道特征值的分布情况。在特征图压缩完成后,将激发一维特征图,其计算公式为:
Sc=Fex(Z,W)=σ(W2·ReLU(W1Z))
(9)
其中,Sc是激励后的特征图;σ是sigmoid激活函数;Z表示压缩后的输入一维卷积层,其维度是1×1×C;W1Z表示全连接操作,W1的维数是C/r*C的全连接层; r是尺度例因子,其功能主要是压缩通道数量以减少参数量;W2也是一个全连接层,其尺寸为C*C/r。W1Z输出结果将通过W2连接后输出1×1×C的特征图,最后将其激活处理获得特征图Sc。Sc是连接模块的核心,用于指示辅助模块输出的通道权重。通过将不同的信道值乘以不同的权重,可以增加对关键信道域的关注。最后,辅助残差模块通过SE模块重定向,然后进入骨干网络以完成特征融合。
本文提出的双通道显著性目标识别算法主要分为双模图像融合(double-model fusion,DMF)、显著性检测(Saliency Detection,SD)与目标识别(Object Recognition,OR)三个模块。为了验证所提出模型的性能,尤其是各种模块之间的组合对目标识别性能的影响,本实验主要从消融角度进行分析。本文提出的算法采用Python 3.5进行开发,选用TensorFlow作为深度学习框架,所有实验均在均在戴尔服务器上进行,其配置如下:Intel core i9-9900k @ 3.6 GHz(×8),16 GB×4(DDR4 3200 MHz),NVIDIA GeForce GTX1050TI 16G×4,Ubuntu 16.04,64位操作系统。值得注意的是,不加优化的情况下,4个GPU对现有数据集进行YOLO-v3训练大约需要一天的时间才能收敛。为了提高优化效率,采用ADAM优化算法,其参数设定为:alpha=0.001,beta1=0.9,beta2=0.999和epsilon=10-8。实际训练过程中每次调整参数前所选取的样本数量,学习率的初始值,随机梯度下降的动量和衰减分别设置为16、0.01、0.9和10-6。图像融合采用的西电张强教授提出的基于双层次决策规则的图像融合,其算法是开源的;目标显著性检测采用本文第3节提出的方法,其c=3,h=30,长宽比为3.1。
为了实现对所提模型进行训练、测试与验证,并进行定性定量分析,实验采用公开数据集与自建数据集进行对比实验,其中公开数据集是国际公开配准红外与可见光图像TNO数据;自建数据集则是利用图2所示的光电系统进行采集的地面车辆数据,所有数据都时间标记,并根据靶板参数映射到相同的尺寸。实验最终收集了从8000对红外与可见光数据对,随机选择了4500个用于训练,2450个用于验证,1050个用于测试。为了便于性能对比,本文将地面装甲车辆分为履带式装甲、轮式装甲、货车、面包车及其他车辆。
实验选择了YOLO-v3[13],DenseNet[20],ResNet[22],EfficientDet[23],R-FCN-3000[24]和ATSS[25]作为对比算法,所有的对比算法都采用作者给出的源代码或可执行文件。由于对比算法是对自然影像的检测,为了便于公平的定性定量的对比,所有的深度算法模型都用相同的训练集进行训练。本文采用已被广泛应用于目标识别评估的平均精度均值(Mean Average Precision,mAP)和每秒帧率(Frames Per Second,FPS)作为衡量模型的标准,其中 mAP是指多个类别精度均值(Average Precision,AP)的平均值,每个类别都可以根据准确率(Precision)和召回率(recall)绘制一条PR曲线。
为了便于分析该模型的识别效果,本实验不使用显著性检测的结果进行训练,而是直接采用YOLO-v3的选取锚点框的方法进行区域选择,然后进行相关的训练。在训练过程中,可以通过绘制损失曲线来直观地观察训练的动态过程。图4显示了本文算法训练期间的平均损失曲线的变换,其中横坐标表示训练迭代次数,纵坐标表示训练期间的损失值。可以看出,本文算法的训练与测试机上的精度与损失度类似,整个网络迭代到3000次就实现了收敛,充分表明模型的泛化能力较好,适合复杂战场环境下的工程应用。
图4 训练过程
本文提出的双通道显著性目标识别算法主要应用于光电系统下目标指示与识别,其处理流程是首先对红外与可见光图像进行多模态融合,然后采用显著性检测标注出若干疑似显著性区域,最后采用改进的目标识别算法进行识别。为了对不同模块的性能进行消融分析,本章设计了如下对比算法:改进的识别算法在可见光图像上的识别效果(CCD-Reco),改进的识别算法红外图像上的识别效果(IR-Reco),改进的识别算法在融合图像上的识别效果(Fusion-Reco),改进识别算法在显著性区域上的识别效果(Sal-reco),以及本文提出的模型,表1展示了不同模块下的消融结果。实验数据可以看出,CCD-Reco与IR-Reco的识别准确率仅仅相差2 %,检测结果中红外与CCD精度存在互补性。也就是说,红外图像目标不明显的区域,在电视下的比较明显,最后导致CCD-Reco的精度优于IR-Reco,反之亦然。经过融合后的图像具有二者的互补特性,最终在识别结果上达到了78.7 %的识别精度。以上三种对比算法主要是验证多模态影像融合对最终识别精度的影响,但其识别速度都在30帧左右。在实际应用中,只有较高的识别速度,才能有助于工程应用。从表1最后一列数据也可以看出,增加了显著性目标检测的识别算法获得了51帧的检测速度,完全适合50 Hz的工程应用。本文设计的显著性目标是提升识别速度的关键,通过显著性检测性能对比得知道,该算法能覆盖大多数目标,其最小显著性目标可以检测到15×15,但此时肉眼识别目标也比较困难。即便识别算法不能识别出典型目标,但目标指示器也会给出虚框指示,便于操作手判断。若识别算法给出较高置信度,则可以自动导引对准目标。因此,从消融角度分析可知,本文设计的三种模块都是非常合适,且能提升精度与速度。
表1 不同模块性能分析
本章的选用的对比算法都是具有源码的深度网络模型,主要应用于自然图像的目标检测与识别。针对本文主要应用光电系统的多模态二维灰度图像上的目标识别,因此所有的网络都是在融合后的图数据集上进行训练。表2展示了不同的深度模型对所有融合图像的检测识别结果。从定量测试结果来看,本文提出网络的识别精度高于ATSS,和EfficientDet的识别率几乎相同。YOLO-v3是单阶段识别网络,但我们的算法的mAP仅仅比其略高0.2 %,但是检测速度确高得多。也就是说,本文所提出的网络在识别精度和识别速度方面具有良好的性能。图5展示了本文模型与其他对比算法之间的PR曲线以便进一步比较不同算法之间的性能差异。EfficientDet和ATSS都是CVPR2020中提出并开源的目标检测网络,前者从网络在特征金字塔网络的基础上,提出一种高效的双向多尺度的自适应加权融合方法,后者则能够利用目标区域的相关统计自动选择合适的锚框作为正样本,在不增加额外计算量和参数的情况下,大幅提升模型的泛化性能。这两种网络是目前最优的深度学习网络,具有较高的精度与速度。
表2 不同方法的识别准确率
图5 不同检测识别模型的PR曲线
图6是YOLO-v3与本文算法的检测识别定性对比,其中图6(a)与图6(b)分别是可见光探测器与红外热像仪获得的CCD图像与IR图像,图6(c)是红外与可见光图像融合结果,图6(d)是YOLO-v3与本文算法对图6(c)中融合图像的识别结果。可以看出,本文所提模型对融合图像的识别结果较好,而YOLO-v3虽然没有出现漏检,但结果存在定位误差以及误检。改进的识别模型能够很好地识别目标,显著性检测模块已经大大消除了背景杂波的干扰。实际上,训练过程中未加框的区域将默认标记为背景区域,改进的识别算法只在显著性区域进行识别,即便显著性区域存在目标粘连,识别算法也进行区分。显著性检测的目的就是大大降低背景干扰,缩小感兴趣区域的范围,进一步降低复杂度。从这点可以看出,本文改进的YOLO-v3可以提供较高的分类精度。
图6 YOLO-v3(黑框)与本文算法(白框)的检测识别定性对比
图7是不同算法的识别结果对比。可以看出添加辅助网络后,相比原始YOLO-v3网络结果,本文模型提高了小目标检测的有效性和准确性。例如,原始的YOLO-v3无法检测到图中的较小的装甲车辆,但是经过改进的网络可以有效地检测目标,即使在广域复杂战场环境中,改进的网络仍然可以准确地检测和识别。除了常规的模型指标测试外,本文还添加了干扰状态的单个目标测试。外场采集图像时,人为释放了烟雾,干扰目标的成像质量。受限于篇幅,本文选用了一张图像进行对比分析。识别结果表明,本文改进的识别算法也能才准确识别出目标。主要归咎于结果红外与可见光的融合图像有助于提升目标的抗干扰能力,以及改进网络具有较高的泛化能力。以上分析表明,本文改进网络的边界框位置与基准目标之间的拟合度也比对比算法更为准确,充分验证了结合注意机制的辅助网络有助于提高目标的识别精度。
图7 不同算法的识别结果对比
本文的算法首先对红外图像与可见光图像进行融合,然后进行显著性检测快速锁定疑似目标区域;然后利用改进的识别网络对疑似区域进行识别,大大降低了搜索范围,提高了识别速度。实验结果表明,改进网络其识别准确率比现有最优检测网络略有提升,但实时性得到了大大增强。
本文提出了一种基于改进YOLO网络的双通道显著性目标识别算法,该算法利用红外图像与可见光互补特性进行多尺度融合,并在融合图像上采用显著性检测获取疑似目标区域,最后利用改进的识别网络对疑似区域进行多层次目标识别。改进的YOLO识别网络增加了一路辅助网络,改善整个特征提取网络的性能,并采用注意机制对辅助网络和骨干网络的特征信息融合,增强有效信息通道,抑制无效信息通道,提高网络识别效率。实验结果表明,本文提出的模型可以有效地提高现有网络的性能。下一步,项目组将进行工程化研制,全面提升装备的智能化水平。