汽车驾驶辅助系统红外与可见光融合算法综述

2022-10-18 01:03安晓东李亚丽
计算机工程与应用 2022年19期
关键词:网络结构红外显著性

安晓东,李亚丽,王 芳

郑州航空工业管理学院 航空宇航学院,郑州 450046

驾驶员在夜间或傍晚光线昏暗、雨雪、烟雾、遮挡物等可视条件较差时,对车辆周围环境信息的识别度较差,容易造成交通事故。现代智能车辆普遍采用汽车高级驾驶辅助系统(advanced driver assistance system,ADAS)技术[1],借助摄像头、雷达传感器和超声波传感器等传感器“群”,通过融合不同类型数据的方法,提高对场景的认识深度和表达能力,实现准确识别车辆环境信息。可见光图像包含丰富的纹理信息,红外图像具有目标的显著对比度,理论上可见光与红外图像融合具有良好的鲁棒性和准确性[2];但目前图像融合效果在准确率、广泛性和实时性等方面,与L3级智能驾驶和L4级自动驾驶等实际需求还存在一定的差距[3],因此近几年来,基于ADAS的红外与可见光图像融合研究日益受到国内外学者关注。

车辆目标跟踪和环境识别等领域广泛采用红外与可见光图像融合技术,针对其融合算法,研究者提出了基于传统像素融合方法[4]、稀疏表示(sparse representation based methods,SR)[5]、卷 积 神 经 网 络(convolutional neural network,CNN)[6]和生成对抗神经网络(generative adversarial network,GAN)[7]等融合算法,实现了像素级、特征级和决策级等不同级别的图像融合[8]。但上述融合算法各有优缺点,因此研究者为增强融合图像的效果,不断提出新的融合算法和优化网络结构。

为了更好地拓展红外与可见光图像融合技术的应用研究,文中针对近十四年来相关研究进行了综述。首先分析了车辆ADAS 系统对红外和可见光融合图像的需求,然后总结了基于数学方法框架的传统像素融合算法;随后概述了基于神经网络结构的融合算法;最后基于ADAS发展需求进行了总结和展望。

1 车辆图像融合技术需求和算法演变

红外与可见光图像成像原理不同,可见光图像属于反射成像,在白天视野较好的情况下图像包含丰富的图像边缘、纹理和颜色等细节,能够满足车辆需求的环境信息和目标分类,但在光亮度较差时图像中目标的识别度较差[9]。红外图像属于热成像,具有对比度显著、穿透力强、测距远和夜间成像等特点,但成像为灰度图像[10]。红外与可见光融合图像要在车辆变道、泊位、倒车和弯道拐弯等应用场景下识别行人和障碍物等信息,融合过程需要提取红外图像显著目标特征,以及可见光图像纹理和色彩等特征,使融合图像更符合人眼视觉系统,如图1 所示[11]。因此,针对车辆的特殊应用场景,红外与可见光图像融合技术应满足以下要求:(1)高实时性,融合计算过程不能产生过多的参数变量,减少预警时间;(2)泛化性强,解决车辆复杂应用场景造成的准确度差异问题;(3)无监督学习功能,解决人工标注目标特征需要占用大量时间的缺点;(4)融合信息共享,保障车辆报警系统、换道辅助、自动泊位等系统共享融合图像信息,方便人-车-云互联。

图1 车辆应用场景的红外与可见光融合图像Fig.1 Infrared and visible fusion images based on vehicle application scene

本文汇总和分析了2009—2022 年期间发表的红外与可见光图像融合算法文献,主要的10种融合算法被研究和讨论,包括曲波变换、轮廓波变换、小波变换、PCNN、主成分分析、剪切波变换、基于稀疏表示、显著性表示、卷积神经网络、生成对抗网络等。其中,2016年前主要采用数学方法进行图像变换的传统融合算法,包括曲波变换、轮廓波变换、小波变换、主成分分析和剪切波变换等算法;2016—2019 年期间,出现了基于稀疏表示、显著性表示和卷积神经网络等算法;2020年之后出现了生成对抗网络算法。近5 年最为关注的主要融合算法为生成对抗网络、卷积神经网络、轮廓波变换、剪切波变换、基于卷积稀疏表示、显著性、PCNN 等7 种主要算法,其中,轮廓波变换、剪切波变换、显著性表示等属于数学方法框架下的传统意义融合算法,卷积稀疏表示、卷积神经网络、生成对抗网络、PCNN等属于基于神经网络框架下的融合算法。下面分别进行阐述。

2 数学方法框架的传统像素融合算法

传统意义的红外与可见光图像融合算法基本上属于像素级融合,是对经过图像配准后的图像直接进行数学方法操作的处理方法。根据处理方法不同可分为非多尺度和多尺度变换,或空间域和变换域融合方式[12]。传统意义上的图像融合算法较多,对同一应用场景各种融合算法在细节表征、显著性、对比度和边缘信息清晰度等方面存在差异,如图2所示[13]。

图2 基于传统图像融合算法的图像效果对比Fig.2 Image effect comparison based on traditional image fusion algorithms

2.1 非多尺度与多尺度融合方法

非多尺度变换方法是直接对像素进行处理的方法,红外与可见光图像的非多尺度融合算法如表1 所示[14-26]。其中,平均方法通过对像素进行平均运算,能够改善融合图像的信噪比,但削弱了对比度;为了改善对比度减小的问题,通常在局部子空间或方向上进行能量加权[14]或梯度加权[15],但效果并不理想。主成分分析方法(principal component analysis,PCA)的优点是通过矩阵变换实现低维空间代替高维空间,解决关注维度空间的融合,缺点是由于高频率图像替代低频率图像,融合图像容易出现光谱畸变,当前主要算法有PPCA[16]和改进PCA[17]等,广泛应用于图像压缩和融合等领域。基于调制方法主要通过灰度直方图增加图像对比度和灰度,缺点是由于归一化处理,容易造成细节丢失和增强过渡,该算法通常与NSCT、NSST 等算法结合,增强边缘和对比度[18]。低秩表示通过对源图像分解,获得低秩成分和稀疏成分,该算法能够突出图像的全局结构信息,但融合图像局部保持和细节提取能力较差,常用的低秩方法有LRR[19]和LatLRR[20]等算法。非负矩阵分解方法是把图像矩阵分解为两个非负矩阵乘积的算法,实现亮度分量提取,其中NMF[21]算法被广泛应用。最优化方法是把融合任务看作为优化问题,具有贝叶斯方法[22]、马尔可夫随机场方法[23]等算法,具有保存较多细节信息的优点,主要应用于人类识别和分类等。引导滤波方法是通过局部线性函数表示的方法,具有保持边缘的优点,缺点是融合图像容易产生光晕现象,细节纹理信息表达不足,主要应用于图像增强和抠图,典型算法有GFF[24]和BF[25]等。

表1 非多尺度变换融合算法(空间域)Table 1 Fusion algorithm based on non-multi-scale transform(spatial domain)

显著性表示具有突出区域活跃度和显著性的优势,日益受到关注。根据人类视觉注意力机制,图像不同区域在整幅图像中的重要性不同,显著性表示能够考虑源图像的局部活跃度和全局视觉显著性,使融合图像保留更多的感兴趣信息,但显著性表示在面对复杂背景且含有不同尺度目标的源图像时,存在特征描述不足等问题,融合结果不能体现完整显著区域;另外,在融合过程中耗时较长,很难兼顾融合质量和效率。显著性检测有权重计算和显著目标提取两种应用方式,基本的算法步骤为,首先通过显著性检测模型对显著区域检测和提取,主要采用Context-aware[26]等方法;随后进行图像融合。在红外与可见光图像的融合过程中,显著性表示方法主要是针对图像感兴趣区域特征的处理方法。显著性表示通常结合多尺度变换、卷积神经网络等构成混合网络结构,达到显著区域检测的目的。文献[27]利用引导滤波改进频率调谐的显著性检测算法,获取的融合图像能够突出红外目标,保留较多的可见光背景信息,但融合图像对比度变化不大且目标存在伪影现象。文献[28]利用梯度L0范数改进显著性检测算法,获取的融合图像中可见光细节信息丰富,红外目标区域突出,但该方法容易造成红外目标偏暗,丢失部分可见光背景信息。文献[29]利用最大对称环绕显著性检测算法,获取的融合图像红外目标突出,没有区域污染的现象,但对比度与清晰度不高。文献[30]提出显著性检测的双尺度融合算法TSIFVS,该方法融合图像信息丰富,但存在伪影现象。显著性表示与NSCT结合的网络结构,使融合图像更大程度地保留源图像的光谱信息,并能突出源图像中的目标区域,但该方法融合效率低[31]。显著性表示和NSST结合的网络结构,能够改善融合图像的突出目标和对比度,但该方法在高频系数活跃度的表现差[32]。文献[33]利用GAN和显著性表示的网络结构,融合图像包含更多的源图像显著区域特征。

上述显著性表示的网络结构属于传统的基于多尺度变换的红外与可见光图像融合,提取特征单一,融合规则需要手动设计,难以应对多场景的应用需要。

以上非尺度变换算法中最优化方法可以丰富细节,加权方法能够改善信噪比,极值方法可以提高对比度,PCA 算法能够降维运算,引导滤波可以提高边缘保持;但单一的非多尺度变换算法都不能全面反映融合图像多方面的要求,多数情况下与其他算法联合构造网络结构,达到突出某个尺度空间域的优点。

2.2 多尺度融合算法

对比非多尺度变换方法,多尺度变换方法是一种广泛采用的像素级图像融合算法,其基本融合步骤为:首先将源图像进行多尺度变换分解,得到子图像或者一系列系数;然后针对要求以及图像特征制定融合规则,融合分解后的子图像或系数;最后通过逆变换融合图像。多尺度融合算法具有多尺度方向上特征细节提取的优点,常用的多尺度算法如表2所示[34-52]。

表2 多尺度变换融合算法(变换域)Table 2 Fusion algorithm based on multi-scale transform(transform domain)

金字塔变换是通过金字塔变换把图像分解成不同尺度且呈金字塔状的子带图像系列,具有拉普拉斯金字塔[34]、比率低通金字塔[35]、对比度金字塔[36]、形态学金字塔[37]等算法。相对其他空间域图像融合方法,金字塔变换为最先发展起来的多尺度变换方法,在图像细节保留方面有较大的提升,但是金字塔变换属于冗余变换,各层数据直接相关性大,易产生块效应;同时在逆变换过程中容易出现高频细节信息丢失严重和图像信噪比低的问题。

小波变换方法是基于塔式算法,首先对图像进行小波金字塔分解,对各分解除层从高到低进行融合处理,最终获得融合后的小波金字塔。小波变换有离散小波变换[38]、双树离散小波变换[39]、提升小波变换[40]、四元数小波变换[41]、谱图小波变换[42]等不同算法。与金字塔变换相比,小波变换不会产生块效应,信噪比高,并降低了图像分解过程中的信息冗余,但该算法不能有效表示图像中具有方向性的边缘和纹理等特征。

针对小波变换只能反映信号点奇异性的不足,脊波变换通过Randon 变换把图像中线特征转换为点特征,然后通过一维小波进行奇异性检测,克服了小波变换仅能反映“过”边缘的特征,而无法表达边沿特征;另外脊波变换具有很强的方向性奇异性特征,但脊波变换在重构图像中存在轻微划痕和计算过程复杂等问题,其中RT[43]等算法广泛应用于图像噪声抑制。

基于偏微分分解的FPDE[44]、基于支持度的SVT[45]、基于曲波变换的CVT[46]等算法目前应用不多,故不再对其进行介绍。以下针对应用广泛的轮廓波变换、剪切波变换、稀疏表示等3 种算法进行分析,其中稀疏表示算法与卷积稀疏表示算法在3.2.2小节进行介绍。

2.2.1 非下采样轮廓波变换

为获取图像方向信息,消除吉布斯现象,解决平移不变性等问题,文献[53]提出了非下采用轮廓波(nonsubsampled contourlet transform,NSCT)算法,网络结构包括非下采样金字塔分解(NSPFB)和非下采样方向滤波器(NSDFB)两部分。NSCT变换是对Contourlet变换的改进,不仅具有多分辨率及各向异性,还具有平移不变性[54],能有效地提取图像纹理特征及边缘信息,且融合过程中不会产生抖动现象。NSCT 主要变换方法如图3所示,首先采用非下采样金字塔分解对图像进行塔式分解,将图像分解为一个低频子带和多个环形高频带通子带;然后,利用非下采样方向滤波器将上一步分解得到的高频子带进行多方向分解,进一步重复这一过程,直至分解结束。非下采样方向滤波器在每次分解前都对相应的滤波器进行上采样,再对分解子带进行分析滤波,确保所有分解后的低频和高频子带与输入图像尺寸大小相同。

图3 NSCT变换方法Fig.3 NSCT transformation methods

NSCT通常与PCA、PCNN、局部能量等算法构建混合网络结构,文献[55]利用主成分分析算法,并结合NSCT,使融合图像取得较好的融合效果;文献[56]提出NSCT与PCA和PCNN相结合的网络结构,该算法具有突出细节表征能力的优点,但运算效率不高;文献[57]采用局部能量和NSCT的混合网络,能够有效保留图像细节信息和增加信息量,但该算法相比DWT、Contourlet等算法,该混合网络结构表现并不突出。

NSCT 相比小波变换和金字塔变换等算法,其变换过程不存在上采用和下采用过程,因此消除了轮廓变换过程中出现的频谱混叠现象,但是NSCT 分解过程复杂,计算效率较低,难以应用于实时性要求高的场景。

2.2.2 非下采样剪切波变换

为满足高实时性要求,非下采用剪切波变换(nonsubsampled shearlet transform,NSST)被提出,NSST 变换由非下采样金字塔滤波器组和剪切滤波器组成[58],主要变换方法如图4所示,首先利用非下采样金字塔滤波器组对图像进行k层多尺度分解,形成1个低频子带和k个高频子带,实现平移不变性;然后利用剪切滤波器对高频子带进行多方向分解,形成高频方向子带系列,从而有效地捕获方向信息,保持各向异性。

图4 NSST变换方法Fig.4 NSST transformation methods

NSST避免下采样的操作,表现出平移不变性,同时相比于NSCT还具有运算简单、时间复杂度低以及良好的稀疏表示性能等特性,优越的信息捕获和表示能力使NSST成为一种流行的红外与可见光图像融合方法。文献[59]在NSST 基础上,引入区域平均能量和局部对比度的融合规则,将空间域分析和多尺度分析的优点最大程度地融合在一起,降低了图像的冗余信息。文献[60]基于自适应NSST-PCNN网络结构进行红外与可见光图像融合,该算法提高了对比度和保留细节信息,但与NSST 相比增加了运行效率。文献[61]采用NSST 与PCNN的双通道融合算法,达到了增强融合图像信息和效果的目的。文献[62]采用NSST与引导滤波结合的方法,保留了更多的边缘信息,但源图像每一层的特征频带需要分别进行融合处理,运行时间较长。

相比NSCT变换方法NSST有利于源图像细节和纹理特征的提取,具有高稀疏性和准确表征融合信息的特征;但是NSST分解时由于引入了非下采用金字塔变换的方法,容易造成高频子带图像细节的丢失,降低融合图像的亮度。

上述以多尺度为基本网络构架的融合算法,依赖于预先定义的变换方式对源图像进行分解,当在光线昏暗时图像的对比度、纹理等特征较差,并包含噪声,预先定义的变换并不能自适应地调整源图像在融合规则中比重,导致融合过程不能同时保留轮廓信息和轮廓内的纹理细节信息,出现细节丢失或者轮廓模糊的问题。

3 神经网络框架的融合算法

随着神经科学和认知科学的发展,早期的神经科学家构造了一种模仿人脑神经系统的人工神经网络,但是在解决图像和语音识别等优化过程中,容易出现局部最优问题,造成梯度消失现象;为了解决以上问题,出现了一种深层前馈神经网络,即卷积神经网络。上述两种神经网络结构在红外与可见光图像融合实际应用中日益受到关注,因此针对其算法特征归纳如下。

3.1 脉冲耦合神经网络

人工神经网络方法是通过非线性变换的映射模型,把多个并行图像数据变换为一个数据表示,具有并行性好的特征,有双模态神经网络方法[63]、脉冲耦合神经网络(pulse coupled neural network,PCNN)[64]、多层感知器[65]等类型。PCNN 相比于其他空间域算法,能够解决细节层细节丢失的问题,提高细节表达能力,因此实际选用PCNN算法的较多。

PCNN 属于决策级融合,融合方法如图5 所示,首先,将源图像多尺度分解为低频和高频子带;然后,设计融合规则融合低频和高频子带;最后,采用逆变换方法生成最终的融合图像。

图5 基于PCNN的图像融合方法Fig.5 Image fusion method based on PCNN

PCNN 主要应用于图像的高频子带或者同时作用于高低子带进行融合。在红外与可见光图像融合网络结构中PCNN 通常与曲波变换、NSCT 和NSST 等算法构建混合融合网络结构,提高细节表达能力。文献[66]提出曲波变换与PCNN的融合方法,相比传统方法该融合算法具有更好的视觉效果,在熵、平均梯度、标准差等指标优于其他方法。文献[67]构建PCNN和NSCT网络结构,融合图像在边缘和纹理细节等方面优势明显,但PCNN 的参数设定对红外与可见光图像的融合效果影响较大;文献[68]提出NSST和IPCNN融合网络,融合图像提高了细节稀疏表示的性能和对比度,但清晰度不高。

PCNN算法与其他神经网络算法相比,无需训练与学习过程,可有效提取图像信息,PCNN 算法中神经元与图像像素一一对应,解决了传统方法中图像细节丢失的问题;但PCNN 网络结构复杂,参数设置复杂;另外,其与多尺度变换组合的方法,只是实现了网络结构的局部自适应。

3.2 基于深度学习的融合算法

深度学习(deep learning,DL)是一种基于人工神经网络结构,通过神经元逐级传递,上层神经元的输出作为下层神经元的输入,经过多层神经元后直到输出层。DL 神经网络强大的非线性拟合能力,能够自动从数据中提取特征和估计期望分布,自2017 年后被广泛应用于计算机视觉、跟踪识别和图像融合等领域。针对深度学习算法框架在红外与可见光图像融合技术的应用研究,主要体现在基于CNN、CSR 和GAN 等网络框架方面。

3.2.1 基于卷积神经网络的融合算法

CNN融合算法是一种典型深度学习特征级融合方法,网络结构包括输入层、卷积层、激活池化层、全连接层和输出层等;卷积核映射出一个新的特征平面并提取特征,不同卷积层可以选择对应的卷积核;池化层用于降低特征平面的分辨率及抽象;激活函数的非线性使得神经网络几乎可以任意逼近非线性函数,用以解决梯度消失的问题。红外与可见光融合网络结构一般分为两部分,一是分别由红外与可见光图像的卷积层和池化层交替连接构成骨干网络,用以从输入中提取不同类型图像丰富的特征;二是全连接层,连接红外与可见光特征图平,聚合全局信息并将其映射到输出空间,如图6所示[69]。

图6 CNN融合网络Fig.6 Fusion network based on CNN

红外与可见光图像的CNN 融合算法主要分为两类,分别是图像特征的深度提取和融合网络构建。在深度 提 取 方 面,19Layer 的VGG 网 络 结 构[70],18Layer、34Layer、50Layer、101Layer 和152Layer 的 参 差 网 络(residual network,ResNet)结构[71]等被提出,其中ResNet-152 和VGG-19 被 广 泛 应 用,ResNet-152 网 络 深 度 是VGG-19 的8 倍,网络深度的增加提高了图像的深度特征能力,但较多的卷积层参数映射造成了参数量增多、计算量增大和计算硬件要求高等问题。文献[72]采用4层卷积层的编码器和3层卷积层解码器的DenseFuse网络,解决了红外与可见光图像融合过程梯度消失和参数数量过多的问题,但存在输出特征中有大量冗余信息的问题。2020年,文献[73]采用DenseNet作为子网络进行特征提取和重构,并把该算法应用于无监督网络学习。

为了突出红外与可见光图像融合过程中局部区域的特征,结合CNN和其他算法的网络结构被构建,2019年,文献[74]对源图像进行多尺度分解,在细节层进行CNN 提取细节特征,但是没有充分利用中间卷积操作获得的特征;2020 年,文献[75]采用视觉显著性权重图(VSWM)与CNN相结合的改进网络框架。上述构建网络结构的一般方法是,首先针对细节特征提取,通过CNN 网络设计卷积层数、卷积核大小、池化层、输入和输出通道数等,例如,2019 年,文献[76]构建IVFuseNet网络结构,包括4 层不同的卷积层,卷积核大小分别为11×11,5×5,3×3,3×3,2层2×2的池化层,实现深度网络预测;然后,结合其他算法设定融合规则,例如,2020年,文献[77]结合加权算法进行特征的融合层设计,该算法主要应用于监督神经网络结构;2021 年,文献[78]把变分模型转化为损失函数,用输出图像和原图像表示正则化项,最后利用深度卷积神经网络算法融合图像,该算法主要应用于多聚焦图像融合。通过上述网络结构加深或者融合其他算法进行设计,减少了融合图像噪声,突出了红外图像对比度和可见光图像包含相对丰富的细节信息,使细节特征更加自然。

相对于传统的红外与可见光图像细节层融合规则,卷积神经网络有着强大的特征提取能力,可以在融合过程中有效的提取图像的深层细节信息以及平滑噪声,实现模型的自适应融合,具有较强的容错性和鲁棒性。但是存在以下问题:(1)卷积神经网络需要一个大的数据集来训练神经网络,在红外与可见光图像融合领域中一般不存在标准参考图像;(2)多数传统方法的特征特取和融合规则需要手工设计。

卷积神经网络是当前经常采用的深度学习图像融合方法,基于CNN的融合算法能够实现端到端、无监督学习、提高细节表征、图像深度提取等功能优势,因此未来与不同种算法结合的混合卷积神经网络结构将成为研究人员普遍采用的方法。

3.2.2 基于卷积稀疏表示的融合算法

稀疏表示理论通常结合PCNN[79]、小波变换[80]、NSCT[81]等多尺度变换算法构造融合网络结构,在红外与可见光图像融合领域得到了广泛的应用,能够有效表示原始图像的显著特征,然而基于稀疏表示理论的图像融合方法所采用的局部建模方式易于导致语义信息损失和对误匹配的低容忍度两大缺陷。CSR 的基本原理是通过一组预先训练的卷积字典滤波器将源图像分解为一系列的卷积稀疏相应图,每张卷积稀疏相应图都包含了目标不同层级的信息,融合图像视为卷积和,如公式(1)所示:

文献[82]首次把CSR应用于红外与可见光图像,证明了CSR 对克服上述不足具有巨大的优势;随后文献[83]增加卷积稀疏层数实现更有效的图像融合,但是降低了计算效率。CSR 结合其他算法对红外与可见光图像进行融合,应用于多聚焦图像融合、跟踪和识别等领域,体现了在突出表征图像特征方面的巨大优势。文献[84]采用NSCT 和CSR 的网络结构,增强了融合图像的对比度。文献[85]结合CSR引导滤波器、高斯滤波器和非下采样方向滤波器等,提高了融合图像的多特征提取能力。文献[86]采用DTCWT和CSR的网络结构。上述融合方法利用多尺度变换将图像多层分解,但随着分解层数的增加,噪声和配准对融合效果的影响增大,CSR 虽然能改善多尺度变换中特征信息不足和配准要求高的问题,但其仍然存在以下问题:(1)过完备字典的信号表示能力有限,容易造成图像纹理细节信息丢失;(2)滑窗技术分割出的重叠小块,降低了运行效率。

CSR 与SR 的局部变换方式不同,CSR 有效抑制了SR 应用于图像融合所导致的两大缺陷;CSR 相比CNN等融合方法在计算复杂度方面具有明显的优势。CSR具备全局建模能力,在无匹配条件下具有明显的优势,是一种基于非监督学习的融合网络,无需大量带有标签的训练样本,CSR的卷积稀疏字典训练和卷积稀疏响应图的求解方法对融合效果的影响较大,而CSR则是利用滑窗技术将图像分割成多个重叠小块并将其向量化,通过学习超完备字典来进行图像融合,有利于图像更好的提取和表达。

3.2.3 基于生成对抗网络的融合算法

GAN网络在2014年首次被提出后在深度学习领域被广泛关注,其网络结构主要利用生成损失函数控制生成器保留源图像的特征信息,再利用生成器与判别器之间的对抗损失,使融合图像获取源图像更多的细节信息,提高融合质量[87]。GAN网络结构的基本算法框架如图7 所示,网络包括生成器和判别器两部分,其中生成器将输入数据生成新的样本,判别器用来判别样本是来自于真实数据或者生成器生成的,通过不断迭代直到判别器无法区分生成的样本数据和真实数据,判别器的目标是迫使融合图像具有可见光图像中存在的更多细节,由于GAN可以在不受监督的情况下更好地估计目标的概率分布,具有拟合多个分布的特征。

图7 生成对抗网络基本结构Fig.7 Basic structure of generative adversarial network

GAN网络在红外与可见光图像融合的应用主要集中于生成器和鉴别器组成网络的复杂程度,以及对生成器或者鉴别器的局部网络结构设计。在GAN网络的复杂程度方面,2019 年,文献[7]首次将GAN 网络应用于红外与可见光图像融合,提出FusionGAN 网络结构,但由于FusionGAN采用单一的对抗机制,导致融合结果不平衡偏向于红外图像,以及可见光图像纹理边缘信息丢失严重的问题。同年又提出具有增强融合细节保留的GAN 网络[88],相对于FusionGAN 网络结构在一定程度上改善了融合图像的纹理边缘信息丢失问题;但忽视了红外图像中的细节和亮度信息,这样使融合图像丢失了大量的红外图像的信息。为了保持红外图像信息,2020年,文献[89]提出双鉴别器的DDcGAN网络;2021年,文献[90]提出具有两个生成器与一个鉴别器的双层生成对抗网络;2021 年,提出双融合路径生成对抗网络DFPGAN[91]网络;2021年提出多分类器约束的GANMcC网络[92]、ResNetGAN[93]网络。上述GAN 网络复杂度的增加,能够部分缓解融合不平衡问题,但融合图像中在对抗网络训练过程中产生梯度消失的现象,造成目标边缘模糊,纹理边缘信息依然缺失,缺乏突出源图像中典型区域的能力。

为了解决上述AGN 融合网络结构中存在的问题,GAN 网络引入局部二进制模式LBP、二维窗口经验模式分解WEMD、二维经验模态分解BEMD、注意力集中Attention、语义分割等算法。2020年,文献[94]提出基于注意力生成对抗网络AttentionFGAN;2020年,文献[95]提出LBP-BEGAN 网络,采用LBP 的损失函数成功地保留了源图像中的大量信息。2021 年,文献[96]提出MFF-GAN 网络结构,实现了高细节保存的多焦图像融合;2022年,文献[97]提出TGFuse网络结构实现端到端融合。

基于GAN的融合算法以CNN网络结构为框架,通过强特征提取能力,极大地提高了融合质量,并利用源图像与生成图像的对抗,实现源图像对学习参数的监督;但是因卷积核大小以及网络深度的限制,卷积核所提取的特征依赖图像某一位置相关性最强的局部区域,忽略了特征图通道之间的相关性。

4 结论与展望

4.1 结论

针对红外与可见光图像融合算法,前文总结了基于数学方法框架的传统像素融合算法和基于神经网络框架融合算法的网络结构特征和发展趋势,结合当前车辆ADAS系统对红外与可见光融合图像技术的需求,获得以下结论:

(1)显著性分析具有突出源图像感兴趣目标区域信息的特征;GAN 具有提高融合细节图像质量的优势;NSST计算效率实时性好,但图像亮度低等特征。因此,融合显著性表示、GAN 和NSST 等算法的网络结构,能够满足车辆对红外与可见光融合图像的高实时性和行人目标清晰识别的需求。

(2)CNN具有深层图像特征的能力,CNN与NSCT、NSST、轮廓波变换等多尺度算法融合可以增加对车辆环境信息的理解深度;在考虑网络结构复杂度时,CSR与多尺度算法混合有助于提高卷积神经网络的运算时间。

(3)考虑到融合图像信息在车辆通信网络上的信息共享,融合图像容量不能太大,基于压缩感知和稀疏表达与深度学习等混合融合算法应用于车辆场景的研究将是关注热点之一。

4.2 未来展望

随着车辆无人驾驶技术和智能网联车辆的发展,红外与可见光图像融合技术在车辆识别可视条件较差环境方面的作用日益重要,并结合当前图像融合的发展现状和问题,未来关于红外与可见光图像融合的研究以期延伸到以下几个方面:

(1)由于车辆应用场景的复杂性,缺乏统一的数据集和样本标签,以及不能在此基础上进行不同算法的优劣对比,因此未来发展车辆应用环境的红外与可见光数据集和评价指标将是非常有必要的。

(2)发展泛化性好的卷积神经网络结构算法,其中端到端卷积神经网络模型具有较好的应用前景。

(3)为了提高人眼的视觉效果,发展彩色转换模型用于彩色可见光与红外图像融合算法中,满足车辆在不同应用场景时的视觉融合效果。

猜你喜欢
网络结构红外显著性
网红外卖
一种结合多尺度特征融合与像素损失加权的显著性目标检测方法
“资源一号”02卫星可见近红外相机、宽幅红外相机在轨顺利开机成像
闪亮的中国红外『芯』
汤定元:中国红外事业奠基人
论商标显著性的判定标准
欧盟法院判决明确欧盟商标通过使用获得显著性的地域认定标准
商标显著性的司法判断(一)
试论分布式计算机网络结构分析与优化
带通信配网故障指示器故障监测方法及安装分析