结合信息感知与多尺度特征的红外与可见光图像融合

2023-07-31 02:53:58曲海成胡倩倩张雪聪

红外技术 2023年7期

曲海成，胡倩倩，张雪聪

专栏：〈多源图像融合〉

多源图像融合能最大限度地综合各信道有利信息，在计算机视觉、军事遥感、医学图像处理等领域发挥着重要作用。近年来，在以混合型融合算法为代表的智能化浪潮推动下，多源图像融合领域取得了长足的发展和进步。基于此，《红外技术》面向研究人员推出“多源图像融合专栏”，力图展示多源图像融合技术的最新研究成果，为从事相关研究的读者提供参考。

通过广泛征集和严格评审，本期专栏收录了来自西安工业大学、中国石油大学等从事多源图像融合团队的7篇论文。论文内容既有对红外与可见光图像融合等热门方向的研究，也有面向全色与多光谱图像融合、夜视抗晕光针对性融合、无人机目标检测自适应融合等最新应用技术的研究。

然而，图像特征的差异性、探测环境的复杂性、应用场景的多样性等都对多源图像融合技术的发展和应用提出了更严峻的挑战。本期专栏只是一个起点，希望能够启发广大读者做出更多更精彩的研究。

最后，感谢各位审稿专家和编辑的辛勤工作。

——杨风暴

结合信息感知与多尺度特征的红外与可见光图像融合

曲海成，胡倩倩，张雪聪

（辽宁工程技术大学软件学院，辽宁葫芦岛 125105）

现有的基于深度学习图像融合算法无法同时满足融合效果与运算效率，且在建模过程中大部分采用基于单一尺度的融合策略，无法很好地提取源图像中上下文信息。为此本文提出了一种基于信息感知与多尺度特征结合的端到端图像融合网络。该网络由编码器、融合策略和解码器组成。具体来说，通过编码器提取红外与可见光图像的多尺度特征，并设计特征增强融合模块来融合多个尺度的不同模态特征，最后设计了一个轻量级的解码器将不同尺度的低级细节与高级语义信息结合起来。此外，利用源图像的信息熵构造一个信息感知损失函数来指导融合网络的训练，从而生成具有丰富信息的融合图像。在TNO、MSRS数据集上对提出的融合框架进行了评估实验。结果表明：与现有的融合方法相比，该网络具有较高计算效率；同时在主观视觉评估和客观指标评价上都优于其它方法。

图像融合；多尺度特征；信息感知；特征增强

0 引言

由于成像设备硬件限制，单一类型的传感器只能捕获部分场景信息，通常无法全面地表征成像场景。多模态图像融合能够将多个传感器捕获的有用信息整合到单幅融合图像中，以实现对场景有效且全面地表征。典型的多模态图像融合包括红外和可见光图像融合以及医学图像融合等。

本文重点研究红外与可见光图像融合。红外传感器可以捕获目标自身的热辐射信息，能够全天候地突出行人、车辆等显著目标，但是红外图像存在边缘细节模糊、无法提供足够的环境照明信息等缺点；而可见光图像利用物体表面对光的反射原理成像，相比红外图像来说，可见光图像具有更高的对比度和更丰富的纹理细节，但是却容易遭受极端环境的影响而丢失场景中的目标，在夜间或云雾等条件下不能取得较好的成像效果，成像具有一定的局限性。值得注意的是，红外图像和可见光图像具有很强的互补特性，将这些互补特征通过图像融合技术集成到单一图像中，一方面可以获取红外图像中如车、行人等显著目标，另一方面可以获得可见光图像中丰富的背景细节信息，从而得到具有更好的场景表达和视觉感知效果的图像，能够有效地促进诸如目标检测[1-2]、目标识别[3]、图像分割[4]等实际计算机视觉应用。

根据图像融合方法的原理，现有的红外与可见光图像融合算法可分为传统算法和基于深度学习算法两大类。传统的图像融合算法通常利用数学变换在空间域或者变换域进行活动水平测量，并设计特定的融合规则实现红外与可见光图像融合。代表性的方法通常分为以下5类：基于多尺度变换（Multiscale transformation，MST）[5-8]，基于稀疏表示（Sparse representation，SR）[9-10]，基于子空间[11-12]以及基于显著性[13]和混合方法[14]。

基于多尺度变换的方法将原始图像分解成不同尺度提取特征，并针对每个尺度设计相应的融合策略，最后重建图像。SR通常在局部图像块上执行，得到的融合图像符合人类视觉感知。基于子空间的方法将高维输入图像投影到低维空间或子空间中，获取原始图像的内部结构。基于显著性的方法可以保持显著目标区域的完整性，提高融合图像的视觉质量。混合方法将其它类型的方法整合到多尺度变换框架中，结合不同方法的优点来提高图像融合性能。传统算法虽然取得了一定的效果，但其融合性能高度依赖手工设计，限制了融合性能的进一步提升，另一方面，诸如SR等传统方法耗时较长，也限制了传统融合方法的进一步发展。

近年来，考虑到基于卷积神经网络（CNN）提取图像特征的优点，采用深度学习的方法可以获得更好的图像质量。Li等[15]提出一种用于红外与可见光图像融合的DenseFuse，在编码器网络中引入密集连接提取图像深度特征，实现特征重用，使用L1范数策略或加法策略融合编码器提取的深层特征，最后使用解码器生成融合图像；由于深度特征的不可解释性，手工设计的融合策略无法为深度特征分配恰当的权重以至于无法有效地捕获这些深度特征的特性。为了避免手工设计融合策略带来的弊端，Ma等[16]和武等[17]将生成对抗网络引入图像融合领域中，将图像融合问题视为特征对抗问题；Hou等[18]基于像素强度衡量源图像中的显著性程度，指导融合网络保留源图像中丰富的显著信息；考虑到光照条件对融合图像的影响，Tang等[19]提出基于光照感知的渐进式融合网络PIAFusion，构造光照感知损失函数指导融合网络的训练。

虽然以上方法可以很好地恢复空间细节信息，但网络结构都为单一尺度，受限于感受野大小，无法很好地提取图像上下文信息。因此，Li等[20]提出多尺度图像融合自编码器框架NestFuse，编码器采用连续下采样方式提取多尺度特征，解码器则使用蜂巢连接融合不同尺度的特征，并设计了基于空间/通道注意力机制的融合策略，更好地融合图像中的背景细节和显著区域；为了解决NestFuse融合策略不可学习的问题，Li等[21]提出RFN-Nest，进一步在其基础上设计了残差融合网络（Residual Fusion Network，RFN）代替手工制作的融合策略。

然而上述多尺度特征网络架构模型往往设计较为复杂，其模型对计算能力、内存消耗、显存容量的高要求，阻碍了其在资源受限的设备上的应用，而且RFN-Nest融合策略的训练与编码器解码器的训练是分开的，对不同模态的特征无法充分提取。为此本文提出一种基于多尺度特征提取的无监督红外与可见光图像融合网络（Multi-scale Features Fusion Network, MFF-Net）。主要工作如下：

1）在RFN-Nest框架基础上进一步简化网络设计，构建一个轻量化的多尺度特征提取融合网络；

2）利用源图像的信息熵构造一个信息感知损失函数来指导融合网络的训练，从而生成具有丰富信息的融合图像；

3）针对多尺度深度特征的融合，设计特征增强融合模块来融合同一尺度下的不同模态特征，融合策略与编码器、解码器同时训练，充分训练网络对不同模态图像的特征提取能力；

4）在TNO[22]和MSRS[19]数据集上进行对比实验，从主观视觉描述、客观指标评价以及推理时间等方面对实验结果进行分析。

1 融合方法

1.1 网络结构

图1 MFF-Net整体框架

表1 编码器网络整体结构

融合层则由3个特征增强融合模块（Feature Enhancement Fusion Module，FEF）组成，分别用来融合解码器提取出的每个尺度的红外特征和可见光特征；解码器则根据融合的多尺度特征重建出融合图像。

1.2 特征增强融合模块

图2 FEF网络结构

Fig.2 Architecture of FEF network

图3中的表示原始特征图的输出通道，而的数值由公式(3)自动获得：

式中：odd表示离|×|中数值最近的一个奇数。ECA模块在不降维的基础上同时考虑了跨通道的信息交互，使得其能够学习到更加有效的通道注意力权重。

图3 ECA模块示意图

Fig.3 Diagram of ECA module

1.3 解码器网络

图4 解码器网络结构

表2 解码器网络整体结构

1.4 损失函数设计

损失函数应当使融合图像包含更多红外图像中的热辐射信息以及可见光图像中的背景细节纹理信息，因此设计了强度损失和梯度损失，其数学表达分别如公式(4)和公式(5)所示。

式中：max(ir,vi)表示取ir和vi对应像素的最大值，用来表示红外与可见光图像中的显著信息。和表示特征图的高度和宽度。int用来衡量融合图像和源图像对中显著信息的像素损失，而红外图像中的热辐射信息通常在源图像对中表现为显著信息，因此强度损失可以使得融合图像包含更多的红外热辐射信息。Ñ表示计算梯度的函数，本文采用Sobel算子来计算图像的梯度。grad表示的是融合图像与输入图像的显著梯度信息损失均值，可以使得融合图像包含更多可见光图像中的背景细节纹理信息。

然而强度损失容易受到光照条件的影响，使得融合图像过分关注亮度过高但是信息很少的区域。为此本文创新性地提出一种基于信息感知的像素损失函数，数学表达如下：

综上所述，总的损失函数定义为：

式中：,1,2是用来平衡不同损失函数的超参数。可以看出总的损失函数分为两个部分：第一部分为融合图像的像素损失，包括强度损失和基于信息感知的像素损失；第二部分为梯度损失。

2 实验及结果分析

2.1 实验设置

实验在Windows10操作系统和NVIDIA GTX 1080Ti GPU上完成，程序版本为Pytorch 1.9.0，训练与测试平台为PyCharm。融合结果的客观质量评价指标结果在Matlab 2018a上计算得到。本文方法的训练集选用MSRS数据集，包含1444对对齐的高质量红外和可见光图像。为了生成足够的训练数据，本文以步长64将这些图像裁剪成64×64的图像块，共计56280个图像块。同时为了加快运行速度，所有的图像数据在被送入模型前都被归一化为[0,1]。在测试部分选用MSRS测试集和TNO测试集，分别包括361对和42对红外与可见光图像。为了验证网络的泛化性，使用在MSRS训练集得到的权重进行TNO数据集的测试。

在训练时，对于损失函数中的系数，设置1＝5、2＝30、＝0.2。采用Adam优化器更新参数，训练轮次为30轮，学习率计划设置如公式(11)所示，前15轮采用固定学习率0.001训练，后15轮采用线性衰减学习率。

对于包含彩色可见光图像的MSRS数据集，本文首先将彩色可见光图像从RGB颜色空间映射到YCbCr颜色空间，然后采用不同的融合方法将可见光图像的Y通道和红外图像进行融合，最后将融合图像作为新的Y通道再结合可见光图像的Cb和Cr通道，将图像数据重新映射回RGB颜色空间。

实验中选择了7种典型的、最新的融合方法在MSRS、TNO数据集上进行大量的定性和定量实验来评估所提出的融合网络的性能。其中包括2种传统的融合算法：CBF[24]和WLS[25]，以及DenseFuse[15]、FusionGAN[16]、NestFuse[20]、RFN-Nest[21]和PIAfusion[18]5种基于深度学习的融合方法。以上所有方法均按照原始论文设置参数。

同时为了客观评价融合图像的性能，本文使用如下7个评价指标：标准差（standard deviation，SD）、空间频率（spatial frequency，SF）、信息熵（entropy，EN）、互信息（mutual information，MI）、视觉保真度（visual information fidelity，VIF）、abf、差异相关和（the sum of the correlation of differences，SCD）。其中，SD、SF是基于图像特征的评估指标；EN、MI是基于信息论的评估指标；VIF是基于人类视觉感知的评估指标；SCD和abf是基于源图像与融合图像的评估指标。SD表示各像素灰度的标准差，值越大表示融合图像的对比度越高；SF使用图像像素值的变化率来表示图像的清晰程度，值越大表示融合图像越清晰；EN反映融合图像纹理信息的丰富程度，其熵值越大，则说明其保留了更丰富的源图像信息，MI用于度量两幅图像之间的相似程度，值越大表示融合图像保留源图像信息越多，质量越好；VIF越大图像质量越好，SCD值越大，融合图像中保留的源图像对中的互补信息越多；abf用于评价源图像中的显著目标在融合图像中的呈现情况的指标，值越大表明融合图像中显著信息越多。

2.2 MSRS对比实验

本文从MSRS测试数据集中挑选4组具有代表性的对比实验，包括2个白天和2个夜间场景。不同方法的融合结果对比如图5和图6以及图7、图8所示，并用不同颜色的矩形框给出局部放大图。

从图5和图6中可以看出：CBF方法的融合结果较差，融合结果中包含了大量的噪声，在两组对比图中的天空区域污染严重，清晰度差，丢失了大量的图像细节；DenseFuse、FusionGAN、RFN-Nest方法得到的融合结果，虽然没有产生较多的噪声，但是图像中天空区域污染严重，整体较为模糊，细节信息保留的不是很好，如第一组中红色框中的人物均被虚化，尤其FusionGAN融合方法中的人物还存在一定程度的伪影；红色框中的建筑物标识信息只有WLS融合方法与本文提出的方法有所保留，但本文方法保留细节信息更为突出；对于NestFuse和PIAFusion方法，虽然整体获得了比较不错的效果，但是对于红外图像的信息保留的较少，在第二组中PIAFusion融合方法由于过度关注光照条件，红外图像中绿色框中的大楼细节信息丢失比较严重；WLS和本文方法总体上获得了较好的融合效果，但是WLS方法的融合图像整体偏暗，路面细节信息不够突出，且绿色方框内的大楼信息不如本文方法的显著性强。

图5 MSRS数据集中白天场景一融合结果

图6 MSRS数据集中白天场景二融合结果

总体来看，本文方法得益于精心设计的信息感知损失函数以及特征增强模块对编码器提取的多尺度特征充分利用，在细节保留与显著性增强方面有明显优势，清晰度与对比度也比较客观，不仅保留了源图像场景信息，也对场景信息进行了增强，可以实现红外和可见光图像信息的良好平衡。

图7 MSRS数据集中夜间场景一融合结果

图8 MSRS数据集中夜间场景二融合结果

不同于白天场景，红外与可见光图像在夜间场景中只能提供有限的场景信息，因此，如何更大程度地将红外与可见光图像中有意义的信息有效融合是一个难题。

如图7和图8所示，虽然不同算法都对红外图像和可见光图像中的互补信息进行了一定程度的融合，但融合结果仍然存在一些细微的变化。在两组对比图中，CBF方法绿色框中的栅栏和路面交通标识线污染严重，清晰度低；DenseFuse、FusionGAN、RFN-Nest方法得到的融合结果虽然没有产生较多污染，但模糊了绿色框中目标的轮廓，细节信息丢失严重；对于WLS、NestFuse和PIAFusion方法，虽然融合结果不错，但是对红外图像中的信息纹理保留不充分，且WLS整体偏暗。

总体来看，其他方法存在纹理细节的污染和显著目标的弱化等问题。本文方法能够有效融合源图像中的互补信息，得益于本文提出的特征增强融合模块，以及基于信息感知的像素损失函数，从而生成包含丰富信息的融合图像。

表3显示了不同融合算法在MSRS数据集上的客观评价指标，取值为每个指标的平均值。其中最优值用黑色加粗字体表示，次优值用蓝色数字表示。相比其他算法，本文所提方法在SD、EN、VIF、SCD、Qabf这5个指标上都取得最优值。

具体分析来说，本文在EN上取得最优说明本文的融合结果包含最多的信息量；在SD和VIF上表现最优说明本文的结果表现出最高的对比度，并且能呈现出最符合人类视觉感知的视觉效果；在SCD与abf上取得最优值的结果说明融合图像中保留了源图像对中的互补信息最多，并且融合图像中保留红外源图像中显著目标信息最多。这些结论与定性结果中的结果相一致；此外本文在指标MI和SF上表现出具有竞争力的融合性能。但是相比于其他融合方法，本文的融合结果包含丰富的纹理信息和边缘信息。在不影响细节保留和显著信息增强的前提下，图片整体偏亮，对比度略低，而SF通过图像像素值的变化率来衡量图像质量，因此本文算法并未在几种评估指标平均值上均达到最优，但总的来说，本文提出的融合方法下的融合结果和源图像间保持了较高的相关性。

2.3 TNO对比实验

在TNO数据集上不同方法下的红外与可见光图像融合前后的结果如图9和图10所示。

实验中选取两组具有代表性的融合图片，并在图中用不同颜色框给出局部放大图。

表3 融合算法在MSRS数据集上的客观评价指标

图9 TNO数据集部分一融合结果图

图10 TNO数据集部分二融合结果图

从第一组图片可以看出，CBF方法下的融合结果比较粗糙，虽然保留了源图像间的互补信息，但同时也存在一些噪声和污染，比如蓝色框中的交通标识牌和红色框中的树枝和天空，且房屋与背景信息不能很好地区分开，同样的问题出现在WLS、DenseFuse、RFN-Nest、FusionGAN、NestFuse方法中，且FusionGAN获得的融合结果倾向于保留红外典型目标，而损失了大量的可见光结构信息，比如蓝色框中的交通标识牌信息和绿色框中人物前的植物，从而导致融合结果比较模糊。PIAFusion方法虽然没有出现这个问题，但由于过度关注光照信息，从而造成部分细节信息以及显著性信息丢失，从红色框中可以看出，丢失了红外图像中树枝的信息，且绿色框中人物显著性信息保留的也不够充分；

在第二组图片中，CBF、FusionGAN方法下的融合结果也存在前景信息与背景不能很好地区分开的问题，NestFuse、DenseFuse、RFN-Nest、WLS方法下的融合结果虽然保留了可见光图像纹理细节，但是目标亮度严重缺乏，且图像背景较暗，导致其对比度偏低，部分细节不明显。且WLS融合结果存在噪声，没有PIAFusion方法和本文方法下的融合图片清晰光滑，但同样PIAFusion方法由于偏向于光照信息从而导致红色框中的烟囱信息丢失。

相较而言，本文方法的融合结果充分保留了源图像的互补信息，能在显著性目标和结构纹理的保留上取得较好的平衡，且整体比较清晰，对比度较高。

不同融合算法在TNO数据集上的客观评价指标见表4。表中指标值为42幅融合图像的平均值，其中最优值用黑色加粗字体表示，次优值用蓝色字体表示。

相比表中其它算法，本文算法在EN、MI、abf、SCD评价指标上表现为最优值，在SD、VIF上表现次优值；说明本文方法下的融合图像包含丰富的纹理信息与显著信息，融合图像保留了更多的源图像对中的互补信息，与源图像具有较强的相似性。SF指标中，传统算法CBF表现最高值，但本文算法与之数值相差仅为0.01左右，而且从融合图像根据主观评价来看，CBF算法融合图像有不同程度的失真。

表4 融合算法在TNO数据集上的客观评价指标

综合主观评价和客观指标，本文算法在TNO数据集上仍有较好的表现，说明本文算法泛化能力较好。

同时为了对比不同方法的运行效率，在表4中添加了不同方法的推理速度，推理速度指将图像数组输入到模型或者算法时开始直至得到输出的总时间消耗。推理速度不涉及到数据的预处理和后处理操作。

由表4可以看出，本文的方法相较于PIAFusion、NestFuse、RFN-Nest、CBF和FusionGAN在CPU中的推理速度明显提升，这得益于设计了轻量化的解码器结构。虽然在CPU中的推理速度低于DenseFuse和WLS，但得益于CUDA加速，在GPU上的差距并不是很明显。

2.4 消融实验

为了验证本文提出的特征增强融合模块和各损失函数的作用，本节使用TNO数据集中的42对典型红外与可见光图像设计了消融实验。采用客观评价对所有方法生成的融合图像进行测评。

其中，针对本文提出的特征增强融合模块（FEF），设计如下消融实验：

（1）除融合策略外，其余如学习率、训练轮数、损失函数系数等配置均固定；

（2）使用均值策略和最大值策略代替FEF模块，分别使用Mean、Max表示。

融合策略消融实验结果见表5。可以看出，本文提出的FEF与其他两个融合策略相比，指标abf有略有降低，其余指标均明显提升，表5中的数据验证了本文FEF融合策略的有效性。

为了验证各损失函数的作用，本文设计了如下消融实验：

1）为验证像素损失的有效性，设置1＝0,2＝30，记作1；

2）为验证梯度损失的有效性，设置1＝5,2＝0,＝0.2，记作2；

3）为验证强度损失的有效性，设置1＝5,2＝30,＝0，记作3；

4）为了验证信息感知像素损失函数的有效性，设置1＝5,2＝30,＝1，记作4；

5）本文采用的1＝5,2＝30,＝0.2，记作5。

关于损失函数的消融实验对比结果见表6。

表5 FEF模块的消融实验结果

表 6 损失函数的消融实验

通过对比5与1，可以发现去掉像素损失后，只有指标SF、abf略有上升外，其余指标均有所降低，尤其指标MI大幅下降，在5与3的对比中同样可以观察到这一点，这说明去掉像素损失中的强度损失会造成融合图像中包含的源图像信息显著减少；通过对比5与2，可以发现移除梯度损失后，指标abf明显下降，可以得知移除梯度损失会造成融合图像中包含源图像中的显著信息减少；通过对比5与4，发现在已有强度损失和梯度损失的前提下，增加信息感知像素损失后，与信息相关的指标EN、MI、SCD进一步得到提升，可以得知增加该损失函数可以促使网络生成更加具有丰富信息的融合图像。

同时从指标整体上来看，使用强度损失、信息感知像素损失和梯度损失的方案5相较于其余方案获得了更多的最优值。因此本文的损失函数采用方案5。

3 结论

本文提出了结合信息感知与多尺度特征的红外与可见光图像融合方法，首先设计了多尺度特征编码和解码网络，以充分利用不同尺度的红外与可见光图像特征；然后在编码器和解码器中间构建了可学习的特征增强融合模块FEF，以融合各个尺度的不同模态特征。此外，本文提出了基于信息感知的像素损失函数，以指导网络生成具有丰富信息的融合图像。消融实验验证了FEF模块和损失函数中各部分的有效性。同时，在MSRS和TNO数据集上，与7种典型方法进行了对比实验，结果表明本文方法在推理速度、主客观评价方面的综合表现具有优越性。如何构造更加轻量级的融合网络以便后续计算机视觉应用是下一步重点研究的内容。

[1] 白玉, 侯志强, 刘晓义, 等. 基于可见光图像和红外图像决策级融合的目标检测算法[J]. 空军工程大学学报: 自然科学版, 2020, 21(6): 53-59.

BAI Yu, HOU Zhiqiang, LIU Xiaoyi, et al. An object detection algorithm based on decision-level fusion of visible light image and infrared image[J].: Natural Science Edition, 2020, 21(6): 53-59.

[2] CAO Yanpeng, GUAN Dayan, HUANG Weilin, et al. Pedestrian detection with unsupervised multispectral feature learning using deep neural networks[J]., 2019, 46: 206-217.

[3] 段辉军, 王志刚, 王彦. 基于改进YOLO网络的双通道显著性目标识别算法[J]. 激光与红外, 2020, 50(11): 1370-1378.

DUAN Huijun, WANG Zhigang, WANG Yan. Two-channel saliency object recognition algorithm based on improved YOLO network[J]., 2020, 50(11): 1370-1378.

[4] Tang Linfeng, Yuan Jiteng, Ma Jiayi. Image fusion in the loop of high-level vision tasks: A semantic-aware real-time infrared and visible image fusion network[J]., 2022, 82: 28-42.

[5] CHEN Jun, LI Xuejiao, Luo Linbo, et al. Infrared and visible image fusion based on target-enhanced multiscale transform decomposition[J]., 2020, 508: 64-78.

[6] LIU Xingbin, MEI Wenbo, DU Huiqian. Structure tensor and nonsubsampled shearlet transform based algorithm for CT and MRI image fusion[J]., 2017, 235: 131-139.

[7] LIU Yipeng, JIN Jing, Wang Qiang, et al. Region level based multi-focus image fusion using quaternion wavelet and normalized cut[J]., 2014, 97: 9-30.

[8] Zhang Qiong, Maldague X. An adaptive fusion approach for infrared and visible images based on NSCT and compressed sensing[J]., 2016, 74: 11-20.

[9] Li Hui, Wu Xiaojun J, Kittler J. MDLatLRR: A novel decomposition method for infrared and visible image fusion[J]., 2020, 29: 4733-4746.

[10] Liu Yu, Chen Xun, Ward R K, et al. Image fusion with convolutional sparse representation[J]., 2016, 23(12): 1882-1886.

[11] Fu Zhizhong, Wang Xue, Xu Jin, et al. Infrared and visible images fusion based on RPCA and NSCT[J]., 2016, 77: 114-123.

[12] Mou Jiao, Gao Wei, Song Zongxi. Image fusion based on non-negative matrix factorization and infrared feature extraction[C]//6th(CISP)., 2013, 2: 1046-1050.

[13] Ma Jiayi, Chen Chen, Li Chang, et al. Infrared and visible image fusion via gradient transfer and total variation minimization[J]., 2016, 31: 100-109.

[14] Liu Yu, Liu Shuping, Wang Zengfu. A general framework for image fusion based on multi-scale transform and sparse representation[J]., 2015, 24: 147-164.

[15] Li Hui, Wu Xiaojun. DenseFuse: A fusion approach to infrared and visible images[J]., 2018, 28(5): 2614-2623.

[16] Ma Jiayi, Yu Wei, Liang Pengwei, et al. FusionGAN: A generative adversarial network for infrared and visible image fusion[J]., 2019, 48: 11-26.

[17] 武圆圆, 王志社, 王君尧, 等. 红外与可见光图像注意力生成对抗融合方法研究[J]. 红外技术, 2022, 44(2): 170-178.

WU Yuanyuan, WANG Zhishi, WANG Junyao, et al. Infrared and visible image fusion using attention-based generative adversarial networks[J]., 2022, 44(2): 170-178.

[18] Hou Ruichao, Zhou Dongming, Nie Rencan, et al. VIF-Net: an unsupervised framework for infrared and visible image fusion[J]., 2020, 6: 640-651.

[19] Tang Linfeng, Yuan Jiteng, Zhang Hao, et al. PIAFusion: A progressive infrared and visible image fusion network based on illumination aware[J]., 2022, 83: 79-92.

[20] Li Hui, Wu Xiaojun, Durrani T. NestFuse: An infrared and visible image fusion architecture based on nest connection and spatial/channel attention models[J]., 2020, 69(12): 9645-9656.

[21] Li Hui, Wu Xiaojun, Kittler J. RFN-Nest: An end-to-end residual fusion network for infrared and visible images[J]., 2021, 73: 72-86.

[22] Toet Alexander. TNO Image Fusion Dataset[EB/OL]. [2022-08-20]. https://doi.org/10.6084/m9.figshare.1008029.v2.

[23] WANG Qilong, WU Banggu, ZHU Pengfei, et al. ECA-Net: efficient channel attention for deep convolutional neural networks[C]//(CVPR), 2020: 11531-11539.

[24] Kumar B S. Image fusion based on pixel significance using cross bilateral filter[J]., 2015, 9(5): 1193-1204.

[25] MA Jinlei, ZHOU Zhiqiang, WANG Bo, et al. Infrared and visible image fusion based on visual saliency map and weighted least square optimization[J]., 2017, 82: 8-17.

Infrared and Visible Image Fusion Combining Information Perception and Multiscale Features

QU Haicheng，HU Qianqian，ZHANG Xuecong

(School of Software, Liaoning Technical University, Huludao 125105, China)

Existing image fusion algorithms based on deep learning are unable to satisfy the demands of computational efficiency and fusion effect. Most have also adopted a fusion strategy based on a single-scale model, which cannot effectively extract the contextual information in images. This study proposes an end-to-end image fusion network based on information perception and multiscale features. The network consists of an encoder, a fusion strategy, and decoder. Specifically, the multiscale features of the infrared and visible images were extracted by the encoder, and a feature complementary enhancement module was designed to fuse different modal multiscale features. Finally, the lightweight decoder was designed to combine the low-level details and high-level semantic information. In addition, the information entropy of the source image was used to construct an information-sensing loss function to train the fusion network and generate the fused image with rich information. The proposed fusion framework was evaluated on the TNO and MSRS datasets. The results show that compared with existing fusion methods, the proposed network was superior to other methods in terms of both subjective visual description and objective index evaluation, with higher computational efficiency.

image fusion, multi-scale feature, information perception, feature complementary enhancement

TP391

1001-8891(2023)07-0685-11

2022-08-28；

2022-11-30.

曲海成（1981-），男，博士，副教授，主要研究方向：图像与智能信息处理。E-mail：quhaicheng@lntu.edu.cn。

辽宁省教育厅一般项目（LJ2019JL010）；辽宁工程技术大学学科创新团队资助项目（LNTU20TD-23）。