基于显著性检测与MDLatLRR分解的红外与可见光图像融合

2023-07-31 02:54:02龙志亮邓月明王润民

红外技术 2023年7期

龙志亮，邓月明，王润民，董俊

龙志亮，邓月明，王润民，董俊

（湖南师范大学信息科学与工程学院，湖南长沙 410081）

针对红外与可见光图像融合过程中细节信息的缺失、融合结果对比度较低等问题，提出一种基于显著性检测与多层潜在低秩表示的红外与可见光图像融合方法。首先，使用基于显著性检测的方法对红外与可见光图像进行预融合；然后，使用多层潜在低秩表示方法依次将红外图像、可见光图像和预融合图像分解为低秩层和细节层；其中细节层采用结构相似性和L2范数相结合的方法进行融合，低秩层使用基于能量属性的方法进行融合；最后，将低秩层和细节层的融合结果重构便得到最终的融合图像。文中将该方法与11种具有代表性的图像融合方法进行了评估比较，通过对比多组融合图像的主客观评价，其结果表明，相较于对比方法，本方法能够保留红外与可见光图像融合过程中源图像的有效细节，且融合结果具有较高的对比度，更符合人们的视觉理解。

图像融合；显著性检测；潜在低秩表示；红外图像；可见光图像

0 引言

单一传感器的成像不一定能反映目标场景的完整信息，为达到更好的视觉理解，有时我们需要集合两个或多个相同场景的图像共同来表达目标信息[1]。图像融合是一种将多幅不同的源图像中有用或互补的信息组合到一幅图像中的技术，其融合结果能完整、清晰地描述目标场景信息，以促进后续的目标检测、识别、跟踪等计算机视觉研究[2-3]。

根据成像机理的差异，图像可分为多模态、多光谱以及数字摄影图像，多模态图像主要包括红外与可见光图像、医学图像和遥感图像[4]，其中可见光图像能为计算机视觉任务提供丰富的背景和直观的细节信息，其成像特点符合人的视觉理解，但在光线较暗或天气不明朗的环境中无法突出重要的目标信息；红外图像能根据物体和环境的热辐射差异，将目标和背景信息区分开，且不受低能见度或恶劣天气环境的影响，但其空间分辨率较低，不能反映图像的纹理细节[2]。将红外图像与可见光图像进行融合，既能结合红外图像中热辐射差异信息，又能结合可见光图像中细致的纹理信息，因此红外与可见光图像融合广泛应用于车载、夜间行驶、安防监视等计算机视觉领域[1]。

现有的红外与可见光图像融合主流方法可分为传统法和深度学习法[5]两大类，基于深度学习的方法在图像处理领域有着巨大的研究前景，其原理是通过设计一种网络框架和损失函数[4]，实现对图像信息的特征提取、特征融合及图像重构，但其过程需要依靠大量的训练数据来确保融合的准确性，融合过程中易出现特征提取不完整的情况，且其网络框架也难以解释[6-7]。传统方法主要包括多尺度变换、稀疏表示、基于显著性、基于子空间以及混合方法[1-2]，其中基于多尺度变换是一种常用的图像融合方法，且融合结果符合人们的视觉理解[3]，其原理是通过多尺度变换将图像分解为多个方向的尺度，根据每个尺度相应的特点采取不同的融合策略进行融合，最终通过逆变换重构出融合图像，能够有效融合多个方向的有效信息。目前来讲，尽管深度学习方法有着巨大的研究前景，但基于多尺度变换实现图像融合的方法灵活多变、更受欢迎，且融合效果更好。

基于多尺度变换能够融合各个方向的有效信息，其融合结果符合人们的视觉观察，但也存在一些问题。首先，传统的多尺度分解方法的分解过程中存在伪影现象[2]，导致融合结果不太理想，且基部采用简单的权值分配的融合规则，使融合结果的对比度信息较低，目标信息不够突出[7]。此外，不是所有可见光图像中的细节信息都是有效的，如汽车灯、路灯等局部高亮度信息不能反映目标场景的有效细节，但过于简单的融合策略无法提取目标场景中的有效细节，易将无效的细节注入到融合图像中，导致融合过程中出现细节信息缺失的问题。

为了解决红外与可见光图像融合过程中细节信息的缺失、融合结果对比度较低等问题，本文提出一种基于显著性检测与多级潜在低秩分解（Multi-level image Decomposition base on Latent Low-Rank Representation，MDLatLRR）的红外与可见光图像融合方法，通过对源图像使用显著性检测以突出图像的显著特征，潜在低秩表示将图像分解为低秩层和细节层，其中低秩层引入能量属性进行融合，保留了源图像中大部分的背景信息，对于细节层引入结构相似性系数和L2范数进行融合，充分提取了目标场景的有效细节信息，且融合结果的对比度也得以提高。

1 本文方法

本文提出的基于显著性检测与MDLatLRR分解实现红外与可见光图像融合分为3个步骤：图像预融合、图像分解、图像二次融合。图1为实现本文方法的框架，具体地，对红外与可见光图像使用显著性检测的方法获取预融合图像，然后通过多层潜在低秩表示方法，将预融合图像分解为一层低秩图像，多层细节层图像，分别引入不同的融合策略对其二次融合，最后通过重构图像得到最终的融合图像。

1.1 图像预融合

显著性检测旨在识别输入图像上最引人注目的对象，例如比邻域更重要的人，物体等信息[8-10]。对源图像使用显著性检测获取的预融合图像，突出了源图像中的显著特征信息，同时为细节层融合提供了参考。图2为获取预融合图像的框架，包括双尺度分解、显著性检测、图像预融合3部分。

1）通过双尺度变换将红外与可见光源图像分解为基础层和细节层，如式(1)和(2)所示，I表示源图像，文中通用下标取1或2，分别代表红外与可见光图像对应的部分，Mean(×)表示尺寸为×的均值滤波器，(·)表示滑窗操作，*是卷积运算符，对源图像进行均值滤波得到基层图像bi；源图像I减去基层图bi像得到细节层图像di。

bi＝Mean(×)*(I) (1)

di＝I－bi(2)

2）如式(3)和(4)所示，定义一种显著性检测，gi表示源图像I经过引导滤波后的结果，其中引导图与输入图像相同，为滤波器尺寸，eps为滤波参数；S就是对源图像通过显著性检测得到的显著特征图层。

gi＝guidedfilter(I,,, eps) (3)

3）对获取的显著特征图层归一化，作为预融合细节层图像的权重系数，基层选取加权平均的融合规则，B为预融合的基层图像，D为预融合的细节层图像，pf为预融合图像。

＝S/(1＋2) (5)

D＝1×d1＋2×d2(6)

B＝0.5×(b1＋b2) (7)

pf＝B＋D(8)

图1 本文方法的总体框架

图2 图像预融合的实现框架

1.2 图像分解

图像分解旨在将一幅包含完整目标信息的图像分解为各个方向的尺度，其每个方向包含不同的特征信息，通过对不同方向采用不同的融合方法将特征信息进行融合，从而把源图像中有效的信息注入到融合图像中，使融合结果符合人们的视觉特征。潜在低秩表示（Latent Low-Rank Representation，LatLRR）理论是在低秩表示（Low-Rank Representation，LRR）理论的基础上发展而来的子空间分割算法，解决了LRR方法输入数据不充分或严重损坏的问题，能够提取图像的低秩结构和细节特征，如式(9)和(10)所示，将LatLRR问题表示为优化问题[11]：

＝＋＋(9)

式中：为输入源图像矩阵；是低秩系数矩阵；是学习得到的显著性系数矩阵；代表噪声；为分离出来的低秩信息；包含图像大部分的细节和显著信息[12]。＞0，表示平衡系数，||·||∗为nuclear范数，描述奇异矩阵值之和，||.||1表示L1范数，用于表征稀疏噪声。

基于多层潜在低秩表示将图像分解为低秩层和细节层的实现如式(11)和(12)所示[13]：

式中：为输入图像；表示分解的层数；Z为第级分解的低秩层；D为第级分解的细节层；(·)表示滑窗和矩阵重组两种运算符；D为输入图像分解的结果；(·)是一种重构运算符，从D中重构出细节层图像，将输入图像减去细节层就得到对应的低秩层图像。

1.3 图像二次融合

红外、可见光源图像以及预融合图像被分解为低秩层和细节层，针对每层不同的特征采用不同的融合规则进行融合。具体地，将可见光和预融合图像的低秩层使用一种基于能量属性的方法进行融合，其结果作为最终图像的基层；红外与可见光图像的细节层通过L2范数与结构相似性系数相结合的方法进行融合，其结果作为最终图像的细节层，将得到的基层和细节层进行相加重构，得到最终的融合结果。

1.3.1 低秩层融合

定义一种能量属性[14]EA，如式(13)和(14)所示：

IE＝(m＋h)/2 (13)

EA(,)＝exp[×|Z(,)-IE|] (14)

式中：m表示图像的均值；h表示图像的中值；IE是包括图像均值和中值的固有属性，将图像的低秩层Z与固有属性IE做减法操作，然后通过一种指数运算，得到能量属性EA，在式中作为调整能量属性值的参数。

根据式(13)、(14)，分别求取红外和预融合图像的能量属性，用EA1和EA2表示，计算其权重比例，作为可见光低秩层图像Zvi和预融合低秩层图像Zpf的融合系数，最后将其对应加权相加得到在最终融合图像的基层IMB。

(,)＝EA(,)/[EA1(,)＋EA2(,)] (15)

IMB＝1(,)×Zvi(,)＋2(,)×Zpf(,) (16)

可见光图像中含有丰富的背景信息，预融合图像包含了源图像中的显著性信息，通过基于能量属性的方法将可见光图像和预融合图像的低秩层进行融合，能保留源图像中丰富的背景信息，提高融合图像的对比度，同时加强了相邻像素间的联系。

1.3.2 细节层融合

针对过于简单的融合规则无法提取可见光图像中有效细节信息的问题，本文把潜在低秩分解获得的红外与可见光图像的细节层，采用L2范数和结构相似性（structural similarity，SSIM）相结合的方法进行融合，融合结果作为最终融合图像的细节层，流程图如图3所示。

图3 细节层图像融合框架图

1）计算结构相似性

结构相似性表征两个图像之间的相似度，包括图像的亮度、对比度、结构3个特征[15-16]，如式(17)所示：

式中：、分别代表两幅图像的平均灰度；、分别代表两幅图像的标准差；代表两幅图像的协方差；1、2为常数，选择适当的参数可以调整高度、对比度、结构3个特征的权重。

＝1＋SSv_f－SSi_f, (0≤≤1) (18)

根据公式(17)计算红外图像和预融合图像之间的结构相似性，结果用SSi_f表示，计算可见光图像和预融合图像之间的结构相似性，结果用SSv_f表示，再根据式(18)将计算的结果进一步转化为平衡系数，用来控制红外与可见光图像的细节信息分配；SSv_f≥SSi_f时，＝1，说明该区域中可见光图像能提供较多的有效细节信息；SSv_f＜SSi_f时，＜1，表示该区域融合图像中大部分有效的细节信息应来自红外图像。

2）L2范数优化融合细节层

针对过于简单的融合策略无法提取可见光图像的有效细节，易将无效的细节注入到融合图像中，导致融合过程中出现细节信息缺失的问题，本文使用L2范数和结构相似性系数相结合的方法，提取出红外图像中含有的少量细节信息，以及可见光图像中有效的细节信息，如式(19)所示，细节层图像融合被视为一个最小优化问题[7]：

式(20)和(21)中IDfi、IDir和IDvi分别表示第层最终融合图像的细节层，红外、可见光图像通过潜在低秩分解后的细节层，ir、vi分别为第层红外、可见光细节层图像融合的增强系数，大小为源图像细节层的全局均方根误差和局部均方根误差的比值，红外、可见光图像细节层乘上对应增强系数与最终融合图像细节层的偏差分别用、表示，当偏差值最小时，此时的IDfi为最终求取的第层融合细节层，其中是由式(18)获得的平衡系数，用来提取可见光图像中的有效细节信息。式(22)中的表示ir与IDir的乘积，为vi与IDvi的乘积。

1.3.3 图像重建

将各层细节层融合的图像IDfi累加得到最终融合图像的细节层IMD，然后将基层的融合图像IMB与最终融合图像的细节层IMD相加重构获得最终的融合图像IMF：

IMF＝IMB＋IMD (24)

式中：为潜在低秩表示分解的总层数。

2 实验参数

实验中的红外与可见光输入源图像来自于TNO公共数据集[17]，其包含了不同军事相关的多光谱夜间图像，通过不同多波段的相机系统将图像配准好，有多种不同分辨率的灰度图像。

预融合过程中，中值滤波的滤波器尺寸＝5；对可见光图像进行引导滤波的滤波器尺寸＝45，滤波参数eps＝0.3；对红外图像进行引导滤波的滤波器尺寸＝7，滤波参数为eps＝10－6；多层潜在低秩分解的总层数=4；低秩层融合过程中，调整能量属性的参数＝4；求解结构相似性系数中的参数1＝2＝1；

实验在配置为Intel core i5-6500，CPU主频3.2GHz，16G RAM，Windows10系统下的计算机上运行的，实验环境平台为MATLAB R2016b。

3 实验与分析

为验证本文方法的性能，融合实验中选择4组经典的红外与可见光图像数据集，分别为‘Camp、Kaptein、Marne、Airplane in Trees’；同CBF[18]、CNN[19]、GFCE[20]、GFF[21]、HMSD_GF[20]、IVFusion[7]、LP[22]、MDLatLRR[13]、NSST_PCNN[14]、TIF[9]、VSMWLS[23]共11种具有代表性的图像融合方法进行了定性和定量的比较，图4～7分别为11种融合方法以及本文提出方法对“Camp、Kaptein、Marne、Airplane in Trees”4组数据集融合结果的对比。

由图4～7可知，大部分融合方法都能将红外图像中较强的目标信息和可见光图像中丰富的纹理和细节信息融合成一幅图像，但CBF方法容易给融合图像带来噪点，在数据集Kaptein、Airplane in Trees’的融合上尤为突出；GFF、HMSD_GF、NSST_PCNN、TIF、VSMWLS方法融合的图像亮度信息不高，无法突出图像的细节，边缘轮廓也较模糊；IVFusion方法的融合结果在目标和背景都呈现较高的亮度，但目标与背景的对比度较差，无法突出目标特征；LP方法在一些区域混肴了图像的目标和背景信息，导致无法正确提取显著信息；总的来说，GFCE、MDLatLRR以及本文提出的方法融合效果都有着较好的视觉理解，但遇到目标和背景很接近的场景时，如‘Airplane in Trees’数据集中，在背景为森林中的飞机目标难以察觉，GFCE和MDLatLRR融合效果有所降低，不能突出有效的细节信息，而本文提出方法的融合结果有着较好的清晰度，目标与场景的对比度较高，有着丰富的细节纹理。

图4 数据集‘Camp’的融合图像

图6 数据集‘Marne’的融合图像

客观评价使用平均梯度（average gradient，AG）、交叉熵（cross entropy，CE）、边缘强度（edge intensity，EI）、信息熵（information entropy，EN）、互信息（mutual information，MI）、CV（Chen-Varshney）、标准差（standard deviation，SD）、空间频率（spatial frequency，SF）、结构相似性SSIM以及视觉信息保真度（visual information fidelity，VIF）10种评价指标[5,24]。其中CE和CV2个指标值越小代表融合结果越好，其余8个指标值越大代表融合效果越佳，表1～4为4组数据集融合结果的客观评价指标和运行时间对比，其中最优值数据用红色表示，次优值用蓝色表示，第三用绿色表示。

图7 数据集‘Airplane in Trees’的融合图像

表1 数据集‘Camp’的融合结果客观评价指标