基于信息瓶颈孪生自编 码网络的红外与可见光图像融合

2024-04-11 12:31马路遥罗晓清张战成
红外技术 2024年3期
关键词:瓶颈红外权重

马路遥,罗晓清,张战成

基于信息瓶颈孪生自编 码网络的红外与可见光图像融合

马路遥1,2,3,罗晓清1,2,3,张战成4

(1. 江南大学 人工智能与计算机学院,江苏无锡 214122;2. 江南大学 先进技术研究院,江苏 无锡 214122;3. 江苏省模式识别与计算智能工程实验室,江苏 无锡 214122;4. 苏州科技大学 电子与信息工程学院,江苏 苏州 215000)

红外与可见光图像融合方法中存在信息提取和特征解耦不充分、可解释性较低等问题,为了充分提取并融合源图像有效信息,本文提出了一种基于信息瓶颈孪生自编码网络的红外与可见光图像融合方法(DIBF:Double Information Bottleneck Fusion)。该方法通过在孪生分支上构建信息瓶颈模块实现互补特征与冗余特征的解耦,进而将互补信息的表达过程对应于信息瓶颈前半部分的特征拟合过程,将冗余特征的压缩过程对应于信息瓶颈后半部分的特征压缩过程,巧妙地将图像融合中信息提取与融合表述为信息瓶颈权衡问题,通过寻找信息最优表达来实现融合。在信息瓶颈模块中,网络通过训练得到特征的信息权重图,并依据信息权重图,使用均值特征对冗余特征进行压缩,同时通过损失函数促进互补信息的表达,压缩与表达两部分权衡优化同步进行,冗余信息和互补信息也在此过程中得到解耦。在融合阶段,将信息权重图应用在融合规则中,提高了融合图像的信息丰富性。通过在标准图像TNO数据集上进行主客观实验,与传统和近来融合方法进行比较分析,结果显示本文方法能有效融合红外与可见光图像中的有用信息,在视觉感知和定量指标上均取得较好的效果。

信息瓶颈;孪生自编码;解耦表征;红外与可见光;图像融合

0 引言

图像融合是一种图像增强技术,旨在将由不同传感器获得的图像合并为一幅图像,从而增强对场景的解释[1]。红外与可见光图像融合作为图像融合分支,受到许多研究人员的关注[2-4]。

红外图像由红外传感器采集,含有显著的热辐射目标,成像不受时间、空间影响,但不能很好地采集到场景中的纹理细节;相反,由可见光传感器采集的可见光图像虽然包含丰富的纹理细节,但在天气恶劣、有遮挡物的情况下容易丢失目标[5]。红外与可见光图像融合技术能够改善单一图像成像的不足,将多传感器图像中的有用信息综合,形成融合图像,为军事安全和夜视监控等提供重要指导[6]。

在过去几年中,深度学习模型由于其学习能力强、鲁棒性高等优点在图像融合任务中展现了巨大的潜能[7-9]。自编码网络作为典型的深度无监督学习模型,能够从无标签样本中自动学习样本的有效特征[10],其分支孪生自编码网络由于其在类别不平衡数据上的良好表现吸引了众多学者[11-12]。目前,自编码网络已大量应用于图像融合领域,并取得一系列成果,例如:Li等提出的Densefuse[13]首次引入自编码网络进行图像分解和图像重构,随后提出的NestFuse[14]在DenseFuse的基础上使用了空间/通道注意力机制,进一步提升了融合效果。但它们都只是简单使用编码器生成红外与可见光特征图,未对特征做进一步分解,对不同传感器模态之间的互补冗余信息未单独关注。

图像融合技术的本质是综合多传感器图像的互补信息,因此通过解耦表征方法探索图像特征内部的互补冗余关系,对互补信息和冗余信息采用不同的融合规则进行融合是一条值得探索的途径。近年来,研究者开始将解耦表征应用于红外与可见光图像融合[15-17]。Zhao等提出DIDFuse(Deep Image Decomposition based IVIF)[18],通过将源图像分解为具有高低频信息的背景特征和细节特征来实现解耦,解耦后特征串联送入解码器获得融合图像。该方法的网络结构相对简单,并未充分解耦卷积神经网络提取的特征信息,生成的融合图像清晰度不高。基于红外与可见光图像是在同一场景下由不同传感器拍摄的背景,Xu等提出DRF(Disentangled Representation for Visible and Infrared Fusion)[19]方法,将源图像解耦为相似的场景特征和独特的传感器特征,在融合阶段进行了交叉融合,并设计相应的损失函数促进解耦。此方法在大部分图像上获得了较好的解耦效果,但部分耦合度较高的图像不适用于此网络,网络鲁棒性不高。虽然作者设置了红外与可见光参数的不同配比来解决此问题,但需要依据具体图像设置,因而不具备通用性。Xu等提出CUFD(Common and Unique Feature Decomposition)[20],此方法的新颖之处在于使用双层自编码网络来实现特征解耦,其中一个编码器将图像映射为浅层特征和深层特征,另一个编码器将浅层特征和深层特征又分别映射为共用信息和唯一信息,使得编码阶段特征解耦充分。以上基于解耦表征的图像融合方法都是通过设置复杂的损失函数这种隐式约束方法来促进解耦,并没有进行显示监督,这导致网络的可解释不高,对部分图像会出现解耦不足、解耦过度等问题,融合算法鲁棒性不强。

基于上述分析,本文提出一种基于信息瓶颈孪生自编码网络的红外与可见光图像融合方法。信息瓶颈理论认为,网络像把信息从一个瓶颈中挤压出去,去除掉那些含有无关细节的噪声输入数据,只保留与预测目标最相关的特征。对于自编码图像融合网络,其结构含有编码层、融合层、解码层,其网络训练过程可以理解为训练一个权重组合,使得与最终融合图像相关的信息从网络输入(红外与可见光图像)传播至网络输出(融合图像),而与最终融合图像无关的信息在编码过程中压缩掉。当在网络中引入信息瓶颈的权衡优化时,融合网络能够逐层挤压出与输入源图像有关但与融合图像无关的信息,从而实现对冗余信息的压缩和对互补信息的表达,得到融合结果。因此,本文在编码阶段孪生分支上构建信息瓶颈模块,训练出最优的信息权重图,结合信息瓶颈思想实施对互补特征的表达和对冗余特征的压缩,实现了特征图信息显式解耦,具有较好的可解释性。在融合阶段,进一步采用信息权重实现了对互补信息的充分融合。

1 信息瓶颈理论

2020年,Naftali Tishby在“The information bottleneck method”一文[21]中率先提出了信息瓶颈理论。他从信息论中关于数据压缩的经典率失真定律出发,拓展出信息瓶颈理论,并从信息瓶颈理论角度认为深度学习训练过程包含“特征拟合”和“特征压缩”两个阶段,将深度学习的训练问题表述为特征拟合和特征压缩两个阶段之间的平衡问题[22-23]。

使用信息瓶颈理论的关键在于找到信息瓶颈理论的权衡问题以及如何使用信息瓶颈理论来设计一个强大的分离函数[24]。在深度网络中,假设输入数据记为,期望输出数据为,深度学习的训练目标可以解释为寻求输入源的最优表示,即为网络的信息瓶颈,整个过程包含两个部分:①尽可能多地捕获关于目标的相关信息,即最大化(;);②通过丢弃不相关的部分即对没有贡献的信息来最大限度地压缩,即最小化(;),两个部分的优化同时进行。具体表示为以下的拉格朗日目标[25]:

式中:(;)表示无关信息的压缩程度,(;)表示相关信息的预测能力;为两者之间的权衡参数。

2 基于信息瓶颈孪生自编码网络的红外与可见光图像融合方法(DIBF)

2.1 DIBF融合方法流程

本文方法是一个端到端的图像融合网络,由编码器、融合网络和解码器组成,融合框架如图1所示。网络的输入为已配准的红外图像(IR)与可见光图像(VIS),输出为融合图像(F)。基于信息瓶颈孪生自编码网络的红外与可见光图像融合流程如下:

图1 DIBF流程图

3)融合与解码:在融合阶段对编码得到的两类特征与分别融合。对特征采用基于信息权重图加权平均的融合方法,对特征采用取最大值的方法融合,融合结果分别为f和f,融合过程详见2.3节。最后,f和f都包含了经过编码阶段的权衡优化后保留的有效信息,为保证融合图像信息充分,将和的融合结果取均值得到融合特征。然后将送入解码器获得融合图像,解码器包含4个卷积层,卷积核为3×3,通道数分别为64,32,32,3。

2.2 信息瓶颈(Information bottleneck,IB)模块

在编码阶段,为了将红外和可见光特征图中的互补信息和冗余信息解耦,并通过信息瓶颈理论对特征的表达与压缩进行权衡优化,本文在前两层孪生分支上构建了IB模块。

由信息瓶颈思想可知,本文IB模块的权衡包含两个部分:第一部分是将互补信息表达,并通过后续融合与解码获得融合图像。第二部分是将冗余压缩,防止其影响融合图像质量,两部分的权衡优化同步进行。

为实现特征的显式解耦以及互补特征的表达与冗余特征的充分压缩,每个IB模块训练得到一个信息权重图的大小与特征图的大小一致,值在0~1之间。以IR为例,IB模块流程为:

①通过IB网络训练获得一个信息权重图

②使用均值特征对红外图像的特征进行压缩,得到压缩后特征:

式中:权重表示红外图像中互补信息的权重;1-表示红外图像中冗余信息的权重;使用像素平均图特征avg对红外图像中的冗余信息进行抑制。可以看出,实现了对互补特征与冗余特征的显式化解耦,更利于后续的融合操作。

图2 信息权重图示意图

2.3 融合规则

本文融合规则包含两部分,分别为对特征(ir3,vis3)和特征(ir3,vis3)的融合:

①由于信息权重图代表了各层次特征对最终融合图像的贡献程度,同时它经过网络训练获得,因此能够自适应地用于红外和可见光图像中互补信息的融合,弥补了人工设计融合权重的不足,因此本文采用基于的加权平均的方法实现特征的融合:

②为保证融合方法不引入现有图像对之外的信息,本文使用均值图像作为噪声图像对IR与VIS的特征进行压缩,最终ir3和vis3为经过编码阶段信息瓶颈权衡优化后得到的特征图,是红外与可见光图像互补信息充分提取、冗余信息充分压缩的结果,因此直接采用取最大值的方法对压缩特征ir3,vis3进行融合:

式中:ir3和vis3分别为红外与可见光图像的特征经过IB模块权衡优化后的第三层特征图;f为ir3和vis3的融合特征图。

为了更充分地获取信息,最后将f和f取平均得到总体融合特征图:

2.4 损失函数设计

本文损失函数包含两部分:第一部分为信息瓶颈损失IB,第二部分为编码器重建损失rec,总损失函数表示如下:

train=IB+rec(7)

式中:为IB和rec之间的权衡参数。

2.4.1 信息瓶颈损失函数

信息瓶颈损失IB用来优化信息瓶颈权衡过程,包含压缩损失cut和预测损失pre两部分,第一部分cut控制冗余信息的压缩程度,第二部分pre控制互补信息的表达预测能力,IB表示如下:

IB=cut+pre(8)

式中:为两者之间的权衡参数。

cut为和之间的内积,cut越小,对冗余信息的压缩程度越高。

pre包含gen和reg两部分,表示如下:

pre=gen+reg(10)

gen为生成损失,控制编码网络同分支下第三层生成的特征和之间的一致性,gen越小,两个特征越相似,使用两个特征之间的余弦距离来表示:

reg为回归损失,对融合图像输入编码网络孪生分支生成的特征进行约束,包含pos和neg两部分:

reg=pos+neg(12)

融合图像经过编码网络得到的特征分别为fir、fvis,红外与可见光图像经过编码网络得到的特征分别为ir3、vis3,pos则约束由编码网络中同一分支得到的两个特征接近,用余弦距离表示;neg约束由不同分支得到的两个特征远离,并且远离程度保持一致(如图3所示),图3(a)中fvis应在横轴vis3附近,同时远离纵轴ir3,图3(b)中fir应在横轴ir3附近,同时远离纵轴vis3。pos和neg具体定义如下:

2.4.2 训练重建损失函数

重建损失rec包含了融合图像和源图像之间的像素距离和梯度距离,分别使用像素和梯度之间的二范数来表示:

3 实验结果与分析

在训练阶段,选择Zhang等人提出的IFCNN数据集[26]作为训练集,它包含1400多对灰度多聚焦图像,网络模型在TensorFlow上的Keras中实现,优化器设置为Adam,批处理大小为2,迭代次数为200,学习率为0.0003。测试阶段选择源自TNO数据集的40对已配准的红外与可见光图像进行实验。实验环境为ubuntu16,CPU Intel(R) Core i7-6850k,内存为64G,实验参数设置为=1,=1.2,=1,=1。

为验证本文算法的有效性和优越性,将本文方法与6种经典的图像融合算法进行定性和定量的比较分析,其中包含两种传统方法和4种基于深度学习的图像融合方法,分别为GTF(Fusion via Gradient Transfer)[27]、Densefuse[13]、DRF[19]、DIDFuse[18]、SDNet(Squeeze-and-decomposition network)[28]、LPSR(Laplacian Pyramid and Sparse Representation)[29]。

本文从主客观两方面进行对比分析:主观上比较融合图像的视觉效果;客观上,选择SSIM、EN、cv、CC、s和nice六种客观指标对融合结果进行评价。其中,SSIM为相似度,衡量图像结构化信息丢失程度,SSIM的值越大,融合图像与源图像的相似度越大,融合质量越好;EN为信息熵,用来衡量图像中信息量的多少,EN的值越大,融合效果越好。cv是一种人类启发感知的图像融合质量评价指标,cv的值越小,图像质量越高,保留的原始两幅图像的信息也就越多。CC为相关系数,用来衡量源图像和融合图像之间的线性关系,CC的值越大,代表融合图像与源图像越相似。nice通过计算源图像与融合图像间的非线性相关信息熵来衡量图像间的相似度,nice的值越大,图像融合效果越好。

3.1 TNO数据集实验结果及分析

图4为各方法在“soldier behind smoke”图像上获得的融合结果。红外图像(图4(a))的互补信息是目标人物和背景森林,可见光图像(图4(b))显示此区域有烟雾,这是一种在军事战场环境下极容易出现的情况,即在可见光图像中目标人物被遮挡,而在红外图像中看不到可见光图像中的烟雾的位置及大小情况,不利于军事判断。对融合图像的要求是能够同时显示红外图像中的士兵信息和背景森林信息以及区域的烟雾性。

由图4可知,GTF方法是一种使用VIS图像中丰富的纹理来增强IR图像的方法,但对于图4中VIS图像有浓厚烟雾的情况,此方法有明显劣势,从图4(c)可以看出,融合图像包含大量伪影,细节信息丢失严重;Densefuse方法是一种基于残差网络的获得的融合图像算法,能够将图像特征传入更深层次的网络中,避免过快出现梯度爆炸,从图4(d)可以看出,烟雾、背景树干和目标人物信息融合较好,但由于没有进行解耦操作,相较于本文方法,图像对比度和目标人物的清晰度不高。DRF、DIDFuse都对图像特征进行了解耦,但解耦和重建过程都通过损失函数隐式约束,可解释性不高,从图4(e)~(f)可以看出,获得的融合图像中烟雾几乎遮挡了人物信息,视觉效果较差。SDNet是一种复杂度较高的压缩分解网络模型,因此存在着在数据量不充足情况下的训练不充分问题,从图4(g)可知,所得图像存在大量伪影,烟雾区域不够明显。LPSR是一种结合了多尺度变换和稀疏表示的传统方法,其中人工设计的复杂特征提取方法没能有效保留源图像的重要信息,从图4(h)可以看出,其融合结果中烟雾信息提取过多,遮挡了目标人物。对比可得,本文方法获得的融合图像目标人物突出、背景信息丰富、烟雾轮廓清晰,具有较好的视觉效果。

表1为各方法在“soldier behind smoke”图像上的客观评价值,表中加粗数据为该指标的最优值。

由表1可知,客观指标中本文方法在SSIM、s、nice上获得最优值,在EN和CC指标上排名也相对靠前,进一步验证了本文方法融合效果较好,融合图像信息丰富,较好地综合了红外与可见光图像的有效信息,与定性分析结果保持一致。

图5为各方法在“Kaptein”图像上获得的融合图像,其中红外图像(图5(a))包含突出的目标人物信息和左上角的烟雾信息等,可见光图像(图5(b))包含树叶、树枝细节和地砖纹理等。结果融合图像应该充分融合到红外图像中突出的目标人物信息和烟雾信息以及可见光图像中树枝、门框、花丛、小路、路灯等信息。

图4 “soldier behind smoke”图像的融合结果

表1 各融合方法在“soldier behind smoke”图像上的客观评价

图5 “Kaptein”图像的融合结果

由图5可知,GTF、Densefuse、DIDFuse、SDNet(图5(c)~(d),(f)~(g))获得的融合图像树枝信息模糊,有大量伪影。DRF(图5(e))获得的融合图像左上角的浓烟信息全部丢失。LPSR方法(图5(g))获得的融合图像整体效果较好,但与本文方法相比,门前树木的枝叶的纹理细节信息不够清晰,对比度不高。本文方法获得的融合图像树枝细节丰富、目标人物清晰,很好地融合了红外和可见光图像中的有效信息。

表2为各方法在“soldier at the door”图像上的客观评价值,表中加粗数据为该指标的最优值。

由表2可知,本文方法在SSIM、CV、s、nice上获得了最优值,在EN和CC指标上的排名也相对靠前,客观检验了本文方法优越性,与定性分析的结论保持一致。

为验证本文方法有效性,将各方法在TNO数据集上进行客观评价分析,从表3分析结果可以看出,本文算法在5个指标上保持最优值,在一个指标上为次优值。

3.2 消融实验

为了验证本文方法中融合策略的有效性,进行消融实验,包括:(1)融合阶段仅对特征做融合;(2)融合阶段仅对特征做融合;(3)对特征融合时仅使用第一层信息权重图;(4)对特征融合时仅使用第二层信息权重图。

表2 7种融合方法在“Kaptein”图像上的客观评价

表3 各方法在TNO数据集上的客观评价

由图6(a)~(c)可知,融合阶段仅对特征或做融合得到的融合图像背景森林信息严重丢失,人物信息不够突出,烟雾区域不够明显。由图6(d)~(f)可知,在特征融合过程中,仅采用第一层信息权重图和仅采用第二层信息权重图得到的融合结果视觉效果较差,图像亮度较暗,并且图片细节信息丢失严重。综合分析本文所采用的将两种融合结果求平均的方法和将前两层信息权重图求平均的方法取得较好的效果。

为更加客观地检验本文设计融合规则的有效性与优越性,在TNO数据集上进行消融实验,对40对图像客观指标的平均值进行对比分析。从表4可以看出,本文设计的融合规则获得的融合图像在所有指标上均达到最优。

图6 “soldier behind smoke”图像上的消融实验

表4 40对图像消融实验客观指标

4 结束语

针对当前图像融合方法中存在的信息提取和特征解耦不充分等问题,本文提出了一种基于信息瓶颈孪生自编码网络的红外与可见光图像融合方法(DIBF)。本文方法整体采用自编码网络结构,通过基础编码网络能够获得红外与可见光图像特征。同时,在编码阶段孪生分支上构建信息瓶颈(IB)模块用于实现特征解耦,结合信息瓶颈权衡思想训练网络。IB模块经训练后得到信息权重图,表示了特征图中逐像素的信息权重,然后使用均值特征对红外与可见光特征进行压缩,得到压缩后特征为。融合阶段将编码获得的两类特征和分别融合,对特征采用基于信息权重图加权平均的策略进行融合,对特征采用取最大值的策略进行融合,对两种融合结果取均值得到融合特征,再将其送入解码网络得到融合图像。由于信息权重图是依据相应源图像的特征信息经训练获得,并将其用于融合阶段,因此融合网络具有较好的自适应能力。总之,本文方法将图像融合中特征表达与信息融合巧妙地表述成了信息瓶颈权衡问题,促进了信息的有效表达,是一种有效的红外与可见光图像融合方法。实验结果表明,本文方法采用的信息瓶颈权衡优化的思路促进了图像特征的显式解耦,有效融合多传感器图像的有效信息,在视觉感知和定量指标方面均取得较好的效果,与传统及近来融合算法相比具有一定优越性。

[1] 张冬冬, 王春平, 付强. 深度学习框架下的红外与可见光图像融合算法综述[J]. 激光与红外, 2022, 52(9): 1288-1298. ZHANG D D, WANG C P, FU Q. Overview of infrared and visible image fusion algorithms based on deep learning framework[J]., 2022, 52(9): 1288-1298.

[2] MA J, MA Y, LI C. Infrared and visible image fusion methods and applications: a survey[J]., 2019, 45: 153-178.

[3] 陈永, 张娇娇, 王镇. 多尺度密集连接注意力的红外与可见光图像融合[J]. 光学精密工程, 2022, 30(18): 2253-2266. CHEN Y, ZHANG J J, WANG Z. Infrared and visible image fusion based on multi-scale dense attention connection network[J]., 2022, 30(18): 2253-2266.

[4] 孙彬, 诸葛吴为, 高云翔, 等. 基于潜在低秩表示的红外和可见光图像融合[J]. 红外技术, 2022, 44(8): 853-862. SUN B, ZHUGE W W, GAO Y X, et al. Infrared and visible lmage fusion based on latent low-rank representation[J]., 2022, 44(8): 853-862.

[5] 杨孙运, 奚峥皓, 王汉东, 等. 基于 NSCT 和最小化-局部平均梯度的图像融合[J]. 红外技术, 2021, 43(1): 13-20. YANG S Y, XI Z H, WANG H D, et al. Image fusion based on NSCT and minimum-local mean gradient [J]., 2021, 43(1): 13-20.

[6] 刘智嘉, 贾鹏, 夏寅辉. 基于红外与可见光图像融合技术发展与性能评价[J]. 激光与红外, 2019, 49(5): 123-130. LIU Z J, JIA P, XIA Y H, et al. Development and performance evaluation of infrared and visual image fusion technology[J]., 2019, 49(5): 123-130.

[7] Lee H Y, Tseng H Y, Mao Q, et al. Drit++: Diverse image-to-image translation via disentangled representations[J]., 2020, 128(10): 2402-2417.

[8] 马梁, 苟于涛, 雷涛, 等. 基于多尺度特征融合的遥感图像小目标检测[J]. 光电工程, 2022, 49(4): 49-65. MA L, GOU Y T, LEI T, et al. Small object detection based on multi-scale feature fusion using remote sensing images[J]., 2022, 49(4): 49-65.

[9] 雷大江, 杜加浩, 张莉萍, 等. 联合多流融合和多尺度学习的卷积神经网络遥感图像融合方法[J]. 电子与信息学报, 2022, 44(1): 237-244. LEI D J, DU J H, ZHANG L P, et al. Multi-stream architecture and multi-scale convolutional neural network for remote sensing image fusion[J]., 2022, 44(1): 237-244.

[10] 李明, 刘帆, 李婧芝. 结合卷积注意模块与卷积自编码器的细节注入遥感图像融合[J]. 光子学报, 2022, 51(6): 406-418. LI M, LIU F, LI J Z.Combining convolutional attention module and convolutional autoencoder for detail injection remote sensing image fusion[J]., 2022, 51(6): 406-418.

[11] 刘博, 韩广良, 罗惠元. 基于多尺度细节的孪生卷积神经网络图像融合算法[J]. 液晶与显示, 2021, 36(9): 1283-1293. LIU B, HAN G L, LUO H Y.Image fusion algorithm based on multi-scale detail siamese convolutional neural network[J]., 2021, 36(9): 1283-1293.

[12] Krishna V A, Reddy A A, Nagajyothi D. Signature recognition using siamese neural networks[C]//(ICMNWC), 2021: 1-4.

[13] LI H, WU X J. DenseFuse: A fusion approach to infrared and visible images[J]., 2018, 28(5): 2614-2623.

[14] LI H, WU X J, Durrani T. NestFuse: An infrared and visible image fusion architecture based on nest connection and spatial/channel attention models[J], 2020, 69(12): 9645-9656.

[15] LU B, CHEN J C, Chellappa R. Unsupervised domain-specific deblurring via disentangled representations[C]//, 2019: 10225-10234.

[16] WANG G, HAN H, SHAN S, et al. Cross-domain face presentation attack detection via multi-domain disentangled representation learning[C]//, 2020: 6678-6687.

[17] 文载道, 王佳蕊, 王小旭, 等. 解耦表征学习综述[J]. 自动化学报, 2022, 48(2): 351-374. WEN Z D, WANG J R, WANG X X, et al. A review of disentangled representation learning[J]., 2022, 48(2): 351-374.

[18] ZHAO Z, XU S, ZHANG C, et al. DIDFuse: Deep image decomposition for infrared and visible image fusion[J]. arXiv preprint arXiv:2003.09210, 2020.

[19] XU H, WANG X, MA J. DRF: Disentangled representation for visible and infrared image fusion[J]., 2021, 70: 1-13.

[20] XU H, GONG M, TIAN X, et al. CUFD: An encoder–decoder network for visible and infrared image fusion based on common and unique feature decomposition[J]., 2022, 218: 103407.

[21] Tishby N, Pereira F C, Bialek W. The information bottleneck method[J]. arXiv preprint physics/0004057, 2000.

[22] Tishby N, Zaslavsky N. Deep learning and the information bottleneck principle[C]//(ITW)., 2015: 1-5.

[23] Shwartz-Ziv R, Tishby N. Opening the black box of deep neural networks via information[J]. arXiv preprint arXiv:1703.00810, 2017.

[24] Alemi A A, Fischer I, Dillon J V, et al. Deep variational information bottleneck[J]. arXiv preprint arXiv:1612.00410, 2016.

[25] Tishby N, Zaslavsky N. Deep learning and the information bottleneck principle[C]//(ITW). IEEE, 2015: 1-5.

[26] ZHANG Y, LIU Y, SUN P, et al. IFCNN: A general image fusion framework based on convolutional neural network[J]., 2020, 54: 99-118.

[27] MA J, CHEN C, LI C, et al. Infrared and visible image fusion via gradient transfer and total variation minimization[J]., 2016, 31: 100-109.

[28] ZHANG H, MA J. SDNet: A versatile squeeze-and-decomposition network for real-time image fusion[J]., 2021, 129(10): 2761-2785.

[29] LIU Y, LIU S, WANG Z. A general framework for image fusion based on multi-scale transform and sparse representation[J]., 2015, 24: 147-164.

Infrared and Visible Image Fusion Based on Information Bottleneck Siamese Autoencoder Network

MA Luyao1,2,3,LUO Xiaoqing1,2,3,ZHANG Zhancheng4

(1. School of Artificial Intelligence and Computer Science, Jiangnan University, Wuxi 214122, China;2. Institute of Advanced Technology, Jiangnan University, Wuxi 214122, China;3. Jiangsu Laboratory of Pattern Recognition and Computational Intelligence, Wuxi 214122, China;4. School of Electronics and Information Engineering, Suzhou University of Science and Technology, Suzhou 215000, China)

Infrared and visible image fusion methods have problems such as insufficient information extraction, feature decoupling, and low interpretability. In order to fully extract and fuse the effective information of the source image, this paper proposes an infrared and visible image fusion method based on information bottleneck siamese autoencoder network (DIBF: Double Information Bottleneck Fusion). This method realizes the disentanglement of complementary features and redundant features by constructing an information bottleneck module on the twin branch. The expression process of complementary information corresponds to the feature fitting process of the first half of the information bottleneck. The compression process of redundant features corresponds to the feature compression process in the second half of the information bottleneck. This method cleverly expresses information extraction and fusion in image fusion as an information bottleneck trade-off problem, and achieves fusion by finding the optimal expression of information. In the information bottleneck module, the network obtains the information weight map of the feature through training, and uses the mean feature to compress the redundant features according to the information weight map. This method promotes the expression of complementary information through the loss function, and the two parts of compression and expression are balanced and optimized simultaneously. In this process, redundant information and complementary information are also decoupled. In the fusion stage, the information weight map is applied in the fusion rules, which improves the information richness of the fused images. Through subjective and objective experiments on the standard TNO dataset, compared with traditional and recent fusion methods, the results show that the method in this paper can effectively fuse useful information in infrared and visible images, and achieved good results on both visual perception and quantitative indicators.

information bottleneck, Siamese, disentangled representations, infrared and visible, image fusion

TP391.4

A

1001-8891(2024)03-0314-11

2022-11-24;

2022-12-30.

马路遥(1998-)女,河南郑州人,硕士研究生,研究方向:模式识别与图像处理。

罗晓清(1980-)女,江西南昌人,博士,副教授,研究方向:模式识别与图像处理。E-mail: xqluo@jiangnan.edu.cn。

国家自然科学基金(61772237);江苏省六大人才高峰项目(XYDXX-030)。

猜你喜欢
瓶颈红外权重
网红外卖
闪亮的中国红外『芯』
权重常思“浮名轻”
TS系列红外传感器在嵌入式控制系统中的应用
为党督政勤履职 代民行权重担当
基于公约式权重的截短线性分组码盲识别方法
基于快速递推模糊2-划分熵图割的红外图像分割
突破雾霾治理的瓶颈
突破瓶颈 实现多赢
如何渡过初创瓶颈期