一种扩展VIFB的红外与可见光图像融合基准*

2022-06-23 03:26:46王家宝

计算机工程与科学 2022年6期

李一，李阳，苗壮，王家宝，张睿

(陆军工程大学指挥控制工程学院，江苏南京 210007)

1 引言

图像融合是指利用特定算法将两幅或多幅图像融合成一幅新的图像。图像融合结果能利用两幅(或多幅)图像在时空上的相关性及信息上的互补性，对图像内容有更全面、更清晰的描述，从而更有利于人眼识别和机器处理。

针对不同应用领域，图像融合技术可分为医学图像融合[1,2]、多聚焦图像融合[3,4]、遥感图像融合[5]、多曝光图像融合[6,7]和红外与可见光图像融合[8,9]等几种类型。其中，红外与可见光图像融合是最常用的一种。可见光图像可以为机器视觉任务提供丰富的细节信息。但是，由于可见光图像的采集容易受到照明不足、大雾天气和障碍遮挡等的影响，导致可见光图像可能无法获取重要目标的关键信息。与可见光图像不同，红外图像采用热辐射差异原理成像，能够克服恶劣天气和照明不足的影响，可根据热辐射差异将目标与背景进行有效区分。但是，红外图像的局限性在于它无法提供纹理细节信息。因此，单独的可见光图像或红外图像均不能提供足够的信息用于机器视觉任务。

虽然红外与可见光图像融合具有广泛的应用，但现阶段红外与可见光图像融合领域存在一个严重的问题：难以比较不同融合算法的性能。首先，该领域缺乏一个公认的较大规模的红外与可见光图像融合数据集。因此，在图像融合实验中使用不同的图像进行测试是很常见的，这使得红外与可见光图像融合领域很难直接比较不同算法的性能。其次，尽管存在多种开源融合算法，但缺少对多种算法在同一基准下进行测评的统一框架。虽然一些算法的代码已经开源，例如CNN(Convolutional Neural Network)[10]和DLF[11]，但大多数算法的接口和使用方式都是不同的。因此，在红外与可见光图像融合领域进行大规模性能评估既不方便又耗时。最后，该领域缺乏一个公认的算法评价体系，尽管研究者们已经提出了许多评价指标，但如何利用多种指标评价融合效果仍是一个开放性问题。目前，不同算法通常各自选择几个指标来评价算法自身融合效果，但由于指标选择的不同，红外与可见光图像融合领域很难客观地比较不同算法的性能。为解决以上问题，Zhang等人[12]提出了红外与可见光图像融合领域第一个融合基准——VIFB(Visible and Infrared Image Fusion Benchmark)。该基准构建了一个共包含21对红外与可见光图像的小规模数据集，并设计了一个包含13种指标的评价体系来对20种融合算法进行测评。该基准通过定性和定量的结果分析，确定了性能优良的图像融合算法，促进了红外与可见光图像融合研究领域的发展。但是，VIFB仍存在一些不足：首先，该基准的数据集规模不够大，仅包含了21对红外与可见光图像；其次，VIFB的评价指标选取不够均衡，它的13种评价指标未能从4大类评价指标[13](基于信息理论的评价指标、基于图像特征的评价指标、基于结构相似性的评价指标和基于人类视觉感知的评价指标)中均匀选取，这导致了VIFB难以对各种融合算法进行均衡的客观评价；最后，VIFB中基于深度学习的算法偏少，导致VIFB无法客观判断不同深度学习方法在图像融合领域的效果。

为解决以上问题，本文在VIFB的基础上，建立了一个红外与可见光图像融合基准。

具体地，主要包括以下3个方面：

(1) 本文在VIFB的21对图像的基础上，增加了35对红外与可见光图像，构建了一个包含56对红外与可见光图像的数据集，是目前红外与可见光图像融合领域规模最大的数据集。

(2) 本文在VIFB的20种融合算法的基础上，增加了12种融合算法(其中7种是基于深度学习的算法)，能够客观判断不同深度学习方法在图像融合领域的效果。本文将这些算法集成到一个框架中，通过这个框架可以很容易地运行算法和比较性能，而且新的融合算法也可以轻松地集成到这一框架中。

(3) 本文在VIFB的13种测评指标的基础上进行修正，构建了一个包含16种指标(每大类评价指标中包含4种)的评价体系，该评价体系是本领域中均衡的多指标评价体系。

2 相关工作

2.1 红外与可见光图像融合算法

红外与可见光图像融合领域中有多种融合算法。在深度学习方法引入图像融合领域之前，传统的红外与可见光图像融合算法可分为6类[14]：多尺度变换算法、稀疏表示算法、基于子空间的算法、基于显著性的算法、混合模型算法和其他算法。

近年来，随着深度学习技术迅速发展，红外与可见光图像融合领域出现了很多基于深度学习的融合算法[15 - 17]。与传统融合算法相比，基于深度学习的融合算法具有很多优势。例如，基于深度学习的融合算法提取图像特征的能力优于传统融合算法，深度学习可以学习融合策略中的自适应权重。红外与可见光图像融合领域利用卷积神经网络(CNN)[3,5,8,18,19]、生成对抗网络GAN(Generative Adversarial Networks)[20]、孪生网络[10]、自编码器[21]进行图像融合都取得了较好的融合效果。

VIFB选取的20种融合算法中包含了CNN[10]、DLF[11]和ResNet[22]3种基于深度学习的融合算法。这是红外与可见光图像融合领域第一次同时对多种基于深度学习的融合算法进行测评。这3种融合算法分别将CNNs、VGG19和ResNet50网络引入到图像融合中。但是，VIFB并没有对其他深度学习网络进行测评。针对这个问题，本文利用文献[23]中提出的基于SqueezeNet的轻量级图像融合算法，将AlexNet[24]、DenseNet[25]、GoogLeNet[26]、MobileNet[27]、ShuffleNet[28]、SqueezeNet[29]和Xception[30]深度学习网络融入该轻量级网络中进行红外与可见光图像的融合。

2.2 数据集

尽管红外与可见光图像融合技术已发展多年，但是仍然缺乏一个较大规模的红外与可见光图像融合数据集。而在视觉跟踪领域中，一些公认的测评基准(如OTB(Online object Tracking Benchmark)[31,32]和VOT(Visual Object Tracking)[33])中的数据集已经被广泛使用。

目前红外与可见光图像融合领域存在多个小规模的红外与可见光图像融合数据集，包括OSU[34]、TNO(https://figshare.com/articles/dataset/TNO_Image_Fusion_Dataset/1008029)、VLIRVDIF[35]和VIFB[12]。其中，OSU包含6对红外与可见光图像的视频，TNO包含63对多光谱图像、VLIRVDIF包含24对红外与可见光图像的视频、VIFB包含21对红外与可见光图像，而本文的数据集包含56对红外与可见光图像，是目前本领域包含红外与可见光图像最多的数据集。这些数据集的主要信息详见表1。表1给出了数据集的规模、数据集内图像的分辨率、数据集公布时间、数据集是否附带融合结果和是否附带算法框架等具体信息。从表1可以看出，除了VIFB和本文的数据集，其他数据集都缺乏配套融合算法框架和融合结果，难以用来判断红外与可见光图像融合领域发展趋势。但是，VIFB也存在一些问题：该数据集较小，导致实验结果可信度不足。针对这一问题，本文在VIFB的21对图像的基础上，增加了35对红外与可见光图像，构建了一个包含56对红外与可见光图像的数据集。

五色养生蔬菜汤，之所以在日本、韩国和中国台湾等地流行。这是因为其配方、成分和制法在许多家庭主妇之间传播，人人自己动手制作。简言之，将五种颜色的蔬菜，混合在一起，共煮成汤。所谓五色，即绿、红、黄、白、黑等色，即有5种不同蔬莱，绿色为白萝卜叶，红色为胡萝卜，黄色为牛蒡，白色为白萝卜，黑色为香菇，它们分别代表了金、木、水、火、土五行。据说，五色养生蔬菜汤，符合中医学所说的五行调和对应身体五脏六腑的原理，为人类健康的基本法。

3 本文方法

3.1 数据集构建

红外与可见光图像融合领域缺少一个公认的较大规模的数据集。VIFB构建了一个包含21对红外与可见光图像的数据集。该数据集是从互联网和融合跟踪数据集[22,36,37]中收集得到的，是红外与可见光图像融合领域包含图像较多的数据集。

本文在VIFB的基础上构建了一个更大规模的包含56对红外与可见光图像的数据集(https://github.com/solarlee/Extended-VIFB)。新增的图像中，一部分是从FLIR Thermal Starters数据集(https://www.flir.cn/oem/adas/adas-dataset-form/)和KAIST数据集(https://soonminhwang.github.io/rgbt-ped-detection/data/)收集得到的，另一部分是在文献[20]所提供的数据集中筛选得到的。本文所构建的数据集中的图像涵盖了广泛的场景和工作条件(如室内、室外、低照明、遮挡和过度曝光等)，并且该数据集中存在多种分辨率的图像，例如320×240,630×460,512×184,452×332和650×512，这些都增加了该数据集的多样性。

3.2 融合算法框架构建

近年来，红外与可见光图像融合领域出现了多种红外与可见光图像融合算法。文献[14]将融合算法分为7类，即多尺度变换算法、稀疏表示算法、基于深度学习的算法、基于子空间的算法、基于显著性的算法、混合模型算法和其他算法。然而，只有部分算法提供了源代码,且这些代码有不同的输入和输出接口，需要不同的运行环境。这些因素使得研究者很难对不同融合算法进行性能比较。

Table 1 Details of some existing infrared and visible image fusion datasets and the proposed dataset

针对以上问题，VIFB从7类算法中选出20种融合算法构建了一个算法框架，20种算法包括ADF[38]、CBF[39]、CNN、DLF、FPDE[40]、GFCE[41]、GFF[42]、GTF[8]、HMSD_GF[41]、Hybrid_MSD[43]、IFEVIP[44]、LatLRR[45]、MGFF[46]、MST_SR[47]、MSVD[48]、NSCT_SR[47]、ResNet、RP_SR[47]、TIF[49]和VSMWLS[50]。VIFB构建的算法框架是红外与可见光图像融合领域第一个大规模融合算法的框架，该框架可以快速对多种融合算法进行测评，极大地促进了红外与可见光图像融合领域的发展。但是，VIFB的算法框架存在一个问题：基于深度学习的融合算法比较少。

本文在VIFB的基础上新增了12种算法，其中AlexNet、DenseNet、GoogLeNet、MobileNet、ShuffleNet、SqueezeNet和Xception为基于深度学习的算法；CVT[47]、DTCWT[47]、MDLatLRR[51]、MST[52]和NSCT[53]为传统算法。12种算法的细节信息如表2所示。

Table 2 Infrared and visible image fusion algorithms added in this paper

需要注意的是：许多算法最初都是被设计用来融合灰度图像的。本文通过将RGB图像的每个通道与相应的红外图像通道融合，进而实现彩色图像的融合。此外，本文构建的算法框架继续沿用了VIFB的Matlab框架接口，可以方便地将新的融合算法以及新的评价指标加入该算法框架中，并将融合结果与已经加入的算法的结果进行比较。

3.3 评价指标

在图像融合领域，存在多种评价融合图像性能的指标。文献[13]将评价指标分为4大类：基于信息理论的评价指标、基于图像特征的评价指标、基于图像结构相似性的评价指标和基于人类视觉感知的评价指标。

红外与可见光图像融合领域每提出一种新的图像融合算法，算法提出者都会选取几种评价指标来对该算法的融合结果进行测评，而不同算法选取的评价指标一般都不同，这使得研究者很难客观地比较不同融合算法的性能。针对这一问题，VIFB选取了13种评价指标，组成了一个多指标评价体系对多种融合算法进行测评，该评价体系优于之前所有的单一指标评价体系，极大地促进了该领域的发展。但是，VIFB的评价体系仍存在一个问题：指标选取不均衡。具体来说，在VIFB选取的13种评价指标中，有4种基于信息理论的指标、5种基于图像特征的指标、2种基于图像结构相似性的指标和2种基于人类视觉感知的指标。根据VIFB的测评结果，不同的融合算法的测评结果会偏向于某一类评价指标。例如，NSCT_SR[47]算法在CE、EN和MI上获得了最佳的值，这些都是基于信息理论的评价指标；LatLRR[45]算法在AG、EI和SF上性能最好，它们都是基于图像特征的指标；DLF方法在RMSE、SSIM和PSNR上表现良好，RMSE和SSIM都是基于结构相似性的指标。也就是说某种融合算法会在某一大类评价指标的大部分评价指标上表现优越。指标选取的不均衡会导致VIFB不能客观公平地对融合算法的性能进行测评。

因此，在基于图像特征的评价指标中，本文去除了红外与可见光图像融合领域不太常用的指标EI；在基于结构相似性的评价指标中，本文新增了红外与可见光图像融合领域常用的指标MS_SSIM[54]和MSE[55]；在基于人类视觉感知的评价指标中，本文新增了红外与可见光图像融合领域常用的指标SCD[56]和CC[57]。本文构建的是一个指标选取更加均衡的评价体系，可更加客观公平地对融合算法的性能进行测评。表3列出了本文选择的所有评价指标及其相应的类别。此外，本文构建的评价体系是开放的，在保持评价指标选取的均衡性的条件下，可以继续加入更多融合领域的评价指标。更多关于评价指标的内容可参考文献[13,14]。

表3中，“+”表示该指标值越大，算法融合性能越好；“-”表示该指标值越小，算法融合性能越好。

Table 3 Evaluation metrics implemented in this paper

4 实验

4.1 实验配置

本文所有实验都是在配置为11th Gen Intel (R) Core (TM) i5-1135G7@2.40 GHz的计算机上进行的。关于基于深度学习的算法，本文选择使用Matlab提供的预训练模型和参数，没有对这些模型进行重新训练。本文所有实验都是在本文构建的56对红外与可见光图像的基础上进行的。

Figure 1 Qualitative performance comparison of the fusion results of 32 fusion algorithms on IR4 and VIS4图1 32种融合算法在IR4和VIS4图像上的融合结果定性性能对比

4.2 定性对比分析

定性分析是通过人的视觉系统来测评图像的质量。本文选取1组红外与可见光图像对32种融合算法进行定性对比分析。该组图像的融合对比结果如图1所示。在该组图像中，行人目标周围光照较强，因此在可见光图像中不能清晰地看到该目标，而在红外图像中可以清晰地看到。从融合结果中可以看出：DTCWT、GFF、MGFF、MST、NSCT和TIF算法获得的融合图像在对比度和清晰度方面明显优于其他算法的融合图像，并且保留了更多原始图像中的细节。而CBF、CNN、GFCE、HMSD_GF、Hybrid_MSD、IFEVIP、LatLRR、MST_SR、NSCT_SR、RP_SR和VSMWLS获得的融合图像不能较好地保留行人目标信息，融合效果较差。

4.3 定量对比分析

将本文构建的56对图像作为数据集，使用16种评价指标对32种融合算法进行测评，最后的结果取平均值。表4为基于信息理论和基于图像结构相似性的8种指标对32种融合算法的测评结果。表5为基于图像特征和基于人类视觉感知的8种指标对32种融合算法的测评结果。

表4和表5中每个指标的前三名分别被标为加粗、单横线和双横线。

综合表4和表5可以看出，Xception以3个第一名、1个第二名和1个第三名取得性能最优；DLF以3个第一名紧随其后；MST_SR和MobileNet以2个第一名、2个第二名和2个第三名并列性能第三。从以上结果可以看出,目前没有一种融合算法可以在所有评价指标中击败其他算法。此外，从表4和表5中还可以看出,尽管基于深度学习的融合算法在某些评价指标上表现良好，但在另一些评价指标上表现较差。而且，不同算法在不同类型的评价指标中表现不同。具体来说，Xception算法在MSE、RMSE和MS_SSIM上获得最佳值，这些都是基于结构相似性的评价指标；DLF算法在RMSE、SSIM和PSNR上获得了最佳值，其中，RMSE和SSIM是基于结构相似性的评价指标，PSNR是基于信息理论的评价指标。MST_SR算法在CE和QCB上取得了最佳值，这2个指标是基于信息理论和基于人类视觉感知的指标。导致以上现象的原因可能是，这些算法在设计过程中更关注某种特定的信息。这一现象进一步表明，图像融合算法应该使用多种指标进行综合测评。

Table 4 Average evaluation metric values based on information theory and structural similarity of all methods on 56 image pairs

Table 5 Average evaluation metric values based on image feature and human perception inspired of all methods on 56 image pairs

4.4 运行时间比较

本文测评的32种算法的运行时间，结果如表6所示。从表6可以看出，图像融合算法的运行时间差异较大。例如，在多尺度变换算法中，CBF的运行时间是GFF的20倍以上。此外，不同类别的算法运行时间差异也较大，例如IFEVIP算法属于其他算法，运行时间只需要0.385 3 s；MDLatLRR算法属于基于显著性的算法，该算法运行时间是740.255 8 s，两者相差近2 000倍。综合来看，多尺度变换算法的运行速度最快，基于显著性的算法和混合模型的算法速度最慢。

Table 6 Runtime of 32 algorithms (seconds per image pair)

5 结束语

本文构建了一个较大规模的红外与可见光图像融合基准，其中包含56对红外与可见光图像，32种融合算法和16种评价指标。与VIFB相比，本文构建的基准能够更全面地评估红外与可见光图像融合领域算法的性能。通过本文构建的基准，本文还进行了广泛的实验来评价融合算法的性能。根据本文的实验结果可以得到以下结论：首先，与计算机视觉其他领域不同，在图像融合领域，基于深度学习的图像融合算法的性能目前并没有表现出比非深度学习算法更佳的优越性。然而，由于深度学习方法强大的表示能力，本文认为基于深度学习的图像融合算法将是未来一个重要的研究方向。其次，图像融合算法在不同种类的定量评价指标中可能具有不同的性能，因此需要利用多种指标对图像融合算法进行综合评价。此外，定性评价可以作为定量评价的重要补充。最后，红外与可见光图像融合算法的运行速度仍有待提高，以便应用于跟踪和检测等实时应用。