一种基于无监督学习的空间域图像融合方法

1 图像融合

首先，在训练阶段，训练一个自动编码器网络来提取高维特征。然后利用融合层在融合阶段的深层特征计算出融合层的活跃度。最后，得到了融合两个多焦点源图像的决策图。本文提出的算法只针对融合两幅源图像。

1.1 深层特征提取

从DenseFuse得到启发，在训练阶段舍去融合操作，只使用编码器和解码器对输入图像进行重构。在编码器和解码器的参数确定后，利用空间频率从编码器获得的深层特征中计算活跃度。

编码器由两部分(C1和SEDense块)组成。C1是编码器网络中的一个3×3卷积层。DC1、DC2和DC3是SEDense块中的3×3个卷积层，每层的输出通过级联操作连接。为了精确地重建图像，网络中不存在池层。挤压和激励(SE)块可以通过自适应重新校准channel-wise特征响应来增强空间编码，实验表明了这种结构的影响。解码器由C2、C3、C4和C5组成，用于重建输入图像。为了训练编码器和解码器，将损失函数L最小化，它结合了像素损失LP和结构单线性度(SSIM)损失LSSIM。其中λ是一个常数，体现损失目标的权重

L=λLssim+LP

(1)

像素损失LP表示输出(O)和输入(I)之间的欧氏距离。

LP=‖O-I‖2

(2)

SSIM损失Lssim表示O和I之间的结构差异，其中SSIM表示结构相似操作。

Lssm=1-SSIM(O,I)

(3)

1.2 利用深度特征进行空间频率计算

在本文中，编码器为图像中的每个像素提供高维深度特征。但原始的空间频率是在单通道灰度图像上计算的。因此对于深层特征，其修改了空间频率计算方法。设F表示由编码器块驱动的深度有限元。F(x,y)表示一个特征向量，(x,y)表示这些向量在图像中的坐标。本文使用下面的公式计算它的空间频率，其中RF和CF分别是行向量频率和列向量频率。

(4)

(5)

(6)

其中r为核半径。原始的空间频率是基于块的，而本文方法是基于像素的。于是可以比较两个对应的SF1和SF2的空间频率，其中SFk中的k是源图像的索引。

(7)

图 1 详细的融合策略

1.3 一致性验证

在连接部分可能有一些小的线或毛刺，并且一些相邻的区域可能被不适当的决定断开。于是使用小型磁盘结构元素交替打开和关闭操作符来处理决策映射。这样既可以消除小的线或毛刺，平滑聚焦区域的连接部分，又将相邻区域合并为一个整体区域。当圆盘结构的半径等于空间频率核半径时，可以很好地检测到小直线或毛刺，并能正确地连接相邻区域。本文采用了与Liu等人相同的小区域去除策略并将小于区域阈值的区域反转。本文通常将阈值设置为0.01×H×W，其中H和W分别为源图像的高度和宽度。

在聚焦区域和非聚焦区域之间存在一些不需要的工件。与Nejati,Samavi和Shirani[12]类似，利用有效的保边滤波、制导滤波提高初始决策图的质量，它可将制导图像的结构信息传递到输入图像的滤波结果中。采用初始融合图像作为指导图像来指导初始决策图的滤波。在这项工作中,实验设置本地窗口半径4和正规化参数ε为0.1,引导滤波算法。

1.4 融合

最后，利用所得到的决策图D，和像素加权平均规则计算融合后的F。

F(x,y)=D(x,y)Img1(x,y)+(1-D(x,y))Img2(x,y)

(8)

输入图像表示为预先注册的Imgk，其中k表示源图像的索引。融合图像的代表性可视化如图2所示。

(a)近聚焦源图像

(b)远聚焦源图像

(c)融合结果图 2 融合结果的可视化

2 实验

2.1 实验设置

在实验中，使用38对多焦点图像作为测试集进行评估。由于无监督策略，首先使用MS-COCO训练编解码器网络。该阶段以82783幅图像作为训练集，每次迭代使用40504幅图像验证重建能力。所有的图像都被调整为256×256，并转换为灰度图像。学习率设为1×10-4，每隔2个周期下降0.8倍。设置λ= 3与DenseFuse相同和优化目标函数对权重的网络层。批次大小和年代分别为48和30。然后利用所获得的参数对上述测试集进行SF融合。

对该算法的实现源自于公开可用的Pytorch框架。网络训练和测试是在一个使用4 NVIDIA 1080Ti GPU和44GB内存的系统上进行的。

2.2 目的图像融合质量指标

该融合方法是与16个代表图像融合方法相比,分别为拉普拉斯算子的金字塔(LP),低通的比率金字塔(RP)，非抽样轮廓波变换(NSCT),离散小波变换(DWT), dual-tree复小波变换(DTCWT),稀疏表示(SR),曲波变换(CVT)),引导过滤(GF),多尺度加权梯度(MWG),密集的筛选(DSIFT),空间频率(SF)的FocusStack,图像消光融合(IMF),DeepFuse、DenseFuse (add和L1-norm融合策略)和CNN-Fuse。

为了客观评价不同方法的融合性能，采用了Qg、Qm和Qcb三个融合质量指标。对于上述三个指标，值越大表示融合性能越好。在本文中可以找到一个很好的全面的质量度量调查。为了进行公平的比较，使用了相关出版物中给出的这些度量的默认参数。

2.3 与其他融合方法进行比较

首先比较了基于视觉感知的不同融合方法的性能。本文主要以两种方式提供了四个例子来说明不同方法之间的差异。

在图3中，可视化了两个融合的示例，例如“狮头像”和“笔记本”图像及其融合结果。在每张图像中，聚焦和离焦部分边界附近的区域被放大并显示在左上角。在“狮头像”的结果中，可以看到不同方法对狮头像的边界都进行处理。DWT显示“锯齿状”形状，CVT、DSIFT、SR、DenseFuse、CNN显示不需要的工件。对于DWT和DenseFuse，左上角屋檐的亮度也有异常的增加。而MWG中相同的区域是失焦的，表明该方法不能很好地检测出聚焦区域。在“笔记本”的结果中，一排挂钟位于聚焦和离焦的边缘，可以看到除了SESF-Fuse外，所有的方法都显示出平滑和模糊的结果。

图 3 不同“狮头像”与“笔记本”的可视化融合结果

为了更好的对比，图4和图5分别显示了从每幅融合图像中减去第一个源图像得到的差分图像，并将每幅差分图像的值归一化为0到1的范围。如果近聚焦区域被完全检测到，差分图像将不会显示出该区域的任何信息。因此，CVT、DSIFT、DWT和DenseFuse-1e3-L1-Norm不能很好地检测出聚焦区域。SR, MWG和CN在婴儿边缘的区域表现的很好，因为仍然可以看到近聚焦区域的轮廓。此外，SESF-Fuse在近聚焦区域的中心或边缘区域都有良好的性能。在图5中，近焦点区域是石头。与上述观察结果相同，CVT、DSIFT、DWT、NSCT、DenseFuse不能很好地检测到聚焦区域。除了石头的边界区域，MWG和CNN的效果都很好。

图 4 不同融合方法下“婴儿”的融合结果

图 5 不同融合方法下“海”的融合效果

表1 与其他融合方法的比较

表1列出了使用上述三个指标的不同融合方法的目标性能。可以看到，基于CNN的方法和所提出的方法在Qg和Qcb融合指标的平均得分上明显优于其他15种方法。对于Qg指标，CN- Fuse和SESF-Fuse的性能相当。然而，CNN-Fuse是一种监督方法，需要生成不同模糊程度的合成图像来训练一个两类图像分类网络。相比之下，本方法只需要训练一个不需要生成合成图像数据的无监督模型。对于Qm度量，SESF-Fuse的平均核比LP小，但是，所提出的方法的第一个数达到了最大值，这意味着它比其他方法具有更强的鲁棒性。

综合考虑以上主观视觉质量与客观评价指标的比较，提出的基于SESF - Fuse的融合方法总体上优于其他方法，在多焦点图像融合中表现出了最先进的性能。

3 结论

本文提出了一种无监督深度学习模型来解决多焦点图像融合问题。首先训练一个无监督的编解码器网络来获取输入图像的深层特征，然后利用这些特征和空间频率计算活跃度和决策图进行图像融合。实验结果表明，与现有的融合方法相比，该方法在客观和主观评价方面均取得了较好的融合性能。证明了无监督学习与传统图像处理算法相结合的可行性。另外同样的策略也适用于其他图像融合任务，如多曝光融合、红外融合和医学图像融合。