王淑青, 蔡颖婧
(1 湖北工业大学湖北省电网智能控制与装备工程技术研究中心,湖北 武汉 430068;2 湖北工业大学电气与电子工程学院, 湖北 武汉 430068)
过去的几十年里出现的多种图像融合方法可以分为两类: 变换域方法和空间域方法[1]。最经典的是基于多尺度变换的变换域融合方法(MST)理论,如基于拉普拉斯算子的金字塔(LP)[2]和低通的比率金字塔(RP)[3]以及离散小波变换(DWT)[4],还有双数复小波变换(DTCWT)[5]、曲波变换(CVT)和非下采样轮廓波变换(NSCT),以及稀疏表示(SR)和抠图融合(IMF)[6-8]。这些方法的关键在于,可以在选定的变换域中通过分解系数来测量源图像的活跃度。显然,变换域的选择在这些方法中起着至关重要的作用。
近年来,深卷积神经网络(CNN)在图像处理方面取得了巨大的成功。一些研究试图使用大容量深卷积模型来测量活跃度。Liu等[9]首次将卷积神经网络应用于多聚焦图像融合。Prabhakar[10]提出了一种基于CNN的无监督曝光融合方法,称为深度融合。Li和Wu[11]提出了DenseFuse来融合红外图像和可见光图像,采用无监督的编解码器策略来获取有用的特征,并按L1-norm融合。受深度融合的启发,本文以无监督编解码器的方式训练网络,并且将空间频率作为融合规则来获得源图像的活跃度和决策图,这与关键假设一致,即只有在景深范围内的对象才具有清晰的外观。
首先,在训练阶段,训练一个自动编码器网络来提取高维特征。然后利用融合层在融合阶段的深层特征计算出融合层的活跃度。最后,得到了融合两个多焦点源图像的决策图。本文提出的算法只针对融合两幅源图像。
从DenseFuse得到启发,在训练阶段舍去融合操作,只使用编码器和解码器对输入图像进行重构。在编码器和解码器的参数确定后,利用空间频率从编码器获得的深层特征中计算活跃度。
编码器由两部分(C1和SEDense块)组成。C1是编码器网络中的一个3×3卷积层。DC1、DC2和DC3是SEDense块中的3×3个卷积层,每层的输出通过级联操作连接。为了精确地重建图像,网络中不存在池层。挤压和激励(SE)块可以通过自适应重新校准channel-wise特征响应来增强空间编码,实验表明了这种结构的影响。解码器由C2、C3、C4和C5组成,用于重建输入图像。为了训练编码器和解码器,将损失函数L最小化,它结合了像素损失LP和结构单线性度(SSIM)损失LSSIM。其中λ是一个常数,体现损失目标的权重
L=λLssim+LP
(1)
像素损失LP表示输出(O)和输入(I)之间的欧氏距离。
LP=‖O-I‖2
(2)
SSIM损失Lssim表示O和I之间的结构差异,其中SSIM表示结构相似操作。
Lssm=1-SSIM(O,I)
(3)
在本文中,编码器为图像中的每个像素提供高维深度特征。但原始的空间频率是在单通道灰度图像上计算的。因此对于深层特征,其修改了空间频率计算方法。设F表示由编码器块驱动的深度有限元。F(x,y)表示一个特征向量,(x,y)表示这些向量在图像中的坐标。本文使用下面的公式计算它的空间频率,其中RF和CF分别是行向量频率和列向量频率。
(4)
(5)
(6)
其中r为核半径。原始的空间频率是基于块的,而本文方法是基于像素的。于是可以比较两个对应的SF1和SF2的空间频率,其中SFk中的k是源图像的索引。
(7)
图 1 详细的融合策略
在连接部分可能有一些小的线或毛刺,并且一些相邻的区域可能被不适当的决定断开。于是使用小型磁盘结构元素交替打开和关闭操作符来处理决策映射。这样既可以消除小的线或毛刺,平滑聚焦区域的连接部分,又将相邻区域合并为一个整体区域。当圆盘结构的半径等于空间频率核半径时,可以很好地检测到小直线或毛刺,并能正确地连接相邻区域。本文采用了与Liu等人相同的小区域去除策略并将小于区域阈值的区域反转。本文通常将阈值设置为0.01×H×W,其中H和W分别为源图像的高度和宽度。
在聚焦区域和非聚焦区域之间存在一些不需要的工件。与Nejati,Samavi和Shirani[12]类似,利用有效的保边滤波、制导滤波提高初始决策图的质量,它可将制导图像的结构信息传递到输入图像的滤波结果中。采用初始融合图像作为指导图像来指导初始决策图的滤波。在这项工作中,实验设置本地窗口半径4和正规化参数ε为0.1,引导滤波算法。
最后,利用所得到的决策图D,和像素加权平均规则计算融合后的F。
F(x,y)=D(x,y)Img1(x,y)+(1-D(x,y))Img2(x,y)
(8)
输入图像表示为预先注册的Imgk,其中k表示源图像的索引。融合图像的代表性可视化如图2所示。
(a)近聚焦源图像
(b)远聚焦源图像
(c)融合结果图 2 融合结果的可视化
在实验中,使用38对多焦点图像作为测试集进行评估。由于无监督策略,首先使用MS-COCO训练编解码器网络。该阶段以82783幅图像作为训练集,每次迭代使用40504幅图像验证重建能力。所有的图像都被调整为256×256,并转换为灰度图像。学习率设为1×10-4,每隔2个周期下降0.8倍。设置λ= 3与DenseFuse相同和优化目标函数对权重的网络层。批次大小和年代分别为48和30。然后利用所获得的参数对上述测试集进行SF融合。
对该算法的实现源自于公开可用的Pytorch框架。网络训练和测试是在一个使用4 NVIDIA 1080Ti GPU和44GB内存的系统上进行的。
该融合方法是与16个代表图像融合方法相比,分别为拉普拉斯算子的金字塔(LP),低通的比率金字塔(RP),非抽样轮廓波变换(NSCT),离散小波变换(DWT), dual-tree复小波变换(DTCWT),稀疏表示(SR),曲波变换(CVT)),引导过滤(GF),多尺度加权梯度(MWG),密集的筛选(DSIFT),空间频率(SF)的FocusStack,图像消光融合(IMF),DeepFuse、DenseFuse (add和L1-norm融合策略)和CNN-Fuse。
为了客观评价不同方法的融合性能,采用了Qg、Qm和Qcb三个融合质量指标。对于上述三个指标,值越大表示融合性能越好。在本文中可以找到一个很好的全面的质量度量调查。为了进行公平的比较,使用了相关出版物中给出的这些度量的默认参数。
首先比较了基于视觉感知的不同融合方法的性能。本文主要以两种方式提供了四个例子来说明不同方法之间的差异。
在图3中,可视化了两个融合的示例,例如“狮头像”和“笔记本”图像及其融合结果。在每张图像中,聚焦和离焦部分边界附近的区域被放大并显示在左上角。在“狮头像”的结果中,可以看到不同方法对狮头像的边界都进行处理。DWT显示“锯齿状”形状,CVT、DSIFT、SR、DenseFuse、CNN显示不需要的工件。对于DWT和DenseFuse,左上角屋檐的亮度也有异常的增加。而MWG中相同的区域是失焦的,表明该方法不能很好地检测出聚焦区域。在“笔记本”的结果中,一排挂钟位于聚焦和离焦的边缘,可以看到除了SESF-Fuse外,所有的方法都显示出平滑和模糊的结果。
图 3 不同“狮头像”与“笔记本”的可视化融合结果
为了更好的对比,图4和图5分别显示了从每幅融合图像中减去第一个源图像得到的差分图像,并将每幅差分图像的值归一化为0到1的范围。如果近聚焦区域被完全检测到,差分图像将不会显示出该区域的任何信息。因此,CVT、DSIFT、DWT和DenseFuse-1e3-L1-Norm不能很好地检测出聚焦区域。SR, MWG和CN在婴儿边缘的区域表现的很好,因为仍然可以看到近聚焦区域的轮廓。此外,SESF-Fuse在近聚焦区域的中心或边缘区域都有良好的性能。在图5中,近焦点区域是石头。与上述观察结果相同,CVT、DSIFT、DWT、NSCT、DenseFuse不能很好地检测到聚焦区域。除了石头的边界区域,MWG和CNN的效果都很好。
图 4 不同融合方法下“婴儿”的融合结果
图 5 不同融合方法下“海”的融合效果
表1 与其他融合方法的比较
表1列出了使用上述三个指标的不同融合方法的目标性能。可以看到,基于CNN的方法和所提出的方法在Qg和Qcb融合指标的平均得分上明显优于其他15种方法。对于Qg指标,CN- Fuse和SESF-Fuse的性能相当。然而,CNN-Fuse是一种监督方法,需要生成不同模糊程度的合成图像来训练一个两类图像分类网络。相比之下,本方法只需要训练一个不需要生成合成图像数据的无监督模型。对于Qm度量,SESF-Fuse的平均核比LP小,但是,所提出的方法的第一个数达到了最大值,这意味着它比其他方法具有更强的鲁棒性。
综合考虑以上主观视觉质量与客观评价指标的比较,提出的基于SESF - Fuse的融合方法总体上优于其他方法,在多焦点图像融合中表现出了最先进的性能。
本文提出了一种无监督深度学习模型来解决多焦点图像融合问题。首先训练一个无监督的编解码器网络来获取输入图像的深层特征,然后利用这些特征和空间频率计算活跃度和决策图进行图像融合。实验结果表明,与现有的融合方法相比,该方法在客观和主观评价方面均取得了较好的融合性能。证明了无监督学习与传统图像处理算法相结合的可行性。另外同样的策略也适用于其他图像融合任务,如多曝光融合、红外融合和医学图像融合。