VAE-Fuse:一种无监督的多聚焦融合模型

2022-02-13 14:33邬开俊
西安电子科技大学学报 2022年6期
关键词:编码器损失像素

邬开俊,梅 源

(兰州交通大学 电子与信息工程学院,甘肃 兰州 730070)

图像融合是图像处理的一个分支。其数据形式是包含有明暗、色彩、温度、距离以及其他的景物特征的图像[1]。多聚焦图像融合作为多源图像融合的一个重要分支,是解决成像系统聚焦范围局限性问题的有效方法[2]。在诸如遥感、医学影像、图像去雾、显微镜等计算机视觉和计算机摄影领域具有重要的应用价值。

根据多聚焦图像融合处理所处的阶段,可将多聚焦图像融合分为:像素级图像融合、特征级图像融合和决策级图像融合3个层面[3]。其中,像素级图像融合具有在融合过程中信息丢失少,能够提供其他融合层次所不能提供的细节信息等优点,是当前图像融合领域的热门研究课题之一。在像素级图像融合中,其融合方法可分为变换域、空间域以及变换域与空间域相结合和基于深度学习的融合方法[4]。其中,基于深度学习的图像融合方法又可分为基于监督学习的图像融合方法和基于无监督学习的图像融合方法。文献[5]将卷积神经网络用于图像融合,将多聚焦图像融合问题视为一个基于监督学习的二分类问题,取得了突出效果。首先,采用高斯模糊对ILSVRC2012原始数据集进行堆叠模糊处理,形成不同模糊程度的图像来模拟离焦图像,并分别与原始图像组成一组清晰-模糊图像对。接着,随机对每张原始图像与模糊图像组成的图像对进行随机选取图像块作为模型输入,经过一个孪生卷积网络和全连接层后进行图像块聚焦属性的判断,并生成初始权重图。然后,通过数学形态学处理对初始权重图进行优化处理并生成决策图。最后,采用加权融合策略进行最终的图像融合。该方法的提出引起了重视,陆续有许多同类融合方法被提出并取得了显著成效。如采用VGG[6]和AlexNet[7]等预训练模型替换孪生卷积网络进行图像融合。此类方法均是采用监督学习的方式进行图像融合,但是采用监督学习策略却有明显的局限性。比如此类策略需要具有大量的图像标注信息(在多聚焦图像融合问题上即为具有全聚焦图像作为参考图像用于模型的梯度回传),但是在实际问题中,往往缺乏标准的参考图像,甚至缺乏用于特定问题的待融合图像。考虑到基于监督学习进行图像融合的局限性,文献[8]提出了一种采用无监督学习策略进行图像融合的方式——DeepFuse。DeepFuse采用端到端的方式进行图像融合,且无需像其他图像融合方法那样需要手动设置复杂的融合策略,具有灵活、通用等特点[9]。但是由于DeepFuse是一种通用的图像融合方法,所以在特定图像融合问题上的效果欠佳。

为了在多聚焦图像融合问题上取得更好的效果,文中结合变分自编码器(Variational AutoEncoder,VAE)结构,设计出了一种新的多聚焦图像融合框架,并与5种图像融合算法(其中包括3种较新的且效果较好的基于无监督学习的图像融合算法)相比,在多项评价指标上取得了最佳效果。

1 相关工作

采用无监督学习的方式进行图像融合,DeepFuse具有举足轻重的地位。DeepFuse是一种端到端的图像融合框架,包括编码、融合、解码3个过程。在编码部分延用了文献[5]提出的基于CNN的图像融合方法中的孪生卷积神经网络结构;融合策略则采用简单的Concat;解码部分为普通的卷积神经网络。有所不同的是,DeepFuse采用了更大卷积核去扩大感受野,并采用MEF SSIM作为损失函数进行无监督训练。由于DeepFuse是一种通用图像融合框架,所以在特定问题上的融合效果欠佳。在此之后,文献[10]提出了DenseFuse。DenseFuse仍采用编码器-解码器结构,采用L2+SSIM作为损失函数进行模型训练。在图像融合时,仍先采用编码器进行编码,然后进行融合后再传入解码器进行输出。与DeepFuse相比有所不同的是,DenseFuse编码器采用DenseBlock结构进行构建,较好地保留了原始图像信息,且在融合部分采用L1+norm策略进行特征图的融合。此方法虽然在红外线与可见光的融合上效果较好,但是由于多聚焦图像与红外线图像具有显著差异,故此方法在多聚焦图像融合上的效果欠佳。文献[11]提出了VIF-Net,用于红外线与可见光的图像融合方法,类似于DenseFuse结构。有所不同的是,VIF-Net在编码时同时输入红外线图像与可见光图像,采用SSIM与TV损失相结合的方式作为损失函数进行训练。但是此方法仍然不适用于多聚焦图像融合,因为VIF-Net要求在训练过程中具有全聚焦的参考图像,然而目前并没有标准的全聚焦参考图像。文献[12]提出了SESF-Fuse用于多聚焦图像融合。SESF-Fuse也采用了DenseBlock模块作为编码器结构。与DenseFuse相比,较为不同的是,SESF-Fuse在图像融合时首先采用空间频率对编码后的特征图按通道进行清晰像素判别,生成初始决策图,然后通过数学形态学处理和引导滤波优化后,直接根据决策图进行加权图像融合。在多聚焦图像融合任务中,SESF-Fuse取得了先进的融合效果,但是并不能解决离焦扩散效应。此后,文献[13]提出了FusionDN图像融合统一模型。FusionDN是一种端到端的图像融合模型,采用DenseBlock结构设计了更深的网络结构。有所不同的是,FusionDN为了适用于不同的融合任务,引入了弹性权重损失。在损失函数设计方面,FusionDN引入了SSIM损失、感知损失、梯度损失及弹性权重损失。此外,FusionDN结合了原始图像的质量及信息熵来设计每对原始图像的权重参数。FusionDN相较于DeepFuse在多种图像融合任务上取得了先进的融合性能。此后,文献[14]对FusionDN进行了改进,并提出了U2Fusion。在U2Fusion中,仍采用了DenseBlock结构设计了一个深层的网络结构,同时增加了对医学图像融合的考虑。相较于FusionDN,U2Fusion最大的不同就是在损失函数设计方面。U2Fusion采用了SSIM损失、MSE损失及弹性权重损失设计了损失函数。在图像权重设计中,U2Fusion采用了VGG16网络进行清晰像素判别,并使用梯度进行特征图信息保留程度的评估过程。根据评估结果生成每对原始图像的权重参数。实验结果表明,U2Fusion在多项指标上取得了理想的融合效果。但是文中实验发现,U2Fusion虽然在EI、CC、VIF和MG指标上的效果较好,但是却在其他指标上的性能不够好。观察其差值图也能发现其存在明显缺陷。

为了进一步提升多聚焦图像融合的质量,文中结合变分自编码器(Variational AutoEncoder,VAE)结构,提出了一种轻量级的多聚焦图像融合网络;采用了更为浅层的网络架构,对原始图像进行编码与解码;结合图像清晰度评价指标进行图像聚焦属性的区分。实验结果表明,文中所提算法在多项指标上均优于所比较的5种具有代表性的图像融合算法。

2 方 法

2.1 方法总览

图1展示了文中所提的整体融合架构。首先,在训练阶段采用编码器-解码器网络结构来重建原始图像信息;接着,当模型训练结束后,采用编码器部分的网络生成待融合图像的编码后的特征图;然后,在图像融合阶段采用改进的灰度方差乘积函数(SMD2)图像清晰度评价函数,按通道对编码后的特征图进行图像聚焦属性的区分,并生成初始权重图,通过数学形态学优化处理生成最终的决策图;最后,根据决策图采用加权融合策略生成最终的融合图像,并对融合后的采用主观和客观评价方法进行融合效果分析。此外,还进行了算法比对和消融实验,验证了文中图像融合方法的有效性。

图1 图像融合总体架构图

2.2 模型架构

采用编码器-解码器网络结构进行原始图像的重建。编码器部分结合了变分自编码器结构,第1层进行普通卷积,第2层具有两个不同的卷积层,它们之间不进行参数共享。在第2层中,采用经过通道注意力机制处理后的结果与一个卷积后的结果相乘,然后再与另外一个卷积后的结果相加。其中,通道注意力机制中采用了平均池化、最大池化和MLP处理。平均池化可以聚合空间信息,最大池化可以区别目标的特征信息。MLP则保证了在相同的语义嵌入空间中聚合通道特征[15]。文中编码器结构的设计,通过自适应地校准通道响应或空间特征响应,可以有效地增强空间特征编码。

此外,使用SiLU函数[16]作为网络卷积层中的激活函数。通过实验发现,采用SiLU函数作为激活函数的表现更佳。其计算方式为

SiLU(x)=xSigmoid(x) 。

(1)

2.3 损失函数

SSIM损失函数常用于基于无监督学习的图像重构过程,考虑了亮度、对比度和结构指标。SSIM得到的结果会比L1、L2的结果更有细节。而MS-SSIM损失函数在SSIM的基础上增加了多尺度信息,相当于考虑了分辨率。但是MS-SSIM损失函数容易导致亮度的改变和颜色的偏差,不过它能够保留高频信息(图像的边缘和细节)而LP损失函数能较好地保持亮度和颜色不变化[17]。此外,考虑到总偏差(Total Variation,TV)损失[11]能够较好地实现梯度变换,且消除部分噪声。最终确定的损失函数RLoss为

LLoss=1-(αLp+βLms-ssim+γLTV) ,

(2)

其中,Lms-ssim表示MS-SSIM损失;Lp表示Lp损失;LTV表示TV损失;α、β、γ表示各项损失函数的系数,α和β取值为1,γ取值为20。

Lp损失即为输入与输出之间的差值的L2范数,其计算公式为

Lp=‖O-I‖2。

(3)

MS-SSIM损失是一种对SSIM损失的多尺度改进版本,其计算公式如下:

(4)

(5)

(6)

TV损失的引入主要是为了实现梯度变换且减少噪声的影响,其计算公式为

(7)

R(i,j)=Io(i,j)-IF(i,j) ,

(8)

其中,Io(x,y)和IF(x,y)分别表示原始图像Io的第i行第j列的像素值和重建图像IF的第i行第j列的像素值,R表示原始图像与重建图像的差值,‖‖2表示L2距离。

2.4 像素判别及优化处理

对原始图像编码后生成的特征图进行图像清晰度辨识,在生成决策图的过程中,DeepFuse直接对特编码后生成的特征图进行Concat,然后传入解码器解码[8]。DenseFuse则首先采用L1-norm策略对编码后生成的特征图进行结合,然后传入解码器解码[10]。SESF-Fuse则有所不同,SESF-Fuse首先对编码后生成的特征图采用空间频率并按通道进行卷积,生成初始决策图;然后通过数学形态学及引导滤波等优化处理,生成最终决策图,采用加权融合策略进行图像融合。在SESF-Fuse中,使用空间频率逐像素进行清晰像素的判别。生成初始决策图的方式虽然效果显著,但是实验发现,采用此方法在部分数据集上的效果欠缺。为此,结合图像清晰度评价指标中的灰度方差乘积函数(SMD2)[18],提出一种改进的SMD2方法进行特征的提取。具体公式如下:

(9)

(10)

(11)

(12)

首先对编码后的特征图通过上述处理后得到初始决策图;然后采用数学形态学处理开闭运算(圆形的形态学算子,设置阈值为0.01×H×W用以消除独立小区域),优化初始决策图中像素判别出错的像素点,得到最终语义连贯的区分聚焦清晰位置和模糊位置的决策图。

2.5 融合策略

将通过像素判别和优化处理后生成的决策图,采用加权融合的方式进行最终的图像融合过程,其计算公式为

F(i,j)=D(i,j)A(i,j)+(1-D(i,j))B(i,j) ,

(13)

其中,F(i,j)表示融合后图像的第i行第j列的像素值,A和B分别表示不同聚焦属性的原始聚焦图像。

2.6 融合评价指标

为了更好地评判融合后的图像质量,将从主观和客观两个方面进行评价。其中,主观评价表示从图像视觉感官上来看,融合图像是否存在模糊等情况。客观评价时,选取QMI、多尺度结构相似度(MSSSIM)、峰值信噪比(RPSNR)、空间频率(RSF)和QAB/F这5项指标进行融合图像质量的评价。

(1)QMI是对MI的一种改进,能够更好地衡量原始图像与融合图像之间信息转移的多少[19]。QMI越大,图像融合效果越好。其定义如下:

(14)

其中,RENA、RENB和RENF代表源图像A、源图像B和融合后图像F的信息熵;RMIAE和RMIBF代表图像A、B和F之间的联合信息熵所对应的互信息。

(2) SSIM常用以衡量融合图像与源图像的结构相似度。但是SSIM指标是单一尺度的,不符合人眼的视觉特性[19]。为此,文献[20]提出了基于多尺度结构相似性客观评价指标(RMSSSIM)。其定义如下:

(15)

其中,M为参考图像所选取的最高尺度数。通过对输入图像连续使用低通滤波器进行下采样处理,得到第i层的亮度、对比度、结构相似度的计算结果分别记为lM(x,y)、ci(x,y)和si(x,y)。在此设置αM、βi和γi分别为1。

(3) 峰值信噪比(RPSNR)[21],用于衡量图像有效信息与噪声之间的比率,能够反映图像是否失真。RPSNR越大,表示图像质量越好。其定义如下:

(16)

(17)

其中,RMAXI表示图像点颜色的最大数值,如果每个采样点用 8 位表示,那么就是 255。

(4) 空间频率(RSF)反映的是空间域内图像的总体活跃程度[22],即图像灰度的变化率,其定义如下:

RSF=(RRF2+RCF2)1/2,

(18)

(19)

(20)

其中,RRF和RCF分别为图像H的行频率和列频率。

(5)QAB/F评价算子可以较好地反映源图像中有多少边缘信息被传递到了融合图像中[23]。该评价指标首先采用Sobel边缘检测算子来获取源图像和融合图像中每个像素点处的方向信息强度a(x,y)和边缘信息强度g(x,y),即

(21)

(22)

(23)

(24)

(25)

QAB/F评价算子可以较好地反映源图像中有多少边缘信息被传递到了融合图像中,其定义如下:

(26)

3 实 验

3.1 实验环境

采用MS-COCO数据集[24]进行模型训练,并选取了38对公开的多聚焦图像数据集[25]进行图像融合及对比实验。

对于训练的MS-COCO数据集,选取了10 000张图像进行模型训练。为了增强模型效果,提高训练速率,降低内存开销,在将数据传入模型之前,首先对原始数据进行了图像灰度变换、数据标准化处理及大小为256×256的图像尺寸变换处理。其中,对于在测试数据集上进行图像融合的过程中,不进行图像尺寸变换处理。此外,在使用训练好的编码器进行实验生成决策图后,仍采用原始的彩色图像进行加权图像融合。

对于模型超参数的设定,对于初始学习率设置为10-3,并采用Warm up学习率策略进行动态调整。优化器采用AdamW,Batch_Size设置为16,迭代次数设置为50次。

本实验采用Python语言,主要采用Pytorch、Skimage库在PyCharm编译器中进行实现,所采用的GPU平台为NVIDIA 1060。

3.2 融合图像评价

为了更好地体现本次实验的效果,选取了经典传统图像融合算法DWT[26],将深度学习引入图像融合的CNN[5]算法以及近几年的几种经典的基于无监督学习的图像融合算法(DenseFuse[10]、SESF-Fuse[12]及U2Fusion[14]算法)进行实验,并分别从主观评价上和客观评价上进行比较。

3.2.1 主观评价

采用文中算法进行图像融合实验,得到的图像融合的部分结果如图2所示。

图2 图像融合效果图

为了比较文中算法与其他融合算法的差别,在此分别展示各个算法在此测试集上的融合效果图和差值图(融合后图像减去原始图像),如图3和图4所示。

图3 各种算法融合效果的对比图

从图2可以看出,文中所提出的融合算法进行图像融合后,在主观上取得了较好效果,融合后的图像已经看不出明显的瑕疵。从图3文中算法与其他算法对比的融合效果可以看出,所比较的各种算法在主观上看不出明显区别,均能够取得较好的融合效果。为了进一步探讨融合后的图像保留了多少原始图像信息,又进行了差值图比较。从图4各种算法的差值图可以看出,DWT、CNN、DenseFuse和U2Fusion的差值图存在明显瑕疵,融合后的图像的聚焦部分的信息并未得到全部保留。SESF-Fuse算法和文中算法则能够较好地保留原始图像的聚焦部分的完整信息。

3.2.2 客观评价

在主观评价上,各项算法均能取得较好的融合效果,且SESF-Fuse和文中算法相对较好,能够更好地保留原始图像信息。为了对融合后的图像进行具体量化,在此计算各种算法在38对公开的多聚焦图像数据集上的5项评价指标的平均值。具体结果如表1所示。

表1 各种算法的图像融合质量对比

从表1可以看出,文中所提算法与多种具有代表性的图像融合算法相比,采用了更小的网络模型,并在多项客观评价指标上取得了较好的效果,具有更好的信息保留效果(QMI、QAB/F)。在5项评价指标的纵向比较中,取得了3项最优。在横向比较中,相较于DWT、CNN、DenseFuse、SESF-Fuse和U2Fusion,分别有5、4、4、4和5项指标优于相应的比较算法。虽然SESF-Fuse和CNN算法采用了基于决策图的方式进行多聚焦图像融合任务且与文中算法在多项指标上相近,但是文中算法所使用的模型参数量更少,具有更高的融合速率并在多项指标上优于两者。U2Fusion的设计则出于对融合任务通用性的考虑,导致其在特定任务上的融合性能欠佳。DenseFuse在融合过程中直接对编码后的特征图进行了相加,导致原始图像的有效及无效信息得到了不同程度的综合,因此在多聚焦融合任务上的性能略显不足。基于频域变换的DWT算法由于不具有平移不变性,导致融合图像可能存在边界存在不连续等问题,因为在多聚焦融合任务上的效果较差。综合可得,与多种算法相比,文中算法取得了优先的融合性能。

3.3 消融实验

为了验证文中各项策略的效果及文中算法的有效性,在此选取1 000张MS-COCO数据集中的图像进行图像重构任务的训练,设置迭代次数为50次,在38对公开的多聚焦图像数据集上计算其重构损失。此外,还分析了文中所提出的清晰像素判别策略的有效性。具体结果如表2、表3和图5所示。

表2 各种损失函数对比

从表2采用各种损失函数进行图像编码和解码的过程可以看出,由于TV损失能够重点关注图像的梯度信息,对噪声具有抑制作用。因此,TV损失的引入能够带来一定程度的效果。多尺度结构相似度(MSSSIM)能够捕获图像多个尺度的模糊,综合考虑了采样率、观察距离等因素,更好地贴近了人眼视觉感知,故引入MSSSIM损失相较于SSIM损失能够进一步降低模型在编码解码过程中的损失。L1损失在此次实验中的表现则相对较差。值得注意的是,在SESF-Fuse中结合了L2与SSIM损失并赋予了SSIM损失较大的权重。其在图像重构过程中的损失高于文中的L2损失、MSSSIM损失及TV损失的结合结果,这也体现了文中所采用的损失函数及权重设置的合理性。

表3 不同网络结构对比

从表3采用各种网络结构进行图像编码和解码的过程可以看出,SESF-Fuse采用了DenseNet结构,采用卷积层直连加Attention跳跃连接的方式作为编码器,解码器也相对更深,但是在编码解码过程中的图像重构损失也更多。E3_D3_Add采用了3层的VAE编码解码结果所造成的损失相较于SESF-Fuse更少,但差于E2_E2_Add的2层结构的损失,因此文中采用了基于VAE结构的两层网络结构较为合理性。E2_D2_Concat则采用了Concat连接的方式进行编码结果的汇集,这虽然汇聚了更多来自编码器的特征图,但是同时也给解码器带来了负担。因此在此问题中,在同等训练轮数下效果略差于Add连接的方式。此外,Add连接更贴近于VAE网络的原始结构。综合来看,采用文中的融合架构具有一定的合理性。

图5 各种清晰像素判别方法的性能对比

从图5采用不同的清晰像素判别方式生成决策图的过程可以看出,采用空间频率(Spatial frequency)及灰度方差乘积函数(SMD2)进行像素判别的方式均存在一定的瑕疵,而采用改进后的SMD2进行像素判别的方式能够兼顾两者的优势,取得了更好的效果,即文中提出采用改进后的SMD2进行像素判别的方式是有效的。

4 结束语

文中结合VAE结构设计出了一种新的多聚焦图像融合的网络架构。在训练过程中,采用L2+MSSIM+TV损失函数进行无监督训练,该网络架构对原始图像信息具有更高的保留度。在融合过程中,采用改进的SMD2方法进行清晰像素判别能够更好地考虑原始图像的特征梯度信息,是融合过程的关键。最终,相较于多种融合算法,文中方法取得了先进的融合性能。

此次实验虽然取得了理论上的成功,但是同时也发现了一些问题:首先是诸如FusionDN[13]及U2Fusion[14]这种通用融合算法在具体问题上的融合性能仍然欠佳;其次是虽然SESF-Fuse[12]及文中算法这类基于决策图的融合方法在多聚焦图像融合任务上的效果较好,但是这会造成离焦扩散现象,在聚焦边缘仍存在少许的残缺。因此,如何更好地保留边缘信息是未来的一个研究点。最后,像素判别的方式对于融合结果具有重要的影响。目前主要是采用特征梯度进行像素判别,但是采用此方式进行像素判别,在面对高曝光图像及模糊图像时的处理效果欠佳。如何根据具体问题自适应地选择合适的像素判别方式,值得重点考虑。

猜你喜欢
编码器损失像素
融合CNN和Transformer编码器的变声语音鉴别与还原
像素前线之“幻影”2000
胖胖损失了多少元
“像素”仙人掌
玉米抽穗前倒伏怎么办?怎么减少损失?
基于双增量码道的绝对式编码器设计
ÉVOLUTIONDIGAE Style de vie tactile
应用旋转磁场编码器实现角度测量
高像素不是全部
基于数字信号处理的脉冲编码器