基于生成对抗网络的图像去雾算法研究

2022-04-15 03:46孙宏伟
关键词:卷积像素图像

孙宏伟,潘 峰,罗 川

(西南交通大学希望学院 轨道交通学院,四川 成都 610400)

随着深度学习的发展,许多基于神经网络的去雾方法被提出来,它们大多是从大量训练数据中提取特征并学习模糊和无模糊图像对之间的映射。与上述传统方法相比,基于卷积神经网络(CNN)的方法试图直接回归中间传输图或最终清晰图像,并实现卓越的性能和稳定性。然而,由于缺乏真实世界的训练数据和有效的经验,很难精确地估计这些中间参数,不准确的估计将进一步降低数据性能。

Berman D等[1]提出了一种非局部路径来表征清晰图像。这些专门手工制作的经验对于某些数据有很好效果,但对于其他数据效果有限。李加元[2]提出了一些改进措施,从图像中分割出天空区域,然后分别对天空区域和非天空区域进行处理,从而避免色偏的发生。但当天空分割不准确时,容易造成去雾图像在天空边界处像素不协调的问题。为此,本文采用扩张卷积来覆盖更多的相邻像素,帮助获得更精确的恢复结果。同时为了抵消扩张卷积固有的“网格伪影”现象,进行了平滑处理[3]。另外还加入了循环网络约束作为网络整体训练方式,以证明它的重要性。为了验证提议的有效性,将它与典型算法在去雾基准数据集上进行比较。实验表明,所提出算法在定性和定量上都大大优于其他方法。

1 基于循环生成对抗网络的去雾网络设计

1.1 编码-解码结构的密集连接

在本文设计中,生成器的功能是从输入的模糊图像中生成清晰图像,不需要有估计中间参数的阶段,它可以通过特征在通道上的连接来实现特征重用,即可以充分利用从浅层到深层提取的所有特征。同时,不仅要去除雾霾,还要尽可能保留输入图像的结构和细节信息。如图1所示,生成器包含编码过程和解码过程,编码器包含三个密集块,每个密集块由一系列的卷积、批量归一化(BN)和Relu层组成。经过池化操作后,特征图的尺寸最终缩小到输入大小的1/8。在解码过程中,特征图的大小逐渐恢复到原始分辨率。特别注意的是,密集连接部分的扩张卷积是经过平滑处理后的,这是为了避免像素漂移现象。引入对称层的跳跃连接,通过向解码器的对称层提供特征映射,以突破解码过程的信息瓶颈。

图1 生成网络结构图

1.2 融合平滑扩张卷积的密集块

在类似分割的深度预测任务中,主要矛盾之一是所需的多尺度上下文推理和下采样时丢失的空间分辨率信息难以统一协调。使用扩张卷积便于解决这个问题,它支持感受野的指数扩展而不降低空间分辨率的大小。如图2所示,对于图2(a),是一个3×3的标准卷积核,此时扩张率为1,感受野3×3。对于图2(b)、图2(c),扩张率分别增大到2倍和4倍,卷积核仍然是3×3,但是感受野却明显增大,分别是7×7和15×15。由此可以发现,扩张卷积可以通过增加扩张率来聚合大尺度空间的上下文信息,能够在保证网络中参数量不变且不损失细节信息的前提下,可以获得更大的感受野。感受野k的卷积如式(1)所示。

(1)

式(1)表示在一维情况下,f为给定的输入,⊗代表向量的卷积算子,w(i)是常规卷积层,r是扩张率,当r=1时,扩张卷积将退化为常规卷积。为了以直观的方式理解扩张卷积,我们可以将其视为在两个相邻权重之间插入r-1个零。通过这种方式,扩张卷积可以增加感受野大小从k个到r*(k-1)+1个,而不降低分辨率。

图2 扩张卷积平滑处理示意图

尽管扩张卷积能有效增大感受野,但会产生所谓的像素漂移问题[4]。解决它最直接的方法就是不使用扩张率连续相同的扩张卷积,但是这还不够,因为如果扩张率是成倍数的,这个问题依然存在。提出两个解决办法:一是将扩张率设计成锯齿状结构,例如[1,2,5,1,2,5]的循环结构。二是我们设置的扩张率需要满足式(2)。

Mi=max[Mi+1-2ri,Mi+1-2(Mi+1-ri),ri]

(2)

其中ri是i层的扩张率,Mi、Mi+1分别指在i层和i+1层允许的最大扩张率。那么假设总共有n层的话,默认Mn=rn。如果我们应用的卷积核为k×k,目标则是M2≤k,这样至少可以用扩张率等于1(即常规卷积)的方式来覆盖所有空洞。因此本文每一个密集块的扩张率均采用(1,2,3,5)的设置。

1.3 鉴别器结构设计

鉴别网络用于区分图像是真是假,如图3所示,其中的基本操作是卷积、批量归一化和LeakyReLU函数激活。对于鉴别器的最后一层,将sigmoid函数应用于特征映射,以便概率分数可以被归一化为[0,1]。

图3 鉴别网络结构

1.4 增强半循环训练网络

1.1小节和1.3小节分别给出了生成器网络和鉴别器网络结构。为了进一步确保GAN输出(即G(x))与输入数据x一致,更好的还原图像信息,结合感知一致性损失(式4)和循环一致性损失(式5)增强循环根公式,以提高纹理信息恢复质量,引入了一个半环形循环结构进行训练。如图4所示。

图4 增强的半循环网络结构

(3)

其中ki是一个已知的模糊核,它在训练有雾图像过程中使用。在合成训练数据时,同样被用于从清晰图像yi生成模糊图像xi。⊗表示卷积算子。

在训练阶段使用L1范数正则化的感知一致性损失函数(式4)和像素损失函数(式5),其中N

代表N个样本:

(4)

(5)

为了使生成网络学习过程更加稳定,降低训练模型的复杂性,同样使用L1正则化损失函数(6)来规范生成器G。

(6)

本文提出的目标函数如式(7)所示。

(7)

最后通过求解下式来训练G、D和D*模型如式(8)所示。

(8)

其中λ、γ和μ是权重参数。为了使训练过程稳定,本文在这项工作中使用了LA中的最小二乘GAN损失。

2 实验

2.1 数据集

使用NYU2深度数据库的实况图像[5],与其生成的相应雾霾图像作为训练样本,原始的清晰图像作为目标图像。训练时,随机选取其中的6000对图像作为训练集,网络训练迭代300000次。另外使用基准数据集RESIDE[6]作为测试集对网络模型进行评估。把测试结果人为分成室内和室外两种区域以展示模型的泛化能力。

2.2 去雾模型训练

3 结果对比与分析

3.1 评价指标

本文采用两个广泛使用的绩效测量指标进行定量评估:全参考指标峰值信噪比(PSNR)和结构相似性度量(SSIM)。PSNR是最常用和最广泛使用的图像质量客观评价标准之一。给定两个图像Xin和Xout,它们之间的PSNR如式(9)所示。

(9)

其中Xin代表输入参考图像,Xout代表生成的待评价图像。PSNR数值越大,图像失真就越小,去雾效果越完美。

另一个是结构相似性(SSIM),它被认为与人类视觉系统(HVS)的质量感知相关。它分别从亮度、对比度、结构三方面度量图像相似性。SSIM如式(10)所示。

(10)

为了充分验证本文网络效果,不同先进算法用于定量评估:He[7]算法,FDNet[8]和GCANet[9]。比较结果如表1所示(其中最好效果用粗字体标出)。

表1 与经典去雾方法在SOTS比较结果

3.2 收敛性、鲁棒性和敏感性分析

收敛性分析。由于本文方法需要联合训练生成网络和判别网络,一个与之相关的疑问是它们是否能够很好收敛[10]。从图5(a)可以看出,采用SOTS测试集的情况下,该方法在PSNR方面200个epoch内收敛得很好。虽然在训练阶段使用多个鉴别器可能会增加复杂性[11]。但是结果表明,相比BaseGAN算法用一个鉴别器和生成器[12],本文提出模型会使训练过程更加稳定,和更好的收敛性能。

鲁棒性分析。为了验证所提出方法对图像噪声的抗干扰性,使用SOTS数据集中100幅图像进行评估。并对每个样本都添加了0%至5%随机噪声。图5(b)显示,即使在噪声水平较高时,所提出方法也表现良好。

敏感性分析。由对1.4节中不同损失函数重要性的分析可知,在目标函数(8)中,权重参数λ对图像恢复任务尤为重要。利用SOTS测试数据集来分析该参数效果,在保持其余权重γ和μ不变的情况下,将λ值设置为20到100,步长为10。从表2中可以看出,当λ设置在[40,80]范围内时,显示性能较好,当该参数设置为60时,性能表现最好。

(a)

(b)

表2 关于权重参数λ的敏感性分析

3.3 多模块组件作用分析

为了了解提出算法中每个组件的重要性,本节针对几个重要模块进行讨论分析:扩张卷积有/没有采用平滑处理,有/没有鉴别器D*加入,和平滑模块数量的影响。由理论1.4节中可知,缺少鉴别网络D*时去雾效果不彻底,没有经过平滑处理的扩张卷积会有较严重的伪影和颜色偏移[13]。相比之下,本文去雾算法能够保持更好的颜色保真度。定量分析见表3所示。

进一步考虑到平滑模块数量对去雾任务的影响,把平滑模块数量从2设置到10进行评估,每个平滑模块包含有扩张率为(1,2,3,5)的4个平滑卷积。表4表明,所提出方法对平滑块的数量不敏感。根据经验,本文使用4个平滑块作为准确性和速度之间的权衡。

表3 不同配置下每个组件的消融分析

表4 不同平滑块对去雾任务的影响(SM代表平滑块数量)

4 结论

本文提出了一种端到端受约束的半循环GAN图像去雾算法。为了保证最终估计结果能够真实还原原图像信息,采用密集连接模块在生成网络中,来增强特征利用率[14],并同时在训练过程中加入模型约束。此外,为了消除像素漂移,对每一个扩张卷积都进行了平滑处理。尽管所提出方法简单,但它克服了目前神经网络在上下文聚合信息时遇到的瓶颈问题。大量实验研究表明,所提出算法在图像去雾任务上可以获得良好效果,且具有优秀的鲁棒性和收敛性。

猜你喜欢
卷积像素图像
基于全卷积神经网络的猪背膘厚快速准确测定
像素前线之“幻影”2000
摄像头连接器可提供360°视角图像
一种基于卷积神经网络的地磁基准图构建方法
基于3D-Winograd的快速卷积算法设计及FPGA实现
一种并行不对称空洞卷积模块①
浅析p-V图像中的两个疑难问题
“像素”仙人掌
高像素不是全部
名人语录的极简图像表达