基于深度多级小波变换的图像盲去模糊算法

2021-01-25 03:47陈书贞曹世鹏崔美玥练秋生

电子与信息学报 2021年1期

陈书贞曹世鹏崔美玥练秋生

(燕山大学信息科学与工程学院秦皇岛 066004)

(河北省信息传输与信号处理重点实验室秦皇岛 066004)

1 引言

拍摄图像时，相机与物体的相对运动往往会造成图像模糊，严重影响图像在实际生活中的应用效果。图像去模糊作为一种改善图像质量的方式，广泛应用于医学图像、交通监控等领域。图像去模糊是图像处理中典型的病态反问题，旨在从模糊图像中恢复出相应的清晰图像。近年来，这项技术受到广泛的关注和研究，但由于现实场景中模糊核的复杂多变性，从真实模糊图像中恢复清晰图像仍具有挑战性。

图像去模糊过程可看作从解空间中寻找最优解的过程，传统方法利用不同的自然图像先验(如L0-范数梯度先验[1])约束解空间，通过最大后验估计模型的迭代寻找最优解。然而传统方法中采用的迭代优化方式计算繁琐，实时性差；且过于简单的模糊模型假设会导致模糊核的不准确估计，降低算法性能。近年来，随着深度学习的发展，卷积神经网络(Convolutional Neural Networks, CNN)广泛地应用于图像去模糊领域。根据图像块信息，Sun等人[2]利用CNN预测图像的局部模糊核，通过非盲解卷积去除非均匀运动模糊。Gong等人[3]利用全卷积网络估计模糊图像的运动场，从估计的运动场中恢复清晰图像。Nah等人[4]提出一种端到端(无核估计)的图像处理方法，该方法遵循由粗到精的思想，逐步恢复清晰图像。Kupyn等人[5]采用带有梯度惩罚和感知损失的Wasserstein GAN(Wasserstein Generative Adversarial Networks)去除运动模糊，恢复更多的纹理信息。Kupyn等人[6]进一步改进网络，将特征金字塔网络作为DeblurGAN-v2(Deblurring Generative Adversarial Networks Version 2)的核心构建块，此网络可与各种骨干网络配合使用，在性能和效率之间取得平衡。Tao等人[7]提出尺度递归的思想，利用不同尺度的图像共同训练网络，实现网络参数共享，运动去模糊效果显著。梁晓萍等人[8]利用头脑风暴优化算法自动搜寻BP(Back Propagation)神经网络更佳的初始权值和阈值，提升网络性能。

近期的研究主要从改进网络结构、引入多尺度和增大感受野等角度改善图像重建算法的性能。Tao等人[7]引入网络参数共享机制，在减少参数的同时获得更好的效果。Ronneberger等人[9]提出一种编-解码结构的网络(Unet网络)，充分利用上下文信息，在图像语义分割中获得较好的性能。Nah等人[4]将多尺度应用到去模糊网络中，逐渐去除不同程度的模糊。Chen等人[10]将平滑的扩张卷积嵌入到网络中，在保持参数量不变的情况下，通过增大感受野提高区域性能，但随着网络深度的增加，扩张卷积仅考虑使用棋盘格模式对位置进行稀疏采样，从而导致部分信息丢失[11]。Jin等人[12]采用重采样卷积操作确保网络的第1层就具有大的感受野，但是随着图像尺寸的增加，网络的效率大幅降低，且没有增加图像特征的稀疏性。

受上述研究的启发，本文提出一种基于深度多级小波变换的图像盲去模糊算法，在小波域下学习模糊图像和清晰图像4个子带之间的映射关系，以端到端的方式实现动态场景去模糊。本文的工作如下：(1) 将小波变换嵌入到编码阶段以减少特征图的尺寸，确保网络具有大的感受野。在解码阶段采用小波逆变换，将低分辨率特征图上采样为高分辨率特征图，可有效地避免池化层造成的图像信息损失[11]。此外，图像在小波域中具有稀疏性，网络学习稀疏特征到稀疏特征的映射[13]，可有效地提高网络的学习效率。(2) 利用多尺度扩张稠密块(Multi-scale Dilated Dense Block, MDDB)，在保证参数不变的前提下提取图像的多尺度深层特征，同时通过稠密连接消除扩张卷积引起的网格伪影。引入的多尺度结构提高了网络对模糊程度的鲁棒性，使恢复的图像更加清晰。(3) 编-解码结构之间的跳跃连接通过增加信息流的传递来融合网络浅层和深层的特征。本文提出的特征融合块(Feature Fusion Block, FFB)引入了动态选择机制[14]，允许每个神经元根据输入信息自适应地调整浅层特征与深层特征之间的比重，提高特征融合的有效性。(4) 图像在小波域与空间域具有不同的表示方式，与小波域相比，图像在空间域内含有更加精细的图像细节信息。为补充小波域忽略的图像细节信息，本文提出空间域重建模块(Spatial Domain Reconstruction Module, SDRM)，在空间域内学习模糊图像与清晰图像之间的映射关系，进一步提高重构图像的质量。

2 网络结构

本文的网络结构如图1所示，在该网络中，首先利用模块A在小波域中去除模糊图像中的模糊，小波系数的稀疏性可简化去模糊过程，同时通过增大感受野来提高大模糊核导致的运动模糊的鲁棒性；然后利用模块B在空间域重建图像，得到去模糊图像。

2.1 多尺度扩张稠密块(MDDB)

本文采用MDDB提取图像的多尺度特征，同时进一步增大网络的感受野，提升网络性能。如图2所示，MDDB由一个卷积层和3个多尺度扩张块组成。卷积层减少特征图的通道数，多尺度扩张块提取图像的多尺度特征。每个多尺度扩张块利用4个大小不同的滤波器提取不同尺度的特征，采用级联操作融合多尺度信息，并使用大小为1×1的滤波器以解决特征级联引起的参数过多的问题。为减少网络的计算量，本文采用扩张率( s)分别为1,2, 3和4的扩张卷积[10]代替普通卷积以获取大尺度特征。

图1 网络结构

图2 多尺度扩张稠密块

其中， fms为 MDDB提取的深层特征，h0表示多尺度扩张稠密块中卷积层的输出。

2.2 特征融合块(FFB)

图3 特征融合块

2.3 图像重建模块

模块A是具有对称编-解码结构的小波域重建模块，编码阶段包括3个编码模块(Encoder Module,EM)，每个EM均由卷积层和3个残差块[19]堆叠而成。EM中引入的小波变换将图像尺寸降为原来的1/4，利用卷积层改变特征图的通道数，通过残差块提取丰富且稀疏的图像特征。

解码阶段包括3个解码模块(Decoder Module, DM),DM的结构与EM的完全对称。利用小波变换的可逆性，在增加图像分辨率的同时保留了图像的细节信息。

模块B是一个空间域重建模块，在空间域学习图像特征，获取小波域忽略的更精细的图像细节信息。模块B由卷积层和残差块堆叠而成，首先通过卷积层提取图像的浅层特征，然后利用残差块提取更丰富的特征，最后通过卷积层在空间域重建去模糊图像。

3 训练与测试

本文采用的训练集是GoPro训练集[3]，从GoPro训练集中随机选取图像，并随机裁剪成320×320×3的图像块，batch size设为24。为提高模型的鲁棒性，利用随机旋转、随机上下翻转、添加加性高斯噪声进行数据扩充处理，其中旋转角度为0°, 90°,180°, 270°，噪声的均值为0，标准差为(0, 5)。此外，本文利用小尺度的模糊核与训练样本的卷积来增强训练样本的多样性。测试集是GoPro测试集、DVD测试集[18]和真实模糊图像[20]。在训练过程中，本文使用 l2范数损失函数来优化网络，网络的优化方法为Adam，所有实验在Pytorch深度学习框架下进行训练，在Inter Core i7-8700 CPU，主频3.2 GHz，内存64 GB，显卡NVIDIA QUADRO RTX 5000平台下完成。

值得注意的是，本文采用模块化训练方法获取网络模型，在保证其他模块参数不变的前提下，逐一训练网络的各个模块。首先在不添加多尺度扩张稠密块(MDDB)，特征融合模块(FFB)和空间域重建模块(Spatial Domain Reconstruction Module,SDRM)的情况下训练网络其他模块，初始学习率为1e-4，当网络训练趋于稳定时调整学习率为5e-5，再次趋于稳定时调整学习率为5e-6；然后分别将MDDB, FFB和SDRM添加到网络中进行单独训练，训练周期为1300 epochs，初始学习率设置为1e-4，分别在400 epochs和900 epochs调整学习率为5e-5和5e-6；最后统一训练网络中的所有模块，微调网络参数，训练周期和学习率调整策略与多尺度模块的相同。

4 结果与分析

4.1 实验结果比较

为说明算法的性能，本文与近年来提出的去模糊算法进行比较，如DeblurGAN-v2[6]、SRN[7]等，分别在GoPro测试集、DVD测试集进行测试，采用峰值信噪比(Peak Signal-to-Noise Ratio, PSNR)和结构相似度(Structural SIMilarity index, SSIM)作为评价指标。GoPro测试集包含1111个模糊-清晰图像对，主要由相机的抖动和物体的运动造成，可以有效地模拟动态场景下真实的运动模糊。DVD测试集由多种设备(如iPhone6s, GoPro)收集，包括1496对模糊-清晰图像，所涉及的动态场景与GoPro测试集的不同。GoPro, DVD测试集上的实验对比结果分别如表1，表2，表3所示，GoPro测试集、DVD测试集、真实模糊图像上的视觉对比结果分别如图4，图5所示。

由表1，表2可以看出，与Tao等人[7]得到的结果相比，本文的PSNR提高1.13 dB, SSIM提高0.018，运行时间减少0.41 s。在重构图像的质量方面，本文算法明显优于其他算法；在算法的重构效率方面，本文算法同样优于其他算法(除Kupyn等人[6]提出的DeblurGAN-v2外)。由表3可以看出，本文算法在不同场景下具有更强的鲁棒性。

表1 各算法在GoPro测试数据集上的定量评估

表2 各算法在GoPro测试数据集上的运行时间(s)

表3 文献[7]与本文算法在DVD测试数据集上的定量评估

本文还在GoPro测试集、DVD测试集和真实的模糊图像上与各个算法进行视觉比较。在GoPro测试集上的视觉对比结果如图4所示，在大的非均匀运动模糊的情况下，本文算法在GoPro测试集上恢复出结果具有更加清晰的条纹和边缘，如在第2行和第6行的红色框中重建了清晰的脸部轮廓和数字形状，没有严重的颜色伪迹和图像失真。在DVD测试集和真实的模糊图像上的视觉对比结果如图5所示，相比于Tao等人[7]得到的去模糊图像，本文算法恢复的图像的局部模糊更少，颜色更加逼真，结构更加清晰。

4.2 各个模块对网络性能的影响

为评价各个模块的有效性，本文在GoPro测试集上进行对比试验，采用W-MS, W-FF, W-SDR,W-C3和W-B这5个基准模型说明多尺度扩张稠密块(MDDB)，特征融合模块(FFB)和空间域重建模块(SDRM)对网络性能的影响。W-MS, W-FF和W-SDR分别表示只包含MDDB, FFB和SDRM的网络模型，W-C3表示用3个卷积层代替MDDB的网络模型，其网络深度与W-MS的相同，W-B表示不引入3种模块的网络模型。各模块的对比结果如表4所示。

由表4可得，在不引入MDDB, FFB和SDRM的情况下，PSNR可达到30.98 dB，这说明将小波变换嵌入到编-解码结构中可有效地提升网络的性能。其原因主要包括以下3个方面：⑴将小波变换嵌入到编-解码结构中会增大网络的感受野，可有效地利用图像的上下文信息产生边缘更加清晰的结果，同时小波变换的可逆性避免了图像信息的丢失。⑵图像在小波域具有稀疏性，利用小波变换进行下采样增强了图像特征的稀疏性，提高网络的学习能力。⑶小波变换在小波子带中提供的垂直、水平和对角线边缘信息，可用于学习图像的轮廓和细节特征。MDDB, FFB和SDRM的引入使平均PSNR分别提高0.12 dB, 0.11 dB和0.15 dB，平均SSIM均提高0.001，使网络获得高质量的重构图像。

图4 各个算法在GoPro测试集上的恢复结果对比

图5 文献[7]与本文算法在DVD数据集和真实数据集上的恢复结果对比

4.3 训练方法对网络性能的影响

本文分别采用整体训练和模块化训练的方式训练网络，对比了这两种训练方法对网络性能的影响。GoPro测试集上的定量结果如表5所示，相比于整体训练的网络，模块化训练的网络的PSNR提高0.34 dB, SSIM提高0.003。对于本文算法来说，模块化训练可以使网络各个模块分别达到最优以确保网络整体产生更好的结果，对网络的性能起到积极的推动作用。

表4 各基准模型在GoPro测试集上的定量结果

表5 两种训练方法在GoPro测试集上的定量对比

5 结束语

本文提出一种基于深度多级小波变换的图像盲去模糊算法，通过正/逆小波变换实现上采样/下采样操作，在增大网络感受野的同时利用图像在小波域中的稀疏性，降低了映射的复杂程度。为了在小波域重建高质量图像，本文通过多尺度扩张稠密块引入多尺度结构，实现了多尺度深层特征的提取与重用。同时，本文还利用特征融合块自适应地选择编-解码的特征进行有效的特征融合。由于图像在小波域和空间域的表示方式存在差异，本文采用空间域重建模块融合这两种不同的特征表示以进一步提高重构图像的质量。在训练时，采用模块化训练的方式进一步提高网络的性能。GoPro测试集和DVD测试集上的实验结果表明，本文方法恢复的图像具有更好的视觉效果，并且在不同场景下具有更强的鲁棒性。