基于迭代交替优化的图像盲超分辨率重建

2022-10-29 03:29:30陈洪刚李自强张永飞王正勇卿粼波何小海

电子与信息学报 2022年10期

陈洪刚李自强张永飞王正勇卿粼波何小海

(四川大学电子信息学院成都 610065)

1 引言

单幅图像超分辨率(Single Image Super-Resolution, SISR)重建，旨在从低分辨率(Low-Resolution, LR)观测图像中恢复出更高分辨率(High-Resolution, HR)的图像[1]，使得重建图像更加清晰。现有图像超分辨率算法总体上可以分为3类：基于插值的方法[2]、基于重建的方法[3]和基于学习的方法[4–17]。近年来，由于出色的性能，基于深度学习的图像超分辨率方法逐渐成为主流。Dong 等人[4]首次将卷积神经网络引入到图像超分辨率领域。在此基础上，研究者不断提出性能更优的超分辨率网络，如IPT[5]和SwinIR[6]等，重建性能有了显著提升[18]。然而，其中较多算法都假设低分辨率图像的降质是已知的，如双3次下采样。在此理想条件下建立的超分辨率模型在处理降质未知的图像时，如真实场景图像，性能会明显下降[19]。为了解决上述问题，研究者针对降质未知图像的超分辨率重建开展了一系列工作，通常被称为盲超分辨率重建(Blind Image Super-Resolution)[20]。总体而言，现有盲超分辨率重建方法主要包括以下3类。

1.1 基于训练图像集扩充的方法

对于基于深度学习的超分辨率模型而言，训练图像与测试图像之间的降质差异会严重影响重建性能。常用的双3次下采样降质模型较为理想化，覆盖的降质类型、程度都十分有限。为了更好地重建存在复杂、未知降质的低分辨率图像，研究者提出了更完善、更贴近真实场景的降质模型，以人工合成“高分辨率—低分辨率”图像对和大规模训练图像集。例如，Zhang等人[7]提出随机组合不同类型和程度的模糊、下采样和噪声，以对高分辨率图像进行多样化的降质，使得合成的训练图像对覆盖更多、更复杂的降质情况。Wang等人[8]进一步构建了一个高阶的降质模型，即允许不同参数设置下的模糊及加噪等降质操作进行多次。得益于更丰富的降质设置，这些方法能够更好地处理降质未知的图像，取得了较好的重建效果。不足的是，这些方法并没有考虑不同图像之间的降质差异，对所有图像都采用相同的处理。

1.2 基于降质估计与图像重建分离优化的方法

为了能够适应于不同降质条件下的低分辨率图像，一些研究者提出对降质过程进行估计，进而辅助图像重建处理。如Bell-Kligler 等人[9]提出的KernelGAN，首先利用低分辨率图像自身信息学习图像自适应的降质模型，从而将低分辨率图像进一步降质后构建“高分辨率—低分辨率”图像对；然后，基于生成的图像对训练图像自适应的超分辨率模型，进而对输入低分辨率图像进行重建。KernelGAN对于存在未知降质的低分辨率图像有较好的适应性，但是处理速度较慢。Liang等人[10]提出一种新的核先验(Flow-based Kernel Prior, FKP)，通过学习核空间与隐空间之间的可逆映射，实现更高效准确的模糊核估计，其与KernelGAN等结合时能进一步提高盲超分辨率重建的性能。Tao等人[11]提出了基于低分辨率图像频谱结构的模糊核估计网络S2K，降低了核估计误差。通过将S2K与现有非盲超分辨率方法结合，Tao等人在降质未知图像上取得了出色的重建性能。考虑到真实场景图像的模糊核可能是空间变化的，Liang等人[12]提出了针对空间变化模糊核的估计网络MANet，其主要特点是具有合适的感受野，可以保持降质的局部性。联合非盲超分辨率方法，MANet能够实现空间变化及空间不变模糊核图像的重建。总体而言，这类方法中的模糊核估计与图像重建是相对独立的，模糊核估计的误差对重建效果有着十分显著的影响。同时，他们更多关注的是模糊核，而较少考虑图像中广泛存在的噪声。

1.3 基于降质估计和图像重建联合优化的方法

为了降低降质估计误差对重建效果的影响，研究者进一步提出了对它们进行联合优化的方案。类似于KernelGAN，Kim等人[13]提出的DBPI也是利用待重建的低分辨率图像学习图像自适应的降质及重建网络。不同的是，DBPI中的降质及重建网络是在双向反投影损失的引导下进行联合优化的。鉴于精确估计降质参数十分困难，DASR[14]通过对比学习获取图像的非精确降质表示，并用其辅助超分辨率重建，以适应于不同降质条件下的低分辨率图像。为了提高降质估计的准确性及重建图像的质量，Gu等人[15]及Luo等人[16, 17]分别提出了迭代优化的方案IKC和DAN。其核心思想是模糊核等降质参数的准确性直接影响重建图像的质量，因此反过来可以利用重建图像来辅助降质参数的估计。通过降质估计及图像重建的迭代联合优化，估计的降质参数及重建的高分辨率图像都更为可靠。但是，IKC和DAN都没有直接考虑低分辨率图像中的噪声。真实场景图像中往往存在不同程度的噪声，其会降低模糊核估计的准确性，影响重建性能。因此，联合优化模糊核/噪声估计和图像重建是十分必要的。受迭代优化思路的启发，本文构建了模糊核/噪声估计和图像重建网络，提出一种基于迭代交替优化的图像盲超分辨率重建算法。

2 提出的盲超分辨率重建算法

2.1 整体框架

图像的采集过程受多种因素的影响，通常假设低分辨率图像的观测过程如式(1)所示

其中，y和x分别表示低分辨率图像和高分辨率图像，k是模糊核，n为加性高斯噪声， *和↓s分别是卷积和尺度为s的下采样操作。图像盲超分辨率重建的目的是，在k和n未知的情况下，由给定的低分辨率图像y重建出高分辨率图像x的估计xˆ。较多图像盲超分辨率算法仅仅考虑模糊核的估计。然而，噪声会影响模糊核的估计，而独立的去噪预处理会造成图像细节信息的丢失，也不利于模糊核估计及图像重建。

为了解决上述问题，本文提出联合估计高分辨率图像x、模糊核k和噪声n，如式(2)所示

其中，Fd(x,y,k,n)用于度量x,k和n的估计与低分辨率观测图像y之间的一致性；ϕ(x),ψ(k)和γ(n)分别表示针对x,k和n的先验信息。在对先验信息进行显式刻画和建模后，式(2)的求解通常可以通过对x,k和n的交替优化实现。然而，对先验信息的显式建模是十分困难的，且通常只能对部分特性进行刻画。

针对以上问题，本文将上述x,k和n的交替优化过程展开，并利用深度卷积神经网络来实现每个未知量的估计及端对端的迭代联合优化，提出算法的整体框图如图1所示。如前文所述，降质估计的准确性对于重建图像的质量有着显著的影响。因此，降质参数是图像重建的关键辅助信息，而重建图像反过来也可作为评价降质参数估计准确性的重要参考。具体地，对于基于深度卷积神经网络构建的高分辨率图像重建器Rx(·)、模糊核估计器Ek(·)和噪声水平估计器En(·)，其迭代交替优化过程如式(3)所示

2.2 高分辨率图像重建器

本文所提出的图像重建器如图2(a)所示，其利用估计的模糊核和噪声水平作为辅助信息，由输入的低分辨率图像重建高分辨率图像。图像重建器主要由3部分组成，包括低分辨率图像特征提取、动态特征调制及上采样。其中，低分辨率图像的特征提取基于单个卷积层(Convolutional Layer, Conv)实现；动态特征调制由级联的动态调制残差模块(Dynamic Modulation Residual Block, DMRB)构成，以利用降质信息影响网络中间特征；上采样模块实现分辨率提升和图像重建，其核心是基于亚像素卷积的上采样层。

如图2(b)所示，图像重建器中的DMRB的作用是利用作为条件输入的降质信息向量d对图像特征进行调制及变换，其内部主要包含1个动态调制层(Dynamic Modulation Layer, DML)[21]和4个动态注意力模块(Dynamic Attention Block, DAB)[22]。在DMRB中，基于降质信息的动态特征调制主要由DML实现，而其后的DAB基于动态注意力模型对调制后的特征进行变换和提炼，以获取更有利于高分辨率图像重建的特征。DMRB采用的是残差结构，有助于提升深度神经网络训练的稳定性及整体性能。DML和DAB的结构分别如图3(a)及图4所示，下面将具体说明其作用和实现原理。

如图3(a)所示，DML以降质参数d为条件信息对输入特征fLR进行调制，以使得特征受d的影响且随其调整，进而自适应于不同的降质。具体地，在如图3(a)所示的DML中，d经过全连接层(Fully Connected layer, FC)变换后作为引导信息分别与fLR的均值m(fLR)和标准差s(fLR)结合，进一步通过全连接层学习自适应动态调制参数ξ和υ对fLR进行动态调制，该过程如式(4)所示：

其中，N(fLR)表示fLR经过规范化处理的结果[21]。如图3(a)所示，式(4)中自适应动态调制参数υ和ξ是基于全连接层从d和fLR中学习到的，其计算过程表示为

2.3 模糊核估计器

2.4 噪声水平估计器

如图2(d)所示，噪声水平估计器的结构与模糊核估计器相似，其以重建的高分辨率图像xˆi为参考，从低分辨率图像y中估计噪声水平σˆi。不同的是，由于噪声水平与模糊核的差异，噪声水平估计器的末端并未使用Softmax层。为了避免重复冗余，此处省去对噪声水平估计器网络结构的详细介绍。对于噪声水平估计器，如果估计的噪声水平值小于实际值，可能会导致重建的高分辨率图像中存在残留噪声；而当估计的噪声水平略大于实际值时，噪声能够得到较好的抑制，有利于提升重建图像的质量。因此，对于噪声水平估计器的损失函数，本文采用Guo等人[23]提出的非对称损失函数，对噪声水平估计值过低的情况施加更大的惩罚力度，以使得估计的噪声水平更有利于图像重建。

对于提出的基于迭代交替优化的盲超分辨率算法，总的损失函数为重建器损失、模糊核估计器损失及噪声水平估计器损失之和，以实现对三者的端对端联合优化，保证模块之间的兼容性并使其相互促进。

3 实验结果与分析

3.1 实验设置

网络参数：图像重建网络、模糊核估计网络及噪声水平估计网络中的DMRB模块数量分别设置为6，1和1。迭代交替优化次数设为4。

模型测试：使用4个公开测试集(Set5[27],Set14[28], B100[29]和Urban100[30])对算法性能进行比较。对于2倍重建，是利用在[0.8,1.6]范围内均匀抽样的8个模糊核对高分辨率图像进行模糊；对于4倍重建，8个模糊核是在[1.8,3.2]内均匀采样的。对于两种重建尺度，噪声水平都设置了两种情况，即5 和10。

3.2 性能比较及分析

为了验证本文所提方法的有效性，选取了双3次插值(Bicubic)，MANet[12], DASR[14], IKC[15]和DAN[17]共5种主流算法进行测试和比较。由于使用的IKC[15]模型没有考虑噪声，因此先用DnCNN[31]对测试图像进行去噪处理，再利用IKC[15]对去噪结果进行重建，该方法表示为DnCNN[31]+IKC[15]。表1和表2分别列出了不同算法在2倍和4倍重建时取得的PSNR(dB)及SSIM值。

从表1和表2可以看出，在2倍及4倍重建中，本文算法在两种噪声水平下的PSNR和SSIM都优于其他对比算法，说明了提出算法的有效性和优越性。同时可以看到，组合方法DnCNN[31]+IKC[15]的性能明显低于DASR[14]和DAN[17]等盲超分辨率算法。其主要原因在于去噪预处理在去除噪声的同时，也会造成图像信息的丢失，影响模糊核的估计及图像细节信息的恢复。在5种对比方法中，DAN[17]整体上取得了更好的性能，显示了迭代优化方案的优势。得益于对图像重建、模糊核估计及噪声水平估计网络的迭代交替优化，本文算法整体上取得了最高的客观参数。如对于噪声水平为5时的4倍重建，相对于DAN[17]，提出方法在Set5, Set14, B100及Urban100上的PSNR/SSIM提升值分别为0.31 dB/0.0062, 0.20 dB/0.0080, 0.14 dB/0.0077及0.27 dB/0.0133。整体而言，在迭代交替优化框架下，噪声水平的估计及利用，能够提升模糊核估计的准确性及重建图像的质量。

表1 2倍重建结果的客观参数PSNR(dB)/SSIM比较

表2 4倍重建结果的客观参数PSNR(dB)/SSIM比较

为了更直观地比较重建效果，图5展示了在模糊核标准差为1.8及噪声水平为10时，不同算法在Urban100中“image097”图像上取得的4倍重建结果。可以看出，双3次插值结果中存在严重的噪声，且图像十分模糊。MANet[12], DASR[14],DnCNN[31]+IKC[15]和DAN[17]都抑制了噪声及模糊效应，但是重建图像较为平滑，细节不够清晰和完整。相比较而言，如图5(g)所示，本文提出算法较好地抑制了噪声，同时更好地恢复了图像局部结构，改善了重建图像的质量。总体上看，在所有算法中，提出算法的重建结果具有最好的视觉效果。

为了进一步测试和比较不同方法在真实场景中的表现，图6展示了不同算法对真实场景图像“chip”的重建结果，重建尺度为4。相比于双3次插值，MANet[12]等其他4种对比方法重建的图像都更为清晰，这也显示了超分辨率重建处理相对于传统插值的明显优势。对比本文提出算法与其他算法的重建结果可以看出，提出方法恢复了更清晰的边缘等结构，如芯片上的数字及字母等，并且对噪声的去除更为充分。以上在合成图像及真实场景图像上的实验结果表明，本文提出算法能够较好地对模糊核、噪声水平等降质未知的图像进行重建，重建图像的主客观质量整体优于同类算法。

3.3 算法分析

为了分析迭代过程中重建的高分辨率图像及估计的模糊核/噪声水平的动态变化过程，图7给出了不同迭代次数下得到的重建图像的PSNR值、模糊核估计的PSNR值及噪声水平估计值。需要说明的是，图7是在Set5中不同图像上取得的平均结果，重建尺度为4，噪声水平为10。进一步地，图8以“baby”图像为例，对不同迭代次数下的重建图像进行了可视化和对比。从图7及图8可以看出，在一定范围内，随着迭代次数的增加，重建图像的主客观质量和降质参数估计的准确性呈上升趋势，这说明了提出的迭代交替优化方案的有效性；当迭代次数大于4时，整体趋于平稳，显示了提出方法具有较好的收敛性。

为了更充分地比较不同算法，图9给出了不同算法的参数量及运行时间。其中，运行时间是在RTX 3090显卡上处理Set14数据集时，平均每幅图像的时间消耗。本实验中重建倍数为4，噪声水平为5。从图9可以看出，本文方法在参数量上，和DAN[17]较为接近，优于MANet[12]及DASR[14]等其他方法。而在处理效率上，和MANet[12], DAN[17]等相当。因此，相比于DAN[17]，提出方法在基本保持参数量和处理效率的同时，提升了重建效果。总体而言，提出方法在参数量、处理效率及重建性能上都有一定的优势。

4 结束语

针对存在未知模糊、噪声等降质的图像，本文提出了一种基于迭代交替优化的盲超分辨率重建方法。首先，构建了基于卷积神经网络的高分辨率图像重建器、模糊核及噪声水平估计器。其中，图像重建器的作用是利用估计的模糊核及噪声水平作为辅助信息，由低分辨率图像重建高分辨率图像；联合低分辨率图像和重建图像，模糊核及噪声水平估计器对降质参数进行估计。其次，设计了迭代交替优化策略，对图像重建器、模糊核及噪声水平估计器进行端对端的联合优化，以使得图像重建与降质估计模块相互兼容并互相促进。得益于构建的网络及迭代交替优化策略，提出方法在保持参数量和处理效率的同时，在多个公开测试集上都取得了出色的重建效果。后续研究将尝试把本文方法拓展到其他图像/视频复原任务中。