基于模糊核校正的未知退化方式图像超分辨率

2022-11-16 02:25:28孔祥屹张海涛

计算机工程与应用 2022年21期

汪澜，孔祥屹，张海涛

辽宁工程技术大学软件学院，辽宁葫芦岛 125100

图像超分辨率重建（super-resolution，SR）是计算机视觉领域的经典问题，旨在从低分辨率图像重建出低频信息准确并具备丰富高频纹理细节的高分辨率图像，在监控设备、卫星图像遥感、数字高清、显微成像、视频编码通信、视频复原和医学影像等领域有广泛的应用[1]。自从SRCNN[2]开创了把深度学习运用到图像超分辨率问题上的先河以来，该领域有了长足的发展。传统的超分辨率方法以深度学习与传统稀疏编码之间的关系为依据，将网络分为低分辨率图像特征提取、特征图非线性映射和图像重建三个阶段，实现由低分辨率图像到高分辨率图像之间的端到端学习。FSRCNN[3]对SRCNN改进，在最后的重建阶段使用了反卷积层进行上采样，前阶段直接对低分辨率图像进行处理，在映射前缩小输入特征维数，使用更小的卷积核，提高了运行速度。ESPN[4]提出另一种上采样方式即亚像素卷积层，先把低分辨率图像经过三个卷积层得到通道数为放大倍数平方的与输入图像大小一样的特征图像，再经过通道重新排列的插值方式得到高分辨率图像，提高了网络效率。随后，非线性映射部分的改进也层出不穷。VDSR[5]加深了网络深度，扩大感受野并提出残差结构。其思想非常适用于解决超分辨率问题，在DRCN[6]、RED[7]、DRRN[8]、EDSR[9]和SRGAN[10]等方法中皆有运用[11-12]。SRGAN首次将残差结构引入超分辨率网络，EDSR通过删除批量归一层来扩大模型尺寸。SRDenseNet[13]提出Dense Block 在残差结构的基础上进行改进，更有效地利用特征图减轻了梯度消失问题，而ESRGAN[14]进一步利用残差密集块提高了超分辨率结果的感知质量。但是，上述方法都是基于高分辨率图像使用理想化的双三次下采样后得到的低分辨率图像进行训练。真实世界的低分辨率图像由于接收器受不同影响因素，可能存在模糊、噪声、暗光和其他低质量问题。所以，理想化的下采样得到的数据训练出的超分辨率方法不适用于复杂的真实世界图像。

面向未知退化方式图像的超分辨率被称为盲超分辨率。为了模拟真实世界模糊图像Kernel GAN[15]使用生成对抗网络退化高分辨率图像，模拟出与真实世界低分辨率图像相似的局部图像块，然而容易受到噪声影响导致模拟不准确。ZSSR[16]提出一种模糊核预测方法，使用深度学习的方法，对每张图像使用小型CNN 网络进行无监督训练输出SR 结果，适用于超分辨率未知退化方式和不理想的图像。然而，这种方法是一种线性模型，只进行单方向的逼近真实值，不能得到足够准确的模糊核。

为了解决上述问题，设计一个适用于未知模糊核的超分辨率网络，提出RRDB-SFT（residual-in-residual dense block-spatial feature transform）模型。通过预测器和校正器从真实世界模糊图像中提取更真实的模糊核和噪声信息，并注入噪声，用以模拟出更真实的低分辨率图像。非线性映射过程中在残差密集块里的每个卷积层后和全局连接后根据模糊核信息对特征图进行空间特征变换，提高SR网络处理不同模糊图像的能力，最终使用亚像素卷积得到高分辨率图像。

本文的贡献点主要包括：

（1）提出一种把真实世界图像数据集DPED中提取出的模糊核和噪声信息添加到DIV2K 和Flickr2K 数据集中的图像退化方法，构建新的用于训练未知退化方式图像超分辨率网络的训练数据。

（2）提出一种进一步精准预测图像所包含模糊核的模糊核校正方法。

（3）改进非线性映射网络结构，把残差密集块结构和空间特征变换层结合，使模糊核从始至终参与到超分辨率的非线性映射过程中，对不同退化方式的图像进行有针对性的超分辨率。

1 相关工作

1.1 模糊核对超分辨率的影响

传统超分辨率方法为了获取端到端训练图像，把高分辨率图像进行双三次下采样为低分辨率图像，即公式（1）：

其中，IHR为高分辨率图像，ILR为低分辨率图像。而真实世界图像虽然退化方式未知，但是可以理解为包含模糊核和噪声，即为公式（2）：

其中，k、n和s分别代表模糊核、噪声和下采样尺度。故求解准确的模糊核和噪声是模拟出准确低分辨率图像的关键。DPSR[17]方法设计了一个退化模型代替模糊核估计，通过变量分割技术引入即插即用的模块实现图像恢复。所提出的退化参数模型更加真实，考虑了任意模糊核，进而引发出一个新的思路，即现有去模糊的方法可以用于模糊核的估计。KMSR[18]借助生成对抗网络WGAN-GP[19]生成模糊核，存储到模糊核池中。从模糊核池中采样模糊核构建成对的LR-HR训练数据集再通过现有的深度卷积神经网络进行超分辨率。KMSR的思想具有极强的实践意义，首次提出难以获取的真实世界模糊图像可以由高分辨率图像配合模糊核生成。然而模糊核估计的准确度低，生成对抗网络所生成的图像不可避免地包含伪影，所以KMSR模拟的待超分辨率图像无法完全符合完全真实世界。RealSR在创建训练数据时采用了类似KMSR 的方法，使用Kernel GAN 收集模糊核，并收集噪声存储到退化池中，但是单一的模糊核预测存在较大误差，噪声提取过于粗糙。本文采用了退化池的思想，构建训练图像，但是改进了模糊核估计方法和噪声提取方法。IKC[20]方法通过实验证明由于预测问题的不适定性，单个输入可能存在多个候选k。超分辨率对模糊核的估计异常敏感，模糊核估计的误差会在超分结果中相应的放大，造成超分结果中带有明显的伪影。如图1右上角，当网络使用的模糊核宽度小于真实值时，超分结果的高频纹理信息明显存在模糊；与之相反，图1 左下角模糊核的宽度大于真实值时，得到的结果将会过分强调边缘信息，甚至存在多层边缘化的振铃效果。IKC方法的校正思想具有一定的可取之处，校正过程中所得准确模糊核可以存储到退化池中，便于重新构建更多适用于训练的图像。

1.2 模糊核运用到超分辨率的方法

带有模糊和噪声的低分辨率图像直接输入超分辨率网络会导致图像非内容部分被一同放大产生伪影，SFTGAN[21]提出空间特征变换（spatial feature transform，SFT）的思想，把模糊核单独作为非图像信息输入到超分辨率过程中。SFT 层位于每个残差块中的卷积层后对特征图进行仿射变换，与模糊核信息通道级联后输入到下一层卷积层中。原始的SFT 是为了生成语义纹理清晰的图像，结构如图2所示。但是残差结构的批量标准化层[22]（batch normalization，BN）在Mini-Batch 内多张无关的图像之间计算统计量，弱化了单张图像本身的一些细节，不适用于超分辨率网络中。采用密集块[23]（dense block）代替残差块可以进一步利用残差结构，使SFT层更适用于超分辨率网络。

2 方法

提出的图像超分辨率算法主要针对传感器采集的未知退化方式的真实世界图像。进一步解决了经典算法只适用于理想数据集而无法应用到实际场景中的问题。首先，为了提炼出与真实世界图像处于同域的包含模糊和噪声的低分辨率图像，设计了更完善的图像退化框架，得到用于训练的成对图像。然后，为了精准学习真实世界图像包含的模糊核和噪声，设计了模糊核预测器和校正器并采用了噪声块提取方法。所得到的模糊核和噪声信息既可以扩充数据集又用以帮助网络对不同低质量图像进行有针对性的超分辨率。最后，把空间特征变换层嵌入到ESRGAN 的基础残差密集块结构中，达到了根据模糊核进行超分辨率并提高生成图像的人眼感知指数的效果。

2.1 模拟真实世界图像

用于端到端训练的数据集由低分辨率图像LR和高分辨率图像HR构成。首先构建高分辨率图像。真实世界拍摄到的高分辨率图像中虽然有丰富的高频纹理信息，但包含噪声，该图像经过双三次下采样去除噪声保存重要低频信息，所得无噪声图像视为高分辨率图像的清晰图像即训练HR。低分辨率图像LR 由高分辨率图像HR退化所得，退化的依据为真实世界图像所包含的模糊核和噪声信息。需要从现有图像中提取模糊核和噪声信息，用以退化高分辨率图像。设计一个退化信息提取器，包含模糊核提取器和噪声提取器。从现有真实世界图像中提取模糊核信息和噪声信息，并存储至退化池的模糊核集合K和噪声集合N中。具体流程结构如图3所示。

2.1.1 预测模糊核

真实世界图像可以理解为高分辨率图像经过模糊核k0卷积操作后所得，设计小型卷积神经网络，命名为“预测器”，模拟出模糊核k0。预测器包含四个用Leaky ReLU 激活的卷积层和一个全局平均池化层，结构如图4所示。

卷积层给出模糊核k0的空间估计并形成分布图。然后全局平均池化层通过取空间平均值给出全局估计。预测函数为公式（3）：

使用已知模糊核训练网络参数，达到网络生成图像接近真实世界模糊图像的结果。所以优化方法采用最小化真实模糊核和网络所得模糊核的L2 距离，具体为公式（4）：

其中，θP是预测器P的参数。k代表用于训练的已知模糊核。噪声提取器采用类似模糊核提取器的方式设计。对i张图像进行退化信息提取并存储，为了方便描述，把从真实世界图像中提取模糊核和噪声存储至退化池并借以生成低分辨率图像的过程形象如下。

从真实世界图像中获得LR-HR图像

真实世界图像集合X中包含i张源域图像Isrc，首先初始化模糊核集合K和噪声集合N，使用模糊核提取器得到模糊核ki添加到模糊核集合K中；同理使用噪声提取器得到噪声信息ni添加到噪声集合N中。从退化池中随机抽取ki和ni对高分辨率图像IHR退化，得到低分辨率图像ILR。

2.1.2 校正模糊核

即使有预测器对真实世界图像的模糊核进行了初步预测，精确的预测模糊核是不可能的。由于预测问题的不适定性，单个输入可能存在多个候选k。超分辨率时如果使用核宽过大或过小的模糊核估计值导致超分结果中不对称的伪影效果为校正器提供了修改模糊核的依据，模糊核校正的核心思想是利用上一阶段的超分结果，计算前一阶段预测模糊核和真实值的误差，这个差值即为模糊核需要更新的变量。

设计小型卷积神经网络，命名为校正器，用以校正预测不准确的模糊核。结构如图5所示，输入的超分结果首先被五个使用Leaky ReLU 激活的卷积层处理成特征图Fsr。注意，超分结果可能包含模糊核错误估计导致的伪影，这些模糊核预测误差将被五个卷积层提取出来。因为k是模糊核的低维表示，所以每个维度的相关性应该越低越好，用两个带有LeakyReLU 的全连接层学习模糊核k的内部相关性。模糊核k的内部相关性就是模糊核预测的误差。采用SRMD[24]中提出的拉伸策略把预测的模糊核或上一次校正后的模糊核fk拉伸成特征图Fk。假设特征图Fsr的大小为C×H×W，则模糊核k拉伸后Fk的大小为b×H×W。Fk的第i个特征图等同于模糊核fk的第i个元素。Fk和Fsr两个特征图进行通道连接后的大小为(b+C)×H×W。这个连接结果经过与预测器相同的方法将其转化为全局的向量表示，采用三个卷积核大小为1×1 且Leaky ReLU 激活的卷积层给出模糊核变化量的空间估计，全局池化后即为模糊核更新的变化量Δk。训练完好的校正器函数C的参数可由最小化校正后的模糊核与真实值之间的L2距离得到：

其中，θC为C的参数，Isr为最近一次校正得到的SR结果。该校正器通过SR 图像的特征调整估计的模糊核，利用调整后的模糊核得到的SR结果有较少的伪影。为了方便描述校正流程，本文把校正算法流程形象化如下：

模糊核校正流程

第一次校正采用预测器的结果k0=P(ILR) ，使用SR 模型得到第一个SR 结果ISR0=F(ILR)，k0作为校正器的初始值。向校正器输入预测模糊核k0，和第一个SR结果ISR0，得到模糊核的变化值△ki。改进模糊核估计后输入到SR模型得到新的SR结果ISR1。循环训练，具体可以写为公式（6）和（7）：

经过t次迭代，得到极为接近真实模糊核的估计值kt。校正器运行结果得到的真实模糊核信息同时用来训练预测器，进行预测器和校正器交替训练，最终预测器具有极强的预测模糊核能力，退化池中也收集了极为接近真实世界图像的模糊核。

2.1.3 噪声过滤

退化信息提取器中的噪声提取器用于得到噪声信息。真实世界的图像中包含了未知分布的噪声，人工添加的高斯噪声不能完美模拟真实世界的噪声信息。为了使生成的低分辨率图像与真实世界图像具有相似的噪声分布，直接从真实世界图像中提取噪声图像块，注入到模糊下采样的图像中。受文献[25]启发，设计解耦图像中噪声和内容的规则，即公式（8）和（9）：

噪声集合N中收集了{n1,n2,…,nl}等噪声块，从中随机选择ni注入到模糊核下采样的图像ID中。这种在训练阶段将内容和噪声相结合的噪声注入方法使得SR模型能够区分图像内容与噪声，经过模糊核下采样和噪声注入，得到了与真实世界图像处于同域的低分辨率图像。

2.2 超分辨率网络RRDB-SFT模型

由于超分辨率本身就是与一对多映射的逆向问题，即使是同一张高分辨率的真实世界图像，当模糊信息不同，退化后的图像就会各不相同，相应的超分辨率结果也不相同。所以高质量的超分辨率网络同时应具备去模糊和超分辨率的能力。如果直接输入模糊图像，网络会把模糊的内容信息当作图像正确内容一同放大，因而降低网络性能，造成额外不可预期的伪影或模糊结果。为了解决以上问题，在ESRGAN 生成器的基础上改进，引入空间特征变换SFT层构建RRDB-SFT（residual in resdiual dense block-SFT）网络。网络结构如图6所示。

网络第一部分为特征提取，首次得到特征图。第二部分为非线性映射基础块，基础块采用Dense Block 并以RRDB 结构相连。第三部分采用亚像素卷积放大特征图并卷积生成RGB 三通道图像。在基础块中，对每个中间层的输出结果采用空间特征变换SFT 层结合模糊核信息。如图7所示，模糊核信息通过SFT层对每个中间层的输出特征图进行仿射变换来影响网络的输出。仿射变换并未参与到对输入图像的处理过程中，所以即使模糊核信息不包含图像内容也不会影响原始网络对输入图像的处理。除此之外，由于SFT层对每层网络的中间输出结果进行操作，所以该操作也能保证残差密集块结构起到应有的作用。SFT 以模糊核信息为依据，通过缩放和位移对每层中间网络输出的特征图进行仿射变换，具体操作的数学表达式如式（11）：

其中，γ和β为缩放和位移的参数，⊙代表Hadamard积。

具体来说，假设第一次卷积得到的特征图大小为C1×H1×W1，那么模糊核k通过拉伸策略拉伸至b1×H1×W1，再与特征图进行通道连接得到大小为(b1+C1)×H1×W1的图像。以此通道连接图像作为输入，由一个小型的卷积神经网络得到缩放和位移参数γ和β，对特征图进行仿射变换，仿射变换的结果输入到下一个卷积层中。而下一个卷积层后的SFT层中，模糊核将被拉伸成与下一张特征图相同的大小，重复第一个卷积层的操作。整个网络中，在基础块Dense Block 的每个卷积层后和基础块的全局连接后都使用了SFT层。

如图8所示到随着网络的加深，在享受感受野扩大带来优化的同时考虑模糊核对网络输出结果的影响，避免了模糊核只在第一层被考虑的弊端。

为了提高生成图像的纹理细节，超分辨率网络RRDBSFT以GAN网络为框架并用退化高分辨率图像所构建的数据集训练，使用RRDB-SFT作为生成器。在判别器部分，ESRGAN所采用的Raletivistic Discriminator相对注重全局感知损失而忽略了局部特征，因而会引入很多伪影。因此采用具有固定接收域的Patch Discriminator作为代替，判别器的每个输出值都只针对局部的一块，并反馈给生成器优化局部细节梯度。为了保证全局一致性，最终的输出值是所有局部输出值的平均值。

2.3 损失函数

为了约束网络生成高质量且视觉效果好的图像，采用像素损失、感知损失和对抗损失作为超分辨率网络的总损失函数。L2 损失更多关注异常值，为了微小的模型提升去引入学习更多的噪声违背了噪声过滤的初衷，所以像素损失使用鲁棒性更强的L1损失计算。感知损失采用激活前的VGG-19 提取特征图计算MSE 损失促进提高边缘信息等低频纹理特征的视觉效果。对抗损失用于配合判别器，促进生成更真实的图像。总体损失函数（12）由L1 损失函数（13）、感知损失函数（14）和对抗损失函数（15）加权相加构成，依据ESRGAN 等方法中感知损失使用方式，λ1、λper和λadv分别设置为0.01、1和0.005。

2.4 训练过程

前文提到，校正模糊核依赖于超分辨率结果，而校正器的训练过程中需要保证超分辨率网络的参数不变。所以首先使用提出的RRDB-SFT 网络在传统的双三次下采样的数据集上训练，过程中由于数据集没有考虑到模糊核和噪声的影响，所以k使用默认值即可，空间特征变换过程不改变特征图。这次训练得到的网络称为首次训练网络。接下来提取噪声后校正器和预测器进行交替训练。使用真实世界图像，由预测器先得模糊核信息预测值，而后校正器使用首次得到模糊核信息的真实值，这个真实值也将用于预测器的再次训练。最后，退化池中已经存储了相当数量的模糊核信息和噪声信息，按照图1流程生成人工模拟的真实世界低分辨率图像。这些图像将用于RRDB-SFT 带有空间特征变换的二次训练，得到的网络即为最终生成器网络。随着退化池中存储的模糊核和噪声信息扩充，网络效果将持续提高。

3 实验

3.1 数据准备和网络训练

DPED[26]数据集包含5 614张由iPhone3相机拍摄的图像，该数据集都是未经过处理的真实世界图像，包括噪声、模糊等低质量问题。通过模糊核和噪声提取器，从该数据集中收集模糊核和噪声信息。

DIV2K[27]包含了1 000 张高清图像（2K 分辨率），采用从DPED 数据集收集到的噪声和模糊信息对其进行退化，得到用于训练网络的LR-HR图像对。其中800张为训练集，100张为验证集，100张为测试集。从该数据集的实验中可以得到具体定量分析的结果。

Flickr2k[28]数据集包含了2 650 张高分辨率图像和对应的双三次下采样结果，用于进行RRDB-SFT模型的首次训练。

首次训练时，模糊核提取器和校正器采用默认值，此时在不考虑模糊核和噪声的前提下，得到超分辨率模型的相关参数。然后对预测器和校正器进行交替训练，二者训练过程中RRDB-SFT 参数固定不变。参照表1中的训练流程，首先使用公式（4）更新预测器的参数，然后使用公式（5）至（7）更新校正器的参数。经过实验最终采用β1=0.9，β2=0.999，学习率为1×10-4Adam 优化器进行训练。采用Pytorch 框架实现模型，并使用NVIDIA 1060 GPU进行训练。

3.2 评价指标

峰值信噪比PSNR和结构相似性SSIM是使用最为广泛的图像客观评价指标。其中PSNR 基于计算对应像素点之间的误差，即基于误差敏感的图像质量评价。SSIM 则利用滑动窗将图像分块，采用高斯加权计算每一窗口的均值方差以及协方差，然后计算对应块的结构相似性，最后将平均值作为两图像的结构相似性度量。然而二者并未考虑到人眼的视觉特性，人眼对空间频率交替和亮度对比差异敏感度较高，对一个区域的感知结果会受到其周围邻近区域的影响，因此常出现评价结果与人的主观感觉不一致的情况。为此本文额外采用感知图像块相似度LPIPS指标，更注重图像的视觉特征是否相似。其采用预先训练好的Alexnet[29]提取图像特征然后计算两个特征之间的距离，因此LPIPS 值越小，生成图像视觉上越接近真实值。

3.3 校正模糊核实验

校正器无法只进行一次校正得到模糊核的准确值，存在校正不足和过度校正的情况。在退化的DIV2K数据集中的验证集100张图像上进行校正实验，采用较小的校正尺度进行多次校正，使用校正所得模糊核进行超分辨率后与原DIV2K 数据集高分辨率图像计算PSNR数值。

图9 中两条折线分别代表验证集中校正次数最多和最少的两张图像，最理想的图像1在第三次校正后收敛，最复杂的图像2在第6次校正后收敛，收敛后超分网络生成的图像质量增长趋于平缓。其余98张图像的收敛点皆出现在两条虚线之间。为了得到准确的模糊核，测试时对每张图像都采用6次校正。此时虽然SR结果并不是最优结果，但模糊核估计已经接近真实值，超分结果避免了模糊核估计误差导致的伪影。

3.4 退化图像评估

3.4.1 定量评估

Flickr2K和DIV2K作为经典双三次下采样数据集，与经典算法的对比实验有实际意义，其训练结果能够证明RRDB-SFT方法在传统超分辨率范畴内的鲁棒性。选择EDSR、ESPCN作为经典方法代表，ZSSR、KernelGAN和IKC作为考虑模糊核方法的代表，以及ESRGAN作为考虑感知指数的代表方法与本文改进方法在Flickr2K和DIV2K 数据集双三次下采样尺度为8 的部分上进行对比实验。计算测试集中HR 图像与生成图像的PSNR、SSIM和LPIPS的平均值。

从表1可见，在传统双三次下采样情况下RRDB-SFT方法继承了残差结构的优点，以足够深的网络结构取得了与目前经典方法相持平的PSNR和SSIM数值。由于EDSR 和ESPCN 等方法追求像素级的图像保真而忽略了感知损失，所以RRDB-SFT获得了最好的LPIPS性能，说明本文方法生成的图像具备最更高的视觉感知质量。虽然本方法的PSNR 略低于EDSR，但这是因为一般情况下PSNR 和LPIPS 指标并不是正相关的，甚至在一定范围内呈相反关系。ESRGAN方法涉及到了感知指数，在LPIPS 数值上取得了一定的提高，但其使用的VGG-128网络更深，注重全局忽略了局部的细节纹理，所以效果没有RRDB-SFT采用的VGG-19更理想。KernelGAN、ZSSR 和IKC 等方法的研究主要针对处理模糊核信息，在双三次下采样的数据集上相对于本文方法和经典方法呈现出次优水平。

表1 在Flickr2k和DIV2K数据集上与EDSR、ESPCN、ZSSR、KernelGAN、IKC和ESRGAN的定量对比结果Table 1 Quantitative result on Flickr2K and DIV2K dataset compared with EDSR，ESPCN，ZSSR，KernelGAN，IKC，and ESRGAN

为了量化RRDB-SFT 在处理未知模糊核的真实世界图像的实验效果，从DPED数据集的真实世界图像中收集到模糊核和噪声信息，使用模糊核退化DIV2K 中的高分辨率图像后进行尺度为8 的下采样并注入噪声。使用800张图像训练对比实验的方法，计算测试集中100 张图像超分结果与DIV2K 中高分辨率图像的PSNR、SSIM和LPIPS平均值。

从表2可见，考虑了模糊核和噪声影响的RRDB-SFT方法应对未知模糊核的真实世界图像超分辨率问题的能力明显强于传统超分辨率方法。由于退化处理为模糊化和注入噪声，信号功率和噪声功率明显提高，所以本方法PSNR数值取得了显著的提高。真实世界图像退化方式更为复杂，所以数值无法比拟在简单的双三次下采样数据集上的测试结果。退化处理并未对图像亮度、结构和对比度进行过多改变，所以SSIM 数值的提高较小。ZSSR、KernelGAN 和IKC 等方法应对模糊核的能力在该数据集上显示出优于经典方法的结果，但由于ZSSR和KernelGAN的模糊核预测存在误差，所以PSNR和SSIM指标低于RRDB-SFT。IKC方法虽然能够准确预测模糊核，但其止步于纠正了模糊核匹配错误导致的模糊，没有考虑感知损失。较低的LPIPS 数值证明了RRDB-SFT 方法所重视的视觉感知质量依旧明显高于对比实验方法。

表2 在未知模糊核退化的DIV2K数据集上与EDSR，ESPCN，ZSSR，KernelGAN，IKC和ESRGAN的定量对比结果Table 2 Quantitative result on degraded DIV2K data set compared with EDSR，ESPCN，ZSSR，KernelGAN，IKC，and ESRGAN

3.4.2 定性评估

对退化的DIV2K 采用不同方法进行超分辨率，从图10 中可以看到不同的方法在同一张图像中展现出的局部细节，和对比实验方法相比，RRDB-SFT，纹理更加丰富，产生的伪影要少得多，几乎不含有明显噪声。这得益于注入的噪声经过过滤，网络具备分辨噪声和内容的能力。但极个别情况下，模糊核估计还存在误差，核宽度判断过大导致了一些图像边缘过于锐化的问题。

3.5 模型的优越性

为了验证在残差密集块中嵌入SFT 层的结构在不同数据集中相较于原始在残差网络中使用的优越性，设计对比实验。分别把SFT 层应用在残差块和删除BN层的残差密集块结构中训练网络，在Set5[30]、Set14[31]、BSD100[32]和退化DIV2K数据集中按8∶1∶1比例随机分配训练集、验证集和测试集，计算测试集生成图像与Ground Truth的PSNR、SSIM和LIPIS的平均值。

从表3 可见，RRDB-SFT 模型的结果输出更令人满意。证明了RRDB删除了BN层并使用了残差密集块结构相比于原始残差结构的优越效果。对于图像超分辨率问题来说，网络输出的图像在色彩、对比度、亮度上要求和输入一致，改变的仅仅是分辨率和一些细节。而Batch Norm 类似一种对比度的拉伸，任何图像经过Batch Norm后，其色彩的分布都会被归一化，破坏了图像原本的对比度信息所以Batch Norm的加入反而影响了网络输出的质量。

3.6 消融实验

3.6.1 实验设置

为了进一步验证模糊核估计、校正、噪声注入和SFT 层的必要性，对DPED 数据集随机选取100 张图像进行了消融实验。实验设置如下：

双三次下采样：在此设置下，仅采用Bicubic 核对Flickr2k数据集中的HR图像下采样，然后直接使用这些配对图像训练不包含SFT 层的网络。由于网络中不涉及SFT层，所以不需要进行模糊核预测和校正以及噪声注入等操作。

噪声：此设置是在双三次下采样的图像基础上增加噪声提取和注入操作，由于没有使用模糊核预测和校正，所以SFT层采用默认值。可以通过观察这个设置来验证模糊核预测和校正与所提出完整方法的有效性。

模糊核预测和校正：该设置使用模糊核预测和校正生成数据集训练网络。由于训练集图像没有注入噪声，所以可以证明噪声注入的有效性。

SFT层：该设置使用本文生成的含模糊和噪声数据集训练不包含SFT层的网络，因此可以证明模糊核通过SFT层参与到超分辨率过程中的重要性。

RRDB-SFT：采用全部组件训练完整网络，此设置下的结果与前四个设置进行对比，所以可以证明每个步骤的有效性。

3.6.2 消融实验结果分析

模糊核预测和校正的影响：从图11可以看出RRDBSFT比Noise更清晰。这证明了模糊核预测和校正在SR训练中是重要的，可以帮助SR 模型生成低频信息区域更清晰的边缘。

噪声注入的影响：在实验设置中，将噪声注入作为一个选项来验证其是否必要。如图11 所示，在没有噪声注入的情况下，“Kernel”结果有很多伪影。注入噪声与源域图像噪声分布一致，保证了SR 模型在测试时对噪声的鲁棒性。

SFT层的影响：如图11所示RRDB-SFT结果比SFT结果更清晰，所以根据特定图像的退化方式进行有针对性的超分辨率结果要优于固定网络千篇一律的超分辨率流程所产生的结果。

由于DPED数据集为手机拍摄图像，没有明确的超分辨率目标。为了对消融实验结果进行定量分析，使用DPED 数据集中收集的模糊核和噪声信息随机退化1 000 张Flickr2K 中的高分辨率图像，按照消融实验设置五组实验，并计算其中100张测试集图像PSNR、SSIM和LPIPS的平均值。

从表4可见，第一组实验中采用双三次下采样数据对SR 模型直接进行训练，可以理解为残差密集块网络的微调，本组实验仅证明方法在传统意义上的鲁棒性。从第二组与第三组实验可见准确预测模糊核和噪声注入都能有效提高超分辨率结果的图像保真度。由于训练集选取的随机性，模糊核预测准确的效果要明显优于噪声注入对超分辨率结果的影响。从第五组实验于其他四组实验的LPIPS结果对比可见，生成对抗网络中判别器的加入对于图像的感知指数有明显的提高。

表4 消融实验设置下的超分辨率结果对比Table 4 Comparison of super-resolution results under ablation experiment settings

4 总结

针对真实世界图像超分辨率问题，通过退化信息提取器构建专门用于此类问题的数据，数据中的模糊核信息和噪声信息经过校正器和过滤比现有方法得到的模糊核估计值更准确，生成的低分辨率图像更接近于真实世界图像。因此，把无监督网络要完成的任务变化为有监督的端到端训练。构建了一种新型且有效的网络模型，充分考虑真实世界图像中模糊核和噪声因素的影响，借助RRDB结构融入到超分辨率网络中。

本文进一步的工作为区分不同环境下的真实世界存在的模糊核和噪声信息，针对特殊环境设计特殊的退化池，扩充数据集的同时，设计更紧凑和高效的网络结构，对算法进行持续改进。