汪荣贵,雷 辉,杨 娟,薛丽霞
合肥工业大学计算机与信息学院,安徽 合肥 230601
单帧图像超分辨率旨在从观测的低分辨率图像重建出清晰的高分辨率图像,是计算机视觉领域中最经典的图像重建任务之一。清晰的高分辨率图像不仅可以直接用于实际生活中,还能给计算机视觉的其他任务提供帮助,例如目标检测、语义分割。
单帧图像超分辨率是一个病态的逆问题,即同一张低分辨率图像可由许多的高分辨率图像退化得到。目前,解决这一问题的方法主要有三类,基于插值的方法[1-2]、基于重构的方法[3]、以及最近基于实例学习的方法[4-6]。
Dong 等人[7]在图像插值后使用三层卷积神经网络进行图像超分辨率,展示出比以往所有传统方法更优异的性能。于是在过去的几年里,一系列基于卷积神经网络的单帧图像超分辨率方法被提出来,学习从低分辨率图像输入到其相应高分辨率图像输出的非线性映射函数。通过充分利用训练数据集中固有的图像静态特性,神经网络在单帧图像超分辨率领域取得了显著的进步[8-9]。虽然图像超分辨率方法已经取得了很大的进展,但现有的基于卷积神经网络的超分辨率模型仍然存在一定的局限性:1) 大多数基于卷积神经网络的超分辨率方法主要关注设计更深或更广的网络来学习更有鉴别性的高级特征,而没有充分利用低分辨率图像内部的自相似特征;2) 许多模型没有合理的利用多层次的自相似特征,即使有些方法考虑到了多层次自相似特征的重要性,也没有一个很好的方法来融合它们;3) 大多数方法通过计算每个空间位置的大型关系矩阵来寻找自相似特征,性能往往较低。
本文提出了一种新的跨层次特征增强模块来解决上述的第一个问题和第二个问题。该模块在金字塔结构的每一层嵌入了可变形卷积,并配合跨层次协同注意力来加强跨层次特征传播的能力。由于可变形卷积有一个并行网络学习偏移量,使得卷积核在浅层特征的采样点发生偏移,从而大大提升了网络对浅层特征的建模能力,并且利用可变形卷积还可以积极地使用设计的偏移估计器搜索自相似特征。本文采用了感受野模块[10]作为可变形卷积的偏移估计器,它以多尺度方式执行像素级别以及特征级别的相似性匹配。
对于第三个问题,许多网络模型引用了非局部网络模块以提高对卷积神经网络中对远程依赖关系建模的能力[11]。然而,单纯的非局部图像恢复方法只探索了相同尺度下的特征相似性,往往性能相对较低。随后,研究人员在此基础上改进成了跨尺度非局部图像恢复方法[12],虽然性能上有很大的提升,但仍需消耗大量内存来计算每个空间位置的大型关系矩阵。在本文中,为了更有效地捕获这种远程依赖关系,本文提出了池化注意力机制。
实验结果表明,与以往算法的结果相比,本文的重建结果更加准确和真实。如图1 所示,本文所提出的超分辨率重建网络的主要贡献如下:
图1 网络结构。(a) 本文的基本网络结构;(b) 跨层次特征增强模块;(c) 池化注意力密集块Fig.1 Basic architectures.(a) The architecture of our proposed self-similarity enhancement network;(b) The cross-level feature enhancement module;(c) The pooling attention dense blocks
1)提出了一个跨层次特征增强模块(cross-level feature enhancement module,CLFE),该模块充分利用低分辨率图像的自相似特征来增强浅层特征。
2)提出了跨层次协同注意力,在特征金字塔结构中加强了跨层次特征传播的能力。
3)提出了池化注意力机制,以较低的计算量自适应捕获远程依赖关系,增强了自相似的深层特征,从而显著提高了重建效果。
在自然图像中,相似的图案往往在同一图像中重复出现。关于如何利用自相似性进行图像重建,已有多种方法对此进行了研究[11-12],这些方法试图利用内部信息作为参考来重建高质量的图像。STN[13]提出了一种允许几何变换模型,该模型处理透视变形和仿射变换。然而,在基于深度学习的方法中利用自相似特征进行图像超分辨率重建的方法仍然是模糊的。为了解决这个问题,一些研究者提出了基于非局部先验的方法。例如Dai 等人[11]设计了一种基于SENet 的二阶注意力机制,并引入了非局部神经网络来进一步提高图像重建的性能。Mei 等人[12]引入了跨尺度非局部(cross-scale non-local,CS-NL)注意力模块,在低分辨率图像中挖掘更多的跨尺度特征相关性。非局部操作通过计算像素相关性,来捕捉全局相关性。相关性计算为输入要素图中所有位置的加权和。这些基于非局部网络的方法虽然一定程度上克服了传统卷积神经网络的局限性,但计算量大。因此,在计算能力有限的情况下,使用这些基于非局部网络的方法进行图像恢复并不是一个很好的选择。本文所提出的方法不仅多层次地搜索浅层特征的自相似性,还可以在池化注意力的帮助下搜索深层特征的自相似性。
神经网络中的注意机制的目的是为了对上一层输入中最有益和最重要的部分重新校准特征响应。近年来,注意力模块在图像分类[14]、图像生成、图像恢复[15]等一系列任务中取得的成功体现了其重要性。Hu 等人[14]通过研究网络中卷积特征通道之间的相互依赖性,引入了一种称为挤压和激励(squeeze-andexcitation,SE)块的通道注意机制,自适应地重新校准用于图像分类的通道特征响应。受SE 网络的启发,Zhang 等人[15]提出了RCAN,将通道注意力与残差块相结合,增强重要的通道特征,实现了SISR 的卓越性能。此外,还有一些通过整合通道信息和空间信息来增加注意力的研究,例如,Sanghyun 等人[16]引入了卷积块注意模块(convolutional block attention module,CBAM),该模块应用通道和空间注意来强调有意义的特征。然而,上述注意方法都是利用全局平均或最大池化来获取信道或空间上的统计信息。
与上述方法不同的是,本文提出了跨层次协同注意力来融合金字塔不同层次的特征,并且还提出了一种计算量较小的池化注意力来捕获深层特征的远程依赖关系,以便充分利用图像的自相似特征。
多尺度的本质是对信号进行不同粒度的采样,即在不同的尺度下能够观测到不同的特征。源于多尺度这一特性,该结构已成为计算机视觉研究的热点之一。HR-Nets[17]提出了精心设计的网络体系结构,其中包含多个分支,每个分支都有自己的空间分辨率。沙漏网络[18]通过跳跃连接将分辨率从高到低过程中的所有低分辨率组合为相同分辨率的特征。多网格卷积神经网络[19]提出了一种多网格金字塔特征表示方法,并定义了可以在整个网络中集成的MG-Conv 算子。Oct-Conv[20]与MG-Conv 有相似的想法,但其动机是减少参数的冗余。
同时,一些学者也在探索多尺度在图像重建任务中的作用,Han 等人提出了双态递归网络(dual-state recurrent networks,DSRN)[21],通过联合低分辨率和高分辨率尺度上的信息来实现图像超分辨率。具体来说,DSRN 中的递归信号通过延迟反馈的方式来进行两个尺度间的信息交换。多尺度残差网络(multi-scale residual network,MSRN)[22]通过使用不同尺度的卷积核来提取图像在不同尺度下的特征。Yang 等人提出多级多尺度图像超分辨率网络(M2SR)[23],利用残差U 型网络和注意力U 型网络提取图像的多尺度特征,增强网络的表达能力。
在上述思想的基础上,本文设计了一个具有多尺度特征和不同层次特征之间信息交互的金字塔结构,进一步增强了提取多尺度特征的能力。
如图1 所示,本文提出的网络结构(self-similarity enhancement network,SSEN)主要由四个部分组成:浅层特征提取模块、跨层次特征增强模块(CLFE)、级联的池化注意力密集块以及重建模块。其中ILR和ISR表示为SSEN 的输入和输出。如在文献中[9]所研究的那样,本文仅使用一个卷积层从低分辨率的输入中提取浅层特征:
其中:HFE(·)表示浅层特征提取模块,提取的浅层特征随后作为跨层次特征增强模块的输入。HCLFE(·)表示本文提出的跨层次特征增强模块,它是一个嵌入了若干特征增强模块的金字塔结构,该模块可作为浅层特征提取的一种延伸。因此,本文将其视为一种增强的浅层特征。FEF从而替代浅层特征作为级联的池化注意力密集块的输入:
其中:HCPADB(·)表示本文提出的级联的池化注意力密集块,该模块包含G个池化注意力密集块。Hou 等人提出的条状池化在语义分割中能够有效的捕获远程依赖关系。所以,本文通过池化注意力密集块进行深度特征提取,提取的深度特征为FDF,深度特征随后被送入重建模块:
其中:Hrec(·)和Hbic(·)分别表示重建模块和双立方插值函数。重建模块又包含上采样和重建两部分,先使用亚像素卷积进行上采样,然后用一个普通的3×3卷积重建放大的特征。
董超在最近的工作MS3−Conv[24]中强调了多尺度特征对超分辨率重建的重要性,并根据多尺度的两个重要因素即特征传播和跨尺度通信,设计了一种通用高效的多尺度卷积单元。受其启发,本文提出了跨层次特征增强模块,其内部结构如图1(b)所示可分为三个部分,主体部分为提供多尺度特征的金字塔结构,以及嵌入的特征增强模块和跨层次协同注意力模块。
金字塔结构是一种多尺度特征提取的成熟方案,就是通过多次使用跨步卷积层对输入图像进行下采样,使得大多数计算都在低分辨率空间中完成,从而大大节省了计算成本,最后的上采样层会将特征大小调整为原始输入分辨率。如图1(b)中左下角的红色虚线所示,本文使用跨步卷积在第(L-1)金字塔层将特征下采样2 倍,获得金字塔第L层的特征表示。本文将红色虚线所构成的路径称为特征收缩路径。同理,上采样过程如紫色的虚线所示,本文将紫色虚线所构成的路径为特征扩张路径。本文从收缩路径中所获得的参考特征一方面作为金字塔同一层次特征增强模块的输入,另一方面又可跨层次提供一些辅助信息。下面将详细阐述特征增强模块和跨层次协同注意力模块。
3.2.1 特征增强模块
首先简要回顾一下可变形卷积,文献[25]提出了可变形卷积,以提高卷积神经网络的几何变换的建模能力。它以可学习的偏移量进行训练,这有助于使用变形的采样网格对像素点进行采样。由于这个特性,它被广泛地用于特征配准或隐式运动估计。在这项工作中,本文利用收缩路径的参考特征对扩张路径的输入特征进行增强,采用调制可变形卷积[26],该方法可另外学习带有调制标量的采样内核的动态权重。
对于输出特征图Y上的每个位置p,普通的卷积过程可以表示为
其中:X是输入,pk表示具有K个采样位置的采样网格,而wk表示每个位置的权重。例如,K=9且pk∈{(−1,−1),(−1,0),...,(1,1)}可定义一个3×3的卷积核。而在调制的可变形卷积中,将预测的偏移量和调制标量添加到采样网格中,从而使可变形的内核在空间上变化。形式上,可变形卷积运算定义如下:
其中:XL,S是金字塔第L层的支撑特征作为输入,YL是金字塔第L层特征增强模块的输出,k和K分别表示可变形卷积核的索引和数目。wk,p,pk和Δpk分别是第k个核的权重,中心索引,固定偏移和第k个位置的可学习偏移。Δmk为调制标量,这里它能够学习到下采样过程的参考特征与输入特征的对应关系。
这样可变形卷积将在具有动态权重的不规则位置上进行操作,以实现对输入特征的自适应采样。由于偏移量和调制标量都是可学习的,因此将每个收缩路径的参考特征与扩张路径的支撑特征连接起来从而生成相应的可变形采样参数:
其中:[,]表示串联操作,下标L表示金字塔第L层。RL表示金字塔第L层的参考特征。YL+1°↑表示金字塔第L+1 层的输出结果再上采样2 倍。而ΔP={Δpk},ΔM={Δmk}。由于Δpk可能为分数,本文使用双线性插值,这与文献[25]中提出的相同。
特征增强模块由一个可变形卷积和一个给可变形卷积提供偏移量的并行网络组成,如图2 所示。在特征增强模块中,一个参考特征和一个支撑特征被连接起来作为输入。然后,它们通过一个3×3 的卷积层来减少通道,并通过一个感受野模块(RFB)来增加感受野的大小。接下来的3×3 卷积层被用来获得可变形核的偏移ΔPL和调制标量ΔML。
图2 提出的特征增强模块Fig.2 The proposed feature enhancement module
图3 描述了RFB 的结构。它引入一种类似Inception 模块的多分支卷积模块,以相对低的计算成本有效地扩大感受野,这有助于处理高频信息较丰富的边缘和纹理。在RFB 的膨胀卷积层中,每个分支都是一个普通卷积后面加上一个膨胀因子不同的膨胀卷积。因此在保持参数量和同样感受野的情况下,RFB 能够获取更精细的特征。关于RFB 的更多细节可以在文献[10]中找到。RFB 的使用有利于获得有效的感受野,因此本文可以更有效地利用全局特征的自相似性来生成采样参数。
图3 感受野模块Fig.3 Receptive field block
特征增强模块将可变形卷积和RFB 感受野模块进行巧妙的结合,使得特征在传播过程中能够充分利用全局信息,从而提升特征的表达能力。
3.2.2 跨层次协同注意力
本文提出的跨层次协同注意力(cross-level coattention,CLCA)的目的是自适应地调整来自金字塔不同层次(图1(a)中的深橘色方块)的重要特征,并为特征融合生成可训练的权重。CLCA 的结构如图4所示。
图4 提出的跨层次协同注意力结构,其中Fgp 表示全局平均池化Fig.4 The proposed Cross-Level Co-Attention architec-ture."Fgp" denotes the global average pooling
给定一个高层次特征XL和一个低层次特征XL+1,它们的大小分别为C×H×W和。首先通过一个全局平均池化将特征XL和XL+1的全局空间信息分别压缩到两个信道描述符z1和z2,它们第c个元素可分别由以下式子求出:
其中:Fgp(·)表示全局平均池化操作,是XL第c个通道且位置为(i,j)的值,(i,j)是XL+1第c个通道且位置为(i,j)的值。
然后将这两个信道描述符串联成一个信道汇总统计量S∈R2C×1×1,其中Cconcat(·)为串联函数。
为了通过全局平均池从聚合信息中完全捕获通道依赖,本文引入了一种能够学习信道之间非线性交互的门控机制。在这里,本文选择利用Sigmoid 函数σ,信道统计量可以用以下公式计算:
其中:δ(·)表示ReLU 激活函数。W1是第一个卷积层的权重,它作为降维层,具有压缩比r。在被ReLU激活后,低维信号随后以比率r升维,其权重是W2。最后将获得的信道统计量划分为a,b两部分,用于重新标定不同层次特征的权重。然后将这些特征融合起来,过程如下:
其中:Sdown()表示下采样过程,Cconv()表示普通的3×3卷积,Foutput表示跨层次协同注意力的输出。
跨层次特征增强模块输出了增强的浅层特征并馈入后面级联的池化注意力密集块(pooling attention dense blocks,PADB)。池化注意力密集块主要由具有池化注意机制的堆叠残差密集块组成,而堆叠残差密集块的更多细节可以在文献[27]中找到。
池化注意力密集块的结构如图1(c)所示。它结合了多级残差网络和密集连接。从而充分利用输入图像的层次特征,获得更好的恢复质量。
3.3.1 池化注意力
池化注意力机制利用空间池化来扩大卷积神经的感受野并收集提供有用信息的上下文,利用条状池化[28]作为全局池化的替代方法,所谓条状池化就是使用条状池化窗口沿水平或垂直方向执行池化,如图5 所示。数学上,给定二维张量x∈RH×W,在条状池化过程中,需要池化的空间范围为(H,1)或(1,W)。与二维平均池不同,条状池化对一行或一列中的所有特征值进行平均。因此,水平条状池化后的输出yh∈RH可以写成:
图5 池化注意力示意图Fig.5 Schematic illustration of the pooling attention
同理,垂直条状池化后的输出yv∈RH可以写成:
条状池化具有两个全局池化所没有的优点。一方面,它可以沿一个空间维度部署较长的内核空间,因此可以捕获离散区域的远程关系;另一方面,条状池化考虑的是长而窄的范围,而不是整个特征图,从而避免了在相距甚远的位置之间建立大多数不必要的连接。
图5 描述了本文提出的池化注意力。设x∈RC×H×W为输入张量,其中C表示通道数。本文首先将x馈入两条并行路径,每条路径包含一个水平或垂直条状池化层,后面是一个内核大小为3 的一维卷积层,用于调制当前位置及其相邻特征。从而给出了水平方向上的池化结果yh∈RH×W和垂直方向上的池化结果yv∈RH×W。为了获得包含更有用的全局信息输出z∈RC×H×W,本文将yh和yv用双线性插值法膨胀为输入相同的大小,再将膨胀后的张量融合起来,得到y∈RC×H×W,该过程可表示为
于是,池化注意力的结果为
其中:SScale(,)指的是逐元素乘法,σ是Sigmoid 函数,f是1×1卷积。应当注意,有多种方式来组合由两个条状池化层提取的特征,例如计算两个提取的一维特征向量之间的内积。然而,考虑到效率并使池化注意力模块更加轻量,本文采用了上述操作,发现这些操作仍然具有不错的效果。
根据文献[9,15],本文选用了DIV2K[29]作为网络的训练集,该数据集由800 张训练集图片和100 张验证集图片组成。为了测试模型的效果,本文选用5 个标准的基准数据集,分别为:Set5[30],Set14[31],BSD100[32],Urban100[5],Manga109[33]。其中测试集BSD100 包含有多种风格类型的图片,Urban100为各种类型的建筑物图片,Manga109 为各种类型的卡通图片。这5 个测试集具有丰富多样的信息,能够很好地验证超分辨率方法的有效性。为了评估超分辨率性能,本文采用两种常用的全参考图像质量评估标准来评估差异:峰值信噪比(PSNR)和结构相似性(SSIM)。按照超分辨率的惯例,亮度通道被选择用于全参考图像质量评估,因为图像的强度比色度对人类视觉更敏感。
本文采用L1损失函数[9,15]来优化SSEN。对于给定的训练集,包含了N个低分辨率和高分辨率图像对。本文的网络目标是训练图像对并利用L1损失函数来进行优化,公式如下所示:
其中:HSSEN()表示网络重建结果。‖‖1定义为L1范数,而θ 表示了网络中的参数。
下面具体说明本文提出的SSEN 的实验细节,在每一轮训练中,本文将低分辨率的RGB 图像和对应高分辨率的RGB 图像的切分为大小为48×48 的块。通过随机旋转90°、180°、270°和水平翻转来增加训练数据。本文在堆叠的池化注意力密集块中将密集块的个数设置为 18,在每个池化注意力密集块中,本文有三个残差密集块和三个池化注意力块。其中残差密集块的增长率为32,文中未说明的通道数均为64,网络最后输出的通道数为3。此外,本文的模型采用ADAM 优化函数来优化网络,网络的初始学习率设置为2×10−4,并且每迭代 2×105次学习率减半。本文所提出的方法实现测试的硬件环境搭配 IntelCoreTMi9-9900K(3.6 GHz)、内存8 GB、配置NVIDIA GeForce GTX 2080 GPU 的计算机。软件环境为64 位Ubuntu 操作系统,PyTorch 框架和Matlab R2019a。
实验中,本文将SSEN 与现阶段一些具有代表性的方法作对比,其中包含Bicubic、SRCNN[7]、VDSR[8]、LapSRN[34]、M2SR[23]、PMRN[35]和RDN[36]。为了比较的公平性,将所有的方法在5 个基准数据集Set5、Set14、BSD100、Urban100 和Manga109 上进行实验测试,然后对于不同基准测试集上得到的PSNR 和SSIM 指标值分别取平均值。获得的结果列于表1 中,表中红色字体表示最优结果,蓝色字体表示次优结果。从表中可以看出SSEN 获得的PSNR和SSIM 值都高于绝大部分其他的对比方法获得的结果值,比如在数据集Set5 上放大4 倍的情况下本文的模型重建图像的PSNR 和SSIM 值相比于M2SR 方法分别提高了0.19 dB 和0.003,相比于PMRN 方法分别提高了0.08 dB 和0.0011。在数据集Set14 上放大2 倍的情况下,本文的模型重建图像的PSNR 和SSIM值相比于OISR-RK2 方法分别提高了0.12 dB和0.0011,相比于DBPN 方法分别提高了0.07 dB 和0.0014。表1 中的客观指标的实验对比结果证明了本文方法的有效性。
表1 在数据集Set5、Set14、BSD100、Urban100、Manga109 上放大倍数分别为2、3、4 的平均 PSNR(dB)和SSIM 的结果比较Table 1 The average results of PSNR/SSIM with scale factor 2×,3× and 4× on datasets Set5,Set14,BSD100,Urban100 and Manga109
为了从视觉质量上对比不同超分辨率方法的重建性能,图6 和图7 分别展示了数据集Urban100 中“Img048”和“Img092”图像在4 倍放大时的超分辨率重建结果。图8 和图9 分别展示了数据集B100 中“223061”和“253027”图像在4 倍放大时的超分辨率重建结果。其中GT (ground truth)代表原始HR 图像。为了突出对比效果,本文选取了图像的局部区域使用双三次插值的方法进行放大。通过观察图7 和图9 可以看出,虽然RDN 方法[36]能清晰地恢复图像中显著的纹理信息,但这些纹理信息存在明显的方向性问题,而OISR-RK2 方法[37]和DBPN[38]的方法虽在一定程度上恢复了正确的纹理信息,但难以抑制错误的纹理,并且这两种方法的纹理较为模糊。相比之下,本文方法在图中局部放大区域上能够产生方向正确的纹理和比较清晰的边缘,而且更加符合人眼视觉。这是由于跨层次特征增强模块中的可变形卷积有较强的特征对齐能力,从而使得网络模型能够更正确的恢复不同图像中复杂的纹理结构。在图8 的局部放大部分可以清晰地观察到,其他的方法重建出的图像细节很模糊,甚至无法重建出图像的边缘信息,而本文方法重建出的细节更加清晰,具有较好的识别度。这些结果也表明,本文方法在主观表现上取得了更优的效果。
图6 数据集Urban100 中“Img048”放大4 倍的超分辨率结果Fig.6 Super-resolution results of " Img048" in Urban100 dataset for 4× magnification
图7 数据集Urban100 中“Img092”放大4 倍的超分辨率结果Fig.7 Super-resolution results of " Img092" in Urban100 dataset for 4× magnification
图8 数据集BSD100 中“223061”放大4 倍的超分辨率结果Fig.8 Super-resolution results of " 223061" in BSD100 dataset for 4× magnification
图9 数据集BSD100 中“253027”放大4 倍的超分辨率结果Fig.9 Super-resolution results of " 253027" in BSD100 dataset for 4× magnification
为了验证跨层次特征增强模块和池化注意力密集块的有效性,本文在测试集Set5 中对图像放大 4倍的情况下进行了消融实验来验证本文模型的优越性。
图10 给出了这五种网络的收敛过程。本文选用18 个RRDB 块作为基线,这五种网络具有相同的RRDB 数。当本文将跨层次特征增强模块和池化注意力密集块分别添加到基线中,得到了Baseline +CLFE 和Baseline+Cascaded PADB 这两条曲线。从而验证这两个模块均能有效地提高基线的性能。当本文在模块CLFE 的基础上去掉跨层次注意力得到了曲线Baseline+CLFE_no_attention,对比曲线Baseline+CLFE 可以看出失去注意力的约束后,虽然网络收敛速度变快了,但最终的PSNR 却下降了0.03 dB,但仍比基线网络要高0.04 dB,从而分别验证了特征增强模块和跨层次注意力模块的有效性。当本文同时向基线网络添加了两个模块,得到曲线Baseline +CLFE+Cascaded PADB。可以看出,两个模块的组合性能比只有一个模块性能更好。这些定量和可视化分析证明了本文提议的CLFE 和PADB 的有效性。
图10 跨层次特征增强模块和池化注意力密集块聚合分析每种组合的曲线均基于Set5,放大因子为4,共800 epochFig.10 Convergence analysis on CLFE and PADB.The curves for each combination are based on the PSNR on Set5 with scaling factor 4× in 800 epochs.
表2 给出了网络包含跨层次特征增强模块和池化注意力密集块中一种或者两种的情况下的实验结果。从表中可以看出,当本文的网络同时包含跨层次特征增强模块和池化注意力密集块时PSNR值相比于只包含跨层次特征增强模块和只包含池化注意力密集块的情况下分别提高了0.07 dB 和0.05 dB,而在SSIM 上也获得了最大值。
表2 跨层次特征增强模块和池化注意力密集块在数据集Set5 放大4 倍下结果比较Table 2 The results of cross-level and feature enhancement module and pooling attention dense block with scale factor 4× on Set5
为了更好地展示网络中跨层次特征增强模块的效果,本文分别对只包含浅层特征提取的特征图和加入跨层次特征增强模块的特征图进行了可视化,其中图11(a)表示网络在第一层卷积输出的结果,图11(b)和图11(c)分别代表跨层次特征增强模块输出结果和堆叠的池化注意力密集块输出结果。从图11(b)和11(c)可以看出,跨层次特征增强模块学习到了图像大量的自相似特征,比如蝴蝶身上的圆形斑点得到了很好的恢复。而堆叠的池化注意力密集块则学习到了更多的图像纹理细节。实验结果表明,本文网络中的两个增强模块起到了很好的自相似特征增强的作用。
图11 网络中各模块的输出结果。(a) 第一层卷积输出结果;(b) 跨层次特征增强模块输出结果;(c) 堆叠的池化注意力密集块输出结果Fig.11 Results of each module in the network.(a) The result of first layer convolution;(b) The results of cross-level feature enhancement module;(c) The results of Stacked pooling attention dense blocks
为了进一步验证本文提出模型的有效性,本文在参数的数量方面和计算量方面将SSEN 与当前公认取得效果比较好的一些深度学习的超分辨率方法进行了分析比较,这些方法包括EDSR,RDN,OISR-RK3和DBPN,参数和计算量结果如表3 所示。
表3 模型大小和计算量在数据集Set14 放大2 倍情况下的比较,计算量表示乘法操作和加法操作的数目之和Table 3 Model size and MAC comparison on Set14 (2×),"MAC" denotes the number of multiply-accumulate operations
从表中可以看出SSEN 在取得了较好客观指标的同时,大幅缩减了网络的参数量和计算量。在数据集Set14 上放大2 倍的情况下SSEN 模型参数量约等于EDSR 和OISR-RK3 参数量的36%,计算量也只有它们的37%,但获得的PSNR 和SSIM 结果却十分接近。虽然SSEN 的参数量和计算量略高于DBPN 方法,获得的PSNR 和SSIM 值相比于DBPN 方法提高了0.07 dB 和0.0014。
由此可以证明,SSEN 在图像重建质量和模型压缩以及计算效率上取得了更好的平衡,即SSEN 在参数较少时也能获得较好的PSNR 和SSIM 结果。在主观视觉效果上,如图6−9 所示,SSEN 与目前客观指标上较优的RDN 方法进行比较,取得了相近的重建质量,但SSEN 参数却比它少了很多。
本文提出了一个基于自相似特征增强网络结构的单帧图像超分辨率重建网络。该方法着重对低分辨率图像内的自相似特征进行增强,本文将整个自相似特征增强的过程设计成两个即插即用的模块,即跨层次特征增强模块和池化注意力密集块。其中跨层次特征增强模块可作为浅层特征增强模块,在CLFE中,金字塔结构的每一层都嵌入了可变形卷积,以便充分挖掘同一尺度下的自相似信息。金字塔的不同层次间也包含特征的传递,在一定程度上补充了跨尺度的自相似信息,为了防止不同层次的自相似信息相互之间产生干扰,本文提出了跨层次注意力来约束这种信息的传递。此外,本文还提出了池化注意力来挖掘中间特征的自相似特征。通过充分利用浅层特征和中间特征的自相似信息,本文提出的方法无论在客观指标还是在主观表现下都取得了较好的效果。