基于图像超分辨率的多尺度特征交互传播研究

2022-03-25 09:18:58孙有晓冯锐成关伟鹏刘辰飞许野平陈英鹏周卫东
集成技术 2022年2期
关键词:分支尺度卷积

孙有晓 冯锐成 关伟鹏 乔 宇 董 超*井 焜 刘辰飞 许野平 陈英鹏 周卫东

1(山东大学微电子学院 济南 250101)

2(中国科学院深圳先进技术研究院 深圳 518055)

3(山东中科先进技术研究院有限公司 济南 250101)

4(神思电子技术股份有限公司 济南 250101)

1 引 言

图像超分辨率(Image Super Resolution,SR)本质也是多尺度问题,重建得到的高分辨(High-Resolution,HR)图像,可以看作是通过扩大低分辨率(Low-Resolution,LR)图像的尺度得到的。随着深度学习在 SR[1-2]中的开创性探索,多尺度技术以多种方式应用于图像超分辨率领域。在深度学习方法取得巨大成功之前,多尺度技术最早应用在基于图像自相似(Self-Similarity)的超分辨率算法中,其中图像金字塔里的相似块是由 LR图像逐阶下采样得到的。

目前,多尺度技术被广泛应用于深度学习任务中。本文将多尺度技术的应用概括为以下几方面:(1)多尺度技术在计算机视觉任务中应用广泛。例如,基于多尺度中间特征的 Lap-SRN[3]和 U-Net[4]网络结构。FPN[5]和 PSP[6]在网络末端融合不同深度的特征,主要应用于目标检测和分割任务中。MSR-GCN[7]提出多尺度残差图卷积网络,用于端到端的人体姿势预测。主要应用于图像分类识别的 MSDNet[8]提出了包含多个分支(每个分支都有对应的空间分辨率)的网络架构,实现了计算资源的合理分配。HRNets[9]通过在并行的多分辨率子网络上交互信息来进行多尺度特征的融合操作,实现用高分辨表征来估计姿态关键点。同样应用于姿态估计的 Hourglass[10]通过短连接将降采样到升采样过程中的底层特征与原尺度的特征进行组合,以获取多尺度特征信息。Big-Little Net[11]和 Elastic[12]亦采用类似的设计,使用不同分支处理不同的尺度特征,从而捕获跨尺度的信息。PMRN[13]改进了多尺度残差块,用小滤波器的组合代替较大的滤波器,逐步探索每层信息,能够有效地恢复结构纹理。SRNTT[14]以多尺度的方式将匹配的特征自适应地迁移到重建图像。Multigrid CNNs[15]提出了一种多网格金字塔特征表示,并定义了可以在整个网络中集成的多重网格卷积(Multi-grid Convolution,MG-Conv)算子。类似于 MG-Conv 算子,Octave Convolution(Oct-Conv)[16]在不同的空间分辨率下对特征图进行卷积,对低频分量进行了压缩以减少空间冗余。(2)多尺度技术能够很好地融合到神经网络的注意力机制中。例如,主要应用在图像识别分类任务中的 MViT[17]将多尺度特征层次结构的核心思想与 Transformer 模型相结合。EPSANet[18]在通道注意力的基础上,引入多尺度思想并构建了 EPSA 模块,相比其他单尺度注意力机制,EPSANet 能够提取更加丰富的多尺度特征图空间信息,实现跨维度通道注意力特征的交互。DMSANet[19]聚合不同尺度的特征,并使用空间和通道注意力模块来自适应地将局部特征与全局依赖关系相结合。TTSR[20]利用跨层级的特征融合机制来增强网络的特征表示能力。基于非局部注意力机制的 RCAN[21]、SAN[22]网络只是利用了单一尺度特征,而 CSNLN[23]提出了跨尺度非局部注意力模块,利用自然图像中广泛存在的跨尺度特征相似性来提高重建性能。(3)由于深度学习网络模型需要大量的数据样本进行训练才能达到较好的泛化能力,因此可以通过数据增强来增加训练样本的数量以及多样性。一般在数据增强任务中,常见的操作有图像旋转、镜像变换以及图像缩放。其中,图像缩放操作通过设置不同的尺度缩放因子(0.6~0.9)来调整训练数据集的图像大小比例就是利用多尺度技术。

虽然多尺度技术在图像超分辨率领域应用广泛,但很少有文献深入研究多尺度卷积本身。因此,本文系统地研究了 SR 中多尺度卷积的设计和使用,提出一种对不同形式的多尺度结构进行归纳的新框架。具体来说,在统一框架中现有的不同多尺度结构可以写成形式相同但转换函数不同的表达式。如公式(1),使用统一框架表述U-Net、Octave 卷积和 Multi-grid 卷积。该公式表明,多尺度卷积的性能取决于两个因素——特征传播和跨尺度通信。其中,特征传播决定每个尺度中信息转化的方式,跨尺度通信控制跨尺度的信息流动。在此基础上,本文调整转换函数以探究最有效的结构设计。图 1(c)展示了改进多尺度卷积形式的过程。多尺度卷积(MS-Conv)将输入图像的特征信息划分成两个不同尺度的分支并单向传播;多尺度+跨尺度卷积(MS2-Conv)增加了跨尺度的通信路径,使信息可以在不同尺度之间转换;为了进一步减少参数量和计算成本,高/低尺度的滤波器采用权重共享的策略,使用较小尺度的跨尺度滤波器,并将这种卷积命名为多尺度+跨尺度+共享权重卷积(Multi-Scale+cross-Scale+Share-weight Convolution,MS3-Conv)。MS3-Conv 与基于标准卷积的网络的性能指标值(Peak Signal to Noise Ratio,PSNR)几乎相同,但其计算复杂度、总参数量仅分别为后者的 67%和 75%,MS3-Conv 与基于标准卷积的网络的对比验证了该多尺度卷积结构不同部件和策略的有效性。本文的贡献主要有 3 个方面:(1)对理解和设计多尺度卷积网络作出统一解释。 在统一解释多尺度卷积网络这个框架中,现有的多尺度结构可以使用相同的形式表述,但转换函数不同。(2)基于这个统一解释多尺度卷积网络的框架,本文对多尺度卷积的形式进行了系统的研究,并提出一种计算速度更快和重建性能更好的新型高效多尺度结构。(3)本文全面研究了多尺度卷积网络的重建图像在不同区域的视觉质量差异。通过大量实验证明多尺度网络更优于重建高频细节。

图1 标准卷积与多尺度卷积的结构比较Fig. 1 The structural comparison of standard convolution and multi-scale convolution

2 多尺度网络

本文提出归纳不同形式的多尺度卷积的统一框架,在该框架下提出了“多尺度+跨尺度+共享权重”卷积(MS3-Conv),并阐述了多尺度与权重的重要作用。

2.1 多尺度卷积的表示

公式(1)概括了输入特征的转换融合过程。如图 1(b)所示,多尺度特征表示与权重共享卷积层的展开形式类似于具有尺度间和尺度内转换的多尺度分支全连接网络。如图 1(a)所示,左侧标准卷积等效于右侧多分支的卷积,其中,XH和XL的尺度相同。在多尺度特征表示与权重共享卷积层的网络中,通过尺度间转换与上采样或下采样算子相结合来匹配融合特征的空间分辨率。同时,公式(1)可以很容易地扩展到具有 2 个以上分支(尺度)并行的网络。

对于 U-Net 网络模型,先将 U-Net 结构中的多尺度卷积归纳,其中,特征图按比例因子 2 进行下采样。转换矩阵定义为:

其中,I为恒等映射;WLL为低尺度内部转换的卷积。这表明高分辨率信息可以通过短连接传播,低分辨率尺度通过卷积滤波器进行转换,不同尺度的分支之间并没有实现信息转换。

对于 Oct-Conv 网络模型,Octave 多尺度卷积的转换矩阵可以表示为:

MG-Conv 实现转换和融合的过程表示为:

2.2 多尺度权重共享卷积

本文先研究最简单的多尺度卷积(MSConv)。MS-Conv 将输入图像的特征信息划分成两个不同尺度的分支并单向传播。这种网络结构可以降低计算复杂度,但会导致重建性能下降。为了缓解这种情况,本文增加了跨尺度的通信路径,使信息可以在不同尺度之间转换。将改进的卷积命名为多尺度+跨尺度卷积(MS2-Conv)。为减少网络参数量和计算成本,进一步提出了更高效的多尺度卷积,并称为多尺度+跨尺度+共享权重卷积(MS3-Conv)。关键思想是保持尺度间的通信路径——fHL,fLH≠0,尺度内采用共享权重策略转换信息——fHH=fLL。通过大量实验证明了跨尺度通信可以显著提高重建性能。其中,采用共享权重策略是受 TridentNet[24]的启发,它构建了一个并行的多尺度分支结构,并且不同的尺度使用相同的转换参数。此外,跨尺度通信路径使用的卷积大小为 1×1,而不是 3×3,这样可以进一步减少冗余的参数。综上所述,MS3-Conv 的转换矩阵可表示为:

其中,WIS为用于特征传播的 3×3 卷积;WHL和WLH是用于跨尺度通信的 1×1 卷积。图 2 展示了 MS3-Conv 如何替换 SRResNet 网络模型中的标准卷积。

图2 基于 MS3-Conv 的 SRResNet 网络模型Fig. 2 SRResNet network model based on MS3-Conv

MS3-Conv 和 Oct-Conv 之间的主要差异有:(1)对于尺度内转换,MS3-Conv 每个尺度都共享参数。高/低尺度的划分比例固定为 0.5。(2)对于尺度间的通信,MS3-Conv 采用两个 1×1 卷积核,而 Oct-Conv 使用 3×3 卷积核。不同于TridentNet 构建多尺度的分支块并将它们集成到骨干网络中,MS3-Conv 可以作为通用的“即插即用”卷积单元,很容易替换标准卷积融入到大多数网络结构中。另外,MS3-Conv 采用卷积进行尺度间通信,而 TridentNet 没有通信路径,只是通过非极大值抑制来合并不同尺度分支的输出。

2.3 多尺度与权重的作用

多尺度表征一直被应用于捕捉空间长程依赖和空间冗余。为了研究多尺度卷积对空间冗余的影响,本文将多尺度卷积与空洞卷积[25]联系在一起,通过空洞卷积(利用稀疏卷积核之间的空间来扩大感受野),使网络的不同分支可以具有相同的结构和不同的感受野。

图3 不同形式的多尺度结构的比较Fig. 3 Comparison of diあerent forms of multi-scale structures

表1 在 BSD100 数据集上的预实验Tabel 1 Pilot experiments on BSD100 dataset

3 实验设置

4 实验与分析

4.1 多尺度卷积的有效性

首先分析比较了基于多尺度卷积与标准卷积网络的图像重建性能。为了将多尺度卷积集成到基准网络模型中,使用 MS-Conv 替换对应的标准卷积层。如图 1(c),为了公平比较,网络的主拓扑和其他结构的参数保持一致。每个分支(尺度)都采用一个通道数为 32、卷积核大小为 3×3 的卷积算子。它们在 DIV2K 测试集上的 PSNR 值如表 2 所示,将一半的特征图压缩到较低尺度时,计算复杂度从 42.76 G 下降到 16.70 G,但这样直接压缩会导致 PSNR 下降 0.16 dB。这说明 MSConv 可以实现重建性能和复杂性之间的平衡。在一些强调处理速度和低延时的实际应用中,牺牲一定的重建性能是可接受的。其中,表 2 中的参数量(Parameters,Params.)的单位是兆(M)。

表2 标准卷积与多尺度卷积在 DIV2K 数据集上的性能对比Tabel 2 Comparison of the standard and multi-scale convolution on DIV2K

4.2 跨尺度通信的有效性

图4 增加网络复杂性的两种情形Fig. 4 Two cases of increasing the complexity of a network

4.3 权重共享的有效性

为了进一步减少参数量,探究了跨尺度通信的滤波器采用共享权重策略的有效性,并提出改进的卷积——MS3-Conv。将 MS3-Conv 与其他形式的多尺度卷积进行比较,且评估了一系列不同深度网络的效率。其中,MS3-Conv 的尺度间通信路径的滤波器尺寸为 1×1。MS3-Conv-L 的尺度间通信路径的滤波器尺寸为 3×3。为了评估滤波器大小对重建性能的影响,本文也对比了MS3-Conv 和 MS3-Conv-L 的重建性能。图 5 展示了不同网络结构的性能变化,对比的指标包括PSNR 和 Params.、PSNR 和 FLOPs。

如图 5(a)所示,当增加网络层数时,MS2-Conv、MS3-Conv 和 MS3-Conv-L 的图像重建性能指标值的变化趋势相似,且所有基于多尺度卷积的网络的重建性能始终优于标准卷积网络。特别是,基于多尺度卷积的网络的计算复杂度仅为标准卷积网络的 61%,而其图像重建性能与标准卷积网络几乎相同,由此说明多尺度卷积可以充分利用特征表示。此外,在计算量大约 26 G FLOPs 的情况下,所有基于多尺度卷积的网络比标准卷积网络提升了 0.3 dB,这表明多尺度卷积的计算效率更高。从图 5(b)可以观察到,紫色曲线保持在绿色和黄色曲线上方,MS3-Conv 比MS2-Conv 和 MS3-Conv-L 的内存效率更高。为达到标准卷积网络的重建性能指标值,MS3-Conv、MS3-Conv-L 和 MS2-Conv 分别只需要 1.15 M、1.87 M 和 2.33 M 参数量,这表明增加尺度间通信路径的滤波器尺寸,只能得到较小的性能提升。值得注意的是,MS3-Conv-L 和 MS2-Conv 比标准卷积的参数量更多,这呼应了本文降低内存成本的操作。

图5 多尺度网络与标准卷积网络结构的性能比较Fig. 5 The performance comparison of multi-scale networks and standard convolutional networks

4.4 多分支网络的有效性

为了研究 MS3-Conv 并行分支的数量对图像重建性能的影响(类似于 HRNet),本文通过在不同尺度的并行分支之间交换特征信息来实现多尺度通信。由于额外的通信路径,具有更多分支模型的复杂度略高于两个分支的 MS3-Conv。表 3中的结果表明,基于 MS3-Conv 网络的重建性能始终优于单分支的标准网络,大约增加 0.12 dB。另外,当网络增加额外分支时,相比二分支网络,三分支网络和四分支网络并没有显著的改进(小于 0.02 dB)。 因此,为了更好地平衡复杂性和性能,本文将网络的尺度分支数量默认为 2。

表3 在 DIV2K 数据集比较不同尺度数量的网络Tabel 3 Comparison of networks with different numbers of scales on DIV2K

4.5 基于多尺度卷积的网络模型

为了体现本文提出的多尺度卷积的整体高效性,将 MS3-Conv 应用于两个 SR 网络——CARN[35]和 SRResNet 中,构造出相应的多尺度网络模型。表 4 总结了基于多尺度卷积的网络模型在 SR 测试集上的测试结果。其中,以SRResNet 为骨干网络,用 MS3-Conv 替换标准卷积可以减少 67% 的参数量和 40% 的计算成本,但这样会导致网络的图像重建性能显著下降。为了补偿重建性能的退化,本文训练了一个更深的网络,表示为 MS3-Conv+,仅使用 2/3 的计算复杂度和 3/4 的参数量就达到了标准网络的重建性能指标值。以 CARN为骨干网络,MS3-Conv+相比标准卷积提升了较小的重建性能指标值PSNR(在 Urban100 和 DIV2K 测试集上分别提升 0.01 dB 和 0.02 dB),同时节省了 34% 的计算成本。有趣的是,在大多数测试数据集上,基于MS3-Conv+ 卷积的 SRResNet 网络性能指标值略优于基于标准卷积的 CARN 网络(两者在 DIV2K 测试集上的性能指标值分别为 30.46 dB 和 30.42 dB),同时降低 20% 的计算成本。这意味着多尺度卷积可以在不改变网络拓扑的情况下提高网络性能。

表4 基于多尺度卷积的网络模型的定量结果Tabel 4 Quantitative results of the network model based on multi-scale convolution

5 结果可视化分析

本文在公开的标准数据集上比较了不同形式的多尺度卷积,图 6 展示了一些具有代表性的定性结果,并提供了 PSNR 和 SSIM 数值以供参考。对于图像“img_093”,基于标准卷积的网络复原的斑马条纹结构是错误的,而所有基于多尺度卷积的网络的重构图像在高频细节方面都有较好的重建效果,并趋于复原出正确的结构。对于图像“img_038”,标准卷积网络模型的复原图像有振铃伪影效果,而基于 MS-Conv、MS2-Conv 和 MS3-Conv 的网络模型重建结果有较好的视觉感知质量。除了基于不同形式的多尺度卷积的 SRResNet 网络模型,本文还分析和比较了MS3-Conv 应用于其他骨干网络模型的重构图像。如图 7 所示,多尺度卷积的重构图像在高频细节方面具有更好的重建效果(如密集网格)。对于图像“img_042”和“img_093”,基于标准卷积的两个网络模型都不能很好地恢复密集线条,而对应的 MS3-Conv 网络模型都有较好的重建效果。对于图像“img_098”,观察到基于标准卷积的SRResNet 网络无法完整地重建格子图形,基于标准卷积的 CARN 网络重建的格子很模糊。相比之下,对应的 MS3-Conv 网络可以减轻模糊效果并能够恢复更多高频细节。如图 8 所示,在平坦区域和平滑边缘,可以观察到基于多尺度卷积与标准卷积的网络的 PSNR 数值有较大差距,但无显著的视觉感知差异。对于图像“img_0830”,基于 MS3-Conv 的网络比基于标准卷积的网络的图像重建性能指标 PSNR 数值下降 3.4 dB,但两者的视觉感知上无明显差异。这些基于区域的变化表明,多尺度卷积与标准卷积对不同区域的重建能力不一致。如图 9 所示,比较了多尺度图像的可视化效果。本文使用缩放因子{0.8, 0.6, 0.5}调整图像,以对比这些网络模型的重建性能。基于 MS3-Conv 的 SRResNet 网络比基于标准卷积的SRResNet 网络的图像重建性能更好(见黄色框)。基于标准卷积和基于MS3-Conv 的 CARN 网络模型都能正确地重建出尺度因子为 0.8 和 0.6 的建筑物结构。对于较低的尺度(0.5)的图像,标准卷积网络重建的图像丢失部分结构并出现混叠效应(见绿色框)。而基于 MS3-Conv 的 CARN 网络则可以缓解这种现象并恢复正确的结构。

图6 基于标准卷积和基于不同形式的多尺度卷积的 SRResNet 网络的定性比较Fig. 6 Qualitative comparisons of standard convolution and variants of multi-scale convolution on SRResNet backbone

图7 密集网格区域的定性比较Fig. 7 Qualitative comparisons on dense-grid region

图8 平坦区域的定性比较Fig. 8 Qualitative comparisons on flat region

图9 缩放图像的定性比较Fig. 9 Qualitative comparisons on rescaling images

6 局限性讨论

在设计网络模型时,关于平衡网络性能与复杂度的灵活性方面,由于本文提出的多尺度卷积层网络使用了权重共享策略,所以灵活性稍差于Octave 网络。在结果可视化方面,与标准卷积网络相比,基于本文提出的多尺度和权重共享卷积层网络的重构图像在高频细节方面都有较好的重建效果,能够减轻模糊现象且趋于恢复出正确的结构。然而,在平坦区域和平滑边缘,虽然基于多尺度卷积网络的重建性能指标值 PSNR 远高于基于标准卷积的网络,但两者并没有显著的视觉感知差异。这也是未来工作的重点,将进一步探究多尺度和权重共享卷积对不同区域的重构特点,探究如何减少平坦区域中的恢复错误的伪影现象,以此获得更好的视觉感知效果。本文对其他退化类型的数据以及真实场景下的数据并没有进行充分的测试与评估,故在未来的工作中,将进一步测试并评估基于本文提出的多尺度卷积网络对其他退化类型图像和真实场景图像的重建性能。

7 结 论

本文深入研究基于超分辨率的多尺度特征交互传播,并提出了一种基于多尺度和权重共享卷积层的图像超分辨率方法,在相同尺度的卷积核之间,采用权重共享策略来减少参数量,使用不同尺度的信息经过相同的非线性映射实现不同尺度特征的信息交互融合,提取不同尺度特征,进而实现更好的图像重建性能。并通过大量的对比实验表明,本文提出的多尺度卷积能够解决网络参数量过大以及计算量大的技术问题,而且具有较强的灵活性和适配性,可以“即插即用”地应用到现有的网络结构中。

猜你喜欢
分支尺度卷积
基于3D-Winograd的快速卷积算法设计及FPGA实现
财产的五大尺度和五重应对
巧分支与枝
学生天地(2019年28期)2019-08-25 08:50:54
从滤波器理解卷积
电子制作(2019年11期)2019-07-04 00:34:38
基于傅里叶域卷积表示的目标跟踪算法
一类拟齐次多项式中心的极限环分支
宇宙的尺度
太空探索(2016年5期)2016-07-12 15:17:55
9
一种基于卷积神经网络的性别识别方法
电视技术(2014年19期)2014-03-11 15:38:20
生成分支q-矩阵的零流出性