柳 聪,屈 丹,司念文,魏紫薇
(中国人民解放军战略支援部队信息工程大学 信息系统工程学院,郑州 450000)
图像超分辨率重建技术是指采用某种算法将低分辨率(Low Resolution,LR)图像重建为近似真实的高分辨率(High Resolution,HR)图像的方法。在实际生活中,受成像设备性能差、环境干扰等因素的影响,重建图像清晰度较低,无法从中提取有效的信息。因此,图像超分辨率重建方法成为计算机领域的研究热点。
超分辨率重建方法分为基于插值的方法、基于重建的方法和基于学习的方法。其中,基于插值和基于重建的方法在重建HR 图像时,当无法获得图像先验信息时,重建性能降低。然而,基于学习的方法是通过学习LR 图像与HR 图像之间的映射关系,构建学习图像之间的对应关系,从而有效提升重建性能。因此,大多数研究人员都在研究基于学习的方法,尤其是卷积神经网络(Convolutional Neural Network,CNN),使得超分辨率重建性能得到显著提升。
基于卷积神经网络的超分辨率重建方法通常以加深网络层数、增大网络复杂度的方式提高重建性能。文献[1]提出基于卷积神经网络的超分辨率重建方法,利用单隐含层的网络实现LR 图像到HR 图像的映射,以获取超分辨率重建图像。随着网络层数的增加,重建性能不断提高。文献[2]提出基于残差密集连接的图像超分辨率重建网络,将网络隐含层加深到100 层以上,重建性能得到显著提高。但是网络参数量达到1×107以上,造成巨大的计算开销。针对内存开销小、计算资源有限等问题[3-5],早期设计的超分辨率重建网络不适用于实际应用中。为此,研究人员提出一系列轻量级图像超分辨率重建网络,分为基于网络结构设计的轻量级网络、基于神经网络结构搜索的轻量级网络和基于知识蒸馏的轻量级网络,其中,基于网络结构设计的轻量级网络占主要地位。文献[6]提出基于信息蒸馏网络(Information Distillation Network,IDN)的轻量级图像超分辨率重建方法,采用通道拆分策略减少网络参数量。文献[7]提出基于残差特征蒸馏网络(Residual Feature Distillation Network,RFDN)的轻量级图像超分辨率重建方法,进一步简化特征提取操作,从而提升网络重建性能,但是网络参数量仍较大而且重建速度也较慢,从而限制其在内存资源小的终端设备上的应用。
本文设计一种基于深度可分离卷积的轻量级图像超分辨率重建网络。构建基于深度可分离卷积的特征提取模块,采用深度可分离卷积操作和对比度感知通道注意力机制,实现提取深层特征的同时有效降低网络参数量、加快重建速度,通过亚像素卷积操作对图像特征进行上采样,使得低分辨率图像重建出近似真实的高分辨率图像。
针对大多数网络参数量庞大、重建速度慢等问题,研究人员提出轻量级图像超分辨率重建方法。在早期的轻量级图像超分辨率重建的研究过程中,文献[8]提出基于深度递归卷积网络(Deeply-Recursive Convolutional Network,DRCN)的图像超分辨率重建方法,文献[9]提出基于深度递归残差网络(Deeply-Recursive Residual Network,DRRN)的图像超分辨率重建方法,这2 种方法采用递归网络参数共享的方法减少网络参数量。但是上述方法以增加网络的深度为前提,保证重建图像的质量。DRCN 网络与DRRN 网络虽然减少了网络参数量,但是增加了网络的深度,并且降低了网络的重建速度。因此,模型参数量少和重建速度快的高效专用网络的构建成为研究热点。基于此,文献[6]提出IDN 网络,通过沿着通道维度将中间特征划分为2 个部分,一部分被保留,另一部分被后续的卷积层继续处理,传到下一层并提取特征。轻量级网络通过通道拆分策略将提取的特征与上一层部分提取的特征相融合,实现较优的性能。文献[7]提出RFDN 网络,简化特征提取块,充分提取特征信息,进一步提升网络的重建性能。
本文提出基于深度可分离卷积的轻量级图像超分辨率重建网络,其结构如图1 所示。
图1 本文网络结构Fig.1 Structure of the proposed network
该网络整体分为特征提取和图像重建2 个阶段。在特征提取阶段,输入的LR 图像首先经过3×3标准卷积得到浅层特征X0,然后将浅层特征X0输入到K个基于深度可分离卷积的特征提取模块中,提取出每层特征[X1,X2,…,Xn,…,Xk]。当K=6 时,经过1×1 卷积将特征[X1,X2,…,Xn,…,Xk]相融合,再通过深度可分离卷积提取深层特征Xj。在图像重建阶段,将浅层特征X0与深层特征Xj相加,之后输入到3×3 标准卷积和亚像素卷积模块进行上采样,并且与LR 图像特征相加,最终完成重建过程。
从图1 可以看出,在特征提取阶段,本文主要设计了K个基于深度可分离卷积的特征提取模块,以提取深层特征。因此,在整个特征提取阶段,基于深度可分离卷积的特征提取模块至关重要,其整体结构如图2 所示。本文采用深度可分离卷积操作和对比度感知通道注意力机制,在保持网络重建性能的前提下,减少网络参数量。
图2 基于深度可分离卷积的特征提取模块Fig.2 Feature extraction module based on depthwise separable convolution
从图2 可以看出,该模块主要分为特征提取与融合及注意力的分配。在特征提取与融合过程中,对输入特征进行特征保留、特征提取和特征融合操作。特征保留主要采用1×1 卷积将原有特征的通道数减少一半,以减少参数量。特征提取是采用卷积核大小为3×3 的深度可分离卷积提取特征,并将其与原特征相加,以学习特征中的信息,从而提取深层特征,为后续的深度可分离卷积操作提供输入特征。特征融合是将特征保留的不同层次特征按维度进行拼接,并采用1×1 卷积进行融合,得到融合后的特征。注意力的分配是通过对比度感知通道注意力机制对提取特征的不同通道进行重新分配权重,再与输入特征相加,最终得到输出特征。
2.1.1 深度可分离卷积
文献[10]提出深度可分离卷积操作,以解决网络参数量大的问题,采用深度可分离卷积操作替换标准卷积操作,在保证模型性能的前提下,网络参数量大幅降低。因此,深度可分离卷积对轻量级图像超分辨率重建方法的研究具有重要意义。标准卷积操作如图3 所示。当输入特征的通道个数为3 时,则卷积核通道个数也为3,将对应通道位置的卷积相加得到输出的一个特征通道。当输出M个特征通道时,卷积核的数量也为M,以获取图像更深层的特征。
图3 标准卷积过程Fig.3 Standard convolution process
深度可分离卷积如图4 所示,主要对标准卷积进行拆分处理,分为深度卷积和1×1 的点向卷积2 个部分。首先,采用深度卷积操作将输入特征中的每个通道与对应的单通道卷积核进行卷积操作,保持特征图数量不变,从而对输入特征进行滤波操作。其次,通过1×1 的点向卷积操作,采用M个1×1 卷积核对滤波后的所有特征图进行整合处理,获得M个输出特征图,即提取的输出特征。
图4 深度可分离卷积过程Fig.4 Depthwise separable convolution process
为比较标准卷积和深度可分离卷积的参数量,假设输入为N×H×W的特征,经过尺寸为D×D的卷积核,输出为M×H×W的特征[11-12]。标准卷积参数量为P1,如式(1)所示:
深度可分离卷积参数量为P2,如式(2)所示:
计算深度可分离卷积与标准卷积的比值γ,如式(3)所示:
因此,深度可分离卷积操作能够大幅减少图像超分辨率重建网络的参数量,使网络更加轻量化。
2.1.2 对比度感知通道注意力机制
文献[13]提出的通道注意力机制最初用于图像分类任务中,通过对特征的不同通道重新分配权重,突出有价值的区域,更利于分类或检测。通道注意力机制根据全局平均或最大池化获取全局信息,使得网络学习更有价值的区域。通道注意力机制虽然能够有效提升网络性能,但是对于超分辨率重建网络,缺少有助于增强图像细节的信息(如纹理、边缘等)。为解决该问题,对比度感知通道注意力机制采用标准差和均值的总和(评估特征图的对比度)代替全局平均,有助于增强图像细节信息。对比度感知通道注意力机制整体过程如图5 所示。
图5 对比度感知通道注意力机制结构Fig.5 Structure of contrast perception channel attention mechanism
假设X为输入特征,具有C个通道,尺寸为H×W。首先,计算输入特征中每个通道的对比度,将输入特征X变为1×1×C大小的特征图TC。第c个通道对比度如式(4)所示:
其中:c为通道,c=1,2,…,C;i、j为相应位置的像素点;为第c个通道像素点(i,j)的特征;Tc为第c个通道的特征标准差与均值的和。
经过对比度的计算,Tc=[T1,T2,…,TC]。为了在TC和各通道之间建立相关性,引入门控单元来学习各通道之间的非线性交互作用,如式(5)所示:
其中:W1∈RC/R×C和W2∈RC×C/R为通道变换参数,通过不断地训练学习得到;TC为对比度全局信息;ReLU 和sigmoid 为激活函数。特征值Z是对每个通道重新分配的权重集合。
通过特征值Z与对应输入特征X的通道相乘,得到通道重新分配权重后的特征,如式(6)所示:
将对比度信息作为全局信息,获得每个通道的权重值,以实现对重要通道给予更多注意力,增强图像细节信息,从而增强网络的特征提取能力。
图像重建阶段的整体过程如图6 所示,将深层特征Xj与浅层特征X0融合[14-16],输入到3×3 标准卷积中,将特征通道数增加为原通道数的n倍(放大倍数的2),用于亚像素卷积操作。提取的特征通过亚像素卷积操作进行上采样[17],并与原始的LR 图像特征相加,最终完成图像重建过程。
图6 不同放大倍数的图像重建过程Fig.6 Image reconstruction process with different magnifications
亚像素卷积的具体操作如图7 所示,以3×3 大小的图像像素进行2 倍放大为例。通过对3×3 大小的图像特征四周补零,4 个3×3 大小的卷积核与扩充后的图像特征卷积,输出4 个3×3 大小的特征图[18]。最后,将输出特征图按照对应编号1、2、3、4 进行排列,即实现对图像放大2 倍的操作。
图7 亚像素卷积过程Fig.7 Sub-pixel convolution process
本文采用DIV2K 数据集作为训练集,其中包含人物、自然风景、人文景观等,总共800 幅图像;采用Set5、Set14、BSD100、Urban100、Manga109[19]作为测试集。其中Set5、Set14、BSD100、Urban100 这4 种测试集都是拍摄的自然景观、人物等真实图像,数量分别为5 幅、14 幅、100 幅、100 幅,而Manga109[19]测试集则是动漫人物图画,数量为109 幅。另外,本文提供的数据集都只是高分辨率图像,低分辨率图像则是通过双三次下采样的方法分别获取缩放因子X2、X3、X4 的图像,组成成对数据集。
本文采用峰值信噪比(Peak Signal to Noise Ratio,PSNR)和结构相似性(Structural Similarity,SSIM)作为评价指标。其中,PSNR 是超分辨率重建领域中最主要的评价指标值,主要是通过计算最大像素值(L)与图像之间的均方误差(MSE)来获得,数值越大,性能越优,单位为dB。例如,有N个像素的真实HR 图像(I)与网络重建出的HR 图像,MSE值如式(7)所示:
PSNR 值如式(8)所示:
在数据预处理方面,本文通过对训练集图像进行数据增强(如随机旋转与翻转),并且对图像裁切成块大小分别为256×256 像素、255×255 像素、256×256 像素,用于训练不同放大倍数的超分辨率重建网络。
本文实验采用Pytorch 进行网络设计,采用单块GPU 训练网络,型号为NVIDIA Quadro P5000。采用Adam 优化器,参数β1=0.9、β2=0.999、ε=10-7,初始学习率设置为5×10-4,整体网络采用L1 损失函数,Batchsize=16,总共训练1 000 000 次,当训练到200 000 次、400 000 次、600 000 次时,学习率减半。此外,X2、X3、X4 网络都是从头开始训练,网络中基于深度可分离卷积的特征提取模块数量为6,整体通道数设置为48。
3.3.1 网络重建性能对比
本文网络与VDSR[20]、DRCN[8]、DRRN[9]、MemNet[21]、IDN[6]、RFDN[7]主流轻量级图像超分辨率重建网络进行性能对比。在5 种公开数据集上,不同放大倍数下各轻量级图像超分辨率重建网络的PSNR 均值、SSIM 均值对比如表1~表3 所示。表中加粗为最优的数据,加下划线为次优的数据。
表1 当放大倍数为2 时不同网络PSNR 和SSIM 对比Table 1 PSNR and SSIM comparison among different networks when magnification is 2
表2 当放大倍数为3 时不同网络PSNR 和SSIM 对比Table 2 PSNR and SSIM comparison among different networks when magnification is 3
表3 当放大倍数为4 时不同网络PSNR 和SSIM 对比Table 3 PSNR and SSIM comparison among different networks when magnification is 4
从表1~表3 可以看出,RFDN 网络性能最优,本文网络性能次之。本文网络与除了RFDN 网络以外的其他轻量级图像超分辨率重建网络相比,整体网络重建性能较优。在BSD100 数据集上,当放大倍数为2 时,本文网络的测试性能相比IDN 网络较差,除此之外,无论放大倍数较低(2倍),还是放大倍数较高(3倍、4倍),重建图像所取得的PSNR 均值与SSIM 均值,均高于其他轻量级图像超分辨率重建网络。
RFDN 网络的PSNR 均值与SSIM 均值普遍优于本文网络。但是,两者重建性能差距并不大,重建图像所取得的PSNR 均值与SSIM 均值之间的整体差值约0.2 dB。因此,本文网络的重建性能相比于大多数主流轻量级图像超分辨率重建网络,具有明显的竞争力。
3.3.2 网络参数量对比
基于深度可分离卷积的轻量级图像超分辨率重建网络与VDSR、DRCN、DRRN、MemNet、IDN、RFDN 等轻量级图像超分辨率重建网络进行参数量对比,如表4 所示。加粗表示最优的数据。
表4 不同网络的参数量对比Table 4 Parameters comparison among different networks
从表4 可以看出,本文网络的参数量最少,并且与其他轻量级图像超分辨率重建网络成倍数的差别。本文网络相较于DRRN 网络的参数量减少了约1/2,相较于IDN、RFDN 网络,参数量减少约3/4,相较于VDSR、MemNet 网络,参数量减少约4/5,相较于DRCN 网络,参数量减少约10/11。
参数量是衡量轻量级图像超分辨率重建网络性能的重要指标[22],参数量越小可以更好地应用到显存资源较小的终端设备中。通过网络参数量的对比分析,相比其他主流轻量级图像超分辨率重建网络,本文网络的参数量成倍数减少,网络更加轻量化,更易于部署到终端设备中。
3.3.3 网络重建时间对比
在不同放大倍数情况下,本文网络与VDSR、DRCN、DRRN、MemNet、RFDN 等轻量级图像超分辨率重建网络的重建时间对比如表5 所示。以基准测试集Set5 为例,对不同放大倍数的网络进行重建,单位为s。VDSR、DRCN、DRRN 及MemNet 网络重建时间依据文献[6]统计的数据。RFDN 网络与本文网络是在GPU 显存有部分占用的情况下测试的,不同设备测试时间会有所差距。加粗为重建时间最短的网络,加下划线为重建时间次优的网络。
表5 不同网络的重建时间对比Table 5 Reconstruction time comparison among different networks s
从表5 可以看出,本文网络在不同放大倍数中重建时间最短,RFDN 网络次之。本文网络相较于其他轻量级图像超分辨率重建网络,重建时间显著缩短。相比VDSR、RFDN 网络,本文网络的重建时间缩短了约2 倍。相比DRCN、DRRN、MemNet 网络,本文网络的重建时间缩短几十倍乃至上百倍。网络的重建时间是衡量轻量级图像超分辨率重建网络性能的另一个重要指标。网络重建时间越快,网络应用在终端设备中[23],给用户带来更舒适的体验。通过网络重建时间的对比,本文网络相比于其他主流轻量级图像超分辨率重建网络,重建时间最优。
3.3.4 网络重建结果示例
为对比图像实际的重建效果,本文从测试集Set14 中选取3 张真实的高分辨率图像。当放大倍数为2 时,重建图像的效果对比如图8 所示。从图8 可以看出,本文网络重建效果与RFDN 网络重建效果几乎相同,视觉体验良好。与真实的高分辨率图像相比,本文网络重建图像的胡须部分有些模糊;从图8(d)中可以看出,本文网络重建图像的斑马纹理明显平滑,不够清晰。虽然本文网络与RFDN 网络的重建效果趋于相同,但是与真实的高分辨率图像相比,细节纹理还是不够清晰。
图8 重建图像主观视觉对比Fig.8 Subjective visual comparison of reconstruction images
本文提出一种基于深度可分离卷积的轻量级图像超分辨率重建网络。在特征提取阶段,设计基于深度可分离卷积的特征提取模块,通过深度可分离卷积与对比度感知通道注意力机制,减少网络参数量。在图像重建阶段,采用亚像素卷积对图像特征进行上采样,实现图像超分辨率重建。实验结果表明,相比VDSR、RFDW、IDN 等网络,本文网络具有较少的参数量。后续将通过引入生成对抗的方法,在保证网络轻量化的同时提升重建图像的视觉质量。