多监督损失函数光滑化图像超分辨率重建

2022-10-21 01:56孟志青张晶邱健数
中国图象图形学报 2022年10期
关键词:分辨率卷积损失

孟志青,张晶,邱健数

浙江工业大学管理学院,杭州 310023

0 引 言

在图像识别应用中,高分辨率对于正确的决策有着重要作用。例如,清晰的癌症图像有利于医生正确判定病症程度。单幅图像超分辨率(single image super-resolutions,SISR)是指利用一幅低分辨率(low-resolution,LR)图像恢复出对应高分辨率(high-resolution,HR)图像的过程。SISR技术在无严格硬件设备限制的条件下能够有效提升图像分辨率,在许多领域得到广泛应用。例如,卫星和航空成像(Ma等,2019)、医学图像处理(Tang等,2022)、超声成像(Christensen-Jeffries等,2020)和面部图像改进(Dogan等,2019)等。超分辨率技术可以对车牌检测(Xie等,2018)和车牌识别(Laroca等,2018)进行预处理,通过对车牌图像超分辨率预处理,可以提高车牌识别的准确率。目前尽管已经有一些超分辨率算法研究,但是已有的算法在提高分辨率程度上仍然存在许多问题。

神经网络在单幅图像超分辨率领域展示出巨大优越性。根据网络隐藏层数量可以分为浅层神经网络与深度神经网络。研究发现,通过增加网络深度可以提高图像重建效果,但是无法解决图像重建的不适定问题,而基于双向非线性映射的网络可以尽可能地使函数的映射空间精确。浅层神经网络方法已广泛用于图像超分辨率领域。Dong等人(2016a)首次将卷积神经网络(convolutional neural network,CNN)引入图像超分辨率领域,提出超分辨率卷积神经网络(super-resolution convolutional neural network,SRCNN),由于输入的LR图像需要经过双三次插值预处理,导致计算复杂度增加,且丢失了原图像中的高频信息,重建后的图像缺少高频信息和纹理细节。Shi等人(2016)提出一种高效的亚像素卷积网络(efficient sub-pixel convolutional neural network,ESPCN),使用亚像素卷积算法有效替换了双三次插值预处理进行上采样操作,降低了整体计算复杂度,同时避免了反卷积层带来的棋盘格效应。但是浅层神经网络不能充分利用LR图像高频信息,因此通过增加网络深度,形成深度神经网络方法来提高图像分辨率重建效果。Kim等人(2016a)在网络结构中堆叠小型过滤器,形成深度卷积网络(very deep super-resolution convolutional networks,VDSR),有效利用图像的上下文信息,且引入残差学习模块(He等,2016),以此避免因隐藏层层数过多造成的梯度消失或爆炸。Tai等人(2017)在神经网络中加入递归模块用于减少模型参数,构建了递归残差网络(deep recursive residual network,DRRN),并通过全局学习与局部学习相结合的方式来传递残差信息,以降低训练难度。李彬等人(2021)通过在网络中加入注意力模块提取通道与空间之间的权重特征,降低深度网络的计算复杂度。雷鹏程等人(2020)在深度网络中加入特征融合模块和空间注意力模块,可以快速提取原图像的高频信息,提高重建图像质量。近几年,在运用深度神经网络提高图像分辨率恢复方法方面有较好的研究进展。Kim等人(2016b)和Tai等人(2017)提出的深度神经网络仅学习从LR图像到HR图像的单向非线性映射,难以在极大的函数映射空间中找到特定的映射关系。对此,研究人员提出了双向非线性映射网络。Haris等人(2018)提出一种迭代上下采样的深度反向投影网络(deep back-projection networks for super-resolution,DBPN),为每个阶段的错误映射提供反馈,在图像放大尺度较大时表现优异。Guo等人(2020)提出对重建好的HR图像下采样的模型,减少可能的映射函数空间,但没有充分利用重建图像与原图像的关系,导致重建图像缺少原图像的高频信息和纹理细节。

综上研究表明,重建图像缺少原图像的高频信息和纹理细节导致高分辨率图像仍然存在恢复缺陷,使需要高清晰图像的应用场景可能出现判断失误。因此,图像高分辨率恢复方法仍然是一个亟待解决的重要问题。针对现有双向非线性映射网络存在重建图像与原图像相关性利用率低的问题,本文提出一种基于多监督光滑化损失函数的模型,通过错误反馈模块,迭代上下投影偏差,利用偏差最小化得到更真实、清晰的重构图像。为了加快模型训练收敛速度和降低训练难度,采用通道注意力机制(Hu等,2018)和全局与局部相结合的残差学习,通过长跳跃连接构建特征监督,将每个模块的输出都进行自适应图像重建,并将LR图像上采样的中间结果与真实图像进行下采样的结果进行对比,形成多重监督,并对多监督损失函数光滑化,使梯度在全局范围内可以传递。通过构建多监督光滑化损失函数使映射函数空间尽可能精确,减小SISR不适定带来的负面影响。数值实验结果表明,本文方法比DBPN-L(deep back-projection networks for super-resolution)(Haris等,2018)等方法在提高图像的清晰程度上具有较好效果。

本文的创新如下:1)构建多重监督结构,将HR图像通过下采样通道第1阶段得到的结果与LR图像通过上采样通道第1阶段的输出进行对比,并将HR原图像和HR图像通过下采样通道第2阶段结果作为监督,减少了图像函数映射空间产生的分辨率损失;2)对多监督损失函数光滑化,保证梯度方向在全局范围内的传递性,可以找到足够逼近的近似最优解,减少图像恢复中由于不光滑函数造成的图像纹理细节损失;3)提出一种基于多监督光滑化损失函数的图像超分辨率方法。通过在基准数据集上的对比实验,证明提出的方法比目前相同规模的超分辨率算法具有更好的效果。

1 本文方法

本文提出的基于多监督光滑化损失函数的卷积神经网络(convolutional neural network based on multi-supervised smoothing loss function,MSCN)如图1所示。该网络结构主要分为LR图像上采样通道和HR图像下采样通道。各通道的图像重建分为两个阶段,各阶段均包括浅层特征提取模块、基于迭代采样错误反馈机制的采样模块、全局特征融合模块和图像重建模块。网络具体实现过程如下:1)对输入浅层特征提取模块的低分辨率图像进行卷积,提取低频浅层图像特征;2)利用基于迭代采样错误反馈机制的采样模块学习具有更多纹理细节的非线性的图像特征;3)通过全局特征融合模块将迭代采样过程中的所有特征图融合输出;4)利用图像重建模块完成LR图像第1阶段重建输出MR(middle-resolution)图像,并与HR图像通过下采样通道第1阶段结果MR′图像进行对比;5)将MR图像输入第2阶段的浅层特征提取模块,重复步骤1)—3),将输出结果HR′图像与HR图像进行对比。

图1 基于多监督光滑化损失函数的方法整体架构

在浅层特征提取模块中,LR图像通过带有LeakyRelu激活函数的3 × 3和1 × 1卷积核的卷积层提取浅层特征,具体映射关系为

FSF=HSF2(HSF1(ILR))

(1)

式中,低分辨率图像ILR为网络的输入图像,FSF1=HSF1(·)和FSF2=HSF2(·)分别表示3×3和1×1卷积核的卷积层映射实现的特征提取操作,将经过卷积层映射提取到的特征输入采样模块,得到新的高维特征FSP,即

FSP=HIEBF(FSF)

(2)

式中,FSP=HIEBF(·)表示迭代采样错误反馈机制的采样模块映射关系。基于迭代采样错误反馈机制的采样模块不断上下采样提取图像的高层次特征,通过错误反馈来矫正重建误差,再对上采样单元提取到的特征进行特征融合,能够有效挖掘LR图像和HR图像的相关性。具体为

FGF=HGFF(URDB1(FSF),…,URDBm(DRDBm-1(…)))

(3)

式中,FGF=HGFF(·)表示全局特征融合模块的映射关系。该模块对每个上采样映射单元的输出特征进行融合,得到新的特征图,使重建图像充分利用原图像的上下文信息,提高重建质量。DRDBm-1(·)表示第m-1个下采样单元的映射关系,DRDBm-1(·)是第m-1个下采样映射单元的输出,同时也是第m个上采样映射单元的输入,融合得到的新特征图,通过卷积层可视化。具体操作为

ISR=HSR(FGF)

(4)

式中,ISR表示重建得到的HR图像,ISR=HSR(·)表示图像重建模块的映射函数。映射函数将提取到的高维特征图转化为最终的HR图像。

本文的主要创新是构建了多重监督结构,将原图像、原图像通过下采样第1阶段得到的×2图像和原图像通过下采样第2阶段得到的×1图像作为监督,形成多监督损失函数,并将损失函数平滑化,保证梯度方向在全局范围内的传递性,可以找到足够逼近的近似最优解,使低分辨率图像与高分辨率图像之间的映射空间尽可能精确,增加了找到特定的映射函数的可能性,提高了重建图像的清晰度。

1.1 基于迭代采样错误反馈机制的采样模块

基于迭代采样错误反馈机制的采样模块是网络保留HR图像特征的主要结构。采样模块由上采样单元URDB和下采样单元DRDB交替排列组成,每个URDB的输入是之前所有URDB输出的级联,每个DRDB的输入是之前所有DRDB输出的级联。本文的采样模块由7个URDB和6个DRDB组成。

1.1.1 上采样单元

上采样单元由1个通道注意力模块、2个卷积层和2个亚卷积层组成,如图2所示。URDBm(·)表示第m个URDB上采样单元对应的函数映射。具体的函数映射可表示为

图2 上采样单元整体框架

Hm=FU,2(F([L1,…,Lm-1])-

FD(FU,1(F([L1,…,Lm-1]))))+

FU,1(F([L1,…,Lm-1]))

(5)

式中,FU,1(·)和FU,2(·)分别表示第1个和2个亚卷积层对应的上采样映射关系,F(·)表示通道注意力模块对应的映射关系。FD(·)表示卷积层对应的下采样映射关系,[L1,…,Lm-1]表示第m个上采样单元之前所有下采样单元的输出特征图拼接。

1.1.2 下采样单元

下采样单元由1个通道注意力模块、1个亚卷积层和3个卷积层组成,如图3所示。DRDBm(·)表示第m个DRDB下采样单元对应的映射关系,与URDB上采样单元的映射关系相似,DRDB先下采样,再上采样,最后下采样。具体的函数映射关系为

图3 下采样单元整体框架

Lm=FD,2(F([H1,…,Hm])-

FU(FD,1(F([H1,…,Hm])))+

FD,1(F([H1,…,Hm]))

(6)

1.2 损失函数

(7)

但是,损失函数L(θ)中的每个分量在0点是不可微的,不存在梯度方向。求目标函数最小化,L1损失函数传递梯度时,接近0点处会出现无梯度情况。针对这种情况,引入一类局部光滑化函数逼近式(7)中的不可微项。具体为

而且,有

那么,损失优化问题(7)表示为近似光滑化模型,即

(8)

将约束条件和惩罚因子重新代入函数中,得到新目标函数。在Huber loss(Onaran等,2013)的基础上,本文将L1损失函数光滑化问题优化为罚函数问题

(9)

式中,惩罚参数ω1,ω2>0,并有下面的误差界估计。

性质1 低分辨率图像到高分辨率光滑化逼近的误差为0≤L(θ)-Lε(θ)≤0.5ε(1+ω1+ω2)。

根据精确罚函数理论方法可知,式(9)存在精确惩罚数解。性质1说明当ε取到足够小时,存在ω1和ω2使得从低分辨率到高分辨率,式(9)有足够逼近的近似最优解。

由于以最小二乘误差为目标函数会导致缺失原图像的纹理信息和感知质量,所以引入L1损失函数,并对损失函数光滑化处理,使损失函数的每个分量在0点处可微,存在梯度方向,在理论上比最小二乘法有更小的误差,即可以更好地提高图像分辨率。

2 实验与分析

2.1 实验数据集

DIV2K(diverse 2k resolution high quality images)(Agustsson和Timofte,2017)数据集主要包括800幅训练图像、100幅验证图像和100幅测试图像。本文使用DIV2K数据集的800幅训练图像作为训练数据集,对原始图像进行数据增强(Zhong等,2020),通过随机裁剪、随机旋转和镜像翻转操作对原始图像数据进行处理,得到大约64 000幅80 × 80像素的HR图像。使用Set5(Youm等,2016)、Set14(Hui等,2018)、BSD100(Berkeley segmentation dataset)(Huang等,2015)和Urban100(urban scenes dataset)(Cheong和Park,2017)数据集作为测试数据集。

2.2 实验细节

在训练阶段,将模型卷积层的通道数设置为64,上采样通道的第1和第2阶段均包含7个URDB和6个DRDB,下采样通道的第1阶段包含1个URDB和2个DRDB,第2阶段包含1个DRDB。除了在通道注意力模块内通道压缩和扩增及特征融合的卷积层使用1×1的卷积核,其余卷积核大小均为3×3。

多监督光滑化损失函数中,参数设置为ω1=0.1,ω2=0.01,ε=1。模型参数使用Adam(Zhang,2018)算法优化,批量数据规模设置为64,初始学习率设置为10-5,每训练100轮学习率减少1倍,共训练300轮。算法中参数设置为β1=0.9、β2=0.999、ε=10-8。本文的实验环境为Ubuntu16.04操作系统,Pytorch1.3.0深度学习框架,实验所用计算机CPU为i7-9700,GPU为GeForce RTX2080Ti 12 GB,内存32 GB。

2.3 实验结果

2.3.1 对比实验

为了验证损失函数中的ω1和ω2的取值对最终实验结果的影响,使用4种版本的ω1和ω2取值对应的模型在Set5数据集上进行测试,结果如表1所示。可以看出,模型M3相比模型M1在Set5数据集上的测试结果高出0.16 dB,模型M4相比模型M2的测试结果高出0.29 dB,在ω1取值0.1,ω2取值0.01时,模型M4的测试结果最好,峰值信噪比(peak signal to noise ratio,PSNR)为27.01 dB。因此损失函数中参数设置为ω1=0.1,ω2=0.01。

表1 不同ω1和ω2取值的重建效果对比表

为了确定多监督模块、通道注意力模块和全局特征融合模块对图像重建效果的影响,本文对各模块进行消融实验。在无全局特征融合、通道注意力和多监督机制的基础网络框架以Urban100数据集作为训练数据集进行对比实验。1)网络只包括多监督模块;2)网络包括通道注意力模块和多监督模块;3)网络包括全局特征融合模块和多监督模块;4)网络包括通道注意力模块、全局特征融合模块和多监督模块,实验结果如表2和图4所示。MS(multiple supervision module)表示多监督模块,CA(channel attention module)表示通道注意力模块,GFF(global feature fusion module)表示全局特征融合模块,PSNR和SSIM(structural similarity)表示网络在Urban100测试集上当放大因子为×4时的测试结果。以Urban100数据集4倍放大分子的评价指标PSNR和SSIM作为对比,从表2中可以发现加入多监督模块,网络测试结果有较大的提升,在PSNR指标上增加了0.40 dB,证明加入多监督光滑化损失函数可以使目标映射空间尽可能精确,提高图像重建效果。加入通道注意力模块、全局特征融合模块在PSNR指标上也有提升,如加入通道注意力模块在PSNR指标上有0.11 dB的提升。由图4可以发现,加入通道注意力模块,网络在500次迭代后就开始收敛,而不包括通道注意力模块的网络在迭代1 500次之后才开始收敛,说明加入通道注意力模块可以加快模型收敛速度。从上述实验可以看出,本文设计的多监督模块和加入的通道注意力模块、全局特征融合模块在客观指标上对重建效果有较大提升,且加入通道注意力模块可以使模型快速收敛,证明了本文提出的改进措施的有效性。

表2 不同模块组合在Urban100数据集的实验结果

图4 不同模型的PSNR曲线和SSIM曲线

2.3.2 基准测试

为了验证本文方法的有效性,在Set5等基准测试集上,将提出的MSCN方法与双三次插值法Bicubic、SRCNN网络(Dong等,2016a)、FSRCNN(fast SRCNN)网络(Dong等,2016b)、VDSR网络(Kim等,2016a)、DRCN(deeply-recursive convolutional network)网络(Kim等,2016b)、LapSRN(Laplacian pyramid super-resolution network)网络(Lai等,2017)、DBPN-L网络(Haris等,2018)和DRN-M(dual regression networks)网络(Guo等,2020)进行定量比较,以PSNR和SSIM为评估指标。PSNR和SSIM指标越高说明图像重建效果越好。表3和表4分别展示了各算法在放大因子为2和4时在基准测试集下的定量测试结果。可以看出,在所有数据集的不同缩放因子下,本文提出的MSCN算法均取得更优结果。在Set5测试集上,在放大尺度×2时,MSCN算法的PSNR相较于Bicubic、SRCNN、FSRCNN、VDSR、DRCN、LapSRN、DBPN-L和DRN-M分别提升4.16 dB、1.16 dB、0.82 dB、0.30 dB、0.29 dB、0.19 dB、0.09 dB和0.08 dB。在放大尺度×4时,与DRN-M算法相比,MSCN算法的PSNR和SSIM分别提升0.18 dB和0.002 4。在细节非常丰富的Urban100数据集上,在放大尺度×2和×4时,MSCN算法的PSNR指标比DRN-M网络分别提升0.12 dB和0.27 dB,极大提升了重建图像的质量。

表3 不同模型在放大倍数为2时在各测试集上的平均PSNR和SSIM值

表4 不同模型在放大倍数为4时在各测试集上的平均PSNR和SSIM值

为进一步衡量本文MSCN方法的图像质量,对重建图像进行可视化分析。图5是Set5数据集中img001图像的可视化结果。可以看出,在视觉感知上,MSCN方法重建结果的眼睫毛和眼睛轮廓相比其他算法更清晰,包含了图像更多的纹理细节。图6是测试集Set14中img013在尺度为×4时重建结果的局部放大图。可以看出,MSCN方法与其他算法相比,重建结果的字母线条更清晰完整,且整体重建完整度更高。图7是Urban100数据集中img006图像的可视化结果。可以看出,在放大因子为4时,DBPN-L网络重建图像的矩形轮廓比较模糊,数字没有明显的线条细节。而MSCN方法的重建图像有较好的视觉感知效果,重建图像的数字有比较明显的轮廓,且矩形线条清晰。在图5—图7中,红色字体为最优结果,蓝色字体为次优结果。

图5 不同算法对Set5中img001在尺度为×4时重建效果对比图

图6 不同算法对Set14中img013在尺度为×4时重建效果对比图

图7 不同算法对Urban100中img006在尺度为×4时重建效果对比图

图8 不同模型在放大倍数为4时在Set5数据集上的PSNR与参数量对比

3 结 论

针对图像超分辨率不适定问题,本文提出一种基于多监督平滑化损失函数的网络用于超分辨率重建,使函数映射空间尽可能精确。为了使引入的L1损失函数在全局范围内可微,将损失函数光滑化,使损失函数的每个分量在0点处存在梯度方向。当放大因子为4时,以Set5为基准测试集,MSCN方法重建图像的PSNR为32.39 dB,与相近规模的重建网络相比,重建效果有较大提升。虽然本文方法在重建效果方面具有一定的有效性,但是在图像去噪、去模糊等其他方面的应用有待在未来工作中进一步研究。同时,本文方法只针对放大倍数为2或4的模型,而自定义放大倍数对于实际应用场景非常重要。该模型的放大倍数自定义化也需要进一步研究。

猜你喜欢
分辨率卷积损失
洪涝造成孟加拉损失25.4万吨大米
基于全卷积神经网络的猪背膘厚快速准确测定
一种基于卷积神经网络的地磁基准图构建方法
基于3D-Winograd的快速卷积算法设计及FPGA实现
一种并行不对称空洞卷积模块①
我国科学家发明计算超分辨图像重建算法拓展荧光显微镜分辨率极限
两败俱伤
ARM发布显示控制器新品重点强化对分辨率的支持
损失
那些损失上百万的演员