多注意力结合光流的视频超分辨方法

2022-07-19 04:40储岳中乔雨楠
关键词:残差卷积注意力

储岳中, 乔雨楠

(安徽工业大学 计算机科学与技术学院,安徽 马鞍山 243000)

0 引 言

视频超分辨率已经成为非常流行和具有挑战性的计算机视觉任务,越来越多的基于深度学习的方法被用来解决超分辨率问题。一类直接的视频超分辨率方法是使用3D卷积提取空间信息以保留视频的空间特征。但是,一旦引入了3D卷积,则意味着新引入了一个维度,不仅会带来更多的参数,增加计算成本,而且还会限制网络的深度并影响超分辨(Super-Resolution)SR性能。

此外,更多方法选择逐帧处理视频[1-2],然后根据图像SR方法进行超分辨任务。不过,这种方法很难保证视频的连贯性,尤其是对于运动幅度大的视频,局部特征和全局依赖无法很好地集成。可以选择使用递归神经网络用于维持视频的连贯性,但是在保留空间信息方面效果却并不好。

众所周知,典型的深度学习方法总是选择残差连接来传达特征。当特征沿着网络的深度方向前馈时,残差连接可以减少特征的退化,从而可以将特征表达到网络的任何位置。尽管残差连接在特征传递方面很方便,但它并不能完全挖掘不同层之间的特征信息。因此,代替简单的残差跳跃连接,出现了一些复杂的残差变体网络,例如DRRN[3]、RDN[4](残差密集网络)等。这里,RDN(残差密集网络)是这种变体网络的代表,它不仅使用局部密集残差学习,而且还使用全局残差学习来提取和自适应融合来自所有观察层的局部特征和全局特征。由于RDN充分利用了LR图像中的多个层次结构特征,因此可以提高图像SR的性能。然而,使用残差模块会增加计算复杂度,并且也会阻碍特征融合和上采样。与此同时,卷积运算可能会给全局学习带来一些缺陷。此外,许多现有方法还会选择使用光流和运动补偿[5-6]来增加帧之间的一致性,这无疑将给整个模型的计算带来负担。随着生成对抗网络(GAN)[7]的出现,用于超分辨率任务的基于GAN的神经网络越来越多。例如,Ledig等[8]提出用于图像超分辨率的对抗网络SRGAN。对于视频超分辨任务,出现了许多基于卷积神经网络(CNN)的视频任务模型。最近,Li等[9]提出了一种快速时空域残差网络(FSTRN),该网络将传统的3D卷积和残差块组合在一起,它不仅可以提取时空域的特征,而且可以减轻计算负担。Wang等[10]提出的EDVR[10]使用可变形卷积将帧从粗到细对齐以便在帧之间进行特征提取;Xiang等[11]提出了一种基于可变形采样的网络,设计了一种新的可变形卷积加ConvLSTM模型来增强时序对齐能力,并利用全局时序上下文信息来处理视频中的大运动。

目前,注意力在许多模型中被广泛使用。例如,在超分辨率下,Zhang等[12]提出将通道注意力与残差相结合以提高网络性能;Wang等[10]在EDVR中提出了时空注意力(TSA),目的在于帮助融合多个对齐的特征信息并且引导图像重建。

注意力机制的优势在于可以快速提取数据的重要特征,注意力机制的改进版本即自我注意力机制可以减少对外部信息的依赖性,并且更擅长捕获远程依赖性以及数据或要素的内部相关性。Wang等[13]提出了一种非局部操作神经网络,该网络可以计算空间中任意位置之间的关系,并且可以作为一个组件插入任何现有结构中。受此启发,Zhang等[14]提出了一种自我注意力生成对抗网络,更好地学习全局特征;Fu等[15]在场景分割任务中引入了双重自注意力,目的是自适应地整合局部特征和全局依赖性;Wang等[16]在立体图像超分辨率的视差注意力中添加了残差块,以处理视差变化较大的不同立体图像,同时提高SR性能。

光流指视频图像当前帧中某一物体或对象像素点所在位置与下一帧中该物体或对象像素点所在位置的位移量。目前常被引用的光流方法包括FlowNet[17]、FlowNet2.0[18]。Alexey等提出FlowNet方法,一方面,将两帧输入图像叠加在一起送到简单光流网中,让网络自动提取运动信息;另一方面,将这两帧输入图像分别送入相同但是独立的处理流网络,方便网络找到对应运动信息。之后利用扩大部分同时保留较粗的高级信息和精细的局部特征,这样提升了光流估计的准确度和速率。在FlowNet2.0方法中,对FlowNet进行了一些改进,增加了训练数据,改进了训练策略;利用堆叠的结构提升效果;引入特定的子网解决空间位移量小的情况。Pan等[19]利用光流估计结合时间清晰度先验进行视频去模糊取得了不错的效果。

若将视频视为一个序列,则循环结构可以起到帧间融合的作用。在现有的许多工作中,都有对循环网络或是变形的应用。Sajjadi等[1]提出一种帧迭代方法,具体做法是评估当前帧LR和前一帧LR之间的光流,然后使用双线性插值方法获得HR光流图,之后进行仿射变换和深度空间操作获得SR;Haris等[2]提出一种使用编码器-解码器方法(Encoder-Decoder)的RBPN,通过反投影合并在单个图像超分辨(SISR)和多个图像超分辨(MISR)中提取细节,扩大RNN中的时间间隔,这样网络对具有更大时间跨度的帧也可以更好地利用。

使用3D卷积的方法一般不使用特征对齐,这样做除了会引入更多的参数量,恢复的视频也难以保持连贯一致性。使用图像超分辨方法,恢复的视频容易产生抖动,清晰度也不高。针对这些问题提出了一种含有多个注意力结合光流的视频超分辨率网络(Multi-attention combined with optical flow video super- resolution network,MAFnet)。一方面,对于视频超分辨中空间信息容易丢失的问题,引入了通道注意力、空间注意力以及自注意力来保留空间信息实现全局学习;另一方面,对于恢复的视频容易出现抖动,无法保持时序上连续性的问题,提出双阶段特征对齐思路,分别对微小运动对象和幅度较大的运动对象进行特征对齐。具体而言,在给定视频序列的情况下,使用残差密集块进行特征提取,然后利用通道和空间注意力将权重分配给不同通道的每个空间位置,有效地使用通道和空间信息,并利用一个自注意力结构捕获空间中长距离依赖关系实现全局学习。同时,将给定的视频序列分别经过通道注意力和空间注意力,得到的特征输出一起送入一个注意力光流估计分支,进行第一阶段的特征对齐;之后,得到特征先进行上采样然后再送入可变形卷积LSTM[11]中进行第二阶段的特征对齐;最后,进行重建得到恢复的视频帧。

本文提出了一个可以应用于视频超分辨率任务的新框架,该模型简单明了,创新地将注意力机制和光流结合在一起,提出双阶段特征对齐思路,第一阶段处理微小运动信息,第二阶段处理幅度较大的运动信息。实验证明所提出方法的可行性,并与现有方法的比较证明了所提出方法在视频SR中的有效性。

1 模型介绍

1.1 模型结构

F=Hrdb(Hc1(Hc0(ILR)))

其中,Hrdb(·)表示残差密集块操作,Hc(·)表示卷积操作。

随后,将提取的特征分别送入多注意力分支和注意力光流估计分支,可以得到两个分支的输出:

其中,Hse(·),Hsa(·)和Hca(·)以及Hf(·)分别表示自注意力模块、空间注意力和通道注意力以及光流模块的函数。

y1=Hc4(↑(Hc2(a)))

y2=Hc5(↑(Hc3(f)))

其中,↑表示上采样。最后,将y1,y2送入DLSTM,再经过一层卷积得到最后的输出:

ISR=HMAFnet(ILR)

其中,θ表示网络的参数集。

同时,本文还选择了Charbonnier Loss[21]来帮助模型更好地恢复边缘信息,提升性能。计算公式为

图1 多注意力光流网络的结构Fig.1 The structure of multi-attention optical flow network

1.2 多注意力分支

受非局部操作网络[13]的启发,本文提出了多注意力分支(MAB)。针对视频超分辨中空间信息不易保留的问题,在增强通道依赖性的情况下,保留空间信息,并且自适应地实现全局学习功能。

空间注意力结构如图2(b)所示。在多注意力分支中,空间注意力将通道注意力的输出特征作为输入特征先经过1×1大小的卷积和激活函数LReLU,在空间注意力中之所以选择LReLU而非ReLU,是考虑ReLU在训练过程中可能会导致神经元死亡,无法进一步更新参数梯度,使用LReLU能够缓和该问题,更好地保留空间信息。经过池化层,池化层是由平均池化和最大池化以及连接操作构成,经过池化层后接着经过1×1的卷积和LReLU得到的特征记为特征1;之后,经过重复的1×1卷积、LReLU、池化层结构,接着经过3×3的卷积和LReLU并重复一次该结构,进行插值运算得到的特征记为特征2;将特征1和特征2相加后经过1×1卷积、LReLU,并再进行一次插值运算,将特征依次送入3×3卷积、1×1卷积、LReLU,得到特征记为特征3;利用Sigmoid函数得到注意力特征图,将注意力特征图和输入特征作矩阵乘法,将结果与特征3相加得到输出特征。

自注意力结构如图2(c)所示。在多注意力分支中,自注意力结构的输入特征是空间注意力的输出,该结构中卷积核大小都为1×1,得到的特征图作矩阵乘法并经过softmax函数得到注意力图与另一个特征图再作矩阵乘法得到输出。

(a) 通道注意力(b) 空间注意力(c) 自注意力图2 不同注意力的结构图Fig.2 Structure charts of different attentions

1.3 注意力光流分支

传统运动补偿方法存在计算复杂、准确度不高的问题。本文采用将注意力与光流相结合的方式处理小运动对象的信息,同时保留对象相关信息,达到第一阶段的特征对齐。将第一部分特征提取得到的特征分别经过通道注意力和空间注意力,将两者的输出送入光流估计网络得到该分支的输出。

给定任何两个相邻帧Ii,Ii+1,则光流计算公式可以表示为

fi→i+1=Nf(Ii,Ii+1)

其中,Nf表示光流估计网络。

1.4 可变形卷积LSTM的应用

将可变形卷积[22]加入到传统LSTM中。可变形卷积相较于传统卷积可以对空间位置信息的位移进行调整,而相较于空洞卷积[23],不易引入网格伪影。它不仅保留了LSTM原本的优点,而且增强了视频帧在时序上对齐的能力,有效地利用上下文信息处理视频中的大运动信息,保证了视频的连续性。

2 实 验

2.1 数据集

Vimeo-90k[24]是一个被广泛应用的数据集,选择settuplet子集作为本实验的训练和测试数据集,选择PSNR和SSIM作为评估标准。在训练过程中,将每个视频剪辑5个连续帧输入模型,学习率设置为1E-4;同时,像大多数图像超分辨和视频超分辨方法一样,将超分辨上采样系数设置为4;批处理大小是根据GPU内存设置的,通常将其设置为64;然后使用PyTorch框架在一张RTX 2080Ti显卡上进行实验(表1)。

表1 在Vimeo-90k测试集上的PSNR和SSIM的比较

2.2 对比实验

本文在定量和定性两个方面将提出的方法与不同的超分辨方法进行了比较,包括经典和最新的图像和视频超分辨率方法。所有定量结果都可以在表1中找到,选择PSNR和SSIM作为评估指标。与现有的超分辨方法相比,所提出的多注意力结合光流方法有一定提升。此外,定性结果可以在图3中看到,它们显示了Ground Truth(GT)和超分辨放大倍率4倍的结果,可以通过细节图观察到所提出方法可以轻松恢复纹理细节。

VSRnetRCANTOFlow

DUFMAFnet(Ours)GT

VSRnetRCANTOFlow

DUFMAFnet(Ours)GT

VSRnetRCANTOFlow

DUFMAFnet(Ours)GT图3 Vimeo-90k测试集上的可视化结果Fig.3 Visualization results on the Vimeo-90k test set

3 结 语

本文提出利用多个注意力结合光流的网络结构完成视频超分辨任务,并且利用使用了可变形卷积的LSTM网络,配合光流估计网络实现双阶段特征对齐的思路,实验结果证明了网络的可靠性和可行性。虽然所提出的模型在可视化效果上取得了令人满意的效果,但是模型不够轻量化,如何设计轻量模型,降低计算复杂度同时保证超分辨性能是接下来要研究和解决的方向。

猜你喜欢
残差卷积注意力
基于全卷积神经网络的猪背膘厚快速准确测定
多级计分测验中基于残差统计量的被试拟合研究*
基于FPGA的卷积神经网络加速优化方法
基于改进残差网络的热轧带钢表面缺陷研究
基于图像处理与卷积神经网络的零件识别
用于处理不努力作答的标准化残差系列方法和混合多层模型法的比较*
让注意力“飞”回来
基于深度卷积网络与空洞卷积融合的人群计数
A Beautiful Way Of Looking At Things
连续型过程的二元残差T2控制图