钟梦圆,姜 麟
昆明理工大学 理学院,昆明650093
图像是人类用于感知世界的直观方式之一,而低分辨率(low resolution,LR)图像往往阻碍人类获取、传递、表达图像的特征信息。
对此,研究LR 图像重建实现高质量、高细节、高清晰度图像的超分辨率图像重建(super-resolution image reconstruction,SRIR)技术成为计算机视觉图像处理领域的研究热点。
Tsai 等人提出的“基于序列的超分辨率图像重建算法”是SRIR 研究的开山之作,阐明了SRIR 技术是指借助相关算法将已有的LR 图像向高分辨率图像(high resolution,HR)转换的技术。SRIR 技术致力于解决图像放大任意倍数后仍旧清晰展现图像纹理、结构、边缘等信息的问题,在很大程度上满足了时代发展过程中,医学、工业、卫星遥感、道路监测、安全监控等领域对高质量图像的需求。
近年来,国内外SRIR 技术得到迅速发展并取得许多优秀成果,同时也涌现出一些优秀的SRIR 综述文章,对这些研究成果进行了归纳、总结、分析,比如:
(1)针对某方面图像重建算法的综述
钟宝江等人针对图像插值技术全面介绍图像插值与图像重建之间的异同,并给出主、客观两方面对插值图像质量评价的方式;马书红对几种经典的插值算法针对图像放大效果进行比较;郑璐等人介绍深度学习背景下SRCNN(super-resolution convolutional neural network)、VDSR(very deep super-resolution)、DRCN(deeply-recursive convolutional network)、SRDenseNet(super-resolution DenseNet)、SRGAN(superresolution generative adversarial network)五种算法所用的网络结构和图像重建的流程,并简短给出这五种算法的实验结果。此外,文献[6-9]也针对深度学习背景下的部分超分辨率图像重建算法进行归纳分析。
(2)针对传统图像重建方法的综述
龙超以较为经典的图像超分辨率方法(插值、重建、学习)进行综述;王春霞等人以单帧图像和多帧图像、频域和空域分别介绍超分辨率图像重建技术的一些经典方法;苏衡等人以超分辨率图像重建问题分类入手,对基于重建的超分辨率方法、视频超分辨率方法、单幅图像超分辨率方法进行详细综述。
(3)针对传统方法与深度学习方法的综述
张芳等人从传统方法和深度学习方法两类方法入手,对单幅图像的重建算法进行归纳分析,并给出两类方法之间SR 重建本质的联系与差异。董银丽等人归纳分析频域法、空域法、学习法,并给出图像质量主观评价和客观评价方法的分析。Li 等人从单幅图像的重建问题入手介绍超分辨率图像重建方法、网络结构、应用场景等方面。
本文从基于插值、基于重构、基于学习(深度学习前、深度学习后)入手,对到目前为止的超分辨率图像重建方法进行系统分类,并对各方法下经典的、常用的算法进行综述:(1)从运算速度、运算复杂度、图像质量、解唯一性等方面对基于插值、基于重构的传统算法进行对比分析;(2)从现有网络结构方式入手介绍基于卷积神经网络的深度学习图像重建算法,从网络结构修改方式入手介绍基于生成对抗网络的深度学习图像重建算法,并给出各算法在运用机制、适用场景、优化方向、学习策略、算法优势、局限性等方面的特点与性能;(3)对超分辨率图像重建技术所用数据集、质量评价方式进行了综合分析;(4)在文末给出对超分辨率图像重建这个方向未来研究发展的展望。
超分辨率图像重建利用已知的图像信息建立LR图像与HR 图像之间的特征序列关系,其数学模型为:利用“系统成像模型”自身的一些变化手段对退化后的图像实现重建。
“系统成像模型”过程:LR 图像由HR 图像经退化函数(如加噪、模糊、运动、降采样等)作用后得到的不清晰图像,即:
其中,表示LR 图像,表示HR 图像,表示退化函数,θ表示与退化函数相关的各种参数和退化因子,S为降采样矩阵,为降采样矩阵的比例因子,为模糊矩阵,为与HR 卷积相关的模糊核,为运动矩阵,n为添加的带有标准差的噪声,表示标准差。
超分辨率图像重建问题为“系统成像模型”的逆过程,输入LR 图像重建出相应的HR 图像:
其中,表示重建函数,σ表示与重建函数相关的各种参数与重建因子。
图像退化过程和图像重建过程如图1 所示。
图1 中,黑色箭头表示图像退化过程,黄色箭头表示图像重建过程。
图1 超分辨率图像重建技术图解Fig.1 Illustration of super-resolution image reconstruction technology
本文根据超分辨图像重建所采用的方法,将其分为基于插值的图像重建方法、基于重构的图像重建方法、基于学习的重建方法,而基于学习的图像重建方法又可分为深度学习前的图像重建算法和深度学习后的图像重建算法。深度学习后的图像重建算法又分为基于卷积神经网络的超分辨率图像重建算法和基于生成对抗网络的超分辨率图像重建算法,具体分类情况如图2 所示。
图2 图像重建方法分类Fig.2 Classification of image reconstruction algorithms
基于插值的图像重建方法是超分辨率图像重建问题中最原始、最直观的方法,主要分为线性插值算法和非线性插值算法。插值法主要根据LR 图像已知的像素点灰度信息,运用插值公式增强像素点间的灰度信息来实现图像放大问题。一般情况下,插值法所需的图像信息较少,算法复杂度较低,运行速度较快,且插值后的HR 图像保留了原LR 图像的像素点信息。
最近邻插值法指插值点直接以与其欧式距离最短的像素点的灰度值为自身插值后的灰度值。虽然它是最简单的插值算法,难度系数低且易实现,但由于其他相邻像素点没有对目标插值点产生影响,当插值图像分辨率较大时,容易出现锯齿效应和图像灰度不连续问题。
为解决最近邻插值法忽视相邻像素点间影响而造成图像锯齿效应现象,提出双线性插值法。双线性插值法主要从垂直、水平两个方向对相邻的四个像素点进行线性插值实现图像插值问题。虽然双线性插值法在图像灰度不连续问题上有所改进,但插值后的图像产生明显的细节退化,图像高频信息受到损坏。
在双线性插值法的基础上提出双三次插值法,将临近区域内四个相邻像素点扩充到十六个相邻像素点,对其使用三次插值多项式后进行加权平均计算完成图像插值重建。双三次插值法充分考虑了各像素点对目标插值点的影响,提高了重建质量也使计算变复杂,运算量急剧增加。
边缘导向插值法主要是对RGB 三色图像的边缘信息进行约束、放大,以便解决人眼视觉特性对图像边缘信息的捕捉造成的影响。
Li 等人提出基于边缘引导的NEDI(new edgedirected interpolation)插值算法,利用LR 图像的边缘局部协方差来构建与HR 图像相同的图像边缘信息来解决图像边缘锐化问题,但算法复杂度较高,实用性不强。Zhang 等人在NEDI 插值算法的基础上改进,提出用自适应插值算法来优化分析LR 图像和HR 图像之间的结构信息,重建得到较为完整的图像结构信息和边缘信息。
梯度引导插值法是利用邻域内一阶梯度、二阶梯度的信息调整梯度分布和像素分布,再结合边缘导向插值法和双三次线性插值法实现图像重建。
小波变换插值法充分利用小波变换所具有的局部细化特点,将图像特征信息分解到不同尺度上独立研究与分析后,将提取的特征信息叠加融合后再用小波逆变换提高图像分辨率。
Ford 等人利用小波变换的一维信号进行非均匀图像采样重建。Nguyen 等人在此基础上拓展到二维信号,在多分辨率图像框架下对LR 图像进行重建。段立娟等人利用HR 图像推算出其对应的小波系数,再借助多阶段学习策略重建HR 图像。
表1 给出了基于插值方法的各重建算法之间的比较。基于插值的图像重建方法虽然简单且容易实现,但图像重建效果并不理想。其中,单幅图像的重建速度和重建效果尚且能够满足部分领域的需求,但多幅图像的图像重建不能解决其在运算速度、运算复杂度以及图像精度上所存在的问题。
表1 基于插值的图像重建算法比较Table 1 Comparison of image reconstruction algorithms based on interpolation
基于重构的超分辨率图像重建方法在图像处理领域使用较为广泛,主要分为频域法和空域法。利用多幅LR 图像与未知HR 图像提取所需的图像特征信息,并估计HR 图像特征信息后重建HR 图像。
Patti 等人最早提出在傅里叶变换频域内消除LR 图像的频谱混叠,对多幅LR 图像进行傅里叶变换实现超分辨率图像重建。频域法提高了运算速度和图像精度,但只适合于整体平移和空间不变的模型,很难解决图像噪音问题。
空域法指根据影响LR 图像的空间域因素建立HR 图像成像模型,包括非均匀内插法、迭代反向投影法、凸集投影法、最大后验概率法等。
非均匀内插法对抽象出的非均匀分布的LR 图像特征信息进行拟合或插值得到分布均匀的HR 图像特征信息来实现超分辨率图像重建。虽然该算法重建效率高,但需要充分的先验信息,降低了灵活性。
Irani 等人提出迭代反向投影法(iterative backprojection approach,IBP)解决超分辨率图像重建算法对图像先验信息的高依赖性问题,有效改善重建图像质量问题和对图像先验信息依赖问题,但也使得重建图像的唯一性不能得到保证。
凸集投影法(projections onto convex set,POCS)利用HR 图像的正定性、有界性、光滑性等限制条件对重建图像的边缘信息和结构细节信息进行保留,但该算法运算复杂度高,收敛速度慢,且每次迭代对先验信息都存在较强的依赖性。
最大后验概率法(maximum a posteriori estimation,MAP)是指在已知LR 图像序列信息和HR 图像后验概率达到最大的前提下,对HR 图像进行图像特征信息估计,保证图像解唯一性的同时提高图像清晰度,但图像边缘信息提取有待加强。
陈光盛等人将POCS 和MAP 结合,在MAP 迭代优化过程中加入POCS 约束凸集中的先验条件,充分发挥出两者的优势,利用POCS 弥补MAP 收敛稳定性和降噪能力弱的缺点,MAP 弥补POCS 边缘和细节保持差的缺点。
表2 综合呈现基于重构的图像重建方法在先验信息依赖性、可行解唯一性、运算复杂度、运算速度、算法灵活性、重建图像质量六方面的特点与性能。
表2 基于重构的图像重建算法比较Table 2 Comparison of image reconstruction algorithms based on reconstruction
近年来,随着计算机技术的不断发展,基于学习的图像重建方法主要是集中学习给定图像数据集的图像特征信息,建立LR 图像与HR 图像之间的图像序列先验关系,再通过超分辨率图像重建算法实现图像重建,整体图像重建思想流程如图3 所示。
图3 基于学习的图像重建算法思想Fig.3 Idea of image reconstruction algorithm based on learning
图中,黄色实线表示HR 图像通过降采样变为LR 图像,绿色实线表示LR 图像通过上采样变为HR图像,黑色实线表示HR 图像与LR 图像之间的图像序列信息之间建立的图像序列先验关系。
目前,基于学习的图像重建方法可分为深度学习前的图像重建算法和深度学习后的图像重建算法。
基于样例学习法起源于Freeman 等人根据马尔科夫网络提出的单幅图像重建算法,主要是通过对原始HR 图像实施退化操作,建立训练图像特征信息库来学习HR 图像的先验信息,以此来恢复图像的高频细节特征信息。
邻域嵌入法以图像块为单位对图像特征信息进行提取,构建特征信息库对LR图像块和HR图像块进行加权求和以实现HR 图像重建。邻域嵌入法减弱模型对样本的依赖性的同时也削弱了模型的灵活性。
Chang 等人利用LR 图像和HR 图像相同的局部结构线性性质来获取相邻点的权重以求最终的重建图像,大幅度避免了模型运算过程中过拟合问题的出现。
稀疏表示法重点以字典学习和稀疏编码为核心来实现图像重建效率与重建质量的有效提升。用稀疏编码对图像块进行表示,再从样本图像中抓取HR 图像块和LR 图像块,形成超完备字典,并根据字典得到样本图像的稀疏线性表示,最后根据稀疏系数重建HR 图像,如图4 所示。
图4 稀疏表示法Fig.4 Sparse representation
传统稀疏表示法是通过独立考虑图像块之间的稀疏性后重建图像空间结构的,这容易丢失图像部分纹理细节和空间结构特征。对此,Timofte 等人将邻域嵌入与稀疏编码结合,在约束图像块与邻域信息之间关系的同时降低了算法运算复杂度。Li 等人将非局部自相似与稀疏编码结合提出自学习的超分辨率图像重建算法,有效缩减了模型训练时间和提高了模型鲁棒性。檀结庆等人将局部结构相似融合于稀疏表示法之中,很好地解决了因传统稀疏表示法所造成的图像纹理结构信息缺失问题。沈瑜等人在PCA-Net 模型中加入稀疏优化算法,对图像特征映射矩阵进行迭代优化,得到最优解后将LR图像和HR 图像的稀疏特征表示结合卷积得到高分辨率重建图像,一定程度上使得图像细节信息、边缘纹理信息得到清晰保留。曾台英等人提出用主成分分析法和层次聚类结合训练得到不同于传统稀疏表示法中的字典模型来提高重建图像的质量评价。
由于深度学习在计算机视觉、自然语言处理、数据挖掘、机器翻译等领域有着较好的应用。对此,不少学者将深度学习与SRIR 结合,使得SRIR 技术从最初小规模的三层训练模型到如今大规模的深层训练模型,运算速度、图像精度、网络结构深度都发生了质与量的变化。且深度学习在超分辨率图像重建问题中的应用结果表明:该类型算法不仅是从深层次网络结构去改变对图像特征的提取与重建,而且还解决了网络结构加深所带来的过拟合、梯度消失或爆炸、模型参数量急剧增加、网络不收敛或不稳定、参数不能自我优化等问题,使得图像获得多尺度、多细节的图像信息。
通常,基于深度学习的超分辨率图像重建算法是在原有的基础网络上融入新的网络结构。比如:多个残差块堆叠而成的残差网络,多个跳跃长(短)连接与残差块组建的密集连接网络,多个递归单元组成的递归神经网络,集中学习各个通道特征、层特征、空间特征的注意力机制,加强图像连续性学习、传递的记忆力机制以及低频信息与高频信息共享权重的反馈机制,如图5 所示。
图5 深度学习背景下的图像重建网络结构基本图Fig.5 Image reconstruction network structure diagram under background of deep learning
表3 以表格的形式呈现出基于深度学习的超分辨率图像重建算法深层次网络结构的类型、相关作用和使用这些网络结构的代表算法。
表3 深度学习背景下的部分网络结构Table 3 Partial structure of network under deep learning background
本文主要从两方面基于深度学习的超分辨率图像重建算法进行详细介绍:(1)基于卷积神经网络(convolutional neural network,CNN)的深度学习图像重建算法直接对LR 图像和HR 图像进行端到端映射学习,弥补以往算法对高频细节信息丢失的缺陷,同时简化其学习过程;(2)基于生成对抗网络(generative adversarial network,GAN)的深度学习图像重建算法利用“对抗博弈”思想,将模型训练无监督化,借助反向传播不断优化模型来缩减原始图像与重建图像之间的差距。
Dong 等人首次将卷积神经网络与超分辨率图像重建技术结合,提出SRCNN 算法。通过大量卷积对输入的LR 图像进行特征提取,不断学习众多图像的特征表达形式,其重建效果与重建效率远超以往的图像重建算法,且模型的泛化能力也更强。SRCNN网络结构如图6 所示。
图6 SRCNN 网络结构Fig.6 Network structure of SRCNN
随后,Kim 等人针对SRCNN 算法处理图像细节不足、网络计算量大、网络运算速率低等问题,在其基础上提出FSRCNN(fast super-resolution convolutional neural network)算法。在网络最后使用反卷积层实现图像放大,避免如SRCNN 初始对LR 图像进行上采样操作而造成细节缺失问题;去掉SRCNN网络中的非线性映射部分,采用相应的收缩、映射和扩展来达到相同的效果;选用多个小卷积核代替大的滤波器去处理尺寸较小的LR 图像,提取不同感受野大小下的图像特征。Lee等人利用教师网络对HR图像进行二次采样提取图像中间特征,再传递给学生网络进行训练,大幅度提高了FSRCNN的网络性能。
(1)VGG 网络
Kim 等人引入VGG 网络结构来增加网络层数,使用不同大小的感受野来全面提取浅层、中间层、高层的图像细节信息,解决了SRCNN 算法依赖于小图像区域特征信息的问题。
(2)亚像素层
Shi 等人提出用亚像素上采样层来增加模型感受野范围,提出ESPCN(efficient sub-pixel convolutional neural network)法直接对LR 图像进行特征提取处理,减少每层网络结构中的数据运算量,解决模型参数量急剧增加问题。
(3)残差网络
He 等人将多个残差块堆叠构成残差网络(residual network,ResNet)来解决卷积网络结构过深而导致网络退化问题,同时利用残差块之间的跳跃连接来加强不同层上的图像特征信息传递和缓解模型梯度消失问题。
由于每一个残差块提取的特征信息需要经过跳跃连接才能传递到下一个模块,且越往后传递,模块得到的特征越复杂,反而丢失了原有的简单特征,即网络结构的性能在浅层特征、低频信息的传递上有所欠缺。对此,在残差网络基础上提出各种新颖的残差网络以解决上述问题:
①卷积残差记忆网络。在深度残差网络中添加长短期记忆连续提取图像特征信息,加强图像信息在不同层之间的连续传播和使用。
②多尺度残差网络。在保持网络深度不变的前提下,通过增加每个残差块中残差函数的种类来提升网络多样性,便于网络训练过程中对图像不同方面的特征信息进行提取与融合,解决了目前图像重建算法图像特征提取尺度单一问题。
③深度并行残差网络。通过对残差网络的局部结构进行改变,局部残差学习图像初始特征和全局残差学习复杂融合特征相结合,提升网络训练速度的同时加强卷积神经网络中图像特征信息的传播效率。
(4)注意力机制
随着网络结构的不断加深,残差网络容易忽略图像空间、结构、纹理之间的相关性,导致训练重心偏向于一些价值不高的图像区域,降低了重建图像质量。
为此,Zhang 等人将通道注意力机制与残差相结合来构造更深的网络去削弱LR 图像中的大量低频信息对CNN 性能表达的阻碍,同时提出RIR(ResNet in ResNet)残差结构使低频信息绕过网络,自适应缩放每个通道的特征来提高图像特征信息处理效率和模型鲁棒性。Woo 等人将通道注意力模块和空间注意力模块融合组成CBAM(convolutional block attention module)模型,使网络重心移向特征信息较多的图像区域,加强网络有针对性地对图像重点信息进行提取。徐永兵等人根据水下低质图像特性,提出由双层注意力机制和视差注意力机制引导的双目图像重建算法,保证图像质量不受地理空间、人眼视觉差异等外界条件的影响,既提高了图像空间分辨率,还保留了真实水下拍摄图像的细节信息。卢正浩等人在网络中添加混合注意力机制和长短跳跃连接来进一步加强图像高频信息重建和图像多尺度特征的重复利用,很好地改善了重建图像边缘信息和纹理结构信息。
(5)递归神经网络
传统单一网络下的超分辨率图像重建算法主要通过单一网络学习低分辨率图像和高分辨率图像之间的特征关系,其浅层部分的网络容易造成图像特征信息的丢失,而加深其网络又会导致其训练时间以及难度的增加。
Kim 等人提出将递归神经网络运用到超分辨率图像重建中的DRCN 算法,多次运用卷积和递归去不断学习LR 图像与HR 图像之间的差异,使图像信息在网络中反复循环、递归以达到恢复图像高频信息的效果和解决参数量递增问题。程德强等人提出多通道递归的残差网络模型,利用递归方法将残差网络重复利用后形成32 层的递归网络,再引入交叉学习机制将不同通道进行排列组合以加速融合不同通道的图像特征信息,提高网络的重建性能。
(6)密集连接网络
残差网络、递归神经网络、注意力机制都需要在网络中搭建低层与高层之间的连接,且每一个模块将特征传递至下一个模块之前均需使自身所提取的特征与之前模块传入的特征进行融合。
对此,为最大化网络结构中各层特征信息的高效融合与传递,Huang等人提出密集连接网络(densely connected convolutional network,DenseNet)。在层与层之间使用跳跃长(短)连接充分将不同级别层的特征信息融合,使其达到增强信号传输、减轻梯度消失、减少参数量、增强网络稳定性等优点,并进一步加强网络性能,提高图像重建效果。
(7)混合网络
但是过多的跳跃连接会增加模型的复杂度、参数量以及运行内存消耗量。对此,程玉等人利用密集残差网络和注意力机制提出基于密集残差注意力网络的超分辨率图像重建算法,既加快了模型收敛速度,还减轻梯度消失问题,也因注意力机制的加入使得网络对图像有效的低频、高频信息准确学习提取,降低了运算成本和缩减了运算时间。Zhang等人构建稠密残差网络(dense residual network,RDN)对LR 图像低级特征重复利用,还原图像缺失的高频细节信息,但由于模型中所含参数量过大而失去实际适用性。满开亮等人提出基于稠密残差网络的ERDN(enhanced residual dense network)算法,使用多卷积核的稠密残差块提取图像细节信息,再利用全局特征复用块对图像多层信息进行特征信息重组与综合利用,使得模型参数量较RDN 减少50%的同时还提高了图像4 倍重建质量。此外,DRRN(deep recursive residual network)、SRFBN(super-resolution feedback network)、SRDenseNet等算法也能够保证图像特征图连续传递、重复利用的同时削减跳跃连接数量,减少运算成本。
(8)AdderNet
Song 等人利用加法运算解决卷积乘法运算的运行内存消耗和成本增加问题,提出AdderNet 来很好地提取纹理、颜色等低频信息和高频信息。
在Goodfellow等人提出GAN之后,出现了许多基于GAN 的超分辨率图像重建算法,其在图像重建效果、网络运算量、运算速度等方面都有很好的结果。
SRGAN 算法首次将生成器网络与判别器网络对抗训练应用到超分辨率图像重建当中,它利用生成器产生HR 图像,判别器判别重建HR 图像和原始HR 图像,并反向优化生成器网络与判别器网络,同时用“感知损失”代替传统的MSE 损失函数来增强图像细节信息恢复,确保重建图像的高逼真性和高质量性,SRGAN 网络结构如图7 所示。
图7 SRGAN 网络结构Fig.7 Network structure of SRGAN
(1)去掉BN 层
SRGAN 算法虽然保留了较多的图像细节特征,但网络中使用的BN 层产生了大量参数,导致消耗了大量运行内存和降低了网络性能。对此,Lim 等人去掉BN层而提出EDSR(enhanced deep superresolution)算法,发现网络训练并没有产生恶性影响,减少了网络运行参数的同时还获得了更多的图像纹理信息。
(2)改变卷积核大小
Wang 等人提出增强型的ESRGAN(enhanced super-resolution generative adversarial network)算法来提高网络泛化能力,用残差缩放加快深层网络的训练速度和缩减网络运算参数量,使得重建HR 图像具有更加丰富的纹理特征,且色彩亮度也更贴近原始HR 图像。Shang 等人在ESRGAN 算法基础上用小核卷积代替大的滤波器来进行细节特征提取,保证网络性能的同时也减低了计算复杂度和噪声输入。Soh 等人也在ESRGAN 算法基础上引入自然流行鉴别器(natural manifold discrimination),提出NatSR(super-resolution with natural manifold discrimination)算法,虽然NatSR 算法提高了图像的PSNR值,但也导致了图像崩溃和重复伪影现象。
(3)引入特殊网络
Vu等人使用相对生成对抗网络来替换SRGAN中的生成对抗网络,使图像细节的提取与融合更为合理,减少了噪音和模糊的影响。
Wang 等人提出SMSR(sparse mask super-resolution)网络来标记图像“无价值”的区域和精确定位图像“有价值”的区域,动态跳过模型的冗余计算和精准提取图像重点信息。
Park 等人利用一种可作用于特征域的判别网络提出SRFeat(super-resolution with feature discrimination)算法,借助感知损失和对抗损失从成对的模拟数据中获得图像高频细节。
Luo 等人根据轻量级网络参数量小、运算速度快等特点提出轻量级晶格网络——LatticeNet(lightweight super-resolution model),使网络运算量减半后依旧能够达到原有网络的重建效果。
姜玉宁等人以VGG19 网络搭建判别器网络的基本框架,提高了重建图像的清晰度和色彩亮度,丰富的细节纹理信息使之更贴近原始HR 图像。
(4)改变采样方式
通常情况下,为了节省存储空间与运行成本,图像重建模型会先对原始HR 图像进行下采样缩小,再进行上采样放大,而这种先下采样、后上采样的方式容易导致图像在逆放大过程中丧失原始图像的精准信息和降低重建图像的质量。
Kim 等人借助多卷积核的Fire 模块提出轻量级的图像重建算法SRAC(super-resolution using fire modules with asymmetric configuration),削减参数量的同时保证图像细节信息的提取,但简单的反卷积上采样使图像产生了棋盘效应。
Xiao 等人提出一种可逆的缩放网络(invertible rescaling net,IRN)在水平、垂直、对角三个方向上对图像采样过程中丢失的图像特征信息进行建模,实现图像高度还原保真。Wei 等人提出组件分而治之(component divide-and-conquer,CDC)算法,决定网络在图像平面、边缘、对角三个区域是否进行重点学习和重建。
LapSRN(super-resolution with deep Laplacian pyramid network)利用迭代上采样方式对图像进行先低倍放大再高倍放大来重建HR 图像,在一定程度上缓解了网络训练中对图像连续多次放大而丢失图像细节信息的问题。
(5)融合注意力机制
蒋明峰等人提出在生成对抗网络中融合自注意力机制的超分辨率磁共振图像重建SA-SR-GAN 算法,提高重建图像精度的同时保证网络训练的稳定性。
Niu 等人提出全注意力网络(holistic attention network,HAN),利用层注意力块自适应增强“高贡献特征层”和抑制“冗余特征层”,利用空间注意力块捕获通道内与通道间的图像细节特征信息。Lu等人提出MASA(matching acceleration and spatial adaptation)网络解决HAN 网络对LR 图像和重建HR 图像之间隐藏的差异性特征信息利用性较低问题,使之能够在保持较强鲁棒性的条件下处理不同尺度、不同形式的样本图像,大量的定量和定性实验验证了其提出的模型的有效性。
(6)适用场景
实际生活中,超分辨率图像重建算法的输入图像不一定都是自然、正常的图像,比如,Deng 等人使用曝光过强或不足的图像作为输入图像,提出耦合反馈神经网络对图像进行端到端训练,以实现图像的融合与重建。Wang 等人提出基于“无监督的退化表示学习”的盲-超分辨率图像重建算法,借助退化编码器学习LR 图像特征信息和图像特征空间中的各种图像退化信息,并抽象表示学习到的各类图像特征,且将其输入到退化感知网络中预测卷积核和调制系数,以便灵活适应于各类真实场景的图像重建。Kong 等人根据图像块复原难度的不同,提出Pipeline-ClassSR 网络解决卷积操作带来的图像干扰问题(噪声、模糊等)。且实际生活中,图像放大的情况并不是限定的,即图像所需的分辨率大小是任意性的(如×2.5、×3.5、×10、×a等)。对此,提出相应的算法实现图像任意倍数放大后,仍旧清楚得知图像内容信息也成为了研究的重点。比如:Chen 等人根据人眼连续呈现图像的性质,借鉴3D 重建的隐式函数思想,提出局部隐式函数对自然图像进行连续表达,将图像表示成任意分辨率大小形式。
此外,SRwarp 算法和Meta-SR 算法也可实现LR 图像任意尺寸大小的重建。深度学习后的各算法特点对比如表4 所示。
表4 深度学习后的各算法特点对比Table 4 Comparison of features of each algorithm after deep learning
深度学习前大部分图像重建方法主要集中于小型数据集上的测试和验证,其中文献[100]对传统图像重建方法所用数据集进行了详细介绍,本文着重以基于深度学习的超分辨率图像重建算法常用的数据集以及相关内容进行归纳总结。
用于深度学习的超分辨率图像重建的图像数据集所涉及的领域较多,涵盖人物、动植物、建筑、自然景观等,且许多开源的数据集在图像外部条件(分辨率大小、张数、格式等)和内部条件(内容、风格、纹理等)上存在着较大差异,具体情况如表5 所示。
表5 超分辨率图像重建的开源数据集Table 5 Open source dataset for super-resolution image reconstruction
图像质量评价(image quality assessment,IQA)的方式主要分为人眼视觉系统感知方面的主观评价和实验数值计算方面的客观评价。
表6 从图像特点、变化过程、适用场景、优势、局限性五个维度对影响全参考图像、半参考图像、盲参考图像这三类图像重建效果的客观因素进行归纳分析。
表6 影响不同图像重建效果的客观因素Table 6 Objective factors affecting different image reconstruction effects
主观评价是指观察者通过眼睛观察重建的HR 图像,主要依据观察者在色彩、清晰度、噪音、质感等方面对图像的综合评价,但由于观察者在生理、心理等方面对图像颜色、结构、纹理的敏感度不同都会对图像质量评价产生直接或间接的影响,这容易使对图像质量的评价停留在图像表面信息,而忽略图像隐藏的深层信息。
客观评价是指通过一定的指标衡量原始图像与重建图像之间的接近度。通常情况下,与人类的视觉感知高度相关的评价方式需要完全参考原始图像的内容信息,即完全参考型评价方式(full-reference IQA,FR-IQA)。
(1)均方误差(mean square error,MSE)指原始图像和重建图像之间像素值均方差,是FR-IQA 评价方式中运算最简单的度量方法:
(2)峰值信噪比(peak-signal to noise ratio,PSNR)指通过计算原始图像与重建图像之间全局像素误差的大小来衡量图像质量,是FR-IQA 评价方式中使用最广泛的度量方法:
其中,表示图像像素最大值,PSNR的单位为dB,其值越大,说明重建图像失真越小,重建图像质量越高。
(3)结构相似性(structural similarity,SSIM)指充分考虑人类视觉系统对图像结构信息的敏感程度,从结构、对比度、亮度三方面衡量原始图像与重建图像之间相似程度的度量方法:
其中,、、表示相似性控制参数,=1。、分别表示原始图像和重建图像的均值与方差,σ表示图像和两者之间的协方差。、、均为常数,=(×)/2,=(×)/2,=/2 。其值越大,说明原始图像与重建图像越相似,且重建图像质量越高。
(4)多尺度结构相似性(mean structural similarity,MSSIM)指在保持其不变的情况下,对同一图像进行低通滤波操作后得到不同分辨率大小图像的、,然后对图像进行综合评价的度量方法:
(5)特征相似性指数(feature similarity,FSIM)指利用相位一致性特征提取高度相关的图像特征信息和梯度幅度特征提取影响人眼视觉感受的对比度信息来综合衡量图像局部相似问题的度量方法。
(6)学习感知图像块相似度(learned perceptual image patch similarity,LPIPS)指利用不同层面的视觉表征所共享的感知相似性去衡量图像在对比度、饱和度、噪声、空间结构等方面的细微差别。
表7 给出部分基于深度学习的超分辨率图像重建算法在部分数据集上PSNR 与SSIM 的测试结果。
表7 深度学习后各算法的重建效果对比Table 7 Comparison of reconstruction effects of each algorithm after deep learning
提高图像质量主要有两种方式:(1)对采集图像的设备源硬件性能进行升级;(2)对图像进行分辨率处理的软件(或算法)进行改进。而超分辨率图像重建研究主要针对图像处理算法进行研究,是一个实用性、适用性超强的研究,尤其在引入卷积神经网络和生成对抗网络之后,在图像特征提取与融合上愈发成熟。本文全面综合介绍超分辨率图像重建领域内的各类算法,发现其本质在于运用一定的算法来提高重建图像的质量,以便LR 图像恢复至含有更多细节信息的HR 图像。另外,本文发现要想提出在各方面(网络深度、运算速度、图像精度、时间复杂度等)都高效的算法十分困难,且大多数算法使用的图像都是特定的,导致其适用的范围较窄。因此,未来超分辨率图像重建算法可以从以下方向或者角度进行研究:
(1)均衡网络训练各方面的关系
①均衡速度与精度间的关系
现有的大部分超分辨图像重建算法时常出现以牺牲网络运算速度的代价来提高图像的精度,缓解挖掘高分辨率图像所需的低频、高频信息丢失的问题,如何有效、快速、准确地提取图像颜色、边缘等低频信息和纹理、结构等高频信息依旧是图像重建领域的重点研究方向。
②均衡效率与深度间的关系
超分辨率图像重建算法中加深网络深度在一定程度上可以提升图像细节,减少伪影等,但也容易导致网络的计算量增大,从而降低网络效率。如何保证网络效率的前提下,适当增加网络层数有待进一步的研究。
(2)传统方法在深度学习方法中的延续
基于深度学习的超分辨率图像重建算法能够深层次挖掘图像的细节特征,残差网络、密集连接网络等复杂深层的网络结构能够提取不同层面的图像细节,并通过跳跃连接等将其传递融合,使得一些简单的图像特征缺失,或者忽略了图像特征域中的高频信息。对此,可利用某些传统算法特性来提高图像重建性能,比如:利用小波变换独立分析不同尺度信息特点,稀疏编码对多个图像块协同提取图像特征特点,基于样例学习法对图像信息预先学习特点来搭建丰富的图像特征信息库,又或者利用边缘导向插值法提前将网络训练注意力集中于图像边缘信息,以此达到弥补LR 图像边缘纹理细节信息模糊不
清缺陷的目的。
(3)面向生活中各类真实场景
由于交通、医学、航空等领域对图像质量有着十分高的要求,无论是将超分辨率图像重建运用在这些大领域,还是将其运用在人脸、指纹、车牌识别等小领域,它能够很好地帮助研究者们解决该领域所存在的一些问题。如何将LR 图像重建成更贴合人眼的HR 图像,如何构建更适合真实场景图像的算法也是值得深入研究的。
(4)重建图像的质量评估方式
本文介绍的MSE、PSNR、SSIM、MSSIM、FSIM、LPIPS 等方法,是目前较为客观的反映图像重建质量的方法,但仍然不能准确反映图像的重建质量。寻找到更贴合人眼视觉感知的图像质量评估方法仍是未来研究的重点。