刘郭琦 刘进锋
摘要:图像超分辨率重建技术一直是计算机视觉中一个十分受重视和关注的热点问题,在医疗、遥感、监控等领域都有着十分重要的研究价值。近年来,伴随着深度学习技术的蓬勃发展,图像超分辨率重建技术被广泛开始应用于更多计算机视觉的相关领域。本文首先梳理了图像超分辨率重建的发展与现状,然后对比总结了基于传统技术与基于深度学习技术的相同点与不同点。最后讨论了目前图像超分辨率重建技术所面临的潜在问题,并对未来的发展方向做出了全新的展望。
关键词:深度学习;热点问题;图像超分辨率重建技术;传统技术;计算机视觉
中图分类号:TP18 文献标识码:A
文章编号:1009-3044(2021)15-0014-03
Abstract:Image super-resolution reconstruction technology has always been a hot issue that has received great attention and attention in computer vision. It has very important research value in medical, remote sensing, surveillance and other fields. In recent years, with the vigorous development of deep learning technology, image super-resolution reconstruction technology has been widely used in more computer vision related fields. This article first combs the development and current situation of image super-resolution reconstruction, and then compares and summarizes the similarities and differences between traditional technology and deep learning technology. Finally, the potential problems faced by the current image super-resolution reconstruction technology are discussed,and made a new outlook for the future development direction.
Key words: Deep Learning; Hot issue; Image super-resolution reconstruction technology; Traditional technology;Computer vision
0引言
图像超分辨率重建技术是一种由低分辨率图像经过处理恢复为高分辨率图像的过程,该重建技术已经运用在很多领域。例如在医疗领域、遥感领域、监控领域和图像压缩领域等。超分辨率图像重建技术一直是计算机视觉领域的热点问题,它发挥的作用也越来越重要。
图像超分辨率重建技术可分为基于传统的和基于深度学习的两种方法。基于传统的方法主要包括迭代反投影法、凸集投影法和插值法等。该类算法操作便捷,重建速度较快,但是由于引入的先验知识十分有限,会在重建后丢失很多图像细节,导致效果不好。基于插值的方法主要包括双三次差值法和最近邻插值法等,虽然原理十分简单,重建速度也很快,但是重建后的图像相对较模糊,实用性也不高。
随着深度学习的崛起,基于深度学习的图像超分辨重建方法逐渐成了近些年来研究的热点。它是通过各种学习模型将低分辨率图像转化为高分辨率图像,使图像变得更清晰,细节也得到了更多的恢复,与传统方法相比该类方法的重建效果较好,因此相关研究也越来越受到大家的关注。
本文首先介绍了图像超分辨率重建技术的当前研究现状,然后详细总结了基于传统和基于深度学习的超分辨率的算法,并阐述了其不同算法各自的特点,最后总结了图像超分辨率算法的未来发展方向。
1基于传统的方法
图像超分辨率的概念最早出现在光学领域。在该领域中,超分辨率是指一种图像复原衍射的数据过程。早在60年代中期J.L.Harris和J.w.Goodman就分别在1964年和1965年提出一种称为Harris-Goodman频谱外推的方法[1],但仿真效果并不理想。
首先传统的图像超分辨率方法主要分为基于重建的和基于插值的。基于重建的方法主要分为频域法[2]和空域法。频域法通常消除频谱混叠从而提升图像分辨率,但它可用到的先验知识十分有限。空域法主要是将多个低分辨率图像的重疊信息进行相互的补充,以此重建出一个具有高分辨率的图像,采用的方法包括后验概率估计法[3]、迭代投影法[4]、凸集投影法[5]等。空域法具有很强的先验约束能力,但是由于场景单一,导致重建的图像效果并不好,并且受先验影响很大,重建效果也不稳定。
20世纪早期,研究者们主要采用的是基于插值的方法来解决单幅图像超分辨率的问题,例如最近邻近值[6]、双线性插值[7]和双三次插值[8]。
基于插值的超分率图像重建如图1所示,通过输入低分辨率图像,经过图像预处理、上采样、图像重建和图像配准等步骤生成重建的高分辨率图像。
最近邻近插值是一种简单的插值方法,当图片需要放大时,缺少的像素会直接通过最近原有的颜色生成,但这样会产生十分明显的锯齿,图像会比较模糊。
双线性插值法是在两个变量插值函数上进行线性插值,然后再进行相应的扩展,它的核心是在两个方向上分别进行线性插值。双线性插值法的计算比最邻近算法复杂,计算量也要偏大,但没有不连续的点,同时它具有低通滤波的性质,致使高频分量受损从而使图像产生了模糊。
双三次插值的目的就是通过找到一种关系或系数,通过像素找到影响因子,并根据影响因子来获取目标图像对应点的像素值,从而达到图像缩放的目的。双三次插值法是目前用得比较多的重建方法。
双三次函数形式如下:
使用基于插值方法是在图像没有引入额外信息的情况下,在连续假设下重建,导致重建图像的轮廓和边缘比较模糊,细节和纹理不能得到很好的恢复,所以重构图像都非常模糊。基于插值的超分辨率重建算法虽然算法简单,运行速度快,但是重建效果并不理想,稳定性较差。
2基于深度学习的方法
超分辨率卷积神经网络(SRCNN)[9]是采用深度学习解决超分辨率问题的基本方法。SRCNN有三层网络,第一层负责补丁提取和LR尺度上的特征表示,中间的一层用于逼近非线性映射函数,第三层重构超分辨率图像。SRCNN通常被认为是浅层结构,由于结构过于简单,细节处理得不够,同时非线性映射层中有太多参数,所以训练速度相对较慢。
基于此,Kim等人提出了一個非常深的残差网络超深度卷积网络(VDSR)[10]。VDSR具有20层网络结构,每一层都包含小型过滤器。从输入图像到输出,通过跳跃连接使卷积滤波器学习估计和真实图像之间的残差。梯度裁剪策略是以高学习率训练网络,因此尽管架构庞大,但仍可加快收敛速度。增加网络的深度也可以提高结果的准确性。
随后Kim等人又[11]提出了深度递归卷积(DRCN)网络,该网络使用了递归结构,方便增加网络的长度,同时减少参数的数量,通过递归结构的循环使用,从相同的简单过滤器来提取图像特征。来自递归块的所有中间输出和网络的输入都将被送到卷积层以生成输出预测。通用递归网络性能的限制之一是梯度爆炸或消失,这会导致不稳定并降低网络的学习能力。作者通过两种策略解决了这个问题:递归监督和跳过连接。递归监督意味着递归块的所有中间输出都参与输出预测,并且每个输出预测均受均方损失监督,输出预测之间的差异会平滑参数的梯度。此外,网络的输入和递归块的输出之间的跳跃连接使网络需要更少的递归层,从而减轻了梯度爆炸和消失的问题。与DRCN类似,深度递归残差网络(DRRN)[12]应用递归学习。但是与DRCN相反,DRRN中的递归单元是修改后的ResNet单元,它具有52层卷积层,它的递归学习用于控制模型参数,同时加深深度。广泛的基准评估表明,DRRN明显优于SISR的最新技术水平,同时利用更少的参数。但网络优化结果一般,提升效果并不明显。
增强型深度残差网络EDSR[14]主要使用了增强的ResNet[15],移除了批归一化(BN)层[16],也就是去除了超分辨率残差层中多余的模块,使用了损失函数L1(loss)训练,从而扩大了模型的尺寸来提升结果质量。图2介绍了ResNet模型与EDSR模型网络结构层的区别。
批归一化层的计算量和一个卷积层几乎持平,移除该层后训练时可以节约大概40%的空间。太多的残差块会导致训练不稳定,因此作者采取了常数缩放层的方法,即残差块在相加前,经过卷积处理的一路乘以一个小数(比如作者用了0.1),这样可以保证训练更加稳定。EDSR模型通过合理的模型压缩给网络减轻了很大的负担,又很好地提高了学习速率,超分辨率图像效果也很好。但是对细节丰富的图像,其重建后的图像较为平滑,细节依然不够清晰,还有很大的提升空间。
2017年Lai等人提出了拉普拉斯金字塔网络(LapSRN)[17],用于解决超分辨率问题。其主要思想是逐步升级功能。它的网络结构有两个分支:一个分支用于特征提取,另一个分支用于重构。卷积层的输出分为两层:一层用于图像重建分支中的残差信息,另一层用于下一个上采样操作的特征提取。图像重建分支中的反卷积层使用双线性核初始化,这对于强制特征提取分支来学习残差特征至关重要。图像重建分支负责学习低频信息,而特征提取分支则细化细节并将高频信息馈送到图像重建分支。在金字塔的每一级,模型以低分辨率特征图作为输入,预测高频残差,使用反卷积层向上采样,网络通过逐步重建,在一次前馈过程中产生多尺度进行预测,可以更好地利用计算资源。
在最新的研究中,Zhang等人提出了一个残差密集网络(RDN)[18]来解决超分辨率问题。通过整合了密集模块和残差模块,由此形成了残差密集模块。例如,在超深度卷积网络(VDSR)中,长跳连接将低频信息传送到输出,网络中的卷积层被迫学习高频信息,因此,简化了学习任务。密集块提高了网络描述复杂功能的能力,而剩余稠密块同时具有剩余块和密集块的优点,因此有望提供更好的性能。
目前,超分辨率重建技术的发展趋势主要是从网络结构设计、学习策略、评价指标、无监督学习、实际场景等几个方面展开。网络结构设计包括融合局部的信息和全局的信息,设计轻量化网络结构,对升采样的改进等,学习策略主要是对精确表达图像差异的损失函数的设计和寻找适合图像归一化的方法,评价指标是指全面评价超分辨率图像质量的主观统一指标,还有对于无监督学习的超分辨图像的研究和实际场景中的应用等,因此在未来,超分辨率图像的重建技术还有很大的发展空间。
3结语
本文主要从传统方法与深度学习方法这两方面介绍了近20多年来主流的自然图像超分辨率重建技术。与传统方法相比,基于深度学习的方法重建的图像效果更好,细节部分也更为完整。但它也存在缺点,例如怎样设计网络结构,如何更好地运用在实际的问题中,如何将更多的学习机制运用在超分辨率重建技术中等,这些都是需要思考和研究的问题。对未来的展望,基于深度学习的单图像超分辨率技术展现了巨大潜力,在未来的很长的一段时间内,超分辨重建技术都将是计算机视觉的研究热点问题,并伴随着深度学习的发展,将广泛应用于各个领域。
参考文献:
[1] Qi S X,Ma J,Lin J,et al.Unsupervised ship detection based on saliency and S-HOG descriptor from optical satellite images[J].IEEE Geoscience and Remote Sensing Letters,2015,12(7):1451-1455.
[2]Tsai R. Multiframe image restoration and registration[J]. Advance Computer Visual and Image Processing, 1984(1): 317-339.
[3] Schultz R R,Stevenson R L.A Bayesian approach to image expansion for improved definition[J].IEEE Transactions on Image Processing,1994,3(3):233-242.
[4] Irani M,Peleg S.Super resolution from image sequences[C]//[1990] Proceedings.10th International Conference on Pattern Recognition.June 16-21,1990,Atlantic City,NJ,USA.IEEE,1990:115-120.
[5] Stark H,Oskoui P.High-resolution image recovery from image-plane arrays,using convex projections[J].Josa A,1989,6(11):1715-1726.
[6] Belgiu M,Dr?gu? L.Random forest in remote sensing:a review of applications and future directions[J].ISPRS Journal of Photogrammetry and Remote Sensing,2016,114:24-31.
[7] 馬鑫,汪西原,胡博.基于ENVI的CART自动决策树多源遥感影像分类——以北京市为例[J].宁夏工程技术,2017,16(1):63-66.
[8] Deng J,Dong W,Socher R,et al.ImageNet:a large-scale hierarchical image database[C]//2009 IEEE Conference on Computer Vision and Pattern Recognition.June 20-25,2009,Miami,FL,USA.IEEE,2009:248-255.
[9] Dong C,Loy C C,He K M,et al.Learning a deep convolutional network for image super-resolution[M]//Computer Vision – ECCV 2014.Cham:Springer International Publishing,2014:184-199.
[10]J. Kim, J. Kwon Lee, K. Mu LeeAccurate image super-resolution using very deep convolutional networks Proceedings of the IEEE conference on computer vision and pattern recognition,2016:1646-1654
[11] Kim J,Lee J K,Lee K M.Deeply-recursive convolutional network for image super-resolution[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR).June 27-30,2016,Las Vegas,NV,USA.IEEE,2016:1637-1645.
[12] Tai Y,Yang J,Liu X M.Image super-resolution via deep recursive residual network[J].2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR),2017:2790-2798.
[13] S. Ioffe, C. SzegedyBatch normalization: accelerating deep network training by reducing internal covariate shift -arXiv:1502.03167 (2015).
[14] Lim B,Son S,Kim H,et al.Enhanced deep residual networks for single image super-resolution[J].2017 IEEE Conference on Computer Vision and Pattern Recognition Workshops (CVPRW),2017:1132-1140.
[15] Shahriari M,Bergevin R.Land-use scene classification:a comparative study on bag of visual word framework[J].Multimedia Tools and Applications,2017,76(21):23059-23075.
[16] Wu S L,Chen H D,Bai Y,et al.A remote sensing image classification method based on sparse representation[J].Multimedia Tools and Applications,2016,75(19):12137-12154.
[17]W.-S. Lai, J.-B. Huang, N. Ahuja, M.-H. YangDeep laplacian pyramid networks for fast and accurate super resolution IEEE conference on computer vision and pattern recognition, 2017 (2).
[18] Zhang Y L,Tian Y P,Kong Y,et al.Residual dense network for image super-resolution[J].2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition,2018:2472-2481.
【通联编辑:唐一东】