李权锋
摘 要: 图像修复是指将信息缺失的图像进行像素填充以达到人类视觉满意的效果。文章对该领域研究的相关技术进行综述:首先描述了传统的图像修复方法,接着描述了基于深度学习的图像修复方法,介绍各类方法的适用范围及优缺点,最后对未来的研究方向及重点提出展望。
关键词: 图像修复; 深度学习; 卷积神经网络; 自编码网络; 生成式对抗网络
中图分类号:TP391.4 文献标识码:A 文章编号:1006-8228(2021)12-06-04
Abstract: Image restoration is to fill the missing image with pixels to achieve the satisfactory effect of human vision. This paper reviews the related technologies in this field: firstly, it describes the traditional image restoration methods, and then describes the image restoration methods based on deep learning, introduces the application scope, advantages and disadvantages of various methods, and finally puts forward the prospect of future research direction and focus.
Key words: image restoration; deep learning; convolutional neural network; self-coding network; generative adversarial network
0 引言
生活离不开图像,图像作为反映客观世界的重要载体,是人类接收外界信息的重要来源和手段。现实生活中,我们会遇到一些信息缺失的图像,此时就需要我们对图像进行修复。传统的图像修复依据纹理一致性和内容相似性,采用数学推断的方法,根据图像受损尺度的不同而采取不同的修复方法。传统的图像修复虽然可以较好地修复场景图像,但是它却不能够对图像语义信息进行修复。
近年来,深度学习得到快速的发展,在许多领域取得了较大的成功。利用深度学习技术可以获取图像语义信息,并预测出缺失的语义内容,解决传统图像修复方法的不足,使得修复的结果更加符合客观事实。本文对传统的图像修复方法与基于深度学习的图像修复方法的研究進展做整理和归纳,并对未来研究的方向与发展趋势进行探讨。
1 传统图像修复方法
1.1 基于结构的图像修复方法
Bertalmio等人[1]提出BSCB模型,采用扩散的原理,沿着等照度线方向从图像受损区域的邻近区域平滑地传播信息,对受损区域进行估计填充。Rudin等人[2]通过最小化估计解的总变差泛数进行图像的去噪,提出了ROF模型。该模型将图像理解为一个分段的平滑函数,在有界变分空间(BV)对函数进行建模。Chan等人[3]基于变分模型,提出全变分(TV)图像修复模型。该模型使用梯度下降流对图像进行平滑处理,能够很好地保持图像边缘特性,但TV模型遇到破损区域是曲线类时,并不能很好地进行修复,因此无法满足图像的连通性原则。Chan等人[4]在TV模型基础上加入曲率扩散项K,提出了曲率扩散(CDD)修复模型,该模型解决了图像修复的连通性原则的问题。Tsai等人[5]提出基于Mumford-Shah的修复模型,由于模型修补边缘得不到平滑的曲线,导致其无法满足图像连通性原则。Esedoglu等人引入Euler’s elastic模型[6],提出基于Mumford-Shah-Eulerm模型[7],较为有效地弥补了Mumford-Shah模型的不足之处。
1.2 基于纹理的图像修复方法
Efros等人[8]提出马尔科夫隐式场(MRF),该算法可以保持图像纹理与结构特征的一致性。Criminisi等人[9]提出基于样本块的纹理合成算法,该算法依据填充顺序的优先级对缺失区域进行填充,填充时如果置信度为零,则会引起填充次序的错误。Jia等人[10]提出一种鲁棒的图像合成方法,通过张量投票的方式自动从二维图片中推出缺失信息。Simakov等人[11]和Wexler等人[12]提出基于图像整体的样本块填充的图像补全方法,该方法要求在完好区域找到与受损区域较为相似的样本块,否则修复的效果不好。Barnes等人[13]提出PatchMatch算法,此算法利用概率的思想进行快匹配,虽然降低了运算速度,但修复结果可能会产生伪影。许刚等人提出一种基于动态匹配与逐层链式优化的图像修复算法[14],该算法在对纹理的填充以及对线性结构的修复方面效果显著,但当图像中存在一定深度的物体遮挡关系时,就很难对边缘信息进行有效地提取。高成英等人[15]提出一种基于稀疏表示的图像修复算法,该算法可以更好地修复缺失区域较大以及纹理比较复杂的图像。传统的图像修复方法对比如表1所列。
2 基于深度学习的图像修复方法
2.1 基于自编码器的图像修复
Pathak等人[16]将编码-解码网络结构与卷积神经网络结合,提出基于上下文编码器的图像修复方法,该方法首先使用卷积神经网络提取出图像的高阶特征,接着生成器接收压缩后的向量并生成图像。虽然该方法能够较快地预测出相对合理的图像结构信息,但纹理细节的处理不够精细,不能够很好地修复高分辨率的图像。
2.2 基于生成式对抗网络的图像修复
Goodfellow等人[17]提出生成式对抗网络(GAN),其结构如图1所示,GAN由生成器和判
别器两部分组成。生成式对抗网络存在一些不足,比如在训练中出现梯度消失、网络模型不易被控制等问题。Yeh等人[18]提出基于DCGAN的语义图像修复方法。与上下文编码器相比,该方法训练时不需要掩码就可以成功的预测出任意大小的缺失区域信息,且修复后的结果没有伪影,图像修复的边缘比较清晰,但不足之处是该方法对含有不同场景的图像修复显得有些乏力。
2.3 基于边缘性对抗学习的图像修复方法
Kamyar等人[19]提出基于对抗性边缘学习的图像修复方法,该方法受画家工作方式的影响,先生成受损区域边缘的信息,再对其填充颜色。虽然使用该模型图像修复后的结果不会出现边缘模糊现象,但对于相对复杂纹理区域边缘的描绘不够准确,并且模型的修复效果也因受损区域的不同而不同。
2.4 全局-局部一致的图像修复方法
Satoshi等人[20]提出全局与局部一致的图像修复方法(GL),该方法可以修复任意不规则形状的缺失区域图像,修复前与修复后的图像对比如图2所示,该方法修复的结果具有较高的分辨率且适用于多元场景图像修复的任务,但当大面积的结构状物体存在于受损图像的掩膜中时,修复效果则不尽如人意。
2.5 多元图像修复方法
Zheng等人[21]想到图像修复合理的结果不应该是唯一的,提出了PICNet模型,模型将长短时记忆神经网络(Long Short Term Memory,LSTM)[22]与变分自编码器(VariationalAuto-Encoders,VAEs)[23]进行结合,该模型可以生成多样化且高质量的图片,提出的长短期注意力层可以让生成的图像更加真实。
2.6 上下文感知語义修复方法
Jiahui Yu等人[24]引入了一个新的上下文注意层,提出使用语境感知的修复方法。该方法先对受损区域进行值预估,接着细化网络并在全局找寻与粗略估计值最为相似的区域集合,最后使用注意力机制对结果进行锐化。相比于之前的图像修复方法存在边缘模糊的问题,该方法的修复结果得到了改善,未来可以应用到高分辨率的图像修复上。基于深度学习的图像修复方法与传统的图像修复方法对比分析如表2所列。
3 结束语
利用深度学习技术,可以预测出缺失的语义内容,弥补了传统图像修复方法的不足,使得修复的结果更加符合客观事实,显然该方法已成为主流的图像修复方法。本文对传统的图像修复与基于深度学习的图像修复方法作了分类总结,我们针对该领域研究中依然存在的技术难点,对今后研究的方向与发展的趋向做以下展望。
⑴ 图像修复是用完好区域的已知信息对待修复区域进行缺失值预测,如何有效的提取已知信息,并很好地将提取到的信息与缺失内容信息之间建立关联,是今后研究中值得深入探究的内容之一。
⑵ 现有的图像修复技术对于低分辨图像的修复做的很出色,但是对于高分辨图像的修复技术还需要不断地改进创新。
⑶ GAN在图像生成中起到了关键的作用,但是不同GAN模型的评价指标不一致,为了更新模型时有章可循,就需要一些相对合理的评估指标,同时GAN模型存在着训练不稳定等问题。这些问题会被不断地修缮,从而推动GAN模型不断改进。
参考文献(References):
[1] Bertalmio M, Sapiro G, Caselles V, et al. Image inpainting[C]//Proceedings of the 27th annual conference on Computer graphics and interactive techniques,2000:417-424
[2] Rudin L I, Osher S. Nonlinear total variation based noise removal algorithms[J].Physica D: nonlinear phenomena,1992.60(1-4):259-268
[3] Shen J, Chan T F. Mathematical models for local nontexture inpaintings[J]. SIAM journal on Applied Mathematics,2002.62(3):1019-1043
[4] Chan T F, Shen J. Nontexture inpainting by curvature-driven diffusions[J]. Journal of visual communication image representation,2001.12(4):436-449
[5] Tsai A, Yezzi A, Willsky A S. Curve evolutionimplementation of the Mumford-Shah functional for image segmentation, denoising, interpolation, and magnification[J].IEEE transactions on Image Processing, 2001.10(8):1169-1186
[6] Shen J, Kang S H, Chan T F. Euler's elastica and curvature-based inpainting[J]. SIAM journal on Applied Mathematics,2003.63(2):564-592
[7] Esedoglu S, Shen J. Digital inpainting based on the Mumford-Shah-Euler image model[J]. European Journal of Applied Mathematics,2002.13(4):353-370
[8] Efros A A, Leung T K. Texture synthesis by non-parametric sampling[C]// Proceedings of the seventh IEEE international conference on computer vision,IEEE,1999:1033-1038
[9] Criminisi A, Pérez P, Toyama K. Region filling and object removal by exemplar-based image inpainting[J]. IEEE transactions on Image Processing,2004.13(9):1200-1212
[10] Jia J, Tang C-K. Image repairing: Robust image synthesis by adaptive nd tensor voting[C]// 2003 IEEE Computer Society Conference on Computer Vision and Pattern Recognition, 2003 Proceedings,IEEE,2003:I-I
[11] Simakov D, Caspi Y, Shechtman E, et al. Summarizing visual data using bidirectional similarity[C]//2008 IEEE Conference on Computer Vision and Pattern Recognition,IEEE,2008:1-8
[12] Wexler Y, Shechtman E, Irani M. Space-time completion of video[J]. IEEE Transactions on pattern analysis and machine intelligence,2007.29(3): 463-476
[13] Barnes C, Shechtman E, Finkelstein A, et al.PatchMatch:A randomized correspondence algorithm for structural image editing[J]. ACM Trans Graph,2009.28(3):24
[14] 許刚,马爽.动态尺度块匹配约束下的链式优化图像修复研究[J].电子学报,2015.43(3):529-535
[15] 高成英,徐仙儿,罗燕媚等.基于稀疏表示的物体图像修复[J].计算机学报,2019.9.
[16] Pathak D, Krahenbuhl P, Donahue J, et al. Context encoders: Feature learning by inpainting[C]// Proceedings of the IEEE conference on computer vision and pattern recognition,2016:2536-2544
[17] Goodfellow I, Pouget-Abadie J, Mirza M, et al.Generative adversarial networks[J]. Communications of the ACM,2020.63(11):139-144
[18] Yeh R A, Chen C, Yian Lim T, et al. Semantic image inpainting with deep generative models[C]// Proceedings of the IEEE conference on computer vision and pattern recognition,2017:5485-5493
[19] Nazeri K, Ng E, Joseph T, et al. Edgeconnect: Structure guided image inpainting using edge prediction[C]// Proceedings of the IEEE/CVF International Conference on Computer Vision Workshops,2019:0-0
[20] Iizuka S, Simo-Serra E, Ishikawa H. Globally and locally consistent image completion[J]. ACM Transactions on Graphics (ToG),2017.36(4):1-14
[21] Zheng C, Cham T-J, Cai J. Pluralistic image completion [C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition,2019:1438-1447
[22] Hochreiter S, Schmidhuber J. Long short-term memory[J].Neural computation,1997.9(8):1735-1780
[23] Kingma D P, Welling M. Auto-encoding variational bayes[J].arXiv preprint arXiv:13126114, 2013.
[24] Yu J, Lin Z, Yang J, et al. Generative image inpainting with contextual attention[C]// Proceedings of the IEEE conference on computer vision and pattern recognition,2018:5505-5514