图像运动模糊还原技术综述

2020-12-26 02:56黄正源谢维成黄化入
计算机工程与应用 2020年24期
关键词:正则卷积神经网络

黄正源,谢维成,黄化入,曹 倩

1.西华大学 电气与电子信息学院,成都610039

2.重庆大学 自动化学院,重庆400044

1 引言

随着智能手机、相机等摄影设备的普及,图像的获取愈发方便,图像成为人们记录生活、交流信息的重要方式。图像在获取过程中可能会受到各种因素干扰,例如相机抖动、拍摄对象移动、大气湍流以及图片失焦等,由此类原因导致的图片质量下降称为图像退化。将退化图像恢复为原始图像称为图像复原技术,图像模糊还原属于图像复原技术的一种。

图像模糊有许多情况,常见的有运动模糊、高斯模糊、散焦模糊等。日常生活中,人们在拍摄图像时难以保持设备稳定,最主要的类别是图像运动模糊。在公共安全领域图像运动模糊还原也同样重要,例如电子眼抓拍违规车辆、公共区域抓拍嫌疑人等。图像模糊过程可用模型表示为:

其中,B表示模糊图像,I表示清晰的真实图像,⊗是卷积操作,K代表模糊核或点扩散函数,N代表噪声。

在过去的10 多年里,研究者对这一经典问题作出了许多积极的努力,大部分的去模糊处理都是采用传统的两步方法:先进行模糊核估计,再进行能量函数最小化。然而,从模糊的图像中恢复干净的清晰图像非常困难,因为这是一个高度不适定的问题,模糊不仅来自于多目标运动,还来自于摄像机抖动、场景深度变化,无法简单地依赖模糊核线性的假设。图像运动模糊还原技术,已经成为计算机视觉和图像处理领域的研究热点。

2 图像运动模糊还原方法描述

按照模糊核是否已知可将图像去模糊算法分为两类:非盲去模糊算法和盲去模糊算法。非盲去模糊算法是指先通过其他方式获得模糊核的信息,然后用已知的模糊核对模糊图像进行反卷积,就可以重建清晰图像,常用的算法有Lucy-Richardson 算法、维纳滤波和基于正则化等。盲去模糊算法是指在模糊核未知的情况下,仅通过模糊图像估计出模糊核与清晰图像,常用的盲去模糊算法有卷积神经网络、循环神经网络、生成对抗网络等,如图1。

图1 图像运动模糊还原常用方法分类

2.1 非盲去模糊

基于Lucy-Richardson 算法的图像运动模糊还原是假设模糊图像符合泊松分布,通过迭代计算求得最大似然解。该算法由Lucy和Richardson[1-2]提出,在假设噪声因素为零的情况下,Lucy-Richardson算法随着迭代次数的递增,最终将会收敛在具有最大似然性的解,被广泛应用于图像运动模糊还原领域,是一种通用的运动模糊图像复原算法。Liu 等人[3]为了提高航天器在高动态环境下获取图片的性能,提出了一种基于径向基函数神经网络(RBFNN)的Lucy-Richardson 算法,利用陀螺仪提供的角速度信息计算出点扩展函数,然后使用RBFNN预测RL 算法完成图像去模糊所需的迭代次数,并验证了其有效性;Dansereau等人[4]针对无人机和自主水下航行器的部署,在对光线采集和运动模糊敏感度之间的权衡下,使得在弱光下或在移动平台上难以有效地捕捉图像这一机器人技术应用中常见的问题,采用光场渲染代替二维卷积,使用光场插值来渲染新的视图和模拟运动模糊,将Lucy-Richardson 去模糊推广到4-D 光场,该方法在不进行深度估计的情况下,正确处理了复杂三维场景中六自由度相机运动产生的模糊。基于Lucy-Richardson 算法的图像运动模糊还原技术在处理噪声无法忽略的情况,迭代次数的选择尤为重要,不恰当的迭代次数存在放大噪声的缺陷[5],如图2 所示。对于没有噪声的情况,Lucy-Richardson算法可以很好地还原模糊图像;在有噪声的干扰下,设置合适的迭代次数是基于Lucy-Richardson算法图像去模糊的关键。

图2 Lucy-Richardson算法不同迭代次数结果

基于维纳滤波的图像运动模糊还原方法综合了退化函数和噪声统计特征两个方面。经典的维纳滤波假定线性滤波器的输入为有用信号和噪声之和,两者均为广义平稳过程且知它们的二阶统计特性,根据最小均方误差准则,求得最佳线性滤波器的参数。Li等人[6]针对旋转模糊这一特殊运动方式,提出了一种新的模糊核估计模型,该模型以旋转中心为圆心的圆周重建模糊图像,通过维纳滤波得到去模糊的同心圆图像,然后利用模型的逆过程将同心圆图像重新填充到笛卡尔坐标系中,实现旋转运动图像还原;Khetkeeree等人[7]为了减少维纳滤波去模糊对噪声先验的依赖,提出一种估计维纳滤波器正则项的优化方法,采用改进的Tikhonov正则化控制最佳恢复图像的Weiner滤波器正则项,使噪声成为非必要的先验知识。基于维纳滤波的图像运动模糊还原技术对于信噪比依赖度较高,信噪比估计的准确性直接影响图像的还原结果。维纳滤波无法复原空间可变的退化,且由于人眼对于灰度亮度一致的区域复原错误感知更严重,基于最小均方误差的原理在理论上能很好地处理却不是最适合人眼的方式。

基于正则化的图像运动模糊还原采用正则化方法建模,对函数最小化模型进行求解。较早的正则化方法是Tikhonov 等人提出的Tikhonov 正则化方法,该正则项可以有效地抑制噪声,但是易产生过平滑图像,使得处理结果仍然模糊。Rudin等人[8]提出了总变分正则化(Total Variation,TV)方法,TV 正则化方法不仅可以抑制噪声,而且能保留图像的边缘。谭海鹏等人[9]为了改善遥感图像质量,提出了基于正则化约束的遥感图像多尺度去模糊方法,建立模糊图像的金字塔模型,将低层计算的清晰图像上采样为上一层的初始清晰图像,再迭代运算该层上的最终清晰图像。该方法能有效地去除遥感成像产生的模糊,在保持图像边缘和细节的同时,可有效抑制振铃效应;Choudhury 等人[10]提出了一种基于加性高斯噪声的运动退化图像复原方法,正则化使用的上界可以在图像去模糊之前激发图像去噪,下界作为边缘恢复约束加入到模糊代价函数中,结合保真项和边缘恢复下界约束,提出了一种新的凸函数用于图像恢复,使用正则化函数而不是固定参数使收敛速度更快;基于正则化的图像运动模糊还原方法,正则化参数和正则化算子的选择在图像去模糊过程中起着至关重要的作用。不同经典非盲去模糊方法的实验结果如图3所示。

图3 经典非盲去模糊方法实验结果

2.2 盲去模糊

基于正则化的图像运动盲去模糊还原方法在经典非盲去模糊的方法上通过各种优化后直接对图像进行还原。Liu等人[11]为了精确估计单幅图像盲去模糊时的模糊核,提出了一阶和二阶图像梯度的L0 范数来规范最终的估计结果,L0 正则化混合梯度稀疏先验极大地受益于图像的固有稀疏性,可以保证高质量的模糊核估计;Dou等人[12]为提高效率提出一种图像正则化盲去模糊方法,提出的平滑增强正则化算法不仅保证了图像中只有突出结构被保留,而且增强了这些突出结构用以帮助模型更准确地估计核函数,其模型为:

还采用了一种基于半二次分裂算法的有效数值方案[13],与半二次分裂算法相比,该优化方案只需要额外的收缩操作,使该方法比目前的其他方法快得多;Bai[14]设计了一个重加权图总变差(RGTV)先验,可以有效地促进一个双峰边权重分布给定一个模糊的补丁,并引入了一个新的权函数作为拉普拉斯正则化器来表示RGTV,噪声和模糊的鲁棒性、强分段平滑滤波和锐度均得到了提升。

基于卷积神经网络的图像运动模糊还原方法,利用局部权值共享对图像处理的优越性,卷积操作可轻松处理高维数据且避免了特征提取过程中数据重建的复杂度。Sun 等人[15]用卷积神经网络对图像模糊核进行估计,再使用估计出的模糊核对图像进行去模糊还原。该方法虽然采用盲去模糊算法还原图像,但对模糊核估计后仍然沿用了非盲去模糊的思想,对图像进行反卷积操作。这导致了算法运行缓慢且还原结果依赖于模糊核估计,但尽管如此,该方法将卷积神经网络应用在了图像去模糊,为后续基于此的各种方法奠定了基础;Nah等人[16]提出了一种多尺度的神经网络,模拟传统的从粗到细的方法,它能够以端到端的方式恢复由各种来源引起的模糊图像,该方法在动态场景去模糊方面不仅在定性上,而且在定量上都达到了优越的效果。Li等人[17]提出了一种全新的卷积结构,命名为“孔卷积”,其内核采用邻域为矩形的矩形环进行计算,大大扩展了接收域,实验结果表明,该方法能有效地恢复图像;Liu等人[18]提出了一个两阶段去模糊模块来恢复基于高频图像的动态场景的模糊图像,先用编码网络对残差图像进行细化,再将细化后的残差图像与输入的模糊图像相结合,得到潜像,并进一步提出了一个基于模糊处理模块的由粗到细的框架;Cai等人[19]提出了一个暗、亮通道先验嵌入式网络(DBCPeNet),将通道先验插入到一个神经网络中,以实现有效的动态场景去模糊,并提出了一种新的可训练的明暗通道先验嵌入层(DBCPeL),用于融合通道先验和模糊图像表示;Chi 等人[20]考虑到大多数数码相机并不直接捕捉RGB彩色图像,相反,它们只记录每个像素的三种原色之一的光强度,提出一种新的多尺度深度卷积神经网络来共同解决图像的去量化和去模糊问题。基于卷积神经网络的去模糊方法利用神经网络优异的非线性拟合能力去解决模糊核估计这一高度不适定问题,取得了不错的效果。

基于循环神经网络的图像运动模糊还原方法,创新性地将循环神经网络从处理具有前后顺序、时间依赖关系数据的领域,应用在了图像处理领域。Tao 等人[21]根据在金字塔中逐渐恢复不同分辨率的清晰图像策略,提出了一个尺度循环神经网络(SRN-DeblurNet),与许多基于学习的方法相比,它具有更简单的网络结构、更少的参数且更容易训练。Zhang等人[22]为解决多尺度循环神经网络模型上采样操作运行时开销大、单纯增加模型的深度和更精细的层次并不能提高去模糊的质量等问题,提出了一种基于空间金字塔匹配的深度分级多patch 网络,通过一种精细到粗糙的分级表示来处理模糊图像,与之前的多尺度方法相比,运行速度快了40倍。Zhang等人[23]提出一种由三个深度卷积神经网络(CNNs)和一个循环神经网络(RNN)组成的空间变异神经网络,将RNN 作为反卷积算子,对由一个神经网络从输入图像中提取的特征图进行反卷积运算,该方法具有较好的性能、速度和模型大小。

基于生成对抗网络图像运动模糊还原方法,通过一对相互博弈的生成器与判别器,经过多次训练来实现图像运动模糊的还原。生成对抗网络由Goodfellow 等人[24]提出,Kupyn 等人[25]提出通过条件生成对抗网络实现一种端到端的图像去模糊方法DeblurGAN,与Deep-Deblur方法相比,该方法速度提高了5倍。Kupyn等人[26]在此基础上提出一个带有双尺度鉴别器的相对条件生成对抗网络DeblurGAN-V2,将特征金字塔网络引入到去模糊中,作为该网络的核心构件,凭借轻量级的骨架,DeblurGAN-V2 比同期最接近的方法快10~100 倍。Gong 等人[27]提出了一种自参考去模糊生成对抗网络,在解决局部模糊图像的还原问题上取得了较好的效果。Lu 等人[28]提出了一种无监督的单幅图像去模糊方法。并引入了一个解纠缠框架来分割模糊图像的内容和模糊特征,从而提高了图像去模糊性能。桑亮等人[29]提出基于生成对抗网络的深度卷积神经网络来复原模糊图像的解决方案,通过引入生成对抗网络思想的对抗损失和对残差网络进行改进,有效地复原了图像的细节信息。基于生成对抗网络的图像运动模糊还原方法依据博弈论的原理提高了参数拟合的准确度,但网络训练依靠于成对数据集,由于真实场景下难以获取同一场景的清晰与模糊图像,提高了训练集的获取难度,去模糊方法对比如表1。

3 图像运动模糊还原关键问题

3.1 模糊核估计对图像还原的影响

模糊不仅来自于多个物体的运动,还来自于相机抖动、场景深度变化。然而,估计每个像素或区域的单个模糊核是不可行的,因为这会导致过多的计算负担。为了消除这些复杂的运动模糊,传统的基于能量优化的方法依赖于一些简单的假设,如模糊核是部分均匀的或局部线性的。

文献[30]提出一种基于卷积神经网络的方法来处理非盲运动去模糊中的核不确定性,通过有效的模糊观测获得不同先验的潜在估计图像,利用其互补性来改进学习。文献[31]证明了绝对相位的自相关可以提供关于运动的可靠信息,并通过研究频域问题直接获得高质量的模糊核,提供了一种新的模糊核估计方法。文献[25]利用生成对抗网络提出一种端到端的图像运动模糊还原方法,跳过模糊核估计阶段,直接由模糊图像得到还原图像,避免了模糊核估计与真实情况的差异导致还原图像产生振铃。文献[18]通过清晰图像的低频成分和模糊图像的低频成分是相似的这一特点,采用两阶段去模糊,第一阶段恢复低频分量,同时保留高频分量;第二阶段提炼高频信息,该方法同样避免了模糊核的估计过程。

3.2 图像特征提取计算量

使用卷积网络对图像运动模糊还原,即使模糊很小,也需要使用较大的图像区域来增加感受野,这就不可避免地导致网络模型规模大,计算成本高。文献[17]提出的孔卷积滤波结构,结构如图4 所示,其基本的设计思想是,在核上的任意两个权重参数都应该等于它们到中心的距离。该结构极大地扩展了响应区域,从而可以从更高的层上获得更粗的全局特征图,并且大大减少了参数数量,提高了泛化能力。文献[23]证明了去模糊过程可以用一个无限脉冲响应(IIR)模型来表示。并进一步分析了空间变量RNN 和去模糊过程之间的关系,表明空间变量RNN能够模拟去模糊过程。通过从连续的RNN 中插入CNN,将来自不同方向的信息融合,这样,空间RNN 就可以用较少的参数覆盖较大的二维区域,从而减少计算量,其过程如图5所示。

滤波器的参数数量对网络的计算量有着直接的影响,在扩大感受野的同时减少参数数量,是提高运行速度的一个关键。

表1 去模糊方法对比

图4 孔卷积结构示意图

图5 RNN融合方向信息过程示意图

3.3 模糊数据集的构建

采用神经网络对图像运动模糊进行还原的方法,都得经过训练才能得到网络参数,训练就得有数据集,然而现实中模糊数据集的获取有一定的难度。成对数据集采用人工的获取方式难以保证清晰图像与模糊图像的内容一致,由算法合成的模糊图像由于难以拟合现实中的复杂情况,往往在训练中表现良好,在现实图片上却不尽人意。

根据模糊数据集的构建方法,可大致分为三类。第一类为算法模拟计算模糊核,由清晰图片与模糊核卷积得到,比如Levin 等[32]、Kupyn 等[25]的数据集。Kupyn 等提出了一种模拟逼真和复杂的模糊内核的方法,遵循随机轨迹生成的思想,然后将子像素插值应用到轨迹矢量中生成核函数。每一个轨迹矢量都是复值矢量,对应于物体在连续域内二维随机运动后的离散位置。轨迹的生成采用马尔可夫过程,根据前一个点的速度和位置、高斯摄动、脉冲摄动和确定的惯性分量,随机生成轨迹下一个点的位置。

第二类为通过相机轨迹合成的模糊图片,利用高速摄像头连续拍摄取平均值得到模糊图像,例如Kohler[33]数据集、GOPRO数据集。Nah等[16]提出了一个具有真实感的现实模糊图像数据集GOPRO,选择记录要随时间集成的锐化信息来生成模糊图像,而不是对内核进行建模来对锐化图像进行卷积。模糊积累过程建模如下:

其中,T和S(t)分别表示时刻T的锐化图像的曝光时间和传感器信号,M、S[i]分别为曝光时间内采集到的帧数和第i个锐帧信号,g是将一个敏锐的潜信号S(t)映射到一个观察信号S(t)的CRF。

第三类为真实场景拍摄的数据集,直接由手机或相机获取。只包含模糊图像,无对应清晰图像,因此难以用于网络训练,常用作于测试集,代表为Lai等人[34]的数据集。

主流数据集特点对比,如表2。

表2 主流数据集特点对比

4 趋势展望

图像运动模糊还原是近年来计算机视觉和图像处理等领域的一个研究热点,不仅具有重要的理论意义,而且在实际应用中也有迫切需求[35]。未来的研究可从以下几点考虑[35]。

算法效率的提升:算法的运行速度是影响算法应用的一个重要因素,对于实时性要求高的场景,算法的效率更是第一选择。提升图像运动模糊还原算法的时效性可将此算法应用于更多的场景,使基于计算机视觉解决的方法更完善。例如,在生产监测过程中,采用图像处理的方式越来越受到重视,以往的方法为物品传送到监测点时停下采集图片。采用实时性高的图像运动模糊还原算法可在物品运动时采集图片,省去物品停下的步骤,大大提高了物品生产线效率。因此,提高算法效率是一值得研究的方向。

新的模糊数据集:模糊数据集对基于深度学习方法的还原结果有着直接的影响,目前开源的模糊数据集种类、数量都较少。其中使用最广泛且规模最大的GOPRO数据集也仅仅只有2 103 对训练图片与1 111 对测试图片,与计算机视觉其他领域的数据集,尤其是imageNet数据集包含14 197 122 张图片相比,简直是天壤之别。不同于图像识别或图像分割等领域,模糊图像数据集的获取存在一定难度。但对于任何领域,数据集都是研究人员开发的基础,数据集的匮乏直接影响了这一领域的研究进度,对此,迫切地需要提出一个规模大的、新的数据集。

网络结构改进:随着深度学习的发展,基于深度学习的方法愈来愈多。每有新的网络结构被提出,基于它的图像运动模糊还原技术都会随之喷涌,不论是卷积神经网络还是生成对抗网络都在原有的技术上做出了实质性的提升。对现有的网络结构进行改进也是提升算法的一种方式,将不同的网络结构相互结合或许是一种不错的方法。例如,在网络结构中引入多尺度结构、密集残差结构等,再与改进的损失函数相结合也许能够达到不错的效果。

随着图像运动模糊还原技术的不断发展完善,基于其在计算机视觉和图像处理领域其他任务属于图像预处理的特点,可以良好地与其他任务结合,图像运动模糊还原技术应用会更加广泛。

5 结束语

系统总结了目前图像运动模糊还原技术的研究现状,指出了现有研究的关键问题,对未来的发展趋势和应用前景进行了展望,为进一步的研究奠定了基础。

猜你喜欢
正则卷积神经网络
J-正则模与J-正则环
基于3D-Winograd的快速卷积算法设计及FPGA实现
π-正则半群的全π-正则子半群格
Virtually正则模
卷积神经网络的分析与设计
神经网络抑制无线通信干扰探究
从滤波器理解卷积
基于神经网络的中小学生情感分析
剩余有限Minimax可解群的4阶正则自同构
基于傅里叶域卷积表示的目标跟踪算法