吴 炜, 郑成林, 张莹莹, 周寿桓
(1. 四川大学 电子信息学院,四川 成都 610064;2. 华为技术有限公司,广东 深圳 518129)
通过图像处理方法,将低分辨率图像放大为高分辨率图像并保留图像的高频细节一直以来是图像处理领域研究的热点之一.目前提高图像的分辨率的技术可分类为图像插值技术[1-3]、图像超分辨率技术[4-5]两大类.通过图像插值技术处理的图像通常缺少高频细节,显得较为模糊.图像超分辨率技术是目前提高图像分辨率的主要方法之一.
为了克服上述问题,笔者提出一种简单高效的基于广义非局部平均和自相似性的单幅图像超分辨率算法.算法首先通过自身建立训练库,即对低分辨率图像进行下采样,将低分辨率和其下采样图像作为一个训练库,然后利用这个训练库进行基于学习的超分辨率算法复原.自然图像中通常包含足够多的重复结构模式,非局部平均算法正是利用这种性质来抑制噪声、克服伪影的.由于非局部平均的优良性能,因此,将非局部平均引入超分辨率复原,进行处理的特征系数更符合广义高斯分布.为了提高复原图像的质量,提出一种基于广义非局部平均的超分辨率算法.实验表明,文中算法具有较好的性能,复原的图像无论是主观的视觉效果,还是客观的均方根误差,都取得较好的结果.
基于学习的超分辨率复原的基本思想是利用一个图像训练集中的高低分辨率图像的对应关系,估计待放大的低分辨率图像的高频细节,最后获得高分辨率放大图像.它的过程是输入一幅低分辨率图像,对其进行特征提取,接着主要以这些信息为依据建立学习模型,然后通过该模型估计高频信息,最终复原出最优的超分辨率图像.传统的算法需要外部的一个训练库,这使得算法的内存消耗较大.针对这一问题,笔者利用图像的自相似性,通过自身建立训练库,即对待放大图像进行下采样,然后待放大图像和其下采样图像构建一个包含高低分辨率图像的训练库,相对于传统的方法这样可以大大减少内存消耗.
设IH为高分辨率图像,其对应的低分辨率图像为IL,超分辨率复原需解决的问题是在已知IL的条件下,估计出最优的IH.目前最常用方法为最大后验概率法(MAP),即求使条件概率P(IH|IL)最大的IH.高分辨率图像可以看做是低分辨率图像与高频信息的叠加,它可表示为
IH=H⨁IL,
(1)
其中,H表示高频信息,⨁表示叠加运算.由于IL已知,这样将估计IH的问题转化为估计H的问题.设IL=L⨁M,其中L和M分别表示低频和中频信息.在估计高频信息的过程中,中频信息M比低频信息L提供的有用信息更多,因此,认为高频信息条件独立于低频信息[7],即有
P(H|IL)=P(H|M,L)≈P(H|M) .
(2)
根据贝叶斯估计理论,有
P(H|M)=P(H|M)P(H)/P(M)=P(M,H)/P(M) ,
(3)
其中,P(M)为低分辨率图像中频信息的先验概率;P(M,H)为中频信息与高频信息的联合概率.为了求得最优的高频信息H,须求取使联合概率P(M,H)取最大值的H.提取IL的中频特征即可获得M,因此,P(M)可认为是常数.这样,超分辨率问题变为
(4)
由于图像尺寸太大,维数太高,因此,通常将图像划分为图像块进行处理.图像块之间的关系模型可通过马尔可夫模型[10]建立.但是求解该模型需要反复迭代,计算量较大.一般可认为块与块之间是相互独立的;相邻块之间的方块效应可通过重叠分块[8]来解决.这样,有
(5)
其中,Mk和Hk分别表示第k个图像块的中频信息和高频信息;n为图像块的数目.由式(5)可知,只要获得使联合概率P(Mk,Hk)最大的高频信息块Hk,那么由这些Hk拼接而成的高频信息图像的联合概率也最大.联合概率P(Mk,Hk)可表示为
(6)
(7)
图1 算法的总体框图
高频信息H使用高分辨率图像IH与插值放大的低分辨率图像之差表示,即
H=Idiff=IH-Intp(IL) ,
(8)
其中,Intp(·)表示插值运算.对中频信息,通过提取待复原低分辨率的高斯差(Difference of Gaussians, DoG)特征来表示,即M= DoG(IL),其中DoG(·)表示高斯差提取运算.
2. 2 训练库建立
通过图像的自相似性建立训练库,即对低分辨率图像IL进行下采样,将其和其下采样图像ILL作为一个训练库.IL和ILL分别作为训练库中的高、低分辨率图像,ILL可表示为
ILL=(G*IL)↓ ,
(9)
其中,G为高斯核,*表示卷积运算,↓表示下采样运算.
提出一种基于非局部均值的高频信息估计方法,即在训练库中寻找K个最相似的中频系数块,然后根据相似程度计算每个相似块的权重.由于提取的中频信息统计特征服从广义高斯分布,因此,权重计算时,采用广义高斯分布特性.最后根据这些相似块对应的高频系数块和权重重建估计的高频系数.另外,为了降低计算复杂度,加快运算速度,文中采用局部窗口搜索,即将搜索范围限定在一个小的区域内,搜索对应位置的一个局部窗口,而不是全图搜索.这样可以大大减少运算量,对复原的性能影响也不大.
非局部均值平均算法[15]是一种性能优越的图像去噪算法.它的基本思想是利用图像中具有重复结构的性质来抑制噪声,克服传统算法中出现的伪影,提高图像的质量[3].
图像块的值可利用相似块的加权平均来计算,即
K(i)=∑ω(i,j)K(j) ,K(j)∈N(K(i)) ,
(10)
ω(i,j)=exp(-d(i,j)/h2)/Z(i) ,
(11)
(12)
其中,Γ(·)是Gamma函数,α是尺度参数,β的取值决定f(x)的衰减率.对于两个高斯差特征系数块K(j)与K(i)之间的权重ω(i,j),可由式(13)计算.
(13)
其中,广义高斯模型代替了高斯模型,在计算权重过程中涉及到参数α和β的求取.文中采用Do和Vetterli提出的一种最大似然估计[17]: 即使用牛顿-拉夫逊算法估计α和β的值.
算法分为两个主要过程,即训练过程和复原过程.训练过程主要是建立自身训练库.复原过程是利用训练过程获取的信息对低分辨率图像进行复原.训练过程和复原过程的示意图如图2所示.
图2 算法流程图
训练过程如下:
(1) 对IL进行下采样获得其对应的低分辨率图像ILL.
(2) 为了计算方便,将ILL插值放大到与IL相同分辨率,表示为ILE.插值放大可使用双线性插值算法等.
(3) 对IL和ILE分别提取高频差分图像特征和中频高斯差特征,获得高频、中频特征图像FH、FM.
(4) 对高、中频特征图像FH和FM进行重叠分块.
复原过程如下:
(5) 将输入的待复原的低分辨率图像IL进行插值放大,获得放大后的图像ILH.
(6) 计算插值放大后图像ILH的中频高斯差特征图像TM.
(7) 将上一步生成的特征图像TM划分成相互重叠的系数块.
(8) 对于每一个图像块,在FM的对应位置的邻域内寻找与该图像块最相似的K个系数块.并根据式(14)计算每一个相似块对应的权重ωk(i).
(10) 将高频系数块PH(i)拼接为高频特征图像H.
(11) 将估计获得的高频特征图像H与输入的插值放大图像ILH相加,获得高分辨率图像IH.
为了评价文中算法的效果,将文中算法与最近邻插值算法、Cubic B-Spline插值算法、基于稀疏表示的方法[13]、基于灰度值的自相似性方法[12]进行对比.实验中文中方法取相似块数量K=9,控制指数函数的衰减速度的参数h=1,系数块的大小为 5×5, 块与块的重叠长度为2,搜索窗口大小为 7×7.为了评价效果,除了采用主观的视觉评价外,还采用峰值信噪比(PSNR) 、结构相似度(SSIM)作为客观的图像质量评价标准.为了对算法的适应性进行评估,使用了4类图像进行测试,这4类图像即图像处理中的常用图像、遥感图像、视频图像和噪声图像.实验中先对原始图像进行下采样,然后再对下采样的图像进行放大.
文中采用图像处理中常用的图像作为测试图像(大小均为512×512),8幅测试图分别是Lena、Pepper Airplane、Man、Street、Bike、Baboon和Barbara.其中,Pepper图像的实验比较图如图3所示,可以看出最近邻插值算法,Cubic B-Spline方法在放大图像的同时模糊了大部分的图像细节.基于稀疏表示的方法虽然可以复原出大部分图像细节,但约显得模糊;基于灰度值的自相似性方法复原效果不太理想.而文中算法能恢复出图像的细节,其复原结果更逼真.从视觉效果来看,文中算法复原结果与原始高分辨率图像最为相似.表1为不同方法对8幅测试图像的平均PSNR和平均SSIM.可以看出,文中方法的结果具有最高的PSNR和SSIM,这说明文中方法结果最好,客观评价与主观评价结果完全一致.
图3 Pepper图像的实验比较图
实验中系数块的大小和搜索窗口大小对复原图像的性能有一定的影响.系数块大小对性能的影响如图4(a)所示,图中PSNR为8幅测试图像的平均值.可以看出,随着系数块大小的增加,复原的性能在下降.这是由于越小的块,越可能在自相似性训练库中寻找到相似性高的块,因此,复原效果也就越好.搜索窗口大小对性能的影响如图4(b)所示,图中PSNR为8幅测试图像的平均值.可以看出,随着搜索范围的增大,复原的性能逐步提高,但是当搜索范围大于7后,性能的提高速度大大下降.复原的性能不仅不能随着搜索范围的增大而无限增大,而且会增加计算量,因此,选择适中的搜索范围即可.
表1 各种不同方法对常用图像、遥感图像、视频图像、噪声图像放大后结果的平均PSNR、SSIM
图4 参数对性能的影响
这部分实验主要针对遥感图像来分析算法的性能,在实验室中分别对光学遥感图像和SAR遥感图像进行实验.实验中光学、SAR遥感图像各使用10幅,图像分辨率大小都是 256×256.一幅光学遥感和一幅SAR遥感图像的比较结果如图5所示,与上一个实验类似,文中算法效果最好,与原始高分辨率图像最为相似.表1列出不同方法对光学遥感和SAR遥感图像进行复原处理结果的平均PSNR和平均SSIM.文中方法的结果具有最高的平均PSNR和平均SSIM,这说明文中方法结果最好,客观评价与主观评价结果一致.
图5 不同方法对光学遥感图像(第1行)以及SAR遥感(第2行)的比较
这部分实验将对取自于网站“http://media.xiph.org/video/derf/”的视频图像进行测试.测试中使用的视频包括“Harbour”、“Galleon”,“Mobcal”,“Aspen”和“Pedestrian”视频序列.视频图像的分辨率从4CIF到 1 080 p.实验中根据画面的变化随机从这些视频中抽取22帧(幅)图像帧进行实验.获取自”Aspen”视频的一帧图像的比较结果如图6所示.与前面的实验一致,文中算法效果最好,效果清晰,复原出的图像细节,与真实的图像最为相似.表1列出不同方法对测试图像进行复原处理结果的平均PSNR和平均SSIM;与前面的实验一样,文中方法结果最好.
图6 “Aspen”视频的一帧图像的比较(右上角为矩形标注区域的局部放大图)
为了测试文中算法在噪声下的性能,首先对5.1节中的低分辨率图像施加噪声标准差为10的高斯白噪声,然后进行超分辨率放大.表1列出处理结果的平均PSNR和平均SSIM,从具体数据来看,文中方法PSNR 值和SSIM 值都高于其他对比方法,这说明文中方法结果最好.
笔者提出一种基于广义非局部均值和自相似性的超分辨率算法.算法不仅解决了先前的基于学习的超分辨率算法内存消耗较大的缺点,而且提升了超分辨率复原效果.实验结果表明,文中算法对图像取得较好的复原效果.总的来说,算法复原出的超分辨率图像更接近于真实图像,具有更好的主观和客观质量.文中算法不是专门针对噪声图像设计的算法,虽然该算法可以较好地复原出噪声图像的高频信息,使得复原的高频信息几乎不包含噪声,但是并没有消除低频图像中原有的噪声.因此,要想对噪声图像取得较好视觉效果,必须在超分辨率复原的同时消除原有图像中的噪声,这将是下一步的工作.
[1] Chen H, Leou J. Saliency-directed Color Image Interpolation Using Artificial Neural Network and Particle Swarm Optimization[J]. Journal of Visual Communication and Image Representation, 2012, 23: 343-358.
[2] Liu X, Zhao D, Xiong R, et al. Image Interpolation Via Regularized Local Linear Regression[J]. IEEE Transactions on Image Processing, 2011, 20(12): 3455-3469.
[3] Guo K, Yang X, Zha H, et al. Multiscale Semilocal Interpolation with Antialiasing[J]. IEEE Transactions on Image Processing, 2012, 21(2): 615-625.
[4] Van J D. Image Super-resolution Survey [J]. Image and Vision Computing, 2006, 24(10): 1039-1052.
[5] 宁贝佳, 冀峰, 高新波. 具有随机位移的多帧图像超分辨重建快速算法[J]. 西安电子科技大学学报, 2012, 39(1): 105-110.
Ning Beijia, Ji Feng, Gao Xinbo. Fast Super-resolution Reconstruction Algorithms for Multi-frame Images with Random Shifts [J]. Journal of Xidian University, 2012, 39(1): 105-110.
[6] Baker S, Kanade T. Limits on Super-resolution and How to Break Them[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2002, 24(9): 1167-1183.
[7] Freeman W T, Jones T R, Pasztor E C. Example-based Super Resolution[J]. IEEE Computer Graphics and Applications, 2002, 22(2): 56-65.
[8] Wu W, Liu Z, He X. Learning-based Super Resolution Using Kernel Partial Least Squares[J]. Image and Vision Computing, 2011, 29(6): 394-406.
[9] Yang J C, Wright J, Huang T, et al. Image Super-resolution as Sparse Representation of Raw Image Patches[C]//IEEE Computer Society Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2008: 1806-1816.
[10] Wu W, Liu Z, Gueaieb W, et al. Single-image Super-resolution Based on Markov Random Field and Contourlet Transform[J]. Journal of Electronic Imaging, 2011, 20: 023005.
[11] Kawano H, Suetake N, Cha B, et al. Sharpness Preserving Image Enlargement by Using Self-decomposed Codebook and Mahalanobis Distance[J]. Image and Vision Computing, 2009, 27(6): 684-693.
[12] Freedman G, Fattal R. Image and Video Upscaling from Local Self-Examples[J]. ACM Transactions on Graphics, 2011, 30(2): 12-22.
[13] Zeyde R, Elad M, Protter M. On Single Image Scale-Up Using Sparse-Representations [C]//Lecture Notes in Computer Science: 6920. Heidelberg: Springer, 2012: 711-730.
[14] Yang C, Huang J, Yang M. Exploiting Self-similarities for Single Frame Super-Resolution[C]//Proceedings of Asian Conference on Computer Vision: 6494. Heidelberg: Springer, 2010: 497-510.
[15] Heidarzadeh A, Avanaki A N. An Enhanced Nonlocal-means Algorithm for Image Denoising[C]//Proceedings of 2007 9th International Symposium on Signal Processing and Its Applications. Piscataway: IEEE, 2007: 4555487.
[16] 冯象初, 刘涛, 李亚峰. 小波域中的广义非局部平均去噪算法[J]. 西安电子科技大学学报, 2010, 37(5): 941-946.
Feng Xiangchu, Liu Tao, Li Yafeng. Generalized Nonlocal Mean Denoising Research Based on the Wavelet Domain[J]. Journal of Xidian University, 2010, 37(5): 941-946.
[17] Souidene W, Beghdadi A. Image Denoising in the Transformed Domain Using Nonlocal Neighbourhoods[C]//IEEE International Confereence on Acoustics, Speech, and Signal Processing. Piscataway: IEEE, 2006: 869-871.