孙宁康,杨 洋,郑 好
(1.江苏大学 物理与电子工程学院;2.江苏大学 计算机科学与通信工程学院,江苏 镇江 212013)
边缘是图像的本质特征,也是图像信息最丰富的地方,根据边缘可将图像划分为不同区域。因此,边缘为人类提供了最具视觉意义的刺激。当涉及图像或视觉信息元素理解时,人类高度重视与边缘相关的信息推理。基于边缘感知的分析对于解决图像处理受整体光强变化影响的问题具有重要意义。
边缘感知图像处理旨在不破坏图像边缘信息的情况下对图像进行有效处理[1],在计算机视觉、摄影、军事、医疗、安防等领域应用广泛。由于边缘容易突出目标信息,边缘感知图像处理可以简化流程,目前很多图像理解方法均基于边缘实现。目前,国内外学者提出了许多图像边缘感知处理方法,最具代表性的为图像平滑[2-4]、照片风格迁移[5]、图像细节增强[6]、高动态范围(High Dynamic Range,HDR)色调映射[7-9]、去雾[10-11]等。然而,现有边缘感知图像处理方法均有其局限性。例如,当将双边滤波(Bilateral Filter,BLF)[2,4,12]、引导滤波(Guided Filter,GIF)[10]、局部拉普拉斯滤波(Local Laplacian Filter,LLF)[13]等方法应用于图像平滑时容易导致光晕,有时还会出现强度转移的现象。在图像细节增强应用中,L0方法[14]、域变换方法(Domain Transform,DT)[15]则会导致梯度反转和偏色。在HDR 色调映射应用中,侧窗滤波(Side Window Filter,SWF)[16]、自适应流形滤波(Adaptive-Manifold Filter,AMF)[17]等方法会显示出梯度反转和光晕的伪影。在图像去噪中,加权最小二乘滤波(Weighted Least Square Filter,WLS)[6]、梯度域引导图像滤波(Gradient-domain Guided Image Filter,GDGIF)[18]、BLF-LS(Bilateral Filter-Least Squares)[19]等方法均会出现明显的光晕伪影。因此,亟需提出一种新的边缘感知图像处理方法解决上述问题。
边缘感知图像处理方法主要分为传统方法和基于深度学习的方法两种。其中,传统方法包括局部方法和全局方法,大多数局部方法基于局部线性运算实现,而全局方法主要考虑图像的全局属性;基于深度学习的方法通过有监督或无监督的机器学习实现边缘感知图像处理。
1.1.1 局部方法
局部方法主要通过计算局部窗口中的像素值加权平均来得出输出像素值,该过程通常使用各种人工定义的滤波核实现。例如,He 等[10]提出的GIF 法通过设置引导图像指导输入图像进行滤波。虽然速度较快,在除霾和抠图等应用中具有优势,但容易受到光晕的影响;Tomasi 等[12]提出的BLF 法由几何空间距离和像素差两个函数组成,具有去噪效果。虽然BLF 方法是最著名的图像边缘感知处理方法之一,但遗憾的是它不仅运算速度慢,而且容易出现光晕和梯度反转伪影;Gastal 等[15]提出的DT 法通过寻找二维空间到一维空间的等距变换,将二维图像滤波问题转化为多趟一维图像滤波问题。DT 的计算成本不受参数影响,一维算法极大减少了存储负担,但仍然受到梯度反转伪影的困扰;Yin 等[16]提出的SWF 法在计算像素时将窗口的边或角与所需计算的像素对齐,提高了边缘感知性能,在图像上色方面有较好效果,但偶尔存在梯度反转的问题;Li 等[20]将边缘感知权重添加到GIF 中得到加权引导滤波器(Weighted Guided Filter,WGIF),一定程度上提高了保边能力,但运行效率降低,且光晕伪影问题仍未解决;Paris 等[21]提出的LLF 法采用拉普拉斯金字塔实现边缘感知,其是一种在细节增强应用中有效去除光晕现象的非线性局部方法,然而该方法运行时间过长。为此,Aubry等[13]提出一种快速拉普拉斯方法提高算法执行效率,但仍存在强度漂移问题。
1.1.2 全局方法
全局方法从全局属性出发,通过求解优化模型间接处理图像。该类优化模型主要包括数据项和正则化项。数据项通常采用L2范数,而正则化项主要为L0范数、L1范数和L2范数。与局部方法相比,全局方法通常效果更好,但执行效率较低。例如,Farbman 等[6]提出的WLS 是一种使用L2范数的多尺度图像分解方法,在HDR 色调映射和细节增强方面具有优势,然而其计算负担较重;Xu 等[14]提出的梯度L0正则化方法利用半二次分裂方法对模型进行求解。该方法具有较好的边缘保持效果,几乎没有光晕伪影,但存在严重的梯度反转和强度漂移问题;Liu 等[19]提出的BLE-LS 方法所用优化框架的正则化项为L2范数。该方法在最小二乘模型中加入BLF 法,虽然速度比大多数全局方法要快,但图像平滑效果并不理想;Li 等[20]提出一种基于拉普拉斯金字塔的混合域边缘感知图像处理方法,其在对每一级像素域使用非线性滤波器组的基础上采用全局优化方法进行综合处理。该方法高效且易于实现,但有时会导致振铃效应或色调偏差;Min 等[22]基于WLS 提出一种通过求解一系列一维子系统来计算大型稠密线性系统解的快速方法,计算速度大幅提高;Xu 等[23]提出相对总变分的概念,并将其作为正则项嵌入到一个优化模型中。当边缘的比例和形状与基本纹理的比例和形状不同时,该方法能够较好地去除纹理。然而,一旦图像中的纹理和边缘容易混淆,许多需要保留的结构便会被错误地平滑掉。
深度学习的最终目标为让机器像人类一样学习。当给出新的输入时,机器将通过训练自动生成正确结果。基于深度学习的方法比传统方法复杂,但也能产生更好的结果。例如,Xu 等[24]提出一种采用梯度域训练的深度边缘感知滤波器(Deep Edge-Aware Filter,DEAF),成功模拟了许多传统滤波器,获得了较高精度,但其模糊程度不可调;Chen 等[25]提出一种以多尺度上下文聚合网络(Context Aggregation Network,CAN)为突出架构的全卷积网络(Fully Convolutional Network,FCN)来加速图像处理,获得了更高的精度,应用前景广泛;Tomasi 等[26]在FCN 中加入可训练的引导滤波层,形成一种新的深度FCN,称为深度引导滤波(Deep Guided Filter,DGF)。该方法可在低分辨率下处理图像,并通过引导上采样恢复分辨率,有效提高了图像处理效率,然而上采样会降低边缘感知图像处理质量。
深度学习方法处理速度快,可以得到与传统方法相同甚至更好的结果,但缺乏灵活性。换言之,其很难通过训练一个网络实现不同的模糊程度,通常需要训练多个模型,耗时耗力。为此,本文提出一种新的边缘感知图像处理方法,主要创新点为:①提出一种新颖的梯度映射函数。该函数可有效且灵活地对梯度进行边缘感知处理,即其可以对小梯度进行处理而不影响大梯度,从而适用于计算机图形学领域的多种应用;②提出一种基于梯度域L2正则化的重构模型,用于边缘感知图像处理。该模型从梯度域重构图像,显著减轻了梯度反转和光晕伪影,且可以在傅立叶域内进行快速求解。实验结果证实了本文方法在图像细节增强、HDR 色调映射等方面的优越性。
本文方法与Aubry 等[13]提出的LLF 方法相关。该方法将图像中的像素划分为细节或边缘分量,以边缘感知的方式对图像进行处理。基于类似拉普拉斯金字塔的方法重建图像虽然运行时间较慢,但在细节增强应用中不易出现梯度反转。与LLF 方法不同,本文方法不使用拉普拉斯金字塔,而是基于梯度的映射函数,利用全局优化模型重构图像。相比之下,本文方法不容易出现强度漂移伪影,而这正是LLF 亟待解决的问题。
本文方法与Liu 等[19]提出的BLE-LS 方法相关,虽然二者目标均为利用最优化模型从梯度域重构图像,但BLE-LS 对梯度处理的方式为进行局部保边滤波,不能保证梯度顺序的连续性和正确性,容易出现梯度反转和光晕伪影。而本研究通过映射函数,在保持边缘的前提下处理方式更加灵活高效。
本文方法与Min 等[22]提出的快速全局图像平滑方法相关。该方法基于WLS 法重点研究了由数据项和正则化项组成的优化模型;同时考虑输入信号和引导信号,通过求解一维全局线性子系统迭代求解d个三点拉普拉斯矩阵,可以合理地逼近原始线性系统的解。其所需运行时间与局部保边滤波相近,并且避免了许多与局部滤波方法相关的问题。因此,本文将图像的梯度域划分为x方向和y方向分别进行计算。一维图像计算比二维图像更简单,无需关注二维图像中四领域或八领域的概念,直接通过处理两个方向的梯度即可重建图像,更加方便快捷。
梯度是图像边缘的直观表示,其中梯度大的为边缘,梯度小的为平坦区域。因此,本研究基于梯度重构进行边缘感知图像处理,主要分为两个步骤:①使用本文提出的映射函数处理图像梯度;②最小化目标函数,根据修改后的梯度重建图像。
在进行图像平滑时给定一个输入图像,并对图像的梯度进行压缩。计算公式为:
式中:∂(I)为输入图像的梯度,σ为划分梯度处理范围时设置的阈值。当|∂(I)| <σ时,梯度被压缩为较小的值;当|∂(I)| ≥σ时,梯度保持不变。符号sign(·)为用于计算正负的函数;α为控制压缩程度的变量,用于图像平滑时取α>1。
本文所提梯度压缩映射函数的示例如图1 所示。研究表明,采用不同参数不会改变梯度的相对顺序,意味着该映射函数不会导致梯度反转伪影。
Fig.1 Example of gradient compression mapping function图1 梯度压缩映射函数示例
在进行细节增强时,将式(1)中的α设置成α<1 可以放大梯度。当|∂(I)| <σ时,梯度被放大为较大的值;当|∂(I)| ≥σ时,梯度保持不变。此时,α为一个控制增强的变量。用于图像细节增强的映射函数如图2所示。
Fig.2 Mapping function for image detail enhancement图2 用于图像细节增强的映射函数
Fig.3 Detail enhancement results图3 细节增强结果
最常用的细节增强方法为将图像划分为基本层和细节层,然后将n倍的细节层叠加到基础层以获取细节增强图像。与该方法不同,本文方法不需要划分基本层和细节层,通过直接操作梯度即可获得良好的细节增强效果。图3(彩图扫OSID 码可见,下同)给出了本文处理方法得出 的细节增强结果。
在处理后梯度的基础上,通过最小化以下目标函数进行图像重建:
式中:u为输出图像,I为输入图像;s为图像中特定像素的位置;∇ux,s和∇uy,s分别为输出像素s在x方向和y方向上的梯度;∇Ix,s和∇Iy,s分别为输入像素s处理后在x方向和y方向的梯度;λ为控制数据项和惩罚项的比例,该值越大,输出图像的梯度越接近处理后的梯度。当λ为0 时,图像不会平滑,输入图像为输出图像。
引入快速傅立叶变换(Fast Fourier Transform,FFT)对式(2)进行求解[27-28]。该方法将所有复杂的矩阵运算转化为简单的点运算,大幅提高了求解优化问题的效率。
首先将式(2)写为以下向量形式:
取式(3)的偏导数并将其设置为零,可以得到:
最后得到u的解为:
基于FFT,则式(5)中的模型可通过下式求解:
式中:F(·)和F-1(·)分别为FFT 和快速傅立叶逆变换(Inverse Fast Fourier Transform,IFFT)的算子;-----F(⋅)表示F(·)的复共轭,F(1)=1。
算法总体步骤为:
本文方法包含α、σ、λ3 个参数。其中,α为映射系数,用于控制梯度压缩或放大程度的大小。在进行图像平滑时,根据每个图像的不同属性,α的取值通常在2~4 之间,在大多数情况下,α=2 时效果最好。当进行图像细节增强时,α的取值范围为0.5~0.7。σ为边缘阈值,主要由图像的特定梯度值决定,取值范围为0~2。λ为惩罚系数,当其值足够小时,输出图像几乎与输入图像一致,即未进行任何处理;当其值足够大时,输出图像梯度几乎与映射后的梯度一致。
图像平滑是最基本的图像处理操作之一。边缘感知图像平滑通常被用于提升图像的视觉效果,或作为图像处理任务的预处理步骤。例如,一些图片存在噪声干扰而导致图像质量不高时,使用图像平滑可以去除或抑制噪声,提高图像质量。同时,在处理复杂图像时,图像平滑可以提取到图像细节的主要结构。本文方法使用梯度压缩方法过滤图像中不重要的梯度,即梯度值较小的部分,以便在保持边缘的同时达到平滑细节的效果。梯度压缩方法可以降低图像中的突变,使图像亮度平缓过渡,且降低了梯度反转伪影的可能性。
为证明本文所提映射函数及其优化框架的优点,对根据该映射函数得到的梯度重建图像与根据BLE-LS 中双边滤波得到的梯度重建图像进行比较分析,结果见图4。同时比较本文优化模型重建图像和LLF 方法中拉普拉斯金字塔重建图像的效果,结果见图5。
Fig.4 Comparison between the method proposed and the BLE-LS method图4 本文方法与BLE-LS方法比较
Fig.5 Comparison between the method proposed and the LLF method图5 本文方法与LLF方法比较
由图4 可以看出,在相同的λ参数下,本文方法很好地保持了图像边缘(见墙面);而BLE-LS 方法中的小参数不能平滑图像细节,大参数不能保持图像边缘。由图5 可以看出,在相同程度的梯度压缩下,本文方法不存在灰度漂移问题,而LLF 方法不能很好地平滑图像,其结果均存在严重的强度漂移现象,表现为整体图像的偏色。
将本文方法应用于多种边缘感知图像处理任务,包括图像细节增强和HDR 色调映射,以验证其有效性。所有实验均在配备Intel i7-6700 CPU、NVIDIA GeForce 1070 GPU 和16 GB RAM 的台式机上进行。
本文选择的对照方法包括局部方法、全局方法和深度学习方法,具体信息如表1 所示。需要注意的是,深度学习方法是端到端的,因此并无参数可调。现有图像质量评价方法大多为定性分析,与人的主观评价有关,需要大量训练样本和评分员,且个人标准不一,每张照片得分差异较大。因此,本文采用两种无参考图像质量评估(Image Quality Analysis,IQA)方法,即SSEQ(Spatial Spectral Entropy-based Quality)和ILNIQE(Integrated Local Natural Image Quality Evaluator)对实验结果进行定量分析,更具客观性和通用性[29-30]。SSEQ 是一种基于局部空间与谱熵特征的模型,其评价结果与人类对图像质量的主观看法一致;ILNIQE 方法采用韦伯定律提取图像的结构信息,耗费时间少,具有更好的质量预测效果。以上两项指标得分越低,图像处理质量越好。
Table 1 Specific information on comparison methods表1 对照方法具体信息
与图像平滑不同,图像细节增强的目的是强调图像的细节部分或受众感兴趣但不够清晰的部分。细节增强通常将图像分解为基本层和细节层,其中基础层包含图像结构,细节层包含图像细节。在细节增强任务中,梯度反转和光晕伪影是首要解决的问题。此外,一些方法还会引起图像颜色的变化。目前,最常见的细节增强方法为将n倍的细节层叠加到基本层上。本文研究略有不同,直接使用映射函数处理后的梯度重建图像。
图6 为本文方法与对照方法的图像细节增强定性比较。从绿色图像块中可以看出,GIF、WLS 和IC 图像细节增强结果中存在光晕伪影;从蓝色图像块中可以看出,L0、SWF、DEAF 和CAN 图像细节增强结果均受到梯度反转伪影的影响;而DGF 未能有效对图像进行细节增强。本文方法得出的细节增强结果没有任何伪影,效果较好。表2 中的定量分析结果证实了该结论。
Table 2 Quantitative analysis results of image detail enhancement表2 图像细节增强定量分析结果
Fig.6 Qualitative comparison of image detail enhancement图6 图像细节增强定性比较
HDR 色调映射是一种在不破坏图像细节的情况下在低动态范围(Low Dynamic Range,LDR)显示设备中显示HDR 图像的技术。HDR 图像的动态范围远大于LDR 显示设备的动态范围,因此通常不能将HDR 图像直接展示到LDR 显示设备上,否则会出现过曝和欠曝区域,导致细节丢失。
本文采用Durand 等[8]提出的HDR 色调映射方法框架,首先将HDR 图像取对数,然后采用保边滤波器将对数图像分解为基础层和细节层,最后将基础层压缩并叠加到细节层上得出最终的HDR 色调映射结果。保边滤波器的选择对于图像处理结果有很大影响,不合适的保边滤波器会导致梯度反转和光晕伪影。本文采用的保边滤波方法亦可有效用于该HDR 色调映射框架。
图7 为本文方法与对照方法的HDR 色调映射定性比较。可以看出,BLF、GDGIF、LLF、BLE-LS 图像处理结果均有明显的光晕伪影;DEAF 和CAN 图像处理结果也显示出梯度反转伪影(主要在沙发上),其中CAN 还呈现出不自然的纹理;DGF、CAN、LLF 图像处理结果均呈现出一种雾蒙蒙的观感。表3 为定量分析结果,可以看出本文方法优于除DEAF 方法以外的其他对照方法。
Table 3 Quantitative analysis results of HDR tone mapping表3 HDR色调映射定量分析结果
Fig.7 Qualitative comparison of HDR tone mapping图7 HDR色调映射定性比较
表4 为本文方法与对照方法对不同分辨率图像的处理时间比较。FFT 的时间复杂度为O(NlogN),N为像素个数,因此本文方法具有较快的执行速度。作为全局方法,本文方法比表中其他全局方法都要快。局部方法通常具有较高的效率,但本文方法仍然比除LLF 以外的局部方法方法更快。此外,深度学习拥有出色的运行速度,而本文方法比DEAF 更快,可以与CAN 的速度相媲美。
Table 4 Comparison of image processing times for different methods表4 不同方法图像处理时间比较(s)
本文提出一种基于梯度域L2正则化的重构模型用于边缘感知图像处理,并使用FFT 对所提模型进行求解,大大加快了运算速度,处理一张100 万像素的图像仅需要0.46 s。同时通过定性以及定量图像质量评估,验证了本文方法优于现有多种边缘感知图像处理方法。本研究的不足之处在于:①不适用于需要引导滤波的应用场景,如Flash/Non-flash 融合;②只能平滑小梯度的细节,无法平滑具有大梯度的纹理。后续拟开展更多研究使该方法支持引导滤波和纹理滤除。