韩昊男,钱 锋,吕建威,张 葆*
(1.中国科学院 长春光学精密机械与物理研究所,吉林 长春130033;2.中国科学院大学,北京100049)
近年来,由于大气污染,雾天出现频繁,户外成像系统会无法避免地受到雾的限制[1],导致获取到的图像出现可视性差,颜色偏移[2]等现象,这将严重影响到图像的可视性和适用性[3-4]。为了在雾天能获取到令人满意的图像,从而进一步处理图像信息,研究人员提出了很多图像去雾算法。因此,如何对去雾后的图像质量进行评价,以便指导算法择优或是进一步迭代改进,成为一个重要的问题,具有非常重要的应用价值。
图像去雾算法质量评价一般有两种策略[5-6],一种是对于真实有雾图像进行无参考质量评价,另一种是对于合成有雾图像进行全参考质量评价,两种策略途径如图1所示。经对比可知,无参考质量评价不需要额外的参考图像,是一种比较理想的评价方式,如图1右侧所示。但由于图像去雾是一个比较复杂的过程,在去除雾的同时还会导致其它的图像变化,例如伪轮廓、颜色畸变等等。因此,使用无参考质量评价来评估图像去雾算法并不可靠。
一些研究人员使用无雾图像人工合成有雾图像,将去雾图像作为测试图,并将无雾图像作为参考图来进行全参考质量评价,如图1左侧所示。许多文献都遵循这种策略,并利用一些基础的全参考图像质量评价方法如峰值信噪比(PSNR)[7]和 结 构 相似性(SSIM)[8]进行 评 估。由于提供了参考无雾图像,因此比较容易进行全参考质量评价,这种策略也越来越被广泛接受。
图1 去雾算法质量评价策略Fig.1 Strategies for dehazing algorithms quality assessment
然而,针对去雾方法的质量评价与传统的全参考质量评价有所不同。去雾算法的本质是对图像的增强和复原,对图像的质量有显著的提升。对于某些图像而言,去雾后图像可能会比参考图像具有更好的图像质量。但传统的全参考质量评价的本质是度量待测图像与参考图像之间的相似性,因此针对测试图像质量更高这种正偏移情况是无效的。如图2所示,去雾图像和参考无雾图像之间有明显差异,但去雾图像质量不低于无雾图像。
图2 去雾后图像可能与无雾图像相似度量不稳定Fig.2 Dehazed image may have an unstable similarity metric to the haze-free image
为了解决上述的问题,本文提出了一种由图像可视性、结构相似性和颜色恢复度共同组成的一种去雾方法质量评价。图像可视性是用来衡量去雾前后图像的清晰度变化。由于去雾算法在去雾过程中可能会产生一些不良的“人工效应”,例如伪轮廓和颜色偏移等现象,所以加入了结构相似性和颜色恢复度这两项,这三部分共同组成了去雾方法质量评价。最后在合成图像数据集中验证了所提出的去雾方法质量评价的有效性。
在计算机视觉领域中,一般通过大气散射模型[9-11]来描述有雾图像的形成:
其中:x是像素坐标,I(x)是有雾图像,J(x)是无雾图像,A是全局大气光。在均匀的大气条件下,透射率t(x)可以表示为:
其中:β是大气散射系数;d(x)表示场景到成像系统的距离,即景深;直接衰减项J(x)t(x)描述了从场景反射光经过传输过程中由大气散射作用产生的直接衰减;大气光成像项A(1-t(x))描述了周围大气光经过大气散射作用参与到成像的过程。
近年来很多去雾算法已经被提出。Fattal等[12]提出了一种基于物体表面阴影和透射率不相关假设来估计透射率和大气光的方法。Tarel等[13]提出一种基于中值滤波的方法来恢复得到去雾图像。He等[14]通过统计观察发现暗通道理论。暗通道先验已经取得了显著的去雾效果,后续科研人员提出了许多基于暗通道先验的去雾算法。Nishino等[15]利用贝叶斯概率的方法估计出场景反射率和景深,根据物理模型得到去雾图像。Zhu等[16]通过统计观察发现景深和亮度、饱和度之间存在线性关系,提出了颜色衰减先验。Berman等[17]通过实验发现无雾图像在RGB空间中会聚类成簇,而在有雾图像中会聚类成“雾线”,提出了非局部先验。Cai等[18]、Ren等[19]和Li等[20]将图像相关特征与神经网络相结合来进行去雾。
在第一节中已经对去雾方法质量评价所采用的策略进行了概述,接下来简要介绍几种主流的全参考图像质量评价指标。均方误差(MSE)和PSNR[7]是图像处理领域应用最广泛的性能指标,简单易用速度快,但与人类感知相关性较差。Wang等[8]认为人类视觉感知能自适应从视觉中提取结构信息,因此利用亮度、对比度和结构信息提出了SSIM。在Wang等[21]的后续工作中,在SSIM中引入了多尺度,提出了MS-SSIM。Zhang等[22]认为人类视觉系统主要基于图像的低级特征来理解图像,并结合相位一致性、梯度特征和色度特征提出了FSIM。后来他们用显著图替换了相位一致性特征,提出了一个视觉显著性指标VSI[23]。Liu等[24]认为梯度保护重要的视觉信息,提出了梯度相似性(GSM)。Xue等[25]发现梯度图对图像失真敏感,失真图像不同结构的质量下降程度不同,他们用标准差来代替均值,提出了梯度相似性偏差(GMSD)。Nafchi等[26]结合梯度相似性、颜色相似性和偏差池化提出了平均偏差相似指标(MDSI)来评价图像质量。Yang等[27]利用对比敏感度函数来分配不同频段的权重,充分利用了单演信号理论和Log-Gabor滤波器,同时引入了梯度相似性,提出了一个基于里斯变换和视觉对比敏感度的特征相似性指标(RVSIM)。Layek等[28]考虑到人类视觉系统的中心偏差,提出了一种结合视觉显著性和对比度的全参考图像质量指标CEQI。Shi等[29]通过两个色貌指标构建了视觉显著性,并结合梯度相似性和色度相似性,提出了一个全参考图像质量评价指标VCGS。尽管已经提出了许多图像质量评价方法,但正如第一节所言,去雾方法质量评价和图像质量评价不同,图像质量评价的结果可能与人类主观视觉感受并不一致,为了解决该问题,本文提出了一种可靠有效的去雾方法质量评价。
首先对去雾后可能引入的一些图像质量问题进行分析。图3对几种去雾后图像出现的典型质量问题进行了分类,包括图像可视性差、伪轮廓导致的结构破坏和颜色偏移。针对去雾后可能的这三类典型质量问题,通过图像可视性、结构相似性和颜色恢复度进行评价。
图3 几种典型的图像去雾质量问题(上图是有雾图像,下图是去雾图像)Fig.3 Several typical image dehazing quality problems(the above figures are hazy images,the following figures are dehazed images)
去雾算法在对浓雾图像进行去雾处理时,去雾后的图像可视性较差。考虑到全参考一般图像质量评价和全参考去雾算法质量评价之间的差异,提取了图像清晰度相关特征,并对其进行了一些修改,提出了图像可视性评价。
经过研究发现[30],由于雾的存在会导致有雾图像整体偏向灰白色,并且雾的浓度越高,图像整体会越偏向灰白色,即有雾图像的局部均值μ较大,而局部标准差σ较小,图像清晰度较低。因此得到了图像清晰度相关特征:其中:(i,j)是像素坐标,ε1是一个常数来避免不稳定性,ω是局部高斯权重函数,Y是亮度分量。
参考无雾图像和去雾图像的清晰度相关特征的相似性为:其中:ξr是参考无雾图像的清晰度相关特征,ξd是去雾图像的清晰度相关特征,ε2是一个常数来避免不稳定性。
如图4所示,一些去雾算法对有雾图像进行处理时会通过降低图像亮度,提升图像对比度来增强图像。在这种情况下,会使得μr>μd,σr<σd,其中μr,μd和σr,σd分别是参考无雾图像和去雾图像的局部均值和标准差。虽然去雾图像清晰度较高,但直接对比参考无雾图像和去雾图像清晰度相关特征,其相似性较低,将参考无雾图像作为质量评价的绝对标准并不准确。因此通过修正去雾图像的μd,σd来解决这个问题。
图4 去雾后图像清晰度较高情况下的相关特征图Fig.4 Relevant feature maps in the case of high image clarity after dehazing
其中:μ'd和σ'd分别是去雾图像修正后的局部均值和标准差,sm和sv分别是参考无雾图像Jr与去雾后图像Jd的均值相似性和方差相似性,ε3和ε4是常数来避免不稳定性。通过参考无雾图像Jr和去雾后图像Jd的均值相似性和方差相似性来对去雾后图像的均值和方差进行自适应修正。当μr>μd和σr<σd时,修正后的局部均值μ'd和标准差σ'd与局部均值μr和标准差σr更接近。修正后的去雾图像清晰度相关特征为:
则图像可视性由参考无雾图像和修正后的去雾图像的清晰度相关特征的相似性来表示:
采用式(7)和式(8)对测试图像质量更高的这种正偏移情况进行了修正,消除了图像清晰度相关特征的相似性对正偏移情况的负向评价影响。由图4所示,图4(j)展示了使用修正后的清晰度相关特征对图4(a)、图4(b)的相似性评价结果,与修正前的结果图4(i)相比可知,图4(j)的残差更小,表明对待测图像质量正偏移的影响具有明显的抑制作用。
图像结构信息可以作为表征图像质量变化的一项指标,所以在许多客观评价方法中得到了应用。图像梯度是通过计算像素强度差异得到的,能适当地描述局部结构的改变。图像梯度已用于许多图像评价中,例如梯度是FSIM[22]和GSM[24]等中的一个主要特征。因此,利用梯度信息来描述图像结构的变化,采用Prewitt算子来提取图像的垂直Gv和水平梯度Gh。图像梯度大小计算为:
参考无雾图像Gr和去雾后图像Gd之间的梯度相似性为:
其中:Gr和Gd分别表示参考无雾图像和去雾后图像的梯度大小,ε5是一个常数来避免不稳定性。
然而,结构过度增强带来的伪轮廓现象,如图5所示,也是一种重要的失真。伪轮廓现象可以由梯度相似性来描述,但是其对于伪轮廓的描述能力较弱。对于人类视觉系统而言,虽然伪轮廓区域仅占图像整体的较小部分,但伪轮廓现象比纹理区域过度增强的损害更大。因为伪轮廓会引入较大的方差变化,所以使用方差相似性来描述伪轮廓现象。
图5 去雾图像伪轮廓导致的结构破坏以及其相关特征图Fig.5 Structural damage caused by pseudo contours of dehazed image and several relevant feature maps
图5对比所示,梯度相似性sG更好地展示了纹理区域的图像结构相似性,而方差相似性sv更好地展示了伪轮廓区域的结构相似性。因此,结构相似性由梯度相似性和方差相似性组成:
颜色信息也是图像质量评价的重点之一[22]。由于去雾算法可能会导致色彩偏移,如图6所示,因此须引入颜色恢复度评价。为降低颜色分量之间的相关性,将RGB图像转换到YIQ颜色空间:
Ir,Id和Qr,Qd是参考无雾图像Jr和去雾后图像Jd两个色度分量。通过两个色度分量来计算图像的颜色恢复度:
其中:ε6是常数来避免不稳定性。如图6所示,颜色恢复度c很好地展示了图像的颜色偏移情况。
图6 去雾图像颜色偏移和颜色恢复度图Fig.6 Dehazed image color shift and color recovery maps
最终的去雾方法质量评价体系A由图像可视性f、结构相似性s和颜色恢复度c共同组成:
其中,归一化因子N表示图像像素总数。
为了测试提出的去雾方法质量评价体系的有效性,首先构建了合成有雾图像数据集,然后对合成有雾图像数据集进行了主观评价,最后利用合成有雾图像数据集对几种当前的全参考图像质量评价进行对比实验。
从RESIDE[5],NYU 2[31]和Middlebury Stereo[32-33]中收集了100幅无雾图像和相应的深度图。利用大气散射模型(1)式和(2)式来合成有雾图像。接下来用8种当前的去雾算法对合成后的有雾图像进行处理得到去雾图像,这8种去雾算 法 分 别 是He[14]、Tarel[13]、Nishino[15]、Zhu[16]、Berman[17]、Cai[18]、Ren[19]、Li[20],一 共 获 得800幅去雾后的图像。参考无雾图像、合成有雾图像和去雾图像共同组成了合成图像数据集。图7展示了几组参考无雾图像与其对应的合成有雾图像。
图7 数据集中参考无雾图像和对应的合成有雾图像的示例Fig.7 Examples of reference haze-free images and corresponding synthesized hazy images in the dataset
首先对合成图像数据集进行主观质量评价实验。除了去雾图像以外,还展示了有雾图像和无雾图像作为参考。由于好的去雾算法不仅仅要图像清晰,并且还要保留原有图像的信息。所以测试人员对图像可视性和图像信息保留程度进行衡量,对去雾图像进行总体打分,得到平均意见得分(MOS)。
接下来将提出的去雾方法质量评价体系与11种主流的全参考图像质量评价方法进行比较,包 括PSNR[7],SSIM[8],MS-SSIM[21],FSIM[22],
VSI[23],GSM[24],GMSD[25],MDSI[26],RVSIM[27],CEQI[28]和VCGS[29]。这些 全 参 考图像质量 评 价方法均使用原文中作者提供的参数和设置。
为了对图像质量评价体系的质量评价能力进行量化,本文将使用国际视频质量专家组(VQEG)[34]提出的以下三个指标——皮尔森线性相关系数(PLCC)、均方根误差(RMSE)和斯皮尔曼等级相关系数(SRCC)——作为评估图像质量评价的判断依据,分别评估主、客观评价之间的线性相关性、预测精度和等级相关性。
在计算PLCC和RMSE之前,首先需要对主观评价值和客观评价值之间进行非线性映射处理。使用在图像质量评价领域普遍应用的五参数Logistic函数非线性映射客观评价值r:其中:β1、β2、β3、β4和β5是通过非线性回归处理得到的模型参数,从而最大化主观评价值和客观评价值之间的相关性。则皮尔森线性相关系数PLCC的定义如下:
其中:qi是非线性回归后第i幅去雾图像质量的客观评价值,qˉ是全部qi的平均值,oi是第i幅去雾图像质量的主观评价值,oˉ是全部oi的平均值,M是去雾图像的全部数量。PLCC值越大,表明该方法的线性相关性越好。
均方根误差RMSE定义如下:
RMSE值越小,表明该方法的预测精度越高。
斯皮尔曼等级相关系数SRCC的定义如下:
其中,d i是第i幅去雾图像主、客观评价值等级的差值。SRCC值越大,表明该方法的等级相关性越好。
表1展现了全参考图像质量评价的性能比较结果。本文提出方法的SRCC值为0.880 4、PLCC值为0.919 9、RMSE值为0.120 5,各项指标均优于其它的全参考图像质量评价方法。表明提出的方法无论是等级相关性、线性相关性还是预测精度都表现出了最佳性能。这证实了先前的分析,即全参考去雾质量评价不等同于全参考图像质量评价。
表1 全参考图像质量评价方法在合成有雾图像数据集上的性能比较Tab.1 Performance comparison with full reference image quality assessment methods on synthetic hazy image datasets
图8展示了使用合成图像数据集对典型的全参考图像质量评价与主观评价之间的一致性测试结果。由图可知,相比于其它方法而言,本文方法的散点在拟合曲线附近更加聚集,表明提出的方法与主观评价一致性更高,这与表1所示的测试结果相吻合。
图8 提出的方法和典型的全参考图像质量评价方法在合成有雾图像数据集上的散点图(不同形状和颜色的散点代表不同的去雾算法,黑线是用五参数Logsitic函数拟合的曲线)Fig.8 Scatter plots of proposed method and the state-of-the-art full reference image quality assessment methods on synthetic hazy image datasets(different shapes and colors of the scatter points represent different dehazing algorithms,and the black line are the curve fitted with the five-parameter logistic function)
对于去雾图像质量评价而言,如果有准确又可靠无参考质量评价是最理想的方法。但有研究[35]发现,目前,无参考图像质量评价方法并不适用于评价去雾图像。为了证实这一点,在合成图像数据集上测试了一些主流的无参考质量评价方法,包括FADE[30],盲评价[36]的三个指标e、r和σ,BIQME[37],DHQI[38],BRISQUE[39],dip IQ[40],MEON[41],BPRI[42]和BMPRI[43],并 在表2中展示了它们的性能。实验结果表明,无参考图像质量评价方法无法有效地对去雾图像质量进行评价,这与文献[35]中的研究结果一致。
表2 无参考图像质量评价方法在合成有雾图像数据集上的性能比较Tab.2 Performance comparison with no reference image quality assessment methods on synthetic hazy image datasets
分别独立测试了去雾方法质量评价体系中的图像可视性、结构相似性和颜色恢复度三个部分,在表3中展示了它们的性能表现。从实验结果的SRCC、PLCC和RMSE这三个指标可以看出,无论是等级相关性、线性相关性还是预测精度,去雾方法质量评价均比图像可视性、结构相似性和颜色恢复度更好。
表3 去雾方法质量评价体系中图像可视性f、结构相似性s和颜色恢复度c的性能比较Tab.3 Performance comparison of image visibility f,structural similarity s and color recovery c in the dehazing method quality assessment system.
最后测试了所有全参考质量评价的运行时间,并在表1中展示了平均运行时间。这些算法在已装有MATLAB R2017a的Intel Core i5-7400 CPU@3.0 GHz和16 GB RAM的计算机上进行了测试。从表1中可以看出提出的方法具有较低的计算复杂度。
本文将去雾算法引入的质量劣化问题归纳为图像可视性差、伪轮廓导致的结构破坏和颜色偏移三类。针对全参考去雾方法质量评价和全参考一般图像质量评价之间的差异,提出了图像可视性度量。针对去雾处理引入的伪轮廓现象,在梯度相似性的基础上结合了方差相似性,共同组成了结构相似性。针对颜色偏移现象使用颜色恢复度进行描述。最终结合图像可视性、结构相似性和颜色恢复度共同构建新的评价体系。
通过构建的合成图像数据集对该评价方法和当前其它典型方法进行对比实验。实验结果表明,与现有的图像质量评价方法相比,去雾方法质量评价无论是等级相关性、线性相关性还是预测精度都表现更优,与主观评价一致性更高,对未来去雾算法的研究工作具有重要的意义。