基于颜色名称的彩色图像质量评价

2022-01-27 09:53张选德

液晶与显示 2022年1期

马畅，张选德

(陕西科技大学电子信息与人工智能学院，陕西西安 710021)

1 引言

IQA是图像处理领域的基本问题之一，且在图像压缩、视频通讯、图像恢复等众多问题中有着十分重要的应用。例如：图像压缩中需要在图像质量和压缩率之间作均衡，视频通讯中需要对图像质量进行实时监控，而图像恢复系统中也需要一个合适的图像质量指标对其性能进行评价。IQA的研究目标在于利用数学模型来模拟人类视觉系统(Human Vision System，HVS)对图像质量的感知和评价过程，构建同主观评价尽可能一致的客观图像质量指标[1]。根据参考图像的可用性，图像质量评价可以分为3种类型：全参考(Full-Reference，FR)、部分参考(Reduced-Reference，RR)和无参考(No-Reference，NR)[2]。本文针对全参考图像质量评价进行研究，构建彩色图像质量评价模型。

当前大多数图像质量评价算法都是针对灰度图像设计的，如SSIM(Structure SIMilarity)[3]，GMSD(Gradient Magnitude Similarity Deviation)[4]等，而彩色图像质量评价方面的工作相对较少。Li Leida等人提出了基于稀疏表示和重构残差的彩色图像质量评价(Sparse Representation and Reconstruction Residual，SRRR)算法[5]，使用自然彩色图像训练的过完备颜色字典表示参考图像和失真图像，构造两个特征图度量图像的结构和颜色失真，计算重构残差度量图像的对比度变化，还引入亮度相似性以得到彩色图像的最终质量得分。Jens Preiss等人[6]提出了一种使用彩色图像差异(Color Image Difference，CID)作为目标函数来优化色域映射的算法，在解决传统色域映射算法生成图像中包含各种视觉伪像问题的同时给出了改进的彩色图像差异(Improved Color Image Difference，ICID)指标，提高了对彩色图像质量的预测性能。Dogancan Temel和Ghassan AlRegib提出基于多尺度和多通道误差表示的频谱理解的图像质量评价(Spectral Understanding of Multi-scale and Multi-channel Error Representations，SUMMER)算法[7]，该方法关注误差图像(参考图像与失真图像之差)的幅度谱，解决了灰度图像的光谱统计量忽略了的颜色信息以及HVS的选择性和层次性的问题。Sun Wen等人提出基于超像素的图像质量评价(SuperPixel-Based SIMilarity，SPSIM)算法[8]，基于感知上有意义的超像素图像块计算亮度、色度和梯度相似度，根据梯度区域一致性来进一步调整这3个特征，最后用纹理复杂度作为池化阶段的加权函数，得到了与主观评分较高的一致性。

对于彩色图像，我们不能将其简单地转到灰度域进行评价，而是要引入颜色特征来度量图像的色彩变化，以提高算法对彩色图像质量的评价性能。一种直观的彩色图像质量评价方法是在颜色通道中计算逐像素的保真度，如PerSIM(Perceptual SIMilarity)[9]和FSIMc(Feature SIMilarity extend to Color)[10]，但是各个颜色通道之间的差异未必对应于颜色之间的感知差异。从人类感知的角度来看，通常颜色空间不是均质(Homogeneous)的度量空间[11]，因此彩色图像质量评价研究中不应对各个颜色通道作分离处理，而应着眼于整体感知的颜色并计算颜色差异。从根本上讲，彩色图像质量评价的关键在于建立与HVS色彩感知能力相一致的色彩描述与量化方法。但色彩的描述与量化是计算机视觉领域至今尚未完全解决的问题，这使得彩色图像质量评价成为了IQA领域的开放性问题。

CN[12]是近年来颇为知名的颜色描述方法，这种方法用11维概率向量来描述颜色，这个向量的每个分量表示了色彩属于11个可被准确感知亦可用语义描述的颜色的概率。CN的独到之处在于使用了颜色的语义描述，这些语义描述间接地反映了人类的色彩感知能力。本文利用CN构建彩色图像质量模型，该模型将参考图像和失真图像的每个像素值映射为CN概率向量，并利用Wasserstein距离计算两个向量分布之间的差异来度量两幅图像间的感知色差；然后将参考图像与失真图像转换到各通道相互独立的对抗颜色空间(Opponent Color Space)[13]，并在其亮度通道中计算能够表征图像结构信息的梯度特征。由于HVS对亮度变化感知比对颜色更敏感，且人眼对颜色的感知与亮度关系密切，所以我们在模型中加入亮度特征作为补充。在池化阶段使用视觉显著性作为加权函数来获得图像质量得分。在几个公开数据集上的实验结果表明，提出的模型能够获得很好的评价效果。

2 颜色名称

人们通常使用颜色名称(CN)轻而易举地描述人眼所看到的世界。而在计算机视觉中，我们学习图像像素值与CN之间的映射关系，以将语义颜色标签分配给图像像素来描述图像的颜色信息。这里使用的11种基本颜色名称包括黑色、蓝色、棕色、灰色、绿色、橙色、粉红色、紫色、红色、白色和黄色[12]。

为了获得图像像素值与CN之间更准确的映射关系，我们使用概率潜在语义分析(Probabilistic Latent Semantic Analysis，PLSA)模型从Google图像上搜索大量真实世界的图像构成的数据集中学习颜色名称。PLSA是由Hofmann[14]提出的一种用于文档分析的生成模型。给定一组文档D={d1,…,dN}，每个文档都用单词表W={w1,…,wM}描述，这些单词是由潜在主题Z={z1,…,zK}产生的。在PLSA模型中，文档d中单词w的条件概率由式(1)计算：

(1)

其中：p(z|d)和p(w|z)都是离散多项式分布，可以使用EM算法[14]通过最大化对数似然函数L进行估算：

(2)

其中p(d,w)=p(d)p(d|w)，n(d,w)是文档d中出现单词w的次数。

在学习颜色名称的问题中，图像对应文档，像素值对应单词，颜色名称对应潜在主题。我们将图像中的像素值建模为由颜色名称生成的颜色值，PLSA模型的目的是找到最能解释所观察数据(图像像素)的潜在主题(颜色名称)。该过程可以理解为将p(w|d)分解为单词-主题分布p(w|z)和文档-主题固定比例p(z|d)，则在p(w|z)中可以得到主题(颜色名称)在单词(像素值)上的分布，如图1所示。

图1 用于学习颜色名称的标准PLSA模型概述[12]

(3)

3 基于CN的彩色图像质量评价模型

3.1 感知色差

这里利用Wasserstein距离来计算参考图像与失真图像的CN概率向量之间的差异，度量两幅图像之间的感知色差。首先利用文献[12]中提供的映射关系表将参考图像和对应的失真图像中的每个像素映射为11维CN概率向量，然后利用两个向量之间的距离来度量感知色差。如何度量两个概率向量(分布)之间的距离呢？常用的方法有KL散度和Wasserstein距离，其中Wasserstein距离也被称为推土机距离(Earth Mover Distance，EMD)，是将一个直方图转换成为另一个直方图所必须付出的最小代价。Wasserstein距离较之KL散度具有更好的数学性质，即使两个分布的支撑集没有重叠或者重叠非常少，仍然能反映两个分布的远近。因此选用Wasserstein距离来度量两个CN概率向量的差异：

(4)

其中，fr表示参考图像，fd表示失真图像，i表示“图像块”索引，Y()表示图像像素值到CN概率向量的映射，WS()表示Wasserstein距离运算符，CND表示颜色名称距离。图2是参考图像和失真图像以及它们的CND图的示例。

图2 颜色名称距离图

Wasserstein距离是两个概率分布或直方图之间在感知上有意义的统计指标[15]。给定两个概率分布P1和P2，则P1和P2之间的Wasserstein距离可定义为：

(5)

3.2 梯度相似度

图像梯度是IQA问题中最常用的特征之一，它对失真很敏感，并且可以反映图像的对比度和结构信息。有多种不同的算子可用于计算图像梯度，这里使用Scharr算子[16]。首先，利用公式(6)将图像转换到对抗颜色空间(Opponent Color Space)中，该空间亮度与颜色信息完全分开，且各颜色通道相互独立[13]。

(6)

其中，L表示亮度通道，M和N表示颜色通道。上述转换中的权重针对HVS进行了优化[17]。然后，我们从L通道计算图像的水平和垂直梯度，分别用Gx(i)和Gy(i)表示，并计算其梯度幅度GM(i)，其中i代表第i个像素。

图像f(i)的水平和垂直梯度Gx(i)和Gy(i)计算为：

(7)

(8)

图3 梯度幅度图

参考图像fr和失真图像fd之间逐像素的梯

度幅度的相似度定义为：

(9)

其中GMr(i)和GMd(i)分别表示参考图像fr和失真图像fd中第i个像素的梯度幅度，C1是一个正常数，以保持SG(i)的稳定性。

3.3 亮度相似度

与颜色信息相比，HVS对图像的亮度变化更加敏感[18]。亮度总是对图像的感知质量有很大影响，因此在彩色图像质量评价的问题中，仍然需要考虑图像的亮度特征。亮度相似度是基于每个图像块的平均值来计算的，参考图像与失真图像的每一组图像块对的平均值构成一组平均值对。根据恰可察觉失真(Just Noticeable Distortion，JND)模型，我们知道人类视觉系统无法察觉到处于一定阈值以下的图像内容的变化[19]。因此，我们不必使用所有平均值对来度量亮度失真，因为一些差异较小的平均值对不会影响人类对图像质量的感知，甚至还会缓和人眼对亮度变化较大的图像区域质量的感知，因此，我们仅考虑亮度差异较大的平均值对，然后计算两组选定平均值图像块对之间的相关性。

(10)

其中median()表示中位数计算。最后，亮度相似度的得分计算如式(11)所示：

(11)

3.4 基于CN的彩色图像质量评价模型

以基于CN定义的感知色差为基础，以梯度幅值相似性和亮度相似性作为补充，我们构建了一个全参考彩色图像质量评价模型，简称为CNCI(CN based Color image quality Index)。CNCI的总体框架如图4所示。

图4 CNCI模型总体框架图

参考图像fr和失真图像fd之间的相似度图S(i)包括两个部分，一个是颜色名称距离图(CND)，另一个是梯度相似度图(SG)。我们用参考图像和失真图像之间的颜色名称距离图来表示两幅图像间的感知色差，用梯度相似度图表示图像的结构变化，然后将二者融合，如公式(12)所示：

S(i)=(SG(i)α·(1-CND(i))β).

(12)

我们采用SDSP视觉显著模型[20]来计算参考图像的视觉显著图VSr和失真图像的视觉显著图VSd，使用w(i)=max(VSr(i),VSd(i))来加权S(i)，为图像的不同区域赋予不同的权重大小，从而产生一个分数：

(13)

其中，W和H表示相似度图的大小。考虑亮度对感知质量有很大影响，因此我们将该模型的最终质量得分Q定义为QS和QL的线性组合：

Q=a·QS+b·QL，

(14)

其中a和b是用于调整两个分量相对重要性的参数，满足a+b=1。

4 实验结果分析

4.1 数据集和评价指标

我们在5个数据集TID2008[21]、TID2013[22]、CSIQ[23]、LIVE[24]和KADID-10k[25]上测试所提出的彩色图像质量评价模型的性能。这些数据集中包含参考图像、失真图像以及针对失真图像所收集的平均主观分数(Mean Opinion Scores，MOS)或差异平均主观分数(Differential Mean Opinion Scores，DMOS)。其中，TID2008包含1 700张失真图像，17种失真类型和4个失真等级；TID2013包含3 000张失真图像，24种失真类型和5个失真等级；CSIQ包含866张失真图像，5种失真类型和4～5个失真等级；LIVE包含779张失真图像，5种失真类型和4～5个失真等级；KADID-10k包含10 125张失真图像，25种失真类型和5个失真等级。

图像质量评价模型的性能通常以主客观评分之间的一致性来衡量。常用的评价指标有Spearman秩相关系数(SROCC)、Kendall秩相关系数(KROCC)、Pearson线性相关系数(PLCC)和均方根误差(RMSE)。其中，SROCC和KROCC用来衡量主客观评分之间的一致性，PLCC和RMSE用来衡量模型预测的准确性。SROCC、KROCC、PLCC越大或RMSE越小，代表模型性能越好。在计算PLCC和RMSE前需要先进行回归分析，建立主客观评分间的非线性映射。这里采用公式(15)中的logistic回归函数，其中Q代表IQA方法计算得到的客观评分，P代表Q的回归值，βi|i=1,2,3,4,5为要拟合的参数。

(15)

4.2 实验参数

在本文方法中需要设置的参数有C1和C2、α和β、a和b。我们选取TID2008数据集中前8幅参考图像和对应的544幅失真图像作为测试子集，在该子集上选取不同参数组进行数值实验，通过最高的SROCC值来确定最佳参数组，最终分别取C1、C2、α、β、a和b的值为386，0.001，0.6，0.02，0.7，0.3。

4.3 性能比较

实验中采用的对比算法包括PSNR、SSIM[3]、MS-SSIM[26]、FSIM[10]、FSIMc[10]、GMSD[4]、SRRR[5]、RVSIM[27]和SUMMER[7]。这些算法均采用作者公布的代码及其参数设置。表1列出了本文算法与9个对比算法在5个测试数据集上的评价结果，其中加粗显示了排名前两位的实验结果。从表中可以看出，CNCI出现12次，SRRR出现10次，FSIMc出现8次，GMSD出现6次，FSIM出现4次。在TID2008数据集上，CNCI的SROCC和KROCC值均为最高，PLCC和RMSE值与SRRR相当，并优于大多数算法，这表明其可以获得与主观评价较高的一致性。在TID2013和KADID-10k数据集上，CNCI的4个指标均为最高，具有很好的质量评价能力，这是因为CNCI考虑了颜色信息，对于颜色失真类型的图像能够获得更好的评价效果。而SRRR和SUMMER算法中也引入了颜色信息，但其总体性能并不突出，只在CSIQ数据集上SRRR算法的性能略高于CNCI。

表1 不同IQA模型在TID2008、TID2013、LIVE、CSIQ和KADID-10k数据集上的实验结果比较

实验进一步验证了模型关于单一失真类型的评价效果。表2列出了本文算法与9个对比算法在TID2013数据集上对每一种失真类型关于SROCC指标的评价结果，并加粗显示了排名前两位的实验结果。从表中可以看出，CNCI模型可以在TID2013中大部分失真类型上产生较好的效果，且在AGN、JPEG、JP2K、JGTE和J2TE失真类型上获得最佳效果。就单一失真类型来看，CNCI能够达到与GMSD和SUMMER相当的性能。

表2 不同IQA模型在TID2013数据集上单一失真性能(SROCC)的比较

4.4 消融实验

为了验证颜色名称距离(CND)特征对彩色图像质量评价模型预测性能的提升作用，实验在TID2008数据集上对CND特征、梯度特征和亮度特征进行消融实验。表3列出了在TID2008数据集上，CNCI模型仅使用CND特征、梯度特征和亮度特征，3个特征之间两两组合以及同时使用3个特征时所能达到的SROCC值。可以看出，同时使用3个特征能够得到最高的SROCC值。由于HVS对亮度感知比对颜色感知更加敏感，因此仅使用亮度通道提取的梯度特征和仅使用亮度特征的效果要稍好于仅使用CND特征。但是从表3中可以看出，引入CND特征后，彩色图像质量评价模型的评价性能有明显提升，这证明了颜色名称距离对两幅彩色图像之间的感知色差度量的有效性。

表3 CNCI模型在TID2008数据集上的消融实验性能(SROCC)比较

5 结论

本文提出一个基于颜色名称的彩色图像质量评价模型(CNCI)，该模型采用颜色名称距离度量图像的整体感知颜色差异，同时结合梯度幅度相似性度量图像的结构变化。在质量分数池化阶段，将视觉显著性用作加权函数来表示局部图像区域的重要性，并加入亮度相似性作为补充，进一步提高算法的性能。在5个公开测试数据集上对CNCI和其他最新或著名的9个算法进行了比较，实验结果表明，该模型能够获得与主观评价更好的一致性，并且在TID2008、TID2013和最新的KADID-10k数据集中获得最佳效果，其SROCC值分别为0.900 9，0.890 1，0.863 7。