钟晓纯, 张 伟, 李朝锋
(江南大学物联网工程学院,江苏无锡214122)
随着网络的发展,需要频繁地对图像进行传输、存储、压缩等,而这些过程都要评价图像质量,因此图像质量评价已成为当前图像处理的一个热点问题。图像质量评价一般可以分为主观和客观质量评价。由于人是图像的最终接收者,主观质量评价最为可靠;但实际应用中,主观质量评价费时费力,且无法嵌入自动化系统,因此客观质量评价必不可少。根据有无参考图像信息,客观质量评价可分为全参考、半参考和无参考图像质量评价。全参考和半参考方法需要参考图像全部或者部分信息,但在许多情况下参考图像的信息很难获取或获取代价太高,而无参考图像质量评价不需要原始图像任何信息,所以研究有效的无参考评价方法尤为重要。
近年来,无参考图像质量评价方法得到较大发展。Moorthy A K等[1]提出一种先分类后回归的方法DIIVINE,将图像进行小波分解,使用广义高斯分布(GGD)拟合得到尺度内和尺度间统计特征,用支持向量机(SVM)先分类再回归的方法预测图像得分;GAO X B等[2]在小波域提取图像的非高斯性、局部依赖性和指数递减性特征,运用多核学习先分类再回归建立模型NSS-TS;LIU L X等[3]将图像进行曲波变换,提取子带系数直方图拟合特征、相位一致性特征等,运用SVM建立模型CurveletQA;Sead M A等[4]使用GGD拟合离散余弦变换系数得到特征,以SVR训练得到模型BLIINDS-II;Mittal A等[5]对经过预处理的图像进行高斯拟合,提取形状、方差和均值等统计特征,使用 SVR建立模型BRISQUE。
尽管上述方法均取得不错的评价效果,但仍存在着以下不足:①先分类后回归的方法在运算上明显复杂于直接回归建立模型的方法;②当前大部分评价模型如 BLIINDS-II[1]、NSS-TS[2]、BRISQUE[5]等均只在DCT域、小波域、空域等单个域内提取特征建立评价模型,没有考虑结合其他域内与其互补的图像质量相关特征;③目前计算图像尺度间冗余信息时大部分采用GGD拟合获取统计特征,这种方法只是一种近似估计,不能精确描述尺度间冗余信息。
针对以上问题,文中提出一种结合轮廓波域和空域特征的无参考图像质量评价方法。通过轮廓波域提取特征获取图像不同尺度及方向特征信息,在空域提取特征获取图像像素间特征信息,实现了图像不同尺度、不同方向、不同像素的信息计算。在计算图像尺度间冗余信息时,引入图像融合中计算两幅图像信息相关度的方法定量计算。另外,使用直接回归的方法建立模型,使得该方法拥有较低的时间复杂度。实验结果表明,这些整体到局部的图像特征信息能有效描述图像,且能获得比现有评价模型更好的效果。
轮廓波变换具有多方向多分辨率的时频特性,且有良好的各向异性[6],因此能很好地反映图像边缘和轮廓信息。实验中首先对图像进行3尺度8方向轮廓波分解。
由文献[6]可知,图像经轮廓波分解后子带系数间存在信息冗余。由于轮廓波基函数与轮廓重叠,且方向一致时会产生较大系数值,所以轮廓波子带系数与其父子带系数之间存在很强的信息冗余。图像融合中计算两幅图像信息相关度的互信息可以直接对这种父子信息冗余关系进行定量计算。互信息计算公式[7]如下:
式中:x,y分别为参考子带和父子带系数;p(x),p(y)为边缘概率分布;p(x,y)为联合概率分布;I(x,y)为互信息。
图 1给出了 LIVE数据库[8]中原始图像Buildings及其5种失真的互信息曲线。
图1 原始图像以及对应的5种失真图像的互信息分布Fig.1 Mutual information distribution of the original image and five distorted images
由图1可以看出,不同失真图像互信息曲线各不相同,且与原始图像互信息曲线分布存在差异。如WN失真的互信息所对应曲线高于原始图像及其他失真类型的互信息曲线;Glur和FF失真的互信息曲线低于原始图像,且其变化程度相对于其他失真类型也较平缓;但互信息曲线没能很好反映JP2K及JPEG失真。为了弥补互信息曲线的这种不足,文中提取方向特征。
由文献[9]可知,自然图像在能量谱上表现为空间频率在对数域呈线性关系,在轮廓波域则随着不同分解尺度、子带能量呈线性递减。文中将计算视觉感知重要区域的方向子带系数作为子带能量,具体方法[10]如下:首先取最高尺度的方向子带(实验中为第3尺度),选取其绝对值大于子带绝对值均值的系数作为视觉感知重要区域,然后对不同尺度进行同方向升采样插值,从而得到其他尺度的视觉感知重要区域。得到所有子带的视觉重要区域后,利用以下公式计算该区域各个子带的系数作为各子带的能量值。
式中:E为子带能量;N为子带像素个数;X为子带视觉感知重要区域的系数。
图2给出了LIVE数据库29幅原始图像以及5种失真类型随机选取的各29幅图像随分解尺度变化的能量曲线。
由图2可以看出,原始图像能量呈线性递减。JP2K失真图像在第1尺度呈线性递减,在2,3尺度线性关系被破坏;JPEG失真整体上线性递减,但各尺度能量变化程度较原始图像剧烈;WN失真图像由于受到噪声污染,图像能量加大,因此其能量曲线从第2尺度开始呈上升趋势;Gblur及FF失真图像能量分布呈分散状态。从图2可以发现,虽然JPEG失真的能量曲线不能很好地区别于原始图像能量曲线,但其他失真对自然图像能量线性递减特性产生不同程度的破坏,特别是能量特征可以明显地区别出JP2K失真类型,这在一定程度上弥补了互信息的缺陷,但仍不能有效区分JPEG失真。为了克服能量特征的这种缺点,文中提取像素特征更好地区分JPEG失真。
图2 原始图像及五种失真类型图像的子带能量分布曲线Fig.2 Energy distribution of the original image and five distorted images
根据经典自然图像空域模型[11],用图像灰度值减去局部均值,再除以局部标准差可以消除图像的分段光滑性,计算方法如下:
其中,I(i,j)为失真图像;M,N为图像的高和宽;K=L=3,w={wk,l|k= - K,…,K,l= - L,…,L}为一个窗函数,由3个标准差及经过调整的单位体积通过二维圆对称高斯加权函数获得。
文献[5]称经过预处理的图像为MSCN。图3分别给出了5种失真类型下同一图像不同差分平均主观得分(DMOS)的MSCN值归一化分布。
由图3可以看出,随着JP2K失真的加剧,其分布曲线的尾部越来越长。JPEG失真变化剧烈时,其曲线的峰变得平缓;WN失真整体分布更加接近高斯分布,并且其曲线的峰随着失真程度的加剧变得更加陡峭,与其他失真类型相反;当Gblur失真加剧时,趋向于零的值越来越多;而FF失真则拥有最陡的峰和最长的尾。由以上分析得出,不同失真类型分布形状均不相同,不同得分对应的分布曲线各不一样,特别是JPEG失真,其不同失真程度的MSCN分布较其他失真类型更加明显。且MSCN值的分布总体上均具有非高斯性,因此MSCN可以先由GGD进行拟合。零均值 GGD[12]如下:
其中,α为控制曲线形状;σ2为曲线方差;Γ(·)为伽马函数。由于不同失真类型图像表现为拟合后方差与形状不同,因此取方差和形状作为特征。
另外,MSCN中不仅像素点本身分布具有非高斯性,其与相邻点相乘后依旧具有这种特性。因此对MSCN分别计算水平、垂直、主对角线以及负对角线四对点的乘积,其乘积可由零均值非对称广义高斯函数(AGGD)进行拟合。零均值AGGD[13]和均值计算如下:
由于人眼视觉是多尺度的,所以对经过预处理后的图像MSCN进行下采样处理,再提取以上特征。文中将GGD拟合后的方差、形状及AGGD拟合后的形状、左右方差和均值作为第三类特征。
图3 不同失真类型同一图像不同差分平均主观得分(DMOS)的MSCN值的归一化分布Fig.3 Normalized distribution of MSCN offive distortions with different DMOS
为了得到图像质量评价模型,需要在特征与主观得分之间建立一种映射关系。文中选取SVR建立这种关系。采用林智仁等开发的LIBSVM软件包(http://www.csie.ntu.edu.tw/ ~ cjlin/libsvm/)实现SVR,使用的核函数为径向基(RBF)核。
首先采用LIVE数据库,该库共有29幅原始图像和779幅失真图像,包括5种失真类型:JP2K,JPEG,WN,Gblur和FF。该库同时也提供每幅图像的DMOS值作为客观评价标准。为了测试文中方法与主观得分的一致性,实验选取两种评价标准:反映预测单调性的Spearman等级次序相关系数(SROCC)与反映预测精确性的线性相关系数(LCC)。SROCC和 LCC值越接近1表明一致性越好。
为了比较,文中采用与文献[1-5]相同的处理方法。实验中随机选取LIVE数据库23幅原始图像及其对应的失真图像训练,剩余6幅原始图像及其对应的失真图像测试,训练图像与测试图像没有交叉。共进行1 000次随机选择图像训练与测试,取中值作为最终结果,以消除随机性带来的偏差。表1和表2分别列出了实验结果SROCC和LCC中值,并给出了仅使用能量或互信息作为输入特征得到的结果,同时也给出了相关文献报道结果。
表1 LIVE数据库1 000次实验后SROCC中值Tab.1 Median SROCC across 1 000 trials on LIVE IQA database
表2 LIVE数据库1 000次实验后LCC中值Tab.2 Median LCC across 100 0trials on LIVE IQA database
由表1和表2可以看出,文中方法在文献[5]的基础上融入能量和互信息特征,从像素、方向、尺度3个方面提取特征,可以在总体性能上提高主观感知一致性;同时在5种失真类型上相对文献[5]的结果均有不同程度的提高,并且在JPEG、Gblur失真类型上更优于其他文献报道的结果。从单独特征看,能量特征可对JP2K很好地评价,空域特征可对JPEG能作出很好评价,能量与互信息的组合可以弥补空域特征在FF失真上的不足,这说明文中所提取的三类特征是相互补充并且有效的。
由于文中方法是基于训练的,为了说明该方法不依赖于训练数据库,实验在与LIVE数据库完全独立的TID2008库[14]上进行测试。TID2008库包括24幅自然图像和1幅合成图像,共1 700幅失真图像,同时也提供每幅图像的平均主观得分作为客观评价标准。实验选取24幅自然图像,并仅选取其与LIVE数据库中训练对应的4种失真类型:JP2K,JPEG,WN和Gblur,共384幅失真图像进行测试。
文中采用LIVE数据库779幅失真图像的特征训练,再在TID2008库上测试,所得实验结果见表3。由表3可以看出,在总体性能上,文中方法在与LIVE数据库完全独立的TID2008库上仍获得最高SROCC值,相比于其他模型(如 NSS-TS,CurveletQA等),文中方法均有大幅度提高,这说明文中方法不依赖于训练数据库,具有可靠的适用性和推广性;同时文中方法在WN和Gblur失真上优于其他模型结果,这也表明文中方法能很好地评价WN和Gblur这两种失真类型。而对于JP2K和JPEG失真,文中方法略低于最优值,需要在今后工作中寻找能更好表示这两种失真的特征。
表3 TID2008库SROCC值Tab.3 SROCC on the TID2008 database
文中提出一种结合轮廓波域和空域特征的无参考图像质量评价方法。通过利用轮廓波及空域在不同方面描述图像能力的优点,从尺度、方向、像素3个方面分别提取轮廓波域互信息、能量以及空域特征,训练SVR模型,得到一种新的无参考图像质量评价方法。实验结果表明,该方法具有较好的主观一致性和可靠的推广性,优于当前文献报道相关方法。文中方法的不足之处在于需要提前对样本进行训练,下一步工作是构造质量评价公式,实现对图像的直接评价。
[1]Moorthy A K,Bovik A C.Blind image quality assessment:from natural scene statistics to perceptual quality[J].IEEE Transactions on Image Processing,2011,20(12):3350-3364.
[2]GAO X B,GAO F,TAO D C,et al.Universal blind image quality assessment metrics via natural scene statistics and multiple kernel learning[J].IEEE Transactions on Networks and Learning Systems,2013,24(12):2013-2026.
[3]LIU L X,DONG H P,HUANG H,et al.No-reference image quality assessment in curvelet domain[J].Signal Processing:Image Communication,2014,29(4):494-505.
[4]Saad M A,Bovik A C,Charrier C.Blind image quality assessment:a natural scene statistics approach in the DCT domain[J].IEEE Transactions on Image Processing,2012,21(8):3339-3352.
[5]Mittal A,Moorthy A K,Bovik A C.No-reference image quality assessment in the spatial domain[J].IEEE Transactions on Image Processing,2012,21(12):4695-4708.
[6]Do M N,Vetterli M.The contourlet transform:an efficient directional multiresolution image representation[J].IEEE Transactions on Image Processing,2005,14(12):2091-2106.
[7]Paninski L.Estimation of entropy and mutual information[J].Neural Computation,2003,15(6):1191-1253.
[8]Sheikh H R,WANG Z,Cornack L,et al.LIVE image quality assessment database release2[EB/OL].(2006-5-10)[2013-12-3].http://live.ece.utexas.edu/research/quality.
[9]Ruderman D L.The origins of scaling in natural images[J].Vision Research,1997,37(23):3385-3398.
[10]李任.基于变换域特征提取的无参考图像质量评价方法研究[D].无锡:江南大学,2013.
[11]Ruderman D L.The statistics of natural images[J].Network Computation in Neural System,1994,5(4):517-548.
[12]Sharifi K,Garcia A L.Estimation of shape parameter for generalized gaussian distributions in subband decompositions of video[J].IEEE Transactions on Circuits and Systems for Video Technology,1995,5(1):52-56.
[13]Lasmar N E,Stitou Y,Berthoumieu Y.Multiscale skewed heavy tailed model for texture analysis[C]//Proceesing of 2009 16th IEEE International Conference on Image Processing.New York:IEEE,2009:2281-2284.
[14]Lukin N P V,Zelensky A,Carli M,et al.TID2008-a database for evaluation of full reference visual quality assessment metrics[J].Advances of Modern Radioelectronics,2009,10(5):30-45.