可见光与红外图像融合质量评价指标分析

2023-02-18 06:32孙彬高云翔诸葛吴为王梓萱
中国图象图形学报 2023年1期
关键词:排序灰度红外

孙彬,高云翔,诸葛吴为,王梓萱

1.电子科技大学航空航天学院,成都 611731;2.飞行器集群智能感知与协同控制四川省重点实验室,成都 611731

0 引 言

图像融合是利用多幅图像在时空上的相关性和互补性形成更清晰全面的图像(Li等,2011)。其中,红外和可见光图像融合广泛应用于遥感探测、安全导航、医学图像和交通监测等领域(Li和Wu,2019)。目前,不同融合算法之间没有统一的评价标准,多数情况下研究人员是凭经验选择客观评价指标(宫睿和王小春,2019;陈木生,2016)衡量红外光与可见光融合算法。如何遴选有效的评价指标是亟待解决的问题。

图像融合质量评价方法可以分为两类(Liu等,2018)。第1类为主观评价方法,主要以评价人的肉眼观察结果为准,但不同级别之间的界限较模糊且主观性太强,易使结果受干扰(Yang等,2007)。第2类为客观评价方法,即根据一个特定算法提供量化指标,从不同角度评估融合的质量和性能。

杨艳春等人(2018)根据不同参考对象将融合评价指标分为3类,分别是基于融合图像统计特征、基于融合图像与参考图像和基于源图像与融合图像的客观评价指标。Liu等人(2012)将指标细分为基于信息论、图像特征、结构相似性和人类视觉系统4类,并分析指标间的相关性、一致性以及失真情况下与图像质量评价(image quality measurement,IQM)的关系,提出了在夜视应用中不同可见光和红外融合模型的建议指标集合。Liu等人(2018)总结了基于源图像与融合图像的评价指标,度量从输入图像到融合结果中传递的图像特征、内容或信息数量,但不包含基于融合图像统计特征的指标。张小利等人(2014)结合相关性分析和主客观一致性排序遴选适合遥感图像融合评价的指标集合,但无法推广至缺少主观评价结果的应用。

可见光和红外图像融合缺少主观评价结果和统一的基准。Zhang等人(2020)提出一个可见光和红外融合基准(visible and infrared fusion benchmark,VIFB),包括21个图像对、20种融合算法以及13种指标。本文依据参与评估的对象不同,将13种指标分为基于融合图像质量的客观评价和基于融合图像与源图像的客观评价指标,利用相关性分析、一致性分析以及离散程度分析,提出一种通用的客观评价指标筛选方法,并给出适用于红外光与可见光融合的建议指标集合。

1 图像融合客观评价指标

目前,已经提出了几十种图像融合客观评价指标。设参与融合的源图像有n个,图像融合的客观评价指标定义为

S=m(F,I1,I2,…,In,R)

(1)

式中,m为评价指标,F表示融合图像,In表示源图像,R表示参考图像。为简化表达,以2个待融合图像为例,源图像分别记为A和B,图像尺寸均为M×N。

大多数图像融合应用,包括红外和可见光融合一般并不存在参考图像。Zhang等人(2020)总结了4类13种客观评价指标,包括基于信息论的熵(entropy,EN)、交叉熵(cross entropy,CE)、互信息(mutual information,MI)和峰值信噪比(peak signal-to-noise ratio,PSNR);基于图像特征的平均梯度(average gradient,AG)、边缘强度(edge intensity,EI)、空间频率(space frequency,SF)、标准差(standard deviation,SD)和边缘保持度(QAB/F);基于结构相似性的均方根误差(root mean squared error,RMSE)和结构相似度(structural similarity index measure,SSIM);基于人类感知的QCV(Chen-Varshney)和QCB(Chen-Blum)。

本文依据参与评估的对象不同将指标分为基于融合图像质量客观评价指标以及基于融合图像和源图像的客观评价指标两类。基于融合图像质量的客观评价指标包括SD、EI、EN、AG和SF等5个指标,基于融合图像和源图像的客观评价指标包括CE、MI、RMSE、PSNR、QAB/F、SSIM、QCV和QCB等8个指标。基于融合图像质量的评价指标主要是针对融合后图像本身的特性或统计特征,没有考虑融合图像与源图像之间的关系,而融合是从融合源中继承传递有价值信息的过程,基于源图像和融合图像的客观指标是更为普遍使用的评价指标。

1.1 基于融合图像质量的评价指标

基于融合图像质量的评价指标计算仅利用融合图像即可获得指标评分。

1)标准差(SD)。标准差反映的是融合图像分布和对比度的统计概念(Ma等,2020)。数学定义为

(2)

式中,μ为融合图像的灰度值均值,由于人类视觉会对对比度较高的区域更敏感,因此,融合图像的对比度越高,SD越大,意味着融合图像融合效果越好。

2)边缘强度(EI)。边缘强度使用Sobel算子提取融合图像的边缘信息,其表达式为

(3)

式中,sx=F×hx,sy=F×hy,hx和hy为x和y方向上的Sobel算子。边缘强度大,说明图像细节清晰,图像质量好。

3)熵(EN)。熵是度量图像信息量的客观评价指标(刘子闻 等,2020),融合图像F的熵定义为

(4)

式中,p={p1,p2,…,pn}表示图像的灰度分布,pf为图像中灰度值为f的像素所占的比例,n为灰度等级。该指标关注融合图像的灰度值分布,可以反映融合图像携带的信息量。

4)平均梯度(AG)。平均梯度主要反映图像中细节间的区别(Ma等,2019)和纹理变化,其表达式为

(5)

通常情况下,平均梯度越大,图像的清晰度越高,融合质量越好。

5)空间频率(SF)。空间频率用于测量图像的总体活动水平(Zheng等,2007)。图像F的空间频率表达式为

(6)

式中,FR,FC,FMD和FSD分别对应4个方向(左、上、左上、右上)上的一阶梯度。一般情况下,空间频率越大,融合质量越好。

1.2 基于源图像和融合图像的评价指标

基于源图像和融合图像的评价指标计算需要人为选择要衡量的有效信息,如信息量、边缘和结构相似度等,先分别计算源图像A、B与融合图像F之间的指标值,然后根据规律加权出指标最终评分。

1)均方根误差(RMSE)。均方根误差计算融合图像与源图像的误差(Ma等,2019),从而测量融合图像和源图像之间的差异,表达式为

(7)

2)峰值信噪比(PSNR)。峰值信噪比是融合图像中峰值功率与噪声功率的比值(Ma等,2019),反映了融合过程中的失真情况。数学表达式为

(8)

PSNR越大,说明融合图像与源图像越接近,即融合产生的误差越小。

3)交叉熵(CE)。交叉熵反映的是融合图像与源图像灰度信息分布的差异性,可作为确定各种融合算法优劣的依据。在熵的基础上加入源图像A和B的灰度分布,融合图像为F。以源图像A与融合图像F为例,交叉熵计算式为

(9)

式中,q为源图像A的灰度分布。

总体交叉熵计算式为

(10)

交叉熵值越小,图像间差异性越小,则融合方法从源图像中提取的信息量越多,理论上融合效果会比较好。

4)互信息(MI)。互信息可定量估计源图像A与融合图像F之间的依赖程度(Qu等,2002)。源图像A与融合图像F的互信息可以由边缘概率密度pF、pA以及联合概率密度pFA定义为

(11)

则总的互信息为

(12)

其中,3幅图像的灰度值范围分别为IA(i,j)∈[0,I]、IB(i,j)∈[0,J]和IF(i,j)∈[0,K],则a=0,1,…,I、b=0,1,…,J和f=0,1,…,K。

融合图像的MI值越大,说明融合图像从源图像处继承的信息越多,融合图像的质量较好。

GAF(i,j)=

(13)

(14)

对于两幅源图像A和B融合出F的情况,其边缘保持度定义为

(15)

通常,ωA(i,j)=[gA(i,j)]L,ωB(i,j)=[gB(i,j)]L,L是一个常数。0≤QAB/F(i,j)≤1,指标值接近1时,说明边缘保持特性越好,融合的效果越好。实验中常用参数取值为L=1,Γg=0.999 4,kg=-15,σg=0.5,Γa=0.987 9,ka=-22,σa=0.8。

6)结构相似度。结构相似度(SSIM)的测量可以对图像的失真做出近似(Martinez等,2019),SSIM的取值范围为[-1,1],值越大说明源图像和融合图像的相似程越高。图像A和F的结构相似度为

SSIMAF=l(A,F)×c(A,F)×s(A,F)

(16)

QCV=

(17)

式中,L表示局部窗口的数量,Wl为第l个局部窗口对应的区域。此方法得到的值越小,说明融合效果越好。

(18)

最后,得到全局质量图,即

QGQM(i,j)=λA(i,j)QAF(i,j)+λB(i,j)QBF(i,j)

(19)

Chen-Blum指标结果为全部像素全局质量图的均值。实验结果表明,该方法与主观评价结果具有高度一致性,值越大说明融合效果越好。

2 客观评价指标分析

Zhang等人(2020)提出的VIFB包含13对彩色可见光(RGB多通道)和红外图像对,以及8对灰度可见光(单通道)和红外图像对,涵盖广泛的场景和工作条件,例如室内、室外、低照度和过度曝光等。Zhang等人(2020)总结了20种开源图像融合方法在VIFB数据集的融合实验,包括基于深度学习的卷积神经网络(convolutional neural network,CNN)、深度学习框架(deep learning framework,DLF)和残差网络(residual network,ResNet)融合算法;基于多尺度的多分辨率奇异值分解(multi-resolution singular value decomposition,MSVD)、各向异性扩散变换(anisotropic diffusion fusion,ADF)和交叉双边滤波器(cross bilateral filter,CBF);基于引导滤波器的内容增强(guided filter context enhancement,GFCE)和引导滤波融合(guided filtering fusion,GFF);基于引导滤波器的混合多尺度分解(hybrid multi-scale decomposition with guided filter,HMSD_GF)、混合多尺度分解(hybrid multi-scale decomposition,Hybrid_MSD)和多尺度引导滤波(multi-scale guided image and video fusion,MGFF)融合算法;基于显著性的双尺度图像融合(two-scale image fusion,TIF)和潜在低秩表示(latent low-rank representation,LatLRR)融合算法;基于子空间的四阶偏微分方程(fourth order partial differential equations,FPDE)融合算法;基于混合方法的多尺度稀疏(multi-scale transform and sparse representation,MST_SR)、非下采样轮廓波稀疏(nonsubsampled contourlet transform and sparse representation,NSCT_SR)、比率金字塔稀疏(ratio pyramid and sparse representation,RP_SR)、视觉显著图以及加权最小二乘(visual saliency map and weighted least square,VSMWLS),以及梯度转移融合(gradient transfer fusion,GTF)、红外特征提取与视觉信息保存(infrared feature extraction and visual information preservation,IFEVIP)等方法。

21组图像分为13组灰度可见光与红外图像对(Gray组)和8组彩色可见光与红外图像对(RGB组),分别统计上述20种融合算法在分组数据实验中13种指标的平均值,结果如表1和表2所示。其中,彩色可见光与红外图像融合的指标结果为RGB 3个通道分别与红外图像融合计算指标值后的平均结果。

表1 在VIFB数据集中不同算法融合13组彩色(RGB)可见光图像与红外图像的13种指标均值

表2 在VIFB数据集中不同算法融合8组灰度可见光图像与红外图像的13种指标均值

2.1 相关性分析

相关性分析是通过计算指标变量间的相关系数分析不同指标间的潜在联系,融合客观评价指标基于相关程度而不是指标类别进行聚类分析。常用的相关性分析方法包括Pearson、Spearman和Kendall等。其中,Pearson法用于衡量两变量间的线性相关性,仅适用于服从或近似服从正态分布的情况(张小利 等,2014)。本文考察不同算法的多个评价指标间的相关性,选择Kendall方法进行分析。

令Xi和Yi表示两个随机变量X和Y的第i个值(0≤i≤N),这里N为变量长度。Kendall计算式为

(20)

式中,C为集合中一致的元素个数即(Xi>Xj,Yi>Yj)或(XiXj,YiYj)。

Kendall相关系数的取值范围为[-1,1]。当τ=1时,即X与Y具有一致的等级相关性;当τ=-1时,即X与Y具有完全相反的等级相关性;当τ=0时,表示X与Y相互独立。

对表1和表2中13项指标之间分别进行Kendall相关系数分析,结果如表3和表4所示。当指标Kendall相关性|τ|>0.7,则将指标视为同一组,在表中以粗体表示。

表3 彩色(RGB)可见光图像与红外图像融合评价指标之间的Kendall相关系数

表4 灰度可见光图像与红外图像融合评价指标之间的Kendall相关系数

彩色(RGB组)可见光与红外图像融合指标聚类分组结果如图1所示,其中AG与EI、SF的Kendall系数分别为0.99和0.84,指标侧重于反映邻域的灰度变化;PSNR与RMSE高度负相关,其中RMSE是负向指标,PSNR是正向指标;QAB/F与EN、QCB的系数分别为0.70和0.74,该组指标的定义有较大区别,EN反映的是信息熵,而QAB/F和QCB主要反映边缘和对比度的保留程度。

图1 指标聚类分组图(RGB组)

灰度可见光(Gray组)与红外图像融合指标聚类分组结果如图2所示。单通道情况下,不同指标之间表现出较多通道更强的相关性,其中SD与EN、QCB表现出一定的相关性;SSIM利用均值和协方差从亮度、对比度、结构等方面度量与源图像间的相关性,一定程度上与反映亮度空间变化的AG、SF和EI正相关,与PSNR、RSME负相关。

图2 指标聚类分组图(灰度组)

2.2 一致性分析

由于红外和可见光融合缺少公开的主观评价结果,无法进行主客观一致性分析。本文将客观评价指标视为分类器(Liu等,2012),平等对待所有指标,并利用排序式的Borda投票法(Emerson,2013),综合大多数分类器(客观评价指标)的选择得到算法的排名。表5是利用Borda计数排序法分别统计RGB组和Gray组的总体评价结果,记为RGB排序/Gray排序。表中各列为表1和表2中特定指标在不同算法间的排序,1代表该指标下相对最优的算法,排名最高可获得20积分,其余依次递减,综合所有指标排序得到的积分可得最后一列的算法Borda rank排序结果。若存在积分/排序相同情况,以所排序列号的均值统一排序,如表中CNN和HMSD_GF的RGB综合排序相同,因此以均值3.5作为最终的综合排序。

表5 Borda计数排序总体评价结果(RGB排序/Gray排序)

所有评价指标会对融合方法产生一个总体评价。某指标与总体评价相关性越高,说明该指标与总体评价的一致性越高。为了体现单一指标与Borda排序总体评价的一致性,计算算法各指标排序与Borda排序的Kendall相关系数,结果如表6所示。RGB组和Gray组一致性较高的4个指标均为QCB、QAB/F、EN和SD。

表6 单一指标排序与Borda计数排序的相关系数

2.3 离散程度分析

除了分析指标的相关性和一致性外,还需要考察指标受融合质量影响的波动情况。图3为21组图像对数据中10种不同算法的PSNR和QAB/F指标的量化折线图(Zhang等,2020)。可以看出,不同指标的取值范围差异较大,表现为表1和表2中的指标取值范围,即图中折线的纵坐标(指标值)范围有较大差异,折线图上方数值为对应算法的指标均值;其次,随着图像内容(横坐标为不同图像对)的变化,指标波动较大,表现为不同指标的折线图均有明显的峰值和谷值;再次,图像内容变化时,不同算法的指标数值具有大致相同的变化规律,表现为不同折线有近似的峰谷位置以及变化趋势,因此可以用多个图像对的指标均值近似表征指标的变化。而当图像内容相同时,不同算法产生的指标数值差异可以反映不同算法融合质量的相对差异。

图3 10种算法在21对图像上指标的折线图

不同于Liu等人(2012)通过计算不同输入图像对的指标方差来度量指标随图像内容变化的规律,本文度量均值随不同算法的波动情况。由于不同客观指标的定义不同,值域范围有较大差异,不适合用方差进行分析,所以利用离散系数分析指标随算法的波动情况。其中,离散系数定义为标准差与均值之比。表7为表1和表2中不同指标的均值、标准差以及离散系数。通过对比可以看出,离散系数值越大,说明指标在不同算法间分布差异越大,越能体现不同算法间的性能差异。

相关性分析的目的是得到聚类分组,一致性分析的目的是得到指标评估的有效性,离散程度分析则可以通过评估指标的分布情况,选择能够充分体现不同算法间差异的指标。在实验设定下,一致性分析得到的候选指标集为{QAB/F,EN,SD,QCB},对应的离散系数在表7中以粗体显示。RGB分组实验中EN和QAB/F,QAB/F和QCB属于同组指标,其中EN的离散系数明显小于其他3项指标,QAB/F的离散系数高于QCB。Gray分组实验中,QAB/F和QCB,QCB、SD和EN为同组指标,且EN的离散系数远小于其他3项指标,QCB的离散系数略高于QAB/F。综合上述实验分析得到,RGB组的客观评价建议指标集为{SD,QAB/F}或{SD,QCB};Gray组的客观评价建议指标集为{SD,QAB/F}或{QCB}。分组建议指标集合均包含SD、QCB和QAB/F3项指标,其中不同分组结果中SD指标与其他两项指标的组合方式不同。原因是Gray组和RGB组分别基于相关性得到的指标聚类分组结果有差异,可参见图1和图2。依据Zhang等人(2020)中的计算方式,RGB组评价指标是RGB三个通道分别与红外图像融合客观评价结果的平均值,相较于单一的灰度通道,SD指标与其他指标的相关性更低。

表7 VIFB数据集下评价指标的均值、标准差以及离散系数

综合两组的结果,取交集为{SD,QAB/F},作为可见光与红外图像融合评价的建议指标集。其中,标准差SD属于基于融合图像质量的评价指标,通过与均值的差分反映融合结果中的对比度信息;边缘保持度QAB/F属于基于源图像和融合图像的评价指标,通过度量可见光和红外源图像传递到融合图像的边缘保留程度,反映融合结果图像对可见光和红外源图像的融入度。

红外和可见光融合应用中,红外图像中显著性通常表现为对比度较大的局部区域,而可见光中通常表现为边缘、纹理等细节信息。建议指标集中的两项指标从属于不同的指标类型,分别从对比度和边缘细节保留度对融合结果进行评价,具有一定的互补性。

综合SD和QAB/F指标,VIFB数据集下排名靠前的算法包括CNN、HMSD_GF、Hybrid_MSD以及MST_SR,在定性分析结果中也表现出较好的融合效果。

需要强调的是,1)目前统计的融合评估指标中没有专门针对色彩失真方面的评价,与主观感受并不绝对一致,例如MST_SR融合彩色图像出现的伪影现象。研究更多主客观一致的评价指标仍是图像融合领域需要持续关注的重点。2)针对有限样本在实验设定下得到的建议指标集合是非排他性的指标建议,即选择多个指标从不同角度综合评价融合结果时,建议选择而非只选择的指标集合。基于统计的指标分析方法可以推广至更多的融合数据源、融合算法以及评估指标,融合建议指标集合也会有新的发展。

3 结 论

本文在讨论图像融合客观评价指标分类基础上,结合 VIFB数据集和代表性图像融合算法,提出一种通用的客观评价指标分析方法,将VIFB数据分为灰度/彩色可见光与红外图像融合两组,分别进行相关性、一致性以及离散系数统计分析,基于客观统计结果,得到适用于可见光与红外图像融合质量评价的建议指标集合{SD,QAB/F}。其中,SD属于基于融合图像质量的评价指标,QAB/F属于基于源图像和融合图像的评价指标,分别侧重从对比度和细节信息传递融入度评价融合结果,具有一定的互补性。相较于依赖主观评价或聚焦特定类型融合算法的分析方法,本文方法基于客观统计数据且涵盖不同类型的融合算法,具有更好的适用性和可推广性。但是,目前的客观评价仅限于VIFB中涉及的13种指标,且仅讨论针对红外和可见光图像融合下的应用。下一步工作将研究覆盖更多融合源、融合算法以及客观评价指标,并将方法推广到多聚焦图像、医学图像以及遥感图像融合,得到适用于不同应用场景的图像融合客观评价指标建议。

猜你喜欢
排序灰度红外
采用改进导重法的拓扑结构灰度单元过滤技术
网红外卖
排序不等式
闪亮的中国红外『芯』
Bp-MRI灰度直方图在鉴别移行带前列腺癌与良性前列腺增生中的应用价值
恐怖排序
8路红外遥控电路
TS系列红外传感器在嵌入式控制系统中的应用
节日排序
基于最大加权投影求解的彩色图像灰度化对比度保留算法