基于两尺度分解和特征提取的红外与可见光图像融合

2021-08-06 05:24黄文博严华
现代计算机 2021年16期
关键词:红外像素图像

黄文博,严华

(四川大学电子信息学院,成都610065)

0 引言

图像融合是把两幅或多幅从不同类型传感器采集而来的同一场景的图像经过特定的算法,将有效信息整合到一张图片上,这张融合结果图包含源图像的不同种类的特征,实现了不同成像模式的优势结合的同时也弥补了不同传感器的自身劣势。常见的图像融合有可见光与红外图像融合、多聚焦图像融合、医学图像融合、多曝光图像融合。可见光与红外图像融合在军事上能够提升装备的探测和识别能力,可见光图像和红外图像的成像原理不同,前者经过物体的反射率进行成像,类似于人类视网膜成像的工作原理,而红外图像则是根据物体的温度和辐射率进行成像,在军事上对于探测隐蔽事物有极大帮助。目前图像融合技术按层次分可以划分为三类:像素级融合、特征级融合、决策级融合。像素级融合是最基层的融合,传统主流方法大多基于像素级融合。顾名思义,像素级融合是直接针对像素点进行融合操作的,在原始数据上进行融合,可以增加原始数据的信息量,融合后的图像具有更多的细节信息,如边缘、纹理,有利于图像的进一步分析、处理与理解,还能够把潜在的目标暴露出来,利于判断识别潜在的目标像素点的操作,这种方法才可以尽可能多地保存源图像中的信息,使得融合后的图片不论是内容还是细节都有所增加,这个优点是独一无二的,仅存在于像素级融合中。

像素级图像融合算法主要分为两类:基于空间域的算法和基于变换域的算法。常见的空间域融合算法是基于块操作的,如简单的线性加权平均、逻辑滤波、对比调制等方法,块的选取也是尤为重要的。最常见的变换域融合方法基于多尺度变换理论,将图像按照变换规则映射到另一空间,在变换后的空间进行融合操作,最后再通过重构操作逆变换回原始空间。如金字塔分解法(LP)[1]和基于小波变换的离散小波变换(DWT)[2]、平稳小波变换(SWT)[3]和双树复小波变换(DTCWT)[4]。后面还出现了稀疏表示(SR)[5]的方法,基于SR的融合已经成为图像融合研究中一个活跃的新分支,并提出了许多改进的方法。也有人将多尺度变换和稀疏表示方法相结合(MST-SR)[6],取得了不错的结果。但像素级图像融合的局限性也是不能忽视的,由于它是对像素点进行操作,所以计算机就要对大量的数据进行处理,处理时所消耗的时间会比较长,就不能够及时地将融合后图像显示出来,无法实现实时处理;另外在进行数据通信时,信息量较大,容易受到噪声的影响;还有如果没有将图片进行严格的配准就直接参加图像融合,会导致融合后的图像模糊,目标和细节不清楚、不精确。所以有了后面的特征级融合,将特征信息从源图像中提取出来,包括源图像中的目标或者感兴趣的区域,接着对这些特征信息进行分析、处理,整合到一张图片上,使融合结果包含尽可能多的特征信息。相较于像素级融合,特征级融合时处理的信息更少,因此更节省内存和时间。但因为是将提取出的特征作为融合信息,因此同时也会丢失部分细节性特征。

1 提出的方法

我们提出用快速的两尺度分解方法分解源图像,将源图像I1和I2分别分解成基础层Bi和细节层Di,i为源图像个数,即待融合图像的个数。基础层直接采用最大值融合规则进行融合保留更多原始信息,得到融合后的基础图B。细节层送入预训练好的ResNet50网络进行细节特征的提取,分离出多个relu层得到的不同尺度的特征图,特征图通过求L1范数操作后得到更为稀疏的特征图Ci,后接softmax操作得到不同尺度的权重图Wi,用获得的权重图对源图像Ii进行加权平均得到不同层次的细节层融合结果,为了获得更加丰富的细节特征,本文将最后两个relu层的融合结果进行相加获得最终的细节层融合图D。最后基础层融合结果B与细节层融合结果D相加得到最终融合结果F。算法流程图如图1所示。

图1 提出的融合流程图

1.1 图像的分解

采用均值滤波器对源图像I1和I2进行滤波,滤波后的图像包含大范围的粗糙信息,作为基础层B1和B2,源图像I减去各自的基础层B得到各自的细节层D。滤波器的大小决定滤波范围,滤波器越大得到的基础层模糊程度越高,相应的细节层的细节信息就更多。其中f为均值滤波,I(s,t)为原始图像,Sxy表示中心点在(x,y)处,大小为m×n的滤波器窗口,f(Ix,y)表示均值滤波后的图像。

Bi=f(Ii)

(1)

其中i=1,2,下面同理。

Di=Ii-Bi

(2)

1.2 基础层融合

由于基础层多为灰度变换缓慢的区域,包含大部分背景,代表平均能量,所以为了获得更显著的特征信息,我们采用最大值融合规则。同时能够获得更高的亮度和对比度,适应于人类视觉系统。

B=max(Bi)

(3)

1.3 细节层融合

(4)

(5)

接下来通过softmax操作获得初始权重图W

(6)

(7)

得到的最终权重图用于加权平均融合源图像Ik。

(8)

Di表示源图像I1和I2的第i个relu层的融合结果,要获得更高质量的融合图像,需要更多细节信息,所以本文将最后两层的结果相加得到细节层最终融合结果D。

D=D5+D4

(9)

最终的融合图像由基础层融合结果和细节层融合结果相加得到:

F=B+D

(10)

2 实验结果与分析

2.1 实验设置

实验的目的主要是与最近和经典方法的比较,包括主观与客观指标的比较,以验证提出的方法的可靠性和实用性。本实验所使用的软、硬件环境如表1所示。参数选择见表2。

表1 软、硬件环境

表2 实验参数选择

我们挑选了47对来源于TNO据集[17]和OTCBVSBenchmark[16]数据集的图片,其中包含树、人物、建筑、道路、车辆等可见光和红外图像,所有的图像都是经过严格配准的。这些图像的示例图如图2。

图2 示例源图像,上面为红外图像,下面为可见光图像

本方法将与当前经典方法进行比较,分别为基于多尺度变换和系数表示的一种通用图像融合框架(MST-SR)[6]、梯度传递融合(GTF)[9]、拉普拉斯金字塔(LP)[1]、基于非子采样轮廓波变换方法(NSCT)[12]、曲波变换(CVT)[14]和基于ResNet50和零相位分量分析的红外与可见光图像融合(ResNet50)[10]、基于VGG19的红外与可见光图像融合(VGG19)[8]。

2.2 主观分析

我们从来自包含多光谱图像的TNO数据集[17]和OTCBVSBenchmarkDataset[16]中的47对图像中挑选出了5对图像进行定量和定性的分析。其中包含坦克、草地、道路交叉口、人、营地。所有的结果都由各算法公开的代码得到,结果在图3中展示。

图3 五组实验图像,从左至右的五幅图分别为坦克、草地、道路交叉口、人、营地。从上至下前两行为可见光图像和红外图像,下面依次是GTF、LP、CVT、ResNet50、VGG19、MST-SR、NSCT、Proposed方法结果图。

我们详细看道路交叉口图,如图4所示,图(a)和(b)为可见光图像和红外图像。从整体上来看,图(c)整体色调偏暗,且目标不清晰,图(e)整体噪声太多导致图像看起来比较粗糙模糊,图(f)、(e)整体呈灰色,分辨不出明显的目标。从对比度上来看,图(h)、(i)和我们的结果都不错,能清晰地看到目标人物,但我们的结果整体风格更加明亮,并且存在更少的黑色不均匀区域。从图(c)、(d)、(e)、(h)、(i)细节中可以看出,GTF、LP、CVT、MST-SR、NSCT方法融合出的图像伪影较严重,红框中的人物放大在图片右下角,放大后可以明显地看出右侧的伪影,基于深度学习框架ResNet50和VGG19的方法所代表的图(f)、(g)虽然从人物上看不出明显的伪影,但结合绿框中放大在左下角的窗户背景来看,玻璃和窗格的灰度比较接近,致使融合结果的对比度不高,图像所包含的信息也不显著,比较模糊,未能很好地结合可见光和红外图像的显著特征。相反我们的结果中,窗格为白色、玻璃为黑色,能够清晰地看出整个窗户的结构,在视觉上能够很轻易地描绘出窗户的轮廓,这符合图像融合期望的结果。

图4 各方法道路交叉口结果图(a)、(b)分别为可见光与红外图像,(c)至(j)为GTF、LP、CVT、ResNet50、Vgg19、MST-SR、NSCT、Proposed方法结果图

2.3 客观分析

选择图像融合领域常用的四个指标作为定量比较的指标,分别为熵(EN)、互信息(MI)、标准差(SD)、视觉保真度(VIF)[15],下面分别讲解指标所对应的含义。

(1)客观分析指标

①熵EN

基于信息理论,熵的大小反映了信息量的多少,熵越大,融合图像的质量越高。

(11)

式子中L为灰度级,设置为256,p(g)为灰度级为g级时融合图像的归一化直方图。

②互信息MI

互信息量用于衡量两个分布之间的距离,也是衡量两个分布之间互相依赖的度量。MI值越大,表面融合结果含有源图像的信息越多。

MI(A,B,F)=MI(A,F)+MI(B,F)

(12)

其中A,B,F分别为源图像1,源图像2和融合结果。MI(A,F)表示A和F之间的互信息,PA,F(i,j)为A和F的联合概率密度,PB,F(i,j)同理,当有多张源图像时,融合图像的互信息指数为融合图像与所有源图像的互信息指数之和。

③标准差SD

标准差用于测量一组数值的离散程度。离散程度越大,说明图像信息更加丰富。

(13)

此处xi,j表示在(i,j)位置处的像素值,μ为在该位置处的平均像素值。

④视觉保真度VIF

视觉保真度用于评估融合图像的品质,VIF值越大表示图像越符合人类视觉感知,图像质量越高。

(14)

(15)

(2)客观指标对比

在(1)中我们介绍了4种指标,包含衡量图片信息量的EN和SD、表明融合图像与源图像之间相似程度的MI和衡量人类视觉保真度的VIF[15]。表3展示了2.2小节中不同方法的5组图片的4个指标,加粗字体为最优结果。结果表明,我们方法在各个方面都具有最好的性能。从EN值可以看出在包含信息量方面,我们的方法比其他方法平均高出接近0.5,表示我们方法得到的图像具有更多的信息,融合图像质量更佳。MI互信息指标优于其他方法说明我们的方法能够更好地提取两张源图像的信息,并融合进结果图中,我们的结果图中包含更多来自源图像的信息。可以看到我们的SD指标高于其他方法,说明我们的方法生成的图像像素值分布更加离散均匀,图像信息丰富。特别的是VIF,在某些场景下,我们的VIF指标也高于其他方法,作为最符合人类视觉感知的指标,其值越大表明越贴合于人眼,所以我们的结果拥有高的对比度和分辨率。总的来说,我们所提出的方法在实验结果上优于其他方法。

表3 定量比较

3 结语

我们提出一种基于快速两尺度分解的图像融合方法,用均值滤波进行源图像的分解得到包含背景粗糙信息的基础层和包含纹理、边缘等细节信息的细节层。对基础层我们采取最大值融合规则,同时将深度学习运用于细节层的融合。细节层被送入预训练好的ResNet50进行特征的提取,我们分离出深度学习网络不同层次的特征图进行融合。先让不同层次的特征图经过提取L1范数和平均操作,得到稀疏的权重图,再通过上采样得到大小一致的最终权重图,最终权重图用于源图像的加权平均得到细节层的融合图像。最后将基础层的融合结果和细节层的融合结果进行相加获得最终融合结果。我们的实验基于TNO数据集和OTCBVS Benchmark数据集,在4个指标上与先进的7种方法进行对比,无论从主观上还是客观指标上都表明我们的方法优于其他方法。

猜你喜欢
红外像素图像
像素前线之“幻影”2000
网红外卖
“资源一号”02卫星可见近红外相机、宽幅红外相机在轨顺利开机成像
闪亮的中国红外『芯』
汤定元:中国红外事业奠基人
“像素”仙人掌
A、B两点漂流记
高像素不是全部
名人语录的极简图像表达
一次函数图像与性质的重难点讲析