程永翔 刘 坤 贺钰博
(上海海事大学信息工程学院 上海 201306)
红外传感器对目标区域的红外热特征敏感,它可以昼夜工作并克服光照的困难来发现目标,但是其往往缺乏丰富的细节信息,背景模糊;而可见光图像包含更为丰富的纹理特征和细节信息,但其成像条件对光照的要求较高。若将红外图像与可见光图像的互补信息进行有效融合,获得的融合图像信息更丰富、鲁棒性更强,为后续的图像分割、检测、识别奠定了良好的基础。因此红外和可见光图像融合技术被广泛应用于军事和安全监控领域。
近几年来,随着深度学习理论研究的深入,深度学习强大的特征学习能力在图像分类[1]、目标检测[2]、图像融合[3]等计算机视觉领域中都取得了优异的成果。图像融合分为:像素级、特征级和决策级。像素级的图像融合最为基础且融合的图像信息更丰富。基于多尺度变换(MST)和稀疏表示(SR)的图像融合方法是像素级图像融合方法[4-7]中最普遍的方法,该类方法中图像特征提取器是需要手动设计的,运算效率低;同时提取到的单一的图像特征并非能很好的应用于各类复杂的图像环境,容易在灰度均匀的区域误判。深度学习引入图像融合领域后,图像融合算法在融合效率及精度方面有了显著提高,如Liu等人提出了基于卷积神经网络的红外与可见光图像融合[3],该方法利用卷积神经网络与多尺度结合的方法实现了图像的融合获得的融合图像特征更为清晰。陈清江等人提出了基于深度学习的多聚焦图像融合[8],融合图像保留了原图像更多的高频信息,边缘纹理等信息更为精准。因此基于深度学习的图像融合方法能有效提取源图像中更为丰富、全面的信息,越来越多的学者开展基于深度学习的图像融合算法的研究。
基于此,本文提出一种基于卷积神经网络与视觉显著性的红外与可见光图像融合方法。首先利用红外光图像具有良好的目标指向性的特点,将其输入到训练好的具有像素二分类功能的卷积神经网络模型,对红外目标区域进行分类;其次,利用CRF(条件随机场)[9]进行精细的提取;最后依据NSCT[10]的平移不变性的特点,结合显著性目标提取图,实现红外与可见光图像的显著性融合。实验结果表明,与传统的非智能融合方法相比,本文方法不论在主观评价还是客观评价上都得到了一定的提高。因此本文的图像融合方法不仅能从深度学习和视觉显著性来改善图像融合效果,同时获得的融合图像质量良好且能更好的服务于后续的图像理解与识别等。
红外图像利用场景内物体热辐射的差异成像,目标区域的热辐射度明显高于背景区域,因此虽然目标突出,但背景缺乏细节。所以是人类视觉系统捕获的视觉显著性区域,图像融合前先将显著性区域提取出来。本文使用的卷积神经网络是由Liu等提出[3],网络由三个卷积层,一个最大池化层和一个全连接层组成,输出层是一个softmax分类器。由于是对单幅红外图像的处理,因此需要单通道网络即可,网络结构如图1所示。卷积层采用卷积核对输入图像进行卷积操作,将红外图像作为输入图像,以滑动窗口16×16遍历输入的红外图像,每一层卷积层的卷积核尺寸设为3×3,步长设为1;在两个卷积层之后,插入最大池化层,逐渐降低数据空间的尺寸,卷积核尺寸和步长分别设为2×2和2;然后采用一个全连接层,将得到的特征图与一个二维输出向量全连接,最后输出经softmax分类器,实现对原始输入图像端到端的像素级的预测分类。
图1 卷积神经网络结构
由于期望网络可以输入任意大小尺寸的图像,而全连接层要求输入输出的图像具有固定尺寸,因此将全连接操作看作是卷积核大小等于输入数据的空间大小的卷积操作。网络中的池化层和一些卷积层,导致数据尺寸通常减少,若要使输入和输出数据具有相同的大小,对最后的特征图采用上采样的方法,使输出的预测图Y恢复到与输入图像I相同的尺寸,这样既对每个像素都产生一个预测及分类,同时保留了原始输入图像中的空间信息。
从TNO_Image_Fusion_Datase[11]图像集中抽取200幅红外光图像,再对图像进行旋转、翻转、平移、投影、尺度及对比度变换,扩增到2 000幅图像,并将这些红外光图像进行切分成16×16的子块,并且将子块按热红外强弱分为热红外目标区域图像集与背景图像集。将来源于热红外目标区域图像集的图像子块标签设为1,来源于背景图像集的图像子块标签设为0。训练集测试集图像子块数量比为3∶1。训练时,输入一幅16×16子块,由softmax输出得分范围(0,1)。若来源于热红外目标区域图像集的概率大,则输出接近于1,否则接近于0。
由于是对显著性目标进行提取,应对输入图像中的红外目标与背景区域做出像素的分类。向网络输入一幅图像I,得到h×w×2大小的预测图Y。我们将Y的两个输出通道分别表示为目标图Fi,j和背景图Bi,j,为相应位置的所有像素的得分,通过应用softmax函数,计算出目标的概率:
(1)
式中:li,j∈{f,b}表示像素(i,j)处的目标f或者背景处b的像素标签。损失函数为像素间的交叉熵损失函数:
L=-∑iyilogp
(2)
式中:yi代表迭代i次数的真实分类的结果,采用随机梯度下降法来优化损失函数,动量和权重衰减分别设为0.9和0.000 5,学习率为0.000 1。
因此,将一幅原始的红外光图像图2的第1行第1列输入到训练好的CNN中去,经过像素的分类,也就是红外目标区域的分割,就可以得到一幅与原图尺寸一致的显著性分割图S,如图2第6行第1列所示。
图2 红外光图像与多种方法显著性提取后的图像
虽然CNN能够实现像素级的二分类,但是得到的结果不够精细,并且对各个像素进行分类时对像素与像素之间的关系考虑不充分,导致结果缺乏空间一致性,出现了像素分类的误差。条件随机场CRF[9]用于将由分类器计算的类分数与由像素边缘或超像素的局部交互捕获的低级信息组合,且具有捕获细微边缘细节的能力,大大提高了基于像素级分类器的性能。定义一个随机场X={X1,X2,…,XN},对于每个像素i具有类别标签xi,I为另一随机区域,I={I1,I2,…,IN},Ii是像素i的颜色特征向量,I与X构成了条件随机场:
(3)
(4)
(5)
其中:E(x|I)是能量函数,Z(I)是归一化因子。Ψu(xi)=-logP(xi)来自于前端CNN的输出,P(xi)在本文中指的是某一像素点i属于热红外目标区域或背景区域的概率。Ψp(xi,xj)也就是描述像素点与像素点之间的关系,鼓励相似像素分配相同的标签,而相差较大的像素分配不同标签,因此CRF能使图片的边界处分割更精确。μ(xi,xj)用于做标签比较,当xi≠xj时,μ(xi,xj)=1,否则为0。p和I分别表示像素的位置信息和颜色信息;θα、θβ、θγ分别用来控制位置信息、颜色相似度以及位置信息的尺度;ω为线性组合的权重。
由CNN和CRF可以得到显著性目标提取图S(m,n)并有效地减少与显著图无关的弱红外背景区域,增强目标区域的重要性,从而改善融合图像中保留的细节信息。由图2的第7行可以看出,一些无关分布的区域已被成功移除,因此表明该目标分割方法是准确的。
本文针对4幅不同的红外光图像,采用不同方法(CA,FT,SR,LC[12-15],CNN[3])对其进行显著性提取,可以得到一个基于概率的显著性图,如图2的第2-6行所示。CA,LC以及单独的CNN方法虽然可以将目标提取,但目标的形态并不明确,且与背景的交界较模糊。SR和LC方法可以得到准确的目标,但是同时混入了大量的背景区域。本文方法成功提取到了显著性目标,且最接近于标准分割图。图2第8行为标准分割图。
显著性区域常用的客观评价指标有平均绝对误差MAE。MAE(Mean Absolute Error)[17]是平均绝对误差,本文中反映了不同算法提取出的目标图与理想的标准分割图之间的平均绝对误差。本文中采用手动的PS方法获得标准割图。使用上述六种方法分别对四组显著图和标注图求得的MAE的平均值如图3所示,可以看出本文方法与标准分割图之间的误差最小,因此显著性区域描述的更为精确。
图3 显著性提取评价指标MAE
如图4所示,本文首先由CNN和CRF算法获取红外图像的显著性目标提取图;然后分别对红外图像和可见光图像进行NSCT变换,利用红外图像的显著性目标提取图指导低频子带与高频子带系数的融合;最后通过NSCT逆变换得到融合后的图像。
图4 基于卷积神经网络与NSCT的图像融合流程图
NSCT是一种具有平位不变特性的多尺度多向变换[10],对于图像融合和图像处理的其他应用来说是有效和高效的,并减少了伪吉布斯现象的影响。NSCT使用非子采样金字塔(NSP)和非子采样方向滤波器组(NSDFB)来获得图像的多尺度和多方向分解,该变换有效避免了下采样操作,具有平移不变特性,在进行图像处理的时候,可以更多的保留源图像细节信息,改善融合图像的质量。
在融合图像过程中,针对红外光图像,要增强高热红外目标区域的显著性,减少背景区域带来的干扰,为了将红外图像的目标指示特性和可见光图像细节丰富的背景信息充分结合起来,对于低频子带融合,采用显著性提取图S(x,y)与低频系数相结合的方法,对于图像中的任意一点坐标(x,y),低频融合子带系数为:
(6)
αA(x,y)=S(x,y)
(7)
αB(x,y)=1-S(x,y)
(8)
红外图像背景的高频子带部分包含了大部分的图像细节,如果采用单一的融合方法,容易导致融合效果有偏差,例如单一的加权融合容易失去图像的纹理细节,若单选用局部区域融合规则可能导致结果模糊,因此对于高频部分采用显著性区域系数法与局部区域融合规则相结合的融合方法。
对于显著性区域内的高频子带,选择显著性区域系数法:
(9)
对于显著性区域外的高频子带系数的融合采用局部方差对比度的融合规则[10],局部方差计算如下:
(10)
(11)
(12)
(13)
(14)
最后,对低频和高频子带融合系数,通过逆NSCT变换得到最终的融合图像。
本文选取了四组不同的红外与可见光图像进行实验,下面给出具体的实验结果和不同融合算法之间的对比分析。为了验证本文方法的有效性,对同一组红外与可见光图像采取5种方法与本文方法进行比较,这些方法包括4种非智能方法:拉普拉斯算法(LP)[4],非下采样轮廓波变换(NSCT)[5],双树复小波变换(DTCWT)[6],基于稀疏表示法(SR)[7]以及文献[3]提出的智能方法:基于卷积神经网络红外与可见光的图像融合方法(CNN)。其中,多尺度分解方法(LP,NSCT,DTCWT),将待融合的源图像进行3级分解,得到的低频部分和高频部分分别采取自适应加权平均融合规则与系数绝对值最大融合规则,融合后的图像如图5-8所示。
(a) 红外光图 (b) 可见光图像 (c) LP方法 (d) NSCT方法
(e) DTCWT方法 (f) SR方法 (g) CNN方法 (h) 本文方法图5 第1组红外与可见光图像融合方法对比
(a) 红外光图像(b) 可见光图像 (c) LP方法 (d) NSCT方法
(e) DTCWT方法 (f) SR方法 (g) CNN方法 (h) 本文方法图6 第2组红外与可见光图像融合方法对比
(a) 红外光图像(b) 可见光图像 (c) LP方法 (d) NSCT方法
(a) 红外光图像(b) 可见光图像 (c) LP方法 (d) NSCT方法
(e) DTCWT方法 (f) SR方法 (g) CNN方法 (h) 本文方法图8 第4组红外与可见光图像融合方法对比
图像融合质量评价方法主要分为主观和客观方法[18],主观方法也就是用肉眼观察图像融合的效果如何。从图5-图8的融合结果可以看出,与源图像相比,由6种不同方法得到的融合结果,图像信息都得到了一定程度的丰富,并成功提取了红外目标信息,但是各图像的细节保持和整体对比度各有差别。本文方法得出的融合结果在主观视觉上与其他5种方法相比,目标区域更显著,且背景区域细节更丰富。例如图5,从背景信息来看,LP和SR方法得到的图像细节纹理不够清晰;而对于NSCT、DTCWT和CNN方法,背景区域出现了明显的噪声;本文方法得到的融合图像信息更丰富,且道路、树木的细节纹理清晰可见。从目标区域来看,LP、NSCT和DTCWT方法中,目标边缘模糊且与整体场景的对比度较弱;CNN方法得到的目标人物虽然清晰,但是与背景的交界处颜色加重;本文方法得到融合图像的目标区域的亮度更显著,与背景区域的对比度更高且过渡自然。
由于主观方法容易受外在环境因素的影响,因此,本文选取了以下5种客观评价指标[18](QAB/F,QY,MI,IE和SD)来衡量对于同一组红外与可见光图像采用不同融合方法融合后的效果。QAB/F表示边缘信息保留量,其值介于0和1之间,值越接近于1,图像边缘保持度越好,融合图像细节信息也就更丰富;QY是基于局部结构相似度的评价指标,其值越大表明两幅图像相似度越高;互信息MI表示融合图像保留源图像的信息量,该值越大,表示融合图像对源图像的保真度越高;用信息熵IE来衡量融合图像中信息量的大小,信息熵越大说明图像包含的信息量就越丰富;标准差SD反映了图像像素与均值的离散程度,标准差值越大,融合图像的质量越好。
本文采取以上5种融合图像评价标准对图5-图8的融合图像进行衡量。从表1的四组数据可以看出,和非智能方法(LP,NSCT,DTCWT,SR)相比,本文方法在QAB/F、QY、IE和SD上评价得分明显提高。说明该方法在细节的清晰度、边缘保持度、以及信息的保持度等方面均优于非智能方法;而与智能方法CNN相比,本文方法在QAB/F、QY、MI和SD评价上更胜一筹,但在IE方面略逊于CNN,如1组和2组得分所示。由此,说明了本文方法能够充分挖掘红外图像与可见光图像的互补特性,既获得了清晰度较高的融合图像,又在边缘保持度、相似度以及对源图像中有用信息的提取和综合方面表现出了显著的优势,但在图像信息的保持度方面仍有提高的空间。
表1 融合结果的客观评价
本文提出的一种基于卷积神经网络和目标显著性提取相结合的红外与可见光图像融合方法,利用深度学习可以自动从数据中提取独特的特征而无需手动干预的特点,首先由卷积神经网络和条件随机场得到显著性提取图,随后利用NSCT多尺度分解方法,实现红外与可见光图像的融合,保证了目标区域和背景区域的清晰度以及细节的丰富度,得到了较好的融合效果。由于本文仅考虑了红外与可见光图像的融合需求,在其他图像融合领域(如医学图像融合和多光谱图像融合)并未涉及,因此下一步将研究本文方法对其他领域图像融合的适用性。