谢艳新
(吉林农业科技学院 电气与信息工程学院,吉林 吉林 132101)
红外与可见光融合技术将包含不同波段的图像信息加以综合,目前已经在军事探测、遥感成像、计算机视觉等领域都有着广泛的应用[1]。通常情况下,红外传感器检测到的高热量区域一般是人们关注的目标物体,但是其图像的细节保留能力较差[2]。与此相反,可见光图像却包含丰富的细节信息,同时符合人眼的视觉特性。因此,上述两种图像的有效融合有利于在隐藏、伪装和迷惑的情况下更快、更精确地探测目标[3]。
针对红外与可见光图像融合,学者们多采用多尺度分解(MST)[4]的方法进行处理。值得一提的是,在众多MST工具中,非下采样剪切波变换(NSST)[5]算法具有简单的数学结构,良好的方向选择性和各向异性。除此外,它在分解过程中去除了下采样操作,具备平移不变性,因此具有极佳的分解效果[6]。NSST方法可将源图像分解成一系列不同尺度、不同频率的子带图像,然后采用适当的融合规则对其进行处理,最终得到融合图像。针对低频子带图像,最为常见的融合规则就是加权平均法[7]。该方法只是将源图像的亮度进行空间叠加,容易导致融合图像解析度下降,并且丢失很多显著性信息。潜在低秩表示(LatLRR)[8]是一种无监督的特征提取算法,它能够从数据中鲁棒地提取图像的显著性特征[9],这为本文的研究提供了一定的思路。受此启发,鉴于LatLRR在提取图像显著性的过程中可以获取显著图,而显著图包含了视觉敏感区域在空间分布的权重信息,因此本文利用它作为权重函数对低频子带进行自适应加权融合。相比于传统的加权平均法,该规则兼容了源图像之间的光谱差异性[10],能够表征图像的显著特征信息,使最终的融合图像符合人眼视觉特性。
高频子带图像包含了图像的边缘信息,因此往往采用“绝对值最大”[11]的规则指导融合,但这容易误选噪声系数作为最后的融合系数。PCNN[12]作为一种具有人眼仿生机制的模型,对纹理细节比较敏感,因此适合处理高频子带图像。传统的PCNN模型往往采用单通道模型[13],同时其连接强度往往是恒定的,并且外界刺激一般采用单个像素值。为了弥补这些缺陷,本文提出一种改进的双通PCNN模型处理高频子带信息,充分利用局部图像信息,有效提取图像细节。
综上所述,本文提出一种基于LatLRR和PCNN的多尺度红外与可见光融合算法。该方法利用NSST、PCNN和LatLRR 3种方法的优点,将可见光的纹理信息与红外图像的显著性特征完美结合,最终取得了较好的融合效果。
多尺度分解:图像f经过非下采样金字塔(NSP)分解,最终可得k+1个与f大小相同的子带图像。这k+1个图像包括1个低通子带图像和k个带通子带图像。
方向局部化:NSST利用剪切波滤波器实现高频图像的方向局部化。具体实现过程为:
(1)将伪极化坐标映射到笛卡尔坐标;
(2)利用“Meyer”小波构造窗函数,生成剪切波滤波器;
(3)将k个带通子带图像和“Meyer”窗函数进行卷积操作,然后获得方向子带图像。
LatLRR[14]的核心思想就是将数据矩阵表示为低秩分量、稀疏分量与稀疏噪声三者的线性叠加。对于一个图像矩阵X∈RMN,它可能被解释为:
X=XL+SX+E,
(1)
其中L代表低秩矩阵,L∈RNN;S代表稀疏矩阵,S∈RMM;E代表稀疏噪声,E∈RMN;XL代表图像的近似部分,SX代表图像的显著性信息。
1979年苏格兰独立公投的失败导致了苏格兰问题的爆发,但也带来了意想不到的结果:文学艺术的复兴和繁荣。苏格兰开始通过文学和艺术创作重新思考和定义自我身份,反映苏格兰文化艺术多样性和“新苏格兰”的作品迭出,可以说“80年代是近两个世纪以来苏格兰文化自我建构最重要的时期之一”(Harvie 1991:77)。《兰纳克》的出版正是对自战后以来苏格兰社会变迁的回应。这部小说创作历时近30年,跨越了苏格兰社会问题频发的阶段,又恰好出版于公投失败之后,再加上格雷民族主义者的政治身份,那么就不难理解小说中对苏格兰民族身份和社会政治的影射和思考了。
为了解决公式(1)的问题,可以采用凸优化函数处理,即范数最小化,其表达式如下所示:
(2)
其中:λ>0;‖ ‖*表示矩阵的核范数,即矩阵的奇异值的和;‖ ‖1表示1范数,即矩阵中所有元素的绝对值之和。除此外,公式(2)也可以通过增广拉格朗日乘子(ALM)[13]方法来解决。
鉴于传统单通道PCNN[15]模型本身存在参数众多且不可忽略,并且由于只能反映一个源图像的信息,因此对图像中的偏暗区域不敏感,为此本文采用一种改进的双通道PCNN模型,其表达式如下:
(3)
(4)
(5)
(6)
(7)
θxy(n)=θxy(n-1)-Δ+VθYxy(n),
(8)
(9)
本文针对光谱差异较大的红外与可见光图像融合,提出了一种基于LatLRR和PCNN的多尺度融合算法。首先,该方法利用NSST获取图像的低频与高频分量。其次,针对低频子带,采用基于LatLRR方法进行自适应加权融合;针对高频分量,利用改进的双通道PCNN模型指导其融合。最终,利用NSST逆变换重构融合子带,获取融合图像。其中图1展示了本文算法的流程图。
图1 本文提出的融合模型示意图Fig.1 The Schematic of the proposed fusion mod
图像的低频分量代表了图像的主要能量,是图像的近似部分,因此低频分量的融合规则决定最终的融合效果。本文采取的融合步骤如下:
第一步:采用LatLRR算法分别对IR与VI图像进行分解,获得各自的显著特征矩阵SIR(x,y)与SVI(x,y),然后再将两幅图的灰度值进行归一化,形成加权系数矩阵Si(x,y)与Sv(x,y):
(10)
第二步:利用Si与Sv获取低频分量融合时的加权系数,其具体表达式如下所示:
(11)
(12)
其中:ωi(x,y)与ωv(x,y)分别代表红外图像与可见光图像的加权融合系数。
第三步:利用加权系数获得融合图像的低频分量,其表达式如下:
(13)
为了能让高频分量更好地反映图像的边缘特征和纹理细节,本文采用一种改进的双通道PCNN模型指导高频分量的融合(图 1),其融合步骤如下:
第一步:首先,令双通道PCNN模型中各参数初始化。鉴于图像的平均梯度算子(AVG)[16]
恰好能能够反映图像的边缘、纹理的细节,这与高频分量的本质相似,因此采用其计算神经元的外界刺激:
(14)
Dx(x,y)=Dl,k(x,y)-Dl,k(x+1,y),
(15)
Dy(x,y)=Dl,k(x,y)-Dl,k(x,y+1).
(16)
第二步:PCNN模型的链接强度反映了神经元耦合关系的强弱,为了能够同样反映高频分量的特征,本文采用方向梯度和算子(SDG)作为链接强度:
KSDGl,k(x,y)=Dh(x,y)+Dv(x,y),
(17)
,
(18)
,
(19)
其中:公式(17)~(19)表示对高频子带系数Dl,k(x,y)求解方向梯度和KSDGl,k(x,y)即高频分量PCNN模型的链接强度,它能够表达图像的梯度特征。
第三步:迭代公式(3)~(9)直到所有神经元都被点火,计算Uxy(n),Lxy(n),θxy(n),Txy(n),Yxy(n),融合系数的规则如下:
(20)
(21)
(22)
其中:n代表迭代次数,Dl,k(x,y)代表最终的高频子带融合系数。
为了验证本文算法的有效性,我们采用NSST、NSST-PCNN、NSST-SF-PCNN[17]、等方法作为对比。为了表现算法的广泛性,我们选取了3种不同环境的红外与可见光图像,这些源图像都已经过严格的配准。其中第一组为夜晚的街道,第二组为植被,第三组为树丛。其中第1组到第3组图像的大小分别为632×496、430×340、360×270。本文算法的NSST采用“maxflat”作为金字塔滤波器,其中分解层数为4层,每层分解的方向数分别为[4, 4, 8, 8],LatLRR算法中λ=0.04。除此外,NSST-PCNN方法中的参数设置为:αL=0.069 31,αθ=0.2,VL=1,Vθ=20,θ=0.2,N=100,W=[0.707, 1, 0.707; 1, 0, 1; 0.707, 1, 0.707]。NSST方法的剪切波滤波器参数与本文相同,其低频分量采用“加权平均规则”,高频则采用“绝对值最大原则”。
图2~图4分别代表第1组到第3组的融合实验,每组图中的(a)~(f)分别代表红外图像、可见光图像、NSST、NSST-PCNN、NSST-SF-PCNN和本文算法的融合图像。总的来讲,基于NSST方法的融合图像对比度都比较低,整体比较昏暗,不适合人眼视觉观感。其中第一组实验中,图像的整体亮度较其他对比算法较低,因此其丢失了大量图像特征。而NSST-PCNN、NSST-SF-PCNN方法的融合图像都出现了一定的伪影噪点,其中以第一组实验中两种方法的字牌都含有黑色的噪点。并且,第三组实验中,NSST-SF-PCNN则在树丛中出现伪影噪点。相比之下,本文算法的融合图像包含更为显着的红外目标信息和更丰富的可见光图像背景信息,因此具有较好的主观融合效果。由于采用了全新的低频融合规则,因此融合图像在主体观感上兼容了源图像的光谱特性,凸显了各自的显著性信息,更加符合人眼的视觉观感。同时高频规则的建立则最大程度还原梯度信息,使图像具有清晰的边缘细节。
图2 第一组融合实验的视觉对比Fig.2 Visual contrast experiments based on the first group
图3 第二组融合实验的视觉对比Fig.3 Visual contrast experiments based on the second group
图4 第三组融合实验的视觉对比Fig.4 Visual contrast experiments based on the third group
在大多数情况下,融合结果之间的差异不大,则难以用主观方式正确地评价融合结果。因此,为了更加客观地对融合效果进行评价,本文选取了以下5个客观质量指标作为评判标准:(1)平均梯度(AVG)[18];(2)边缘信息保留量(QG)[19];(3)空间频率(SF)[20]。对于这3个指标,数值越大代表性能越好,对于3组融合图像,详细的定量评价见表1~表3,其中粗体值表示在上述方法中使用相同索引的最佳结果。
表1 图2的主观评价参数Tab.1 Objective evaluation results for Fig. 2
表2 图3的主观评价参数Tab.2 Objective evaluation results for Fig.3
我们可以清晰地发现,在3组实验中,我们除了QG评价值略低于其他对比算法,剩下两种评价值均保持领先的水平。这表明我们所提出的融合规则能更好地解决融合问题,这与主观视觉观感是相似的。综上所述,本文提出的融合算法在图像灰度值分布、边缘细节、清晰度等方面优于其他算法,并且拥有较好的观感。
表3 图4的主观评价参数Tab.3 Objective evaluation results for Fig. 4
本文利用基于LatLRR和PCNN的多尺度融合模型指导红外与可见光图像融合。该模型利用NSST作为多尺度分解工具获取图像的低频与高频分量。针对低频分量采用基于LatLRR的方法指导其自适应加权融合,而高频分量则利用自适应双通道PCNN模型对其进行指导。该算法可以弥补两种源图像较大的光谱差异性,同时较完整地保留了丰富的纹理信息和细节信息。最终,该方法在视觉质量和定量评价方面都优于现有的其他融合算法。