周美琪,高陈强,木 松,刘芳岑
(重庆邮电大学 通信与信息工程学院, 重庆 400065)
红外图像和可见光图像包含的信息具有很强的互补性。红外图像根据物体的热辐射成像,有不受光线、背景杂波、成像距离的影响的优势,但红外图像会丢失纹理、结构等细节信息[1];可见光图像通过物体的反射成像,有丰富的颜色和纹理信息,但容易受到照明,遮挡等因素的影响。同时利用红外与可见光两种图像对在计算机视觉的各项任务中存在较大的优势,而准确、高效的图像配准是重要前提。红外与可见光图像配准的定义请参见文献[2]。红外与可见光图像配准技术已在遥感图像、现代军队、夜间监视等领域有广泛的应用。
现有的图像配准方法主要分为基于区域的方法和基于特征的方法。基于区域的方法使用图像相同部分中原始的像素,通过寻找参考图像和待配准图像之间的最小距离,达到配准的效果。如相关运算的方法和互信息方法[3-6]。基于特征的方法首先提取图像中稳定的特征,再通过相关矩阵实现特征点匹配。如常见的基于尺度不变特征变换(scale-invariant feature transform,SIFT)算法,以及加速的尺度不变特征变换(speeded up robust features,SURF)算法、彩色尺度不变特征变换(colored scale-invariant feature transform,CSIFT)算法。
在本文中可见光图像模态转换后得到的红外光谱信息对提取模态独立邻域特征[7]至关重要,首先将可见光图像转换生成类似于红外光谱图像,然后提取生成的红外图像和原红外图像的模态独立邻域特征,实现图像配准。实验结果表明,与现有的方法相比,本文的方法具有较好的配准效果。
图1展示了本文的算法框架,首先使用红外与可见光图像对训练生成网络,得到生成图像,然后对生成图像与红外图像提取模态独立邻域特征,再计算两者变形域,得到配准图像。
图1 本文算法框架
在本文中使用图像生成来实现模态转换,以减少可见光与红外图像的光谱的差异性,进而在近似模态进行图像配准。图像生成的方法采用生成式对抗网络模型(generative adversarial network,GAN)。生成式对抗网络最早是由Ian Goodfellow等提出,其基本思想是学习训练样本的概率分布。其实现的方法是让生成网络与对抗网络互相竞争,其中生成网络学习训练集中图片的概率分布,用习得的概率分布将随机噪声转变生成新的样本。判别网络同时观察真实和生成的样本,并判断这个样本真伪。在此基础上Isola, Phillip等提出条件生成式对抗网络(conditional GAN,CGAN)[8],将待转换的图像作为条件,高斯噪声作为生成器的输入,转换为需要的目标图像。为了让生成器产生的图像逼近真实的目标图像,生成器的损失函数添加目标图像匹配度的惩罚项。该网络在训练时不需要对隐变量做推断,生成器的参数更新不是直接来自于数据样本而是使用来自判别器的反传梯度,在不同的图像生成任务中都取得了较好的效果。本文采用该网络结构进行模态转换,原理如图2所示。
图2 GAN工作原理示例
在图像配准任务中,有许多特征可以用来计算图像的相似性,例如角点、边缘、渐变、纹理或强度值。大多数基于像素强度的相似性度量仅使用这些特征中的一个,或者定义不同特征的组合以及它们之间的权重。此外,由于图像块能够较好表示不同类型的图像特征(包括边缘、点和纹理),因此配准算法常采用图像块进行相似度计算。本文采用多种特征融合的方式,并通过图像块计算图像的局部独立特征。
模态独立邻域算子是图像特征的局部表示,是一个独立于不同图像模态、对比度和噪声水平的图像描述算子。在经过模态转换后,红外与可见光图像仍然存在细节上的差别。而模态独立邻域算子能表示不同类型的图像特征,可以通过一种模态中的图像块的相似性估计图像特征,实现跨模态共享。在本文方法中,对生成图像与红外图像两个模态的图像块分别提取模态独立邻域算子,表示局部邻域中的独特图像结构,然后计算两者变形域,得到配准图像。模态独立邻域算子通常可以由距离Dp、方差估计V和空间搜索区域R来定义
(1)
其中,n是归一化常数(最大值为1),r∈R是搜索区域。使用模态独立邻域算子,可以通过位置x处的大小为|R|的向量表示图像。式(1)中同一图像的两个像素x1和x2之间的距离测量表示:分别以x1和x2为中心,大小为(2p+1)d(d为图像维度)的两个图像块P之间的所有像素的平方差(sum of squared differences,SSD)的总和
(2)
Dp(I,x,x+r)=C⊗(I-I′(r))2
(3)
(4)
(5)
噪声ε在整个图像域Ω上取平均值,以获得恒定的方差量度V(I,x),这增加了模态独立邻域算子对空间变化噪声的灵敏度,有利于提取模态独立邻域特征。确定V(I,x)的方法是在四邻域n∈N内使用图像块距离本身的平均值
(6)
通过式(6),可以自动计算模态独立邻域特征,无需其它参数。图3中示出了模态独立邻域算子对于生成红外图像和红外图像的两个不同图像特征。
图3 模态独立邻域算子在不同模态的特征
在图像配准中,本文的目标是最小化变形场u的成本函数,该目标函数由非线性相似项φ和扩散正则化项组成
(7)
(8)
使用连续的迭代求解器求解等式(8),通过添加更新步骤ugn来计算最终变形字段。参数α平衡相似性项与归一化项,α的值通过实验确定。
评估数据集包含1000张图像,12个不同的场景,包括学校、街道、游乐场、公园等。场景中的主要对象是行人、植物、建筑物和车辆。红外图像的分辨率为293×256,可见光图像的分辨率为720×480。待配准的图像对来自同一时间同一场景的红外和可见光视频,图4展示了待配准的红外图片与对应的可见光图片实例。为了验证本文算法的效果,分别与两种经典配准方法进行比较:①基于SURF特征的引导匹配图像配准方法;②基于相位特征变换的图像配准方法。
图4 红外图片与对应的可见光图片示例
为了定量评估本文算法,文中使用学术界通用的平均绝对误差(mean absolute error,MAE)、峰值信噪比(peak signal to noise ratio,PSNR)和图片间的归一化互信息NMI(normalized mutual information,NMI)作为评价算法的指标。MAE的定义如下
(9)
其中,fi表示预测值,yi表示真实值,平均绝对误差能反映预测值误差的实际情况。PSNR的定义如下
(10)
(11)
MSE表示均方差,式(10)中MAXI表示图像点颜色的最大数值。NMI的定义如下
(12)
其中,H(A)和H(B)代表图像A和图像B的边缘熵,H(A,B)表示两幅图像的联合熵。归一化互信息将重叠区域的变化考虑在内,能较好反映图像间相似程度。
图5第一行展示了两组待配准的红外与可见光图像对,余下3行依次为3种不同方法实现红外与可见光图像配准效果图和融合图:第二行为根据模态独立邻域特征实现红外与可见光图像对配准示例;第三行为根据SURF特征实现配准示例;第四行为根据相位相关特征实现配准示例。从图中可以看出:本文所用的基于模态独立邻域特征的图像变形配准方法综合效果最佳;基于相位特征的方法有较好效果;SURF特征方法在部分图片上没有效果,由融合图片可看出图中人物头部轮廓形状未完全重合。
图5 红外与可见光图片配准结果示例
为了定量分析基于模态转换和模态独立邻域特征的红外与可见光图像配准方法的效果,我们在表1中展示了3种方法配准后的图像与原图像的结果,表2展示了3种方法的融合图片与原图比较结果。其中MAE越低说明配准效果越好;PSNR与NMI越高,配准效果越好。由表1中数据可以看出基于模态独立邻域特征的红外与可见光图像配准方法在MAE和PSNR两项指标上均有最佳表现,在NMI上与其它方法相当。
表1 3种方法的配准图片与原图比较结果
表2 3种方法的融合图片与原图比较结果
本文提出基于模态转换的红外与可见光图像配准方法,针对红外与可见光图像灰度差异大的问题,基于图像块的相似性,提取局部邻域中的独特结构并保存特征,图像转换过程中实现跨模态特征共享。同时针对相似灰度较多的情况下景物间可能存在误配准的情况,采用归一化互信息作为配准度量。实验结果表明,模态转换后的红外光谱信息对提取模态独立邻域特征具有效性,在同类算法中有较好的配准效果,为进一步的图片分析提供了基础。