图像融合在域内的算法研究进展

2021-11-22 08:53王丽丽郭肇禄

计算机技术与发展 2021年11期

王丽丽，刘辉，郭肇禄

(江西理工大学理学院，江西赣州 341000)

0 引言

日常生活中，以图像形式存在的视觉信息是主要的信息来源。如何从多幅不同图像中获取同一场景真实可靠的信息是图像融合的主要任务。通俗地讲，图像融合[1]指的是同一场景下由一定设备获取的两幅或者多幅图像经过特定的融合规则处理得到更有利于人或计算机后续处理的图像。

随着图像(信号)表示理论的发展，图像融合技术经历了由单一到复杂的过程。在这过程中，出现了两次较重要的飞跃：分别是多尺度几何分析方法的引入和以神经网络为代表的深度学习方法的引入。

总体上，图像融合方法可划分为三个级别：像素级[2]、特征级和决策级融合。张继贤[3]分别从像素级、特征级和决策级三个层次对遥感图像融合的现状进行总结并讨论分析其未来的发展趋势和挑战。针对不同设备获取的各种图像，又可将图像融合技术划分为遥感图像融合技术、医学图像融合技术、摄影图像融合技术以及可见光和红外图像融合技术。Zhang等人[4]从多尺度分解的角度对图像融合方法做了最早的总结。在2007年，Goshtasby[5]对当时现存的图像融合新技术进行了分类概括。另外针对具体应用领域的图像融合方法的总结分别在之后的几年里得到了实现。2016年，Hassan[6]着重在像素级上对遥感图像融合方法进行概括。在医学图像融合领域，分别有Alex[7]和Du[8]从不同成像模式和图像融合的详细过程进行了概述。针对可见光和红外图像的融合，Jin[9]和Ma[10]等人对各种方法以及应用做了详细分类和总结，后者还在文章中介绍了作为融合前提的配准操作。在摄影领域，Liu[11]对于多聚焦图像的融合方法进行了更细致的划分，并基于30对实验图像和8种质量评价准则对18种代表性融合方法进行比对分析，为后面多聚焦图像融合的研究提供了参考。在图像融合技术逐渐增强的同时，评价其质量好坏的标准也在逐渐得到完善。针对不同类型的融合图像，评价标准又有通用性评价标准和特有评价标准之分。

图像融合体系又可大致分为融合方法以及融合质量评价两方面。融合方法的发展过程主要可分为以下几个阶段：单个多尺度几何分析方法[12]阶段、混合多尺度几何分析方法[13]阶段、基于信号理论的稀疏分解方法[14]阶段以及多尺度几何分析和稀疏表示相结合[15]的方法阶段。另外，在稀疏表示方法的应用期间，稀疏字典的构建又经历了从自适应能力较差到相对较强的变化。随后，随着深度学习[16]研究的深入，其对应的方法被应用于图像融合中并得到更符合人眼观察的融合图像。伴随融合方法的改进，融合质量评价指标也更加多样化。同时，质量评价指标在效率和反映的信息量上也得到提升。

文中所做的主要工作有：

(1)对现有的主要的几个图像融合应用领域的方法做了较为全面的总结；

(2)将图像融合方法根据处理对象划分为变换域和空间域两类，并进一步解释两类方法的核心思想和区别；

(3)列举出较全面的图像融合的评价标准并对其做细致分类。

文中主要按以下结构对图像融合方法进行概括：第二部分归纳总结了近年来图像融合领域的新方法及其优缺点，并重点对比分析不同方法对应的融合规则。第三部分从主观、客观两方面对图像融合质量的评价标准进行归纳，重点列举实验中常用到的客观评价标准。第四部分总结了目前图像融合技术的主要应用领域。最后针对现有的图像融合方法存在的问题进行了归纳总结，并对这些问题对未来发展方向做出展望。

1 图像融合方法分类

图像融合方法主要分为两类：基于变换域的图像融合方法和基于空间域的图像融合方法。下文分别对上述两种方法做详细介绍。

1.1 基于变换域的图像融合方法

图像融合在变换域上进行处理时，主要可分为三个主要步骤[17]：分解、融合和重构。现将基于多尺度变换的图像融合方法主要步骤进行归纳，如图1所示。

图1 基于多尺度变换的图像融合过程框架

变换域方法具体可划分为基于金字塔变换[18-21]的方法、基于各种“波”变换[22-31]的方法以及两种方法与其他方法结合在一起的方法。其中关于金字塔类和“波”类变换的具体分类可见表1。

表1 基于变换域的融合方法分类

1.1.1 基于金字塔变换的方法

Burt[18]首次提出拉普拉斯金字塔(Laplacian pyramid，LP)，并用于图像融合。Toet[19]提出比例低通金字塔(ratio of low-pass pyramid，ROLP)方法得到的融合图像更加符合人眼视觉系统。Toet于同年又提出形态学金字塔[20](morphological pyramid，MP)的概念并用于融合图像，使得图像中满足结构元素的对象轮廓保持不同分辨率上的良好表示。另外，针对融合过程中引入的失真和伪影现象，V. Petrovic提出梯度金字塔[21]结构，构建出融合梯度图，可显著降低融合引入的伪影数量和失真。另外，梯度金字塔的构建引入了方向性，弥补了前面各种金字塔缺乏表征方向性特征的缺点。

1.1.2 基于各种“波”变换的方法

利用不同波类型的基函数对图像进行变换能很好地弥补金字塔变换融合图像时出现的低对比度和轮廓信息表示不准确等缺陷。下面对不同类型“波”变换在图像融合中的应用进行描述。

离散小波变换对图像离散化处理，能得出图像在不同尺度上的分解。晁锐等[22]利用多个小波基函数，使得融合图像具有正交性、对称性和紧支撑等特性。平稳小波变换[24]中利用上采样操作取代离散小波变换中的下采样操作，从而达到消除因离散小波变换而生成的平移变化，同时消除因平移变化产生的伪影。双树复小波变换[25]在小波的基础上提供了明显更紧凑的变换域表示，不仅实现了近平移不变性，还提供了改进的方向性。

Chen等[26]首次将脊波变换作为图像融合的工具，在小波的基础上，结合Radon变换，使得融合结果对具有线奇异性对象的表示更优。曲波变换[27]则可以直线段近似逼近曲线的特点使得具有曲线特征的对象在融合结果中得到很好地表示。

轮廓波变换[28]主要由LP滤波器和方向滤波器组成。LP变换完成图像的各个尺度表示，方向滤波器在各个尺度上再对图像进行分解，从而连接LP变换捕获的边缘点形成连续的边缘(即轮廓)。非下采样轮廓波变换[29](nonsubsampled contourlet transform，NSCT)通过去除下采样操作，解决了轮廓波变换处理图像时无法改善的平移变化，消除了融合图像出现的伪影现象。剪切波[30](Shearlet)形式更加简洁，处理图像时无需大量的数据，运行时间更短，但缺乏平移不变性。与NSCT的原理类似，非下采样剪切波变换[31](nonsubsampled shearlet transform，NSST)不直接对图像进行上、下采样，改善平移变化的同时也可消除图像分解和重构过程中出现的频率混叠现象，且分解得到的子图像与源图像大小一致，可有效减少图像因误配准或未配准而产生的误差，这一点在图像融合中尤为重要。

1.1.3 与其他方法结合的方法

不同“波”变换通过和其他类型的模型相结合也可以达到更好的融合效果，其具体特点见表2。

表2 与“波”类方法相结合的其他方法

1.2 基于空间域的图像融合方法

基于空间域变换方法的最大特点便是无需对图像进行重构。图2给出了基于空间域的融合过程。

图2 基于空间域的融合过程框架

众所周知，图像融合中比较重要的一个问题是活动水平度量，空间域方法将根据像素的处理方式将之划分为基于块的方法、基于区域的方法和基于像素的方法。

1.2.1 基于块的方法

块划分策略最早由Li等人[36]提出，主要经历了经验阶段和自适应阶段。经验阶段以Nabeela[37]，Huang和Jing[38]等人的研究为代表，通过计算固定大小的图像块的活动水平从而得到合适的图像块用以融合。而自适应阶段则主要有自适应选择图像块的大小和重叠图像块的计算两种类型。这其中遗传算法[39]、差分演化算法[40]、粒子群优化算法[41]和人工蜂群算法[42]为自适应图像块划分方法的主要代表。

1.2.2 基于区域的方法

基于区域的方法不同于基于块的方法之处在于：区域的大小是不规则的。Zhang和Blum[43]首次提出基于区域的图像融合方法，有效地降低了源图像对噪声的敏感性。与基于块的方法发展历程相似，基于区域的方法也经历了由自适应相对较差到较好的转变。这其中以水域面积算法[44]、归一化切割[45]、均值漂移算法[46]和线性广谱聚类[47]算法为主要代表。

1.2.3 基于像素的方法

基于像素的图像融合方法从像素的角度真实反映源图像的每个特征。最经典的有Tang[48]提出的像素级卷积神经网络(pixel-wised convolutional neural network, p-CNN)模型，其次是极限学习机[49](extreme learning machine，ELM)和模糊逻辑模型[50]。以上方法都是从像素的角度出发，根据像素的属性选择用于融合的正确像素，并对错误像素进行剔除和修正。

1.3 融合规则

融合规则一般指的是将图像分解得到的高低频系数解释为不同源图像的权重分配策略。融合图像时，主要对多尺度变换得到的高低频系数进行处理，所以如何选取合适的规则融合这些系数对图像融合效果有着至关重要的影响。

图像的低频系数和高频系数分别表示图像的近似成分和细节成分，高频系数值越大说明该部分图像包含的细节越丰富。图像分解得到的低频子带系数往往采用“平均”原则进行融合，这会降低图像的对比度，来自源图像的一些信息也会丢失。高频子带往往采用绝对值最大原则[51]进行融合，会使得融合结果缺乏轮廓、边缘等细节，也会造成一定的伪影。为了解决这些问题，更多能够反映清晰度指标的边缘能量、梯度能量、空间频率、方差、区域能量、拉普拉斯能量等融合规则被提出。

2 图像融合方法评价

评价图像融合质量的标准可以划分为两类：客观评价指标和主观评价指标。由于客观评价指标能从根本上反映图像好坏，所以下面列举出常用的一些客观评价指标。

2.1 评价指标

在介绍融合算法之前，需要了解评价融合质量的一些标准。其主要有：空间频率，反映融合图像的亮度；信息熵，反映图像的灰度分布情况；均方根误差；相关系数，反映源图像与融合图像的相关程度；标准化互信息[52]，反映融合图像的结构信息；相位一致性；基于边缘信息的标准；能够反映源图像与融合图像对比度特征的基于人类感知的标准[53]；基于图像结构相似性的标准，可反映不同图像之间的相似性；光谱角映射器，主要针对多/高光谱图像。

2.2 典型实验方法

由于图像融合的主要应用领域[54]有遥感观测、医学诊断、摄影和监测，这将在下一节进行描述。而本节主要选取了上节中列举出的评价指标中的五个经典指标对现有的经典融合方法进行评估。在使用相似的测试条件，相同的应用程序和相同的源图像参考了不同的参考文献之后，列出不同的表格。

以clock图像为参考，表3列举出多聚焦图像融合应用不同方法的比较。表4所示为红外图像和可视图像的融合对应算法的对比数据。表5则为不同方法融合不同医学图像所得数据。

表3 多聚焦图像融合的不同方法对比

从表3的数据得出，无论是在边缘信息的保持上，还是梯度信息、结构信息、对比度特征和相位一致性的传递上，GFDF算法得到的值都要优于其他算法的值。另外，CNN作为一种智能学习型的融合算法，在边缘信息的保留上性能较好。然而由于CNN需要大量的参数，所以在运行时间上消耗较大，算法的效率不高。

表4 红外图像和可视图像融合的不同方法对比

由表4可知，DWT的平均梯度、标准差的值都相对较高。而LP方法在信息熵的表现上比其他方法好。另外互信息这一标准，NSST的值是所有方法中最高的，这说明使用NSST方法融合图像时，源图像转移到融合图像的信息量较高。总体而言，每种融合算法都有可借鉴之处，所以在具体应用时，可综合各种方法的优点适当结合以获得性能更好的融合图像。

表5 医学图像融合的不同方法对比

从表5中数据可以看出，将多尺度几何分析方法中的NSCT方法与SR方法相结合得出的各个评价指标，无论是在平均梯度、信息熵，以及相位一致性和互信息的保留程度上优于单独使用NSCT方法获得的融合图像的各项评价指标数值。不仅如此，NSCT-SR方法比一些新提出的基于深度学习的Gabor filtering方法表现更好，这表明通过结合两种甚至两种以上方法可以得出原来单个方法不能够达到的良好效果。

3 图像融合的应用

图像融合技术的应用领域[57]主要有以下四类：遥感观测、医学诊断、摄影和监测。在遥感领域的应用，方便了人类的对地观测；在医学领域的应用，为医生的临床诊断提供依据；在摄影领域的应用，改善了因设备和天气问题导致的图像失真；在监测应用中，结合可见光和红外图像，使得可全天观察观测对象。表6对不同领域所需要用到的图像进行了进一步划分。

表6 图像融合的主要应用领域及其

4 存在的问题与展望

4.1 当前研究存在的问题

无论图像融合应用在哪些领域，目前的融合方法得到的图像仍然存在以下问题。

遥感图像融合中出现的光谱和空间畸变问题；医学图像融合领域出现的临床问题缺乏导向的困难以及难以相对客观的评估融合性能；摄影领域，图像融合则受物体运动的影响，同时在不同设备拍照耗时较长，也在一定程度上影响了融合图像的获取；在监测领域，苛刻的环境条件以及设备的损耗都会导致融合图像不能够被精确地获取。除了上述问题，图像配准作为融合的预备阶段也备受重视，图像的未配准或者配准不准确都会影响融合结果。

4.2 展望

根据目前图像融合中遇到的问题，可做以下展望：

首先，要解决图像配准的问题，这就要求学者致力于研究更准确有效的图像配准算法；其次，针对遥感技术的发展，需要研发更多同时具有高光谱分辨率和高空间分辨率的综合传感器；在临床医学中，则主要致力于研究能将多种不同设备获取的图像同时获取并合成的仪器，这将为医学的发展提供较大的飞跃；在摄影领域，根据设备以及环境的不同，研发出适应性更强的多特点摄影设备是亟需解决的问题。

5 结束语

目前对于图像融合的研究仍是图像处理领域的研究热点，基于多尺度变换的方法只会日渐丰富，算法的效率也会越来越高，所需内存内余只会更小。基于目前融合研究所用的像素级方法较多的现状，之后将会更多的研究工作在特征级和决策级融合，并且会探索更多的图像融合应用领域。