图像配准关键技术综述

2020-04-17 12:51杨家俊丁祝顺

导航与控制 2020年1期

杨家俊，丁祝顺，陈昕

（1.超精密航天控制仪器技术实验室，北京100039；2.北京航天控制仪器研究所，北京100039）

0 引言

图像配准技术作为多种图像处理与分析系统非常重要的基础模块，一直以来都是图像处理与机器视觉领域极为重要的研究方向。图像配准技术被广泛接受的定义如下：图像配准技术指将由不同视角、不同时间或不同传感器捕获的同一场景包含重叠区域的图像进行几何对齐［1］。

图像拼接及图像融合是图像配准技术的两大重要应用领域，是相关功能系统不可或缺并直接影响系统性能的核心模块，具备非常重要的技术价值。以图像配准算法为基础的图像融合技术已经被广泛应用于机器视觉、安防监控、医学图像分析、遥感图像解译、军事目标识别与跟踪等多种实际场景，通过输出全面综合了各个输入图像信息的高质量单一图像，以便于人的感知或机器分析、理解以及决策。图像配准算法的另一大应用领域是图像拼接技术，通过将具有重叠区域的输入图像进行准确拼接，可以合成具有大视角、超高分辨率的高质量图像。近年来，增强现实（Augmented Reality， AR ）、混合现实（Mixed Reality，MR）等技术的快速发展及广泛应用促进了对大视角、高分辨率全景图像的迫切需求［2］。图像配准技术亦广泛应用于图像降噪、视场扩展、运动物体去除、模糊消除、空间解析度提高、动态范围增强、计算机特效、遥感及医学成像等技术领域。

广阔的应用场景对图像配准算法提出了更高的性能指标及技术要求，也促进了图像配准技术的快速发展和广泛应用。目前，被广泛研究以及应用的图像配准算法通常分为基于区域的图像配准算法以及基于特征的图像配准算法两大类［1］。传统的图像配准算法［3］通常估计一个全局的单应性变换进行图像对齐，并配合光束法平差寻找最优解。2011年，Gao等［4］提出的算法将场景划分到背景和前景两个平面，分别使用单应性矩阵进行对齐，有效提升了融合图像质量。Lin等［5］使用多个仿射变换对齐图像，能更好地处理图像局部形变。2013年，Zaragoza等［6］将图像划分为密集的网格，然后在每个网格中高效地估计局部单应性矩阵。2014年，Zhang等［7］提出的算法通过网格优化实现了高质量的大视差场景图像拼接。2015年，Lin等［8］提出的算法通过自适应计算确定全局相似变换进行形状矫正。2016年，Chen等［9］提出的算法同时使用局部和全局相似性约束确定相似矩阵，提升了图像配准质量。2017年，Nie等［10］提出的算法同时计算拼接和稳定的优化，实现了对视频图像的高质量配准。

本文首先介绍了图像配准技术的基本流程，并讨论了图像配准算法面临的技术难点。然后，对基于区域和基于特征的图像配准算法分别进行了详细论述。最后，对全文进行了总结并展望了图像配准技术的发展方向。

1 图像配准基本流程及技术难点

1.1 图像配准基本流程

首先，图像配准算法需要选择合适的变换模型及图像特征。然后，针对图像特征制定优化准则，并依据优化准则在变换模型的参数空间中进行最优搜索。最后，将搜索到的变换模型应用至输入图像，完成图像的配准。图像特征包括灰度特征以及各种人工设计的特征，人工特征相比灰度特征更稳定、鲁棒性更强，因此获得了更广泛的应用。以下为基于特征的图像配准技术标准流程，如图1所示。

图1 基于特征的图像配准流程图Fig.1 Flowchart of feature-based image registration

（1）图像预处理

图像预处理属于数据准备阶段，主要用于抑制噪声、增强图像配准所需要的特征信息、提高输入图像的质量。

（2）特征提取

特征提取是图像配准的关键步骤，包括手动提取和自动提取两种，通常使用自动提取的特征。人工设计的特征通常以像素亮度变化剧烈的边缘、封闭轮廓、角点、线交点及端点等作为兴趣点。图像配准通常提取角点特征，因为其具备良好的可定位及可识别性。最经典的特征描述符包括SIFT及其变体HOG，其具备平移、旋转、缩放的几何不变性及光照不变性。此外，被广泛使用的人工特征还包括SURF、FAST、ORB等。

（3）特征匹配

特征匹配为待配准图像和参考图像中提取的特征集合建立匹配关系，需要两幅图像之间具有足够面积的重叠区域，通常利用特征描述符配合相应的相似性度量实现特征的最近邻匹配。同时，采用随机采样一致性（Random Sample Concensus，RANSAC）算法利用特征的空间位置关系剔除误匹配，建立全局一致的特征匹配关系。

（4）变换模型估计

图像的变换模型包括刚体变换和非刚体变换：刚体变换对图像建立全局的变换模型，无法建模图像间的局部差异；非刚体变换允许通过局部的图像扭曲配准参考图像与待配准图像。利用选定的变换模型对特征集进行变换，并选择合适的优化搜索算法最小化匹配误差，获取变换模型参数的最优估计。

（5）图像重采样

对待配准图像使用已估计参数的变换模型进行重采样，并对部分像素位置进行插值，将待配准图像对齐至参考图像，完成图像配准过程。最常用的插值方法包括最近邻函数、双线性和双三次函数、二次样条函数、三次B样条函数、高阶B样条函数、Gauss函数和截断的Sinc函数等。

1.2 图像配准技术难点

图像配准是图像处理与分析领域的关键技术，当前面临的技术难点及挑战主要包括：

1）典型的大视角镜头采集的图像常常带有不同程度的畸变失真，而广角镜头、鱼眼镜头的畸变则更为严重。这会严重影响使用针孔摄像机模型的图像配准系统，需要事先对图像采集设备进行精确标定［11］。

2）常用的异源图像融合系统如可见光-红外图像、多模医学图像融合，其待配准图像来自不同类型的传感器，由于其成像原理、所捕获的目标信息存在差异，给图像配准系统带来了挑战。

3）当待拼接图像较多或者输入视频流的时候，可能需要降低图像配准算法的复杂度，或者引入图像选择机制，从而在有限的计算资源下获得满足需求的处理速度。

4）实际图像配准系统的输入图像可能来自非受限的自然环境，运动物体干扰、光照等环境条件的变化难以避免，需要设计鲁棒性更强的图像配准系统。

2 基于特征的图像配准算法

基于特征的图像配准算法由源图像中提取更高层次的特征信息用于图像配准，提高了算法对亮度变化和噪声的鲁棒性。并且相比基于区域的图像配准算法，基于特征的图像配准算法可以处理图像差异较大的情况，是当前被普遍采用的图像配准算法。

2.1 特征提取

图像特征包括区域特征、线特征和点特征。区域特征通常选择高对比度的封闭区域，通过图像分割方法检测区域特征［12］。区域通常以重心来表达，具备旋转、尺度不变性，且对随机噪声和光照变化不敏感。线特征通常选择线段或特定的物体轮廓［13］，使用标准的边缘检测方法如Canny检测器［14］检测线特征，线特征通常以线的端点或中点表达。点特征在场景适应性、检测难度、匹配精度等方面优于区域特征和线特征，在图像配准算法中得到了更广泛的应用。图像特征的提取示意图如图 2 所示［15-16］。

图2 图像特征提取示意图Fig.2 Schematic diagram of image feature extraction

常规的点特征定义包括线交叉点、局部曲率不连续点、曲线拐点、角点等，大量的研究文献专注于点特征的精确、鲁棒及快速检测。最早的角点检测器由 Moravec［17］在 1980年提出， Moravec检测器将自相似度较低的点定义为角点。Kitchen等［18］使用了图像的二阶偏导数，选择曲率和梯度均较高的点。为了解决图像二阶导数对噪声敏感的问题， Förstner等［19］提出了只使用图像一阶导数、鲁棒性更强的检测器。Harris检测器［20］由Harris和Stephens提出，它对旋转和平移、少量光照及视角变化不敏感，计算量很小，应用非常广泛。1994年提出的Shi-Tomasi角点［21］改进了Harris检测器，通常可以获得更好的结果。Smith等［22］提出的SUSAN检测器在适当的圆形掩模内检测角点，具备优异的检测速度、准确性和抗噪性。Lowe［23］于2004年提出了尺度不变特征变换（Scale Invariant Feature Transform，SIFT）特征点，SIFT特征具备优异的鲁棒性，获得了非常广泛的应用。Bay等［24］提出的SURF特征是SIFT的改进版本，引入了积分图像，性能更强。2006年，由Rosten等［25］提出的FAST角点检测器改进了SUSAN特征，通过灰度值比较将图像局部像素变化明显的位置作为特征，其优势是速度极快。2011年，由Rublee等［26］提出的ORB特征为FAST特征引入了旋转及尺度不变性，并使用速度极快的二进制BRIEF描述子，实现了检测质量和性能的良好平衡，获得了广泛的应用。

2.2 特征匹配

当图像缺少局部纹理、形状和结构等显著的细节信息时，通常使用基于特征之间空间分布关系的方法进行匹配。Goshtasby等［27］提出的配准算法基于图匹配算法，统计待配准图像特征经特定转换后落在参考图像特征给定范围内的数量，以得分最高的转换参数作为估计结果。Stockman等［28］提出的算法假设变换模型为相似变换，首先使用所有点对计算参数空间点，然后定位参数空间中的聚类簇，并取其质心作为变换参数。

使用更为广泛的方法基于特征的不变描述子，将待配准图像间描述子最相似的特征进行配对。暴力匹配计算每一个待匹配特征与参考特征集的相似度，并返回相似度最高的项。暴力匹配可以获得最优匹配结果，但是效率太低，通常使用近似最近邻快速搜索［29］（Fast Library for Approximate Nearest Neighbors，FLANN）进行快速匹配。特征的相似度度量通常使用特征向量间的Euclidean距离或余弦相似度，二进制特征通常使用Hamming距离。文献［30］使用相关系数作为相似性度量，文献［31］利用互信息提升特征匹配的准确度。此外，文献［32］中提出的迭代最近点（ICP）算法在三维匹配中应用非常广泛。

为了剔除误匹配点对，通常使用由Fischler等［33］提出的随机采样一致（RANSAC）随机优化算法。RANSAC算法随机选择样本点计算变换矩阵，通过不断迭代执行并保留内点数量最多的变换矩阵作为输出，其容错能力很强，缺点是结果具有随机性，且受迭代次数影响。此外，文献［34］根据特征匹配的可靠性选择特征，文献［35］引入匹配似然系数用于匹配可靠性的度量。部分特征匹配方法不进行区域相关或者特征匹配，如文献［36］基于特征一致机制分阶段进行参数投票，逐个估计变换模型参数。点特征的匹配及误匹配剔除示意图如图 3 所示［15］。

2.3 变换模型估计

图像配准算法普遍使用透视变换模型和镜头畸变模型作为成像模型，配准变换模型主要包括全局模型和局部模型。全局变换模型使用所有匹配点对估计待配准图像的映射函数，通常使用线性的仿射变换模型

图3 特征匹配及误匹配剔除示意图Fig.3 Schematic diagram of feature matching and mismatch eliminatio

若相机和成像场景距离较近，通常使用以下透视变换模型

由于匹配点数量远多于变换模型的自由度，通常对匹配点对的均方差损失函数使用最小二乘法求解模型的最优参数。

全局变换模型平等地对待整幅图像的变形，无法建模图像的局部形变差异。因此，局部敏感的配准模型在处理存在局部变形的图像配准时通常优于全局方法。文献［37］使用加权最小二乘法和加权平均法处理图像的局部变形。文献［38］利用匹配点对进行三角化，并在三角内部使用局部映射函数。其他应对图像局部变形的方法还包括使用径向基函数以及弹性配准方法。

使用暴力搜索求解模型参数的计算复杂度太高，通常使用数值优化算法优化由特定相似度度量构造的配准模型损失函数，以获得模型的自由参数。如文献［39］使用了Gauss-Newton数值优化算法，文献［40］使用了梯度下降优化算法，文献［41］使用了Levenberg-Marquardt优化算法，文献［42］使用了模拟退火随机优化算法。此外，为了提高搜索速度，通常利用图像金字塔分解或者小波分解进行逐层细化搜索。

3 基于区域的图像配准算法

基于区域的图像配准算法定义了不同的区域相关性指标。通常以参考图像为基准，通过极大化相关性指标搜索待配准图像的最佳位置，以实现图像对齐，其示意图如图4所示［15］。基于区域的图像配准算法通常不需要复杂的图像预处理，算法实现简单，缺点是一般只适用于平移、旋转较小且待配准图像之间亮度统计相关的情况，应用范围较小，鲁棒性较低，运算量较大。

图4 基于区域的图像配准示意图Fig.4 Schematic diagram of area-based image registration

最经典的区域配准准算是归一化互相关法［43］，其对参考图像和待配准图像的滑动计算相似度，搜索最大值位置作为配准结果。如图4（c）所示，图中显著的响应尖峰即最优的匹配位置。相关法易于硬件实现，但缺点是计算量较大、相似度极大值的显著性较低。相位相关法由Kuglin［44］提出，该算法通过Fourier变换将图像转换到频域，使用互功率谱中的相位信息进行配准。该算法具备光照鲁棒性，并且适用于异源图像，缺点是对噪声比较敏感。扩展相位相关法由De Castro等［45］提出，该算法依次对待配准图像的旋转和平移量进行估计，可以在同时包含旋转和平移的图像上获得良好的配准效果。来自信息论的互信息（Mutual Information，MI）度量两组数据间的统计相关性，被广泛用于异源图像的配准，典型如医学图像和多光谱图像。互信息最初由Viola等［40］引入到图像配准领域，他们通过梯度下降法最大化互信息进行图像配准。Zhu［46］将交叉熵引入了图像配准领域，使用交叉熵度量图像相似性。

4 结论与展望

本文介绍了图像配准技术的基本流程及技术难点，分阶段总结了图像配准算法的关键技术及研究进展，同时分析了不同算法的适用性。基于区域的图像配准算法实现简单，但计算复杂度较高，适用范围较小。基于特征的图像配准算法在特征匹配之前引入了更高层特征的提取过程，有效提升了算法的环境适应性及配准质量，应用非常广泛，具有非常大的发展潜力。

传统的图像配准算法主要使用点特征，对特征点的数量、质量及分布情况要求较高。近年来，部分研究尝试使用线特征辅助点特征以提高图像配准质量，这有待进一步的发展研究。随着深度学习技术特别是卷积神经网络的快速发展及其在计算机视觉领域展现出的优异的实用性能，神经网络技术已经开始被引入到图像配准领域。利用深度神经网络辅助提升基于多视几何学传统算法的图像配准质量，甚至是训练端到端的图像配准网络有着巨大的发展前景。

作为众多计算机视觉系统的基础模块，图像配准技术得到了广泛的研究及发展。随着计算硬件性能的不断提升，高计算复杂度的算法可以实时运行，图像配准技术的精度及效率不断提升。同时，存在严重局部或非线性形变的图像以及多模态图像等图像配准任务仍然具有挑战性，并且需要在提升算法鲁棒性及场景自适应性等方面继续开展深入研究。