二维图像拼接技术研究综述

2019-02-27 06:59盛明伟唐松奇秦洪德

导航与控制 2019年1期

盛明伟，唐松奇，万磊，秦洪德

（哈尔滨工程大学水下机器人技术重点实验室，哈尔滨150001）

0 引言

随着社会多媒体科技的发展，各种高分辨率成像技术（包括数码照相、摄像产品）的更新换代，图像获取技术己经被广泛应用于多种领域。在现实生活中，想要获取宽视角的全景图像需要调整相机的焦距，但是得到的全景图像分辨率相对较低，难以满足人们的基本要求。因此，为获得具有较大视域、高分辨率的全景图像，图像拼接技术应需而生并蓬勃发展起来。随着计算机视觉技术的研究与发展，作为新兴技术，图像拼接技术凭借其可以获取宽视角、高分辨率的图像，发展得越来越广泛和深入，并且在人工智能和机器学习的实际应用中具有坚实地位。

图像拼接技术是数字图像处理领域中的一个重要研究方向，它将部分重叠的图像序列进行配准和合成，在创建全景图像的过程中具有重要的实用价值。它已成为图像绘制（Image Based Rende⁃ring，IBR）方法中的一项重要技术［1］，具有良好的实际应用价值，在医学大型影像合成、水下地形测绘、虚拟现实场景的构建、全景自动驾驶辅助系统等很多领域中获得了广泛应用。

图像拼接是指将具有重叠区域的小视角、低分辨率的多张图像，通过合适的图像配准与融合算法，拼接成一张具有高分辨率、宽视角的全景图像。该幅图像包含之前所有待拼接图像的全部信息，然后利用全景图像进行实验研究与应用［2］。其具体拼接流程如下：首先，用数码相机等图像采集设备采集多幅有重叠区域的图像，分别对各个图像进行校正、去噪等预处理，改善图像质量［3］，并用特征提取算法提取每幅图像的不变量描述子。接着，计算这些描述子的相似程度，从而确定匹配关系。最后，假定图像的变换模型。该模型的参数由图像匹配计算得来，通过选择合适的融合算法对图像进行融合，即可得到所求图像。其中，图像拼接的关键步骤是图像配准和图像融合。

1 图像拼接中的配准技术

图像配准用来确定具有偏移的两幅或多幅图像之间的对应关系，通过确定图像数据集之间的几何关系，可以用估计的转换参数将一个图像投射于另一个图像，使多幅图像合成一幅包含所有输入图像相关信息的图像［4］。因此，图像配准是图像拼接成功的关键，选择不同的图像配准方法将直接影响图像拼接的效果。随着配准技术研究的不断深入，基于灰度值和变换域的配准方法已经达不到精度要求，如今的研究趋势是追求高精度、耗时少和鲁棒性好的高效图像配准方法。

现阶段，图像配准方法主要分为基于区域和基于特征的图像配准方法。在图像配准研究中，基于特征的图像配准方法凭借优点众多占据了大多数。该方法利用提取的图像特征建立关联进行配准，其优点在于：不需要穷举搜索空间，能够降低图像搜索的复杂程度，大大减小计算成本；匹配是在特征空间上操作的，而不是直接利用图像灰度信息，算法更为鲁棒和稳健；配准时选择合适的特征，对图像灰度或尺度变化、图像形变和遮挡等问题都有较好的适应能力。基于特征的配准方法利用的特征可以是待配准图像中的点、线、边缘或区域等特征信息［5］。提取特征的不同，采用的配准算法也随之变化。因此，选择基于特征的图像配准方法需要根据图像不同的情况，选择最佳的特征，来对图像进行匹配，以提高配准精确度。

典型的点特征有角点、线交叉点、封闭曲线的质心、高曲率点、使用Gabor小波检测出的局部曲率中断点和小波变换的局部极值点等。特征提取算法层出不穷，目前应用比较广泛的点特征提取算法包括 SIFT、SURF、FAST、Harris 和 ORB［6］等，这些算法能够适应各种图像，可以提高配准精度与速度，基本可以达到实时性的要求。下文介绍几种典型的算法，以及国内外研究发展现状。

1.1 SIFT算法

尺度不变特征转换算法（Scale⁃Invariant Feature Transform，SIFT）可用于检测图像的局部特征。该算法通过在尺度空间中寻找极值点，先进行非极大值抑制，去除低对比度的点。通过Hessian矩阵去除边缘点，确定特征点主方向，并构造生成特征点描述子，保存其坐标位置、尺度、旋转不变量等信息，最后通过特征匹配方法将目标图像与源图像中的特征点进行匹配。

SIFT算法保持了尺度、旋转、亮度等不变性，而且对角度变化、仿射变换和噪声保持了一定的稳定性，但时间性能较低，匹配精度不够。Guo［7］提出了一种基于改进SIFT的图像配准算法，使用一种改进的SIFT描述符将特征点的邻域缩小到15像素×15像素的窗口范围，然后采用最近邻Eu⁃clidean距离，将当前最近邻与下一个最近邻Eu⁃clidean距离之比作为双重配准准则，通过缩小SIFT特征向量的维数以减少时间消耗，并且增加最近邻距离小于0.3的相似性度量来计算图像之间的特征点对应。将当前最近邻与下一个最近邻Eu⁃clidean距离之比的阈值设为0.5，将初始的匹配点分为2类，并且通过基于基本矩阵估计的随机样本一致性方法（Random Sample Consensus，RANSAC）和相反随机样本一致性方法（A Contrario RANSAC，AC⁃RANSAC）排除误匹配点，其具体流程如图1所示。该方法不仅能保证较好的时间性能，对角度变化、仿射变换和噪声具有较好的稳定性，而且能有效地消除错误匹配点，有效提高匹配精度。

图1 SIFT改进的配准算法流程图Fig.1 Flow chart of SIFT improved registration algorithm

水下图像配准在海洋探测、海洋地貌全景图的获取中得到了广泛的应用。水下图像严重退化，易出现颜色衰退、对比度低及细节模糊等现象。为了更好地实现水下图像配准，Sukhada［8］提出了SIFT的改进方法。在SIFT算法的基础上采用Gabor滤波器作为预滤波器，可以避免水声噪声的影响。由于光线逐渐被海底吸收，水下图像的光照强度较低，将阈值保持在某个定值将导致部分水下图像中的关键点被消除。为此，该研究提出了使自适应阈值方法消除低照明点，将阈值保持为图像对比度的10%。该阈值将根据图像的对比度进行设置，对比度值低于10%的点将被视为低照度点。在每个关键点上都应用了Sobel滤波器，此过程可去除对像素差分进行高通滤波过程的噪声，同时也可在描述符中保留更多信息。最后，通过使用Hausdorff距离来获得关键点之间的匹配，而不是标准SIFT中使用的Euclidean距离。首先在一个方向上得到关键点之间的匹配，然后在相反方向获得匹配。将两个方向获得的匹配作为匹配点，将所有其他的点视为假匹配点并进行清除，利用RANSAC方法对残差值进行了去除。与标准SIFT算法相比，该改进算法可检测的关键点数量更多，而且正确匹配点的总数增加，降低了均方根误差，能够得到较好的配准结果。

1.2 SURF算法

基于快速鲁棒性特征算法（Speeded Up Robust Features，SURF）是SIFT角点检测算法的改进版，SURF算法的优势主要体现在速度上，SURF是SIFT速度的3倍左右。SURF与其他算法的不同在于其采用了Harr小波响应及运用了积分图像的概念。SURF提取特征点的流程包括：1）构建Hessian矩阵；2）构造尺度空间；3）利用非极大值抑制初步确定特征点；4）精确定位极值点；5）选取特征点的主方向；6）构造SURF特征点描述算子。

Patel［9］提出了一种基于SURF算法的多视图图像配准方法以扩大视野。首先，使用SURF检测特征并执行特征匹配。去除假匹配对，利用RANSAC算法估计变换参数对图像进行混合。执行多波段混合，使拼接的图像全景无缝。该研究能有效提高特征检测的速度和精度，RANSAC算法提高了特征匹配的正确性，也得到了精确的单应性矩阵。在进行图像扭曲后，多波段混合去除过渡接缝，最终的图像拼接结果是通过将图像翘曲成单个平面而获得的，并应用多波段混合，使相同场景的图像之间实现了平滑过渡。

Durgam［10］采用 SURF对合成孔径雷达图像进行了特征检测和特征匹配，将均方差限制在了0.5以内，以去除剩余异常值。首先，在图像对之间进行基于SURF算法的特征匹配，得到相应特征，再利用RANSAC来去除异常点，通过细化得到匹配特征点。该方法通过将均方差值限制在0.5以内来提供非常高的子像素精度，该算法为具有不同照明和变换差异的两个或更多图像提供了更好的配准精度。

吴一全［11］提出了一种基于小波域SURF的遥感图像配准算法。改进SURF算法的原理为：特征点检测、特征点描述、描述子主成分分析降维和特征点双向配准4个部分。首先，利用小波变换分解源图像和目标图像，将得到的低频分量提出，通过改进SURF算法得到粗配准点对，采用主成分分析对描述子降维，去除了描述子之中的干扰信息，增强了描述子之间的独立性。依据双向配准准则实现了特征点的粗配准，接着利用两次距离阈值不同的RANSAC算法分级筛选出精配准点对，最后运用最小二乘法拟合几何变换参数完成配准。从图2可知，这两幅图像之间存在位置的平移，使用该配准算法进行配准之后可将图像准确无误地拼接起来，并可以大幅减少运行时间，配准精度比标准SURF算法更高。

图2 基于小波域SURF的遥感图像配准结果图Fig.2 Registration results of remote sensing images in wavelet domain using SURF

1.3 Harris角点检测算法

Harris角点检测是基于灰度图像的角点提取方法，稳定性高，对L型角点的检测精度尤其高。Harris角点检测的原理是选择一个以目标像素点为中心的适当大小的窗口，利用移动窗口在图像中计算灰度变化值，其中的关键流程包括转化为灰度图像、计算差分图像、Gauss平滑、计算局部极值、确认角点［12］。

在遥感图像分析中，Harris角点检测是较为适合的特征提取方法。Yang［13］利用了 Harris角点检测产生的特征点，并将其集成到一致性点漂移（Co⁃herent Point Drift，CPD）框架中以提高精度。首先构造了点对点对应的似然描述符，然后将该似然值作为Gauss混合模型的先验概率项，使用期望最大化算法迭代匹配点。该研究找到了一种对特征度量数据进行规范化的方法，并构造了一个合适的描述符来包含Harris特征度量和Euclidean距离，进而将特征度量值偏差的负面影响最小化。

针对Harris角点检测算法运算速度慢、角点信息丢失和位置偏移，以及角点提取聚簇现象，赵艳［14］提出了一种改进的Harris角点检测算法。该算法采用FAST特征点检测算法排除了大量的非特征点得到初始点，以初始点响应Harris函数执行非极大值抑制。保留局部角点响应函数最大值的像素点，以这些点为中心，以一定半径搜索角点簇，在容忍距离内保留一个特征点，以降低角点簇的影响。提取Harris角点后，采用归一化互相关匹配法进行粗匹配，利用RANSAC算法消除误匹配，提高图像拼接的精度。该方法的特征点检测速度快，能减少角点聚簇现象，有效提高角点检测效率。

2 图像拼接中的融合技术

图像融合是数字图像处理领域中重要的组成部分，指的是将两幅或多幅图像信息融合到一张图像上，将大量多模态的图像与特定图像的互补特征相结合的过程，提高了图像的质量和清晰度，更有利于人眼的识别和机器的自动探测［15］。其目标是在实际应用中提高融合图像的信息包含量，减少输出的冗余度。图像融合能扩大图像所含有的时间、空间信息，明显的改善单一传感器的不足，增加可靠性，改进系统的鲁棒性能，更为全面地获取目标或场景的信息。图像融合广泛应用于军事国防、目标检测和识别、机器人视觉、生物监视和导航制导等领域。

图像融合由低到高可分为3个层次：像素级融合、特征级融合和决策级融合。选择融合的层次不同，所采用的算法也不相同，图像融合算法是依赖于应用的［16］。像素级融合是表示融合了从源图像到单个图像的与每个像素相关的视觉信息，是各级图像融合的基础，尽可能保留了图像场景的原始数据，有利于对图像的进一步分析、处理与检测。特征级图像融合通过从独立图像中提取的融合特征，对图像融合后特征进行目标识别的精确度明显高于原始图像。决策级图像融合是一个更高层次的融合，并融合了由本地决策者获得的对不同图像的解释。下文阐述了近年来图像融合研究领域中几种具有代表性的创新图像融合方法。

Shearlet变换是一个热门的多尺度几何分析工具，其具有小波变换的优点，包括多尺度时频局部特性，允许各个尺度的方向分解等。将Shearlet变换引入到图像融合中，成为近年来研究的热点。结合Shearlet变换具有较好的稀疏表示图像特征的性质，石智［17］提出了基于Shearlet变换的自适应图像融合算法。精确提取图像的细节特征是多聚焦图像的融合算法中最重要的步骤。对不同聚焦图像采用Shearlet正变换，通过运算得到图像中的高频和低频分量，然后对这些分量采用自适应和区域方差的融合方法进行融合，对得到的子图像进行Shearlet逆变换得到融合图像。该方法计算量较小，能够保持融合图像的信息细节，不会产生振铃效应，在融合的各个方面优于小波变换。从图3中将多聚焦图像的融合结果图与左、右聚焦源图像进行对比，可以看出融合图像细节部分被保持得很好，具有更高的清晰度。

图3 不同聚焦图像的融合结果图Fig.3 Fusion results of different focused images

为避免小波变换图像融合中的伪Gibbs效应和解决图像融合时间较长的问题，徐小军［18］提出了基于下采样的分数阶小波变换（Fractional Wavelet Transform，FWT）融合方法。作者采用离散分数阶小波变换（Discrete Fractional Wavelet Transform，DFRWT）对不同灰度特征源的图像进行了多尺度分解，使系数分量的非稀疏性特点增大像素间的相关性，然后通过图像不同特征采用不同的融合规则计算融合系数，将其通过逆DFRWT变换得到融合图像，保证了融合效率及融合图像质量不受影响。DFRWT图像融合具体流程如图4所示，该方法增加了区域内像素间的相关性，很好地保存了边缘信息，并且与现在流行的融合算法相比，融合效率得到了提高。

图4 DFRWT图像融合框图Fig.4 Flow chart of DFRWT image fusion

在基于不同小波变换的图像融合方法中，根据融合规则在小波空间中融合源图像数据。考虑到源图像的不确定性对融合图像的影响，Prasad［19］设计了一个新型融合规则来包含大量的数据，提出了基于小波变换自适应模糊逻辑的融合方法。在对源图像应用小波变换之后，通过自适应模糊逻辑计算每个源图像系数的权值，然后以互信息、峰值信噪比和均方误差作为依据，通过加权平均法与处理后的权值对系数进行融合，并获得一个组合图。

多模态图像融合是一种将多模态图像的互补信息融合为一幅完整图像的有效技术，这些额外的信息不仅可以增强人眼的可视性，而且可以相互补充每个图像的局限性。为了保留图像的结构信息，对源图像进行细化处理，Zhu［20］提出了一种基于图像卡通纹理分解和稀疏表示的图像融合方法。该方法将源多模态图像分解为卡通和纹理两部分：针对动画部分，提出了一种基于空间的形态结构保存方法，利用基于能量的融合规则保存了各源图像的结构信息；针对纹理部分，提出了一种基于稀疏表示的方法，训练了具有较强表示能力的字典。最后，根据纹理增强融合规则，对融合后的动画和纹理部分进行了集成。该方法在视觉和定量评价方面均优于现有的方法。

Nikhil［21］提出了基于相位一致性和导向滤波器的图像融合方法，将源图像通过非下采样轮廓波变换（Non⁃Subsampled Contourlet Transform，NSCT）分解为低频和高频子带，然后对低频子带进一步进行处理，利用计算机提取图像特征。在高频NSCT子带中提取高频细节，并通过使用一个非常有效的引导滤波器来保持平滑区域的边缘细节。最后，将逆NSCT应用于融合的NSCT子带，以获得空间域的最终融合图像。通过对不同多模态医学传感器采集的真实生物医学图像进行实验，证实了该方法的有效性，及其在视觉和定量评价方面的良好表现。

多聚焦图像融合在机器视觉和图像处理领域中已经成为一个具有挑战性的研究方向，需要对各种图像捕获设备获得的图像进行处理。为获得所有物体对焦的图像，Manchanda［22］提出基于离散模糊变换的多聚焦图像融合算法。该融合算法使用了2个不同的规则：加权平均方法和选择最大值规则。在离散模糊变换域进行图像融合，最终的融合规则使用匹配系数和方差的平方根来确定。多聚焦图像融合流程图如图5所示，该算法有效地融合了部分聚焦多输入图像，产生了单一的聚焦图像，同时性能优于目前最新的融合算法。

图5 多聚焦图像融合流程图Fig.5 Flow chart of multi-focus image fusion

Shao［23］提出了一种基于深度卷积神经网络的遥感图像融合方法，该方法能充分提取源图像的光谱特征和空间特征。该融合方法的创新之处在于包含两个分支网络，具有更深层的结构，可以分别提取多光谱图像和全色图像的显著特征。全色图像分支中更深层次的结构可为融合过程提供帮助，通过低分辨率和高分辨率的全色图像之间的掩模操作来解决融合问题。利用剩余学习层学习低分辨率和高分辨率全色图像中的剩余图像，可以忽略冗余信息，提高全色图像的空间分辨率。

水下光线存在严重的衰减和散射效应，这种复杂性阻碍了图像的拼接过程，造成了拼接误差和光照不均匀。Rahul［24］提出了一种利用多幅水下图像生成融合图像的方法，利用Laplace金字塔混合技术克服了沿水下图像重叠区域拼接缝的强度差。首先，对源图像和目标图像进行预处理后完成Gauss金字塔差分，图像被缩小到不同的水平后使用Gauss滤波器。然后，将Gauss图像扩展到一个较低的层次，将扩展后的图像与该较低层次图像之间的差值生成Laplace图像。一旦两个图像的金字塔被生成，图像就将组合在不同的Laplace层次上。该方法解决了水下图像融合容易出现可见缝线的问题。从图6可看出，两幅水下图像得到了充分缝合，且颜色分布均匀，该方法有效处理了融合区域之间的色差。

图6 水下图像融合结果图Fig.6 Fusion results of underwater image

3 图像拼接技术发展趋势

本文总结了近年来图像拼接技术的各种方法，并从图像配准和融合方向上的研究与应用情况推测，图像拼接技术会向以下4个方向实现发展：

1）具有运动目标的图像拼接技术研究。传统的大部分图像拼接算法都是在静止背景的基础上拼接完成的，待拼接的图像背景保持不变。但是，当图像场景中出现实质性的运动物体时，大多数拼接算法在一定程度上会失败，而结果往往包含被切割的对象或者出现鬼影现象。一些融合方法可以解决拼接具有运动物体的图像后出现的鬼影现象，但是却会丢失运动目标。在现实中，多数环境会存在运动物体。为了形成高质量的拼接结果，消除运动物体对拼接图像带来的影响，移动的目标对象必须得到正确的处理，这是需要深入研究的问题。

2）多视角视频拼接技术研究。多视角视频拼接可以应用于视频监控、卫星遥感等领域，能够保证图像原有的分辨率，并获得目标细节，同时实时拼接形成大视角全景图像。多视角视频拼接的关键是视频帧图像拼接，现在主要采用基于特征、特别是点特征的拼接算法。但是在实际应用中，采用单一特征的拼接算法难以同时达到实时处理的速度和拼接质量，而采用多特征算法则增加了特征值维度，使匹配难度加大，并且不能增加拼接速度。同时，视频帧图像拼接也存在融合的鬼影问题、视频每帧图像变换的畸变问题。如何实现高分辨率的多视角视频拼接，提高拼接效率与质量，是图像拼接技术未来的发展方向。

3）三维立体图像拼接技术研究。到目前为止，静态图像是构建可视化的主要方式。由于静态图像所使用的角度和视点是固定的，所以它们大多是二维平面的。考虑到视频摄像机的使用，三维立体图像拼接是一种具有多视角的建筑可视化形式，其可支持从任意角度方向观看建筑场景，有利于深化对图像的全面分析和理解。三维立体图像拼接技术需要利用不同视角的图像或者视频序列，如何通过这些图像视频信息进行三维立体图像拼接，也是图像拼接技术发展的趋势之一。

4）自动图像拼接技术。通过摄像机可获取和存储大量数字图像信息，但是这些数据的有效利用仍存在较大问题。比如，针对无人机采集的视频，目前主要通过实时分析或录制方式逐帧进行分析，耗时较长，操作误差较大。于是，要求系统能够将图像序列按场景内容自动排序，然后进行自动图像拼接，避免了图像处理过程中的手动干预，并能够对图像中感兴趣的目标进行标记和注释。自动图像拼接技术也成了为图像拼接技术的研究热点。

4 结论

作为数字图像处理领域中的研究重点和热点，图像拼接技术通过具有部分重叠的图像序列的配准和合成，实现了全景式的图像创建，具有重要的实用价值。图像配准和图像融合是图像拼接过程中的重要部分。本文通过对图像拼接技术研究成果的综述，分析比较了图像配准和图像融合方法的国内外发展趋势及优缺点，最后展望了该领域的未来发展趋势（包括具有运动目标的图像拼接技术、多视角视频拼接技术、三维立体图像拼接技术和自动图像拼接技术），为深入研究图像拼接技术提供了参考。