基于SURF特征的高动态范围图像配准算法

2010-05-05 02:39葛成胡福乔赵宇明

微型电脑应用 2010年2期

葛成，胡福乔，赵宇明

0 引言

近年来，高动态范围图像合成（High Dynamic Range Image Composition）技术获得了长足发展。真实世界场景往往具有很高的动态范围，而传统数码照相机由于只具有有限的位深度，难以捕捉到完整的动态范围。一个弥补措施是通过拍摄多张相同场景不同曝光度的图像并合成，间接恢复出完整的动态范围，再通过色调映射（tone mapping）算法，将高动态图像压缩显示在低动态范围显示部件上（如LCD，CRT），实现图像质量的提升。

1999年Debevec和Malik在文献[1]中描述了数码相机成像的基本过程。在该模型中，相机的输出主要由两个因素决定。其一是场景的光线辉度（Scene radiance），在短时摄影中基本保持不变。另一因素是相机自身参数，在光圈、增益等一定时，主要由曝光时间决定。输出图像的灰度级和场景光线辉度之间的关系，可以用相机响应函数（Camera Response Function，CRF）表示。Debevec和Malik采用求解超定线性方程组的方法，从多曝光图像序列中恢复CRF。随后Mitsunaga和Nayar发表了基于多项式逼近的CRF估计方法[2]。

利用相机响应曲线，可以将多曝光图像映射到光线辉度域上，对辉度空间的图像进行加权平均即得到对数HDR图像。但是，在合成之前，一个重要的问题是拍摄过程中图像的抖动和场景的运动，以及目标本身三维结构在运动中造成的视差（parallex），故一个准确的配准过程十分重要。Tomaszewska提出了基于SIFT特征的配准算法[3]。SIFT算法能够较为有效的提取相似图像中对应的尺度不变的特征点，但是它计算量较大，不适合实时图像配准。Greg Ward提出了一个基于图像二值化的快速配准算法[4]: 中值二值化图像配准（Median Threshold Bitmap，MTB）。该算法通过将不同曝光度图像，按照各自灰度中值或均值进行二值化，得到的二值化图像，对于曝光时间的变化相对稳定。然后通过图像金字塔搜索，确定两张不同曝光度图像之间的X，Y方向平移量，从而实现配准。由于配准过程是大多进行位运算，故而速度较快。但是其缺点也是显而易见的。主要是MTB的配准检测，只能在X，Y方向上搜索得到整数平移量，而对没有亚像素级别的精度，并且当运动目标距离镜头较近，目标本身的三维形状在序列图像中产生较大视差效应时，简单的X，Y方向平移已经无能为力。本文提出的SURF算法解决了在三维视差不能忽略的情况下，多曝光图像序列的配准问题，并且算法具有较快的速度，适合于实时配准情形。

1 多曝光图像序列配准的相关研究

1.1 二维配准：中值二值化图像（MTB）

当图像场景基本为平面物体或者目标距离镜头较远时，物体的三维形状可以忽略。换句话说，即图像之间的配准关系可以简单的处理为X，Y平面上的平移或旋转。2003年Greg和Ward提出的MTB（median threshold bitmap）法[4]即适用于该场合。MTB算法计算多曝光图像各自的中值，并将其二值化，利用金字塔搜索获得水平和垂直方向目标运动量。在本文的后续实验中我们可以看到，MTB方法对物体三维形状信息的忽略，导致近距离大目标的配准及合成中产生明显的模糊和重影效应。

1.2 三维配准：基于SIFT特征

为了准确知道匹配图像和参照图像之间的关系，需要找到目标运动的参数模型。图像运动主要可以分为几类：平移，旋转，伸缩，仿射和投影。

对于参照图像像素坐标（x，y），匹配图像中的对应像素坐标可以表示为

其中～表示按比例相等，Cij为未知量。当考虑 2维平面运动时，C33=1。变换矩阵的参数取特殊形式时，可以得到平移、旋转、伸缩、仿射和投影的变换矩阵。

与基于像素灰度的MTB方法不同，基于特征的图像配准算法首先通过在图像组中提取并匹配特征点，利用对应特征点的位置信息求解运动参数。Tomaszewska提出的SIFT配准方法[3]采用SIFT算法定位待配准图像和参照图像中的尺度不变特征点（Scale invariant features）。该方法在曝光时间不处于极端状态时（如极高或极低）较有效，当曝光时间过大或过小时，SIFT算法提取错误特征点增多，对应特征点的误匹配也增多，这对运动参数的估计造成很大误差，导致配准失败。另外，SIFT的计算量较大，不适合实时系统。

2 基于SURF的多曝光图像配准

2.1 为什么使用SURF

SURF（Speeded Up Robust Features）由Herbert Bay等人发表于ECCV2006[5]。该特征较之SIFT在计算速度和鲁棒性上有较大改进。它已经被广泛的应用于目标识别和跟踪。SURF算法通过图像二阶Hessian矩阵的行列式计算感兴趣点（interest points）的位置和尺度信息，图像的二阶Hessian矩阵定义如下：

在SURF算法之前，还有一些其他的特征点提取算法。根据Herbert文[5]所示，SURF算法的fast hessian特征提取方法比Hessian-laplace方法快5倍，比Harris-Laplace方法快12倍，比DoG（SIFT算法中有应用）快3倍。除SURF外，这些特征点提取算子都不能满足实时的要求。

SURF特征的描述子让特征点具有对图像视角、尺度、旋转和光照变化的不变性。这些性质使得SURF适合于多曝光的图像配准问题。在特征点的位置确定以后，通过最近邻搜索方法，获得参照图和匹配图中相对应的特征点对。搜索过程可以用简单的蛮力搜索或更快的KD tree方法。

SURF配准模型

SURF配准模型如图一所示。首先计算并匹配图像组中的对应特征点，之后我们利用最小中值平方法计算运动变换矩阵（1）中的各个参数。最后，利用变换矩阵C将匹配图映射到参照图坐标系：

其中

我们注意到SURF特征对光照和颜色的变化具有较好的鲁棒性，所以该算法对于不同曝光度的图像配准可以取得非常好的效果。另外，3×3的变换矩阵将图像平移、旋转、透视、视差等情况均包含在内，比仅仅考虑水平垂直平移量的MTB算法全面很多。

2.3 变换矩阵的估计

变换矩阵C中共有8个未知参数，匹配的特征点一般远多于未知量的个数，通常的解法是利用最小二乘估计，将所有点对参与计算，得出变换矩阵。但在实际中，由于之前的特征提取和匹配过程均有一定的错误率，发生错匹配的点对不应该再参与变换矩阵的计算。去除这些误匹配，可以进一步提高算法的鲁棒性。这里我们采用具有较好噪声耐抗性的最小中值平方法（Least Median of Squares，LMEDS）。

图一 SURF配准模型

设已得到n对匹配点对，从中随机选择4对，根据4点对，求解线性方程组，得到矩阵C的各个参数。利用得到的矩阵C将其余参照图像的特征点映射到匹配图像中，得到特征点位置的估计值，并求估计值与实际值的误差量，以下为Euclid范数表示的误差量：

接下来的问题是确定保证参数求解足够精确的最小m值。我们假设错点占特征点集的比例为ε，则m次估计中至少有一次足够准确（即所取得四个点对都是好点）的概率是：

保持P接近1，如令P=0.99，我们相信SURF特征提取和匹配可以保证大部分点正确，则ε较小，设ε=0.4，故

所以，我们只需在约34次重复计算中选取使得误差中值最小的矩阵C即可。

3 实验

我们用C++语言实现了本文算法，实验证明，该算法能够对多曝光序列图像取得良好的配准效果。在 Intel Core2 2.4GHZ机器上，对大小为 640×480的图像对，算法只需0.2～0.8s，具体取决于特征点的个数，对同样图像序列，SIFT配准算法需要2.4～2.8s。并且，在高曝光场合，过饱和的图像使得SIFT常常发生误匹配。

如前所述，当运动目标距离摄像机镜头较近，物体本身3维形状产生视差时，MTB方法仅仅在X，Y方向进行平移变换，配准后的合成图像容易有鬼影出现。我们比较了MTB方法和SURF配准方法，实现证明本算法配准合成的HDR图像质量明显好于MTB。

4 结论

本文介绍了基于SURF特征点的多曝光序列图像配准算法。作为高动态图像（HDR）合成的预处理步骤，实验证明了该算法的有效性。本文还比较了传统的MTB算法和基于SIFT特征的配准算法，基于SURF的方法在配准的准确性和实时性方面均有良好表现。但另一方面，当目标缺乏纹理特征时，SURF算法的性能亦会有所降低，这也是基于特征的算法的共同缺点，也是本算法需要进一步改善的方向。

[1]Debevec P，Malik J.Recovering High Dynamic Range Radiance Maps from Photographs[C]//Proceedings of the 24th annual conference on Computer graphics and interactive techniques（0-89791-896-7），1997，369-378.

[2]Mitsunaga T，Nayar S K，Radiometric Self Calibration[J].Computer Vision and Pattern Recognition，1999，（1）:380.

[3]Tomaszewska A，Mantiuk R.Image Registration for Multi-exposure High Dynamic Range Image Acquisition[C]//WSCG 2007，Full Papers Proceedings I and II，2007，49-56.

[4]Ward G.Fast，Robust Image Registration for Compositing High Dynamic Range Photographs from Handheld Exposures[J].Journal of Graphics Tools，2003，8（2）:17-30.

[5]Bay H.SURF: Speeded Up Robust Features[J].Computer Vision and Image Understanding，San Diego: Academic Press Inc Elsevier Science，2008，110（3）: 346-359.

[6]David G.Lowe.Distinctive Image Features from Scale-Invariant Keypoints[J].International Journal of Computer Vision（0920-5691），2004，（2）: 91-110.

[7]Zitova B，Flusser J.Image registration methods: a survey[J].Image and Vision Computing，2003，21（11）:977-1000.

[8]Reinhard E，Pattanaik S，Greg Ward，Debevec P.High Dynamic Range Imaging: Acquisition，Display，and Image-based Lighting[M].San Francisco: Morgan Kaufmann Publishers，2005.

[9]Grosch T.Fast and Robust High Dynamic Range Image Generation with Camera and Object Movement[C]//International Workshop Vision，Modeling，and Visualization，2006.