大规模壁画拼接：使用moving DLT的新尝试

2016-05-19 14:00陈子豪王志成赵卫东江之洋

电脑知识与技术 2016年7期

陈子豪++王志成++赵卫东++江之洋

摘要：大部分图像拼接工具采用的算法，需要待拼接图像满足较为严格的单应性假设，例如图像间的视点仅相差一次旋转，或者被摄场景接近于平面。如果待拼接图像不满足这些假设，可能会使拼接结果模糊或存在重影；当图像增多时，拼接结果还会产生畸变。为了解决由于单应性模型的不足所带来的问题，该文提出一种图像拼接的新方法。首先利用structure from motion方法，得到被摄物体结构的极大似然估计；之后使用moving DLT技术和修改过的Bundle Adjustment，对图像进行对齐。实验结果证明，该方法能够快速并正确的处理大量不满足单应性模型的图像的拼接工作。

关键词：图像拼接；壁画保护；三维重建；图像配准；单应投射

中图分类号：TP18 文献标识码：A 文章编号：1009-3044（2016）07-0203-04

Large Scale Mural Stitching： A Novel Approach Using Moving DLT

CHEN Zi-hao， WANG Zhi-cheng， ZHAO Wei-dong， JIANG Zhi-yang

（Tongji University， Shanghai 200092， China）

Abstract： Algorithms adopted by most image stitching tools usually require input images satisfying some fairly restrictive assumptions， including images correspond to views that differ purely by rotation， or that the imaged scene is effectively planar. They are homography assumptions. Violating them may yield artifacts and ghosting in the result. When stitching plenty of non-ideal images， result panorama also suffers from serious distortion. To solve problems caused by inadequacy of homography-based model， this paper proposes a novel approach. First， it estimates most likely structure of the subject using structure from motion method. Then it aligns images by moving DLT and modified Bundle Adjustment. Experiments show this can effectively stitch bunch of non-ideal images and give convincing results.

Key words：image stitching； mural protection； 3-d reconstruction； image alignment； homography

图像拼接通常被认为是研究成熟的问题。尽管市场上有许多商业拼接工具，然而事实上，只有当待拼接图像是平面的时候，才能使用被长期研究的拼接技术。上述假设被称为单应性假设[1]，违背了这些假设会产生模糊和重影，而并不满足单应性假设的相片普遍存在。

在我们的可体重，研究将超过50张的图像拼接成一张全景图像。在拍摄壁画的实践中，相机靠近壁画进行拍摄，并在拍摄的间隔时进行移动，才能获得清晰的壁画。同时壁画也不会附着在完全平整的墙面上，因此使用单应性的算法并不合适。

拼接少于十张壁画图片，基于单应性的工具会产生重影，此时需要应用后处理算法来改善图像质量[2， 3]。进一步增加拼接图像，结果将会呈现出无法修复的畸变。

对于拼接及数字保护壁画遗迹，拼接精度是十分重要的。尽管当前的商业软件往往评价RMSE（root mean square error，均方误差）为2的拼接结果为优秀，我们希望能够得到低至0.5RMSE的结果，即达到亚像素精度。

1 相关工作

如何拼接大量图像并生成全景已经研究了很长时间。[4]尝试增量配准，并且将图像融合至一个参考平面。但是增量拼接在配准时，其副作用传递并放大了配准误差。解决这一问题的一种方法是使用一个最小二乘框架，对所有图像同时进行配准，以便均匀地分布产生的匹配误差。这一方法就是 bundle adjustment[5]。这一技术被广泛地运用于各软件、开源项目之中，试图最小化单应性假设下的配准误差。

Bundle adjustment 是一种对于鲁棒的非线性最优化方法，能够被用于解决大规模图像拼接问题，同时也被用于恢复相片中特征点的三维坐标。这一过程需要同时计算特征点的三维结构（structure）及相机的姿态（motion），其通常被称作 structure from motion （SfM）[6]。SfM在重建问题中具有重要的地位，同时国内外也有研究试图利用SfM输出高质量的全景图像。Aseem Agarwala 等[7] 在SfM的帮助下，将107张使用手持相机拍摄的长街相片生成了一副全景图像。

图像拼接的研究进行时，越来越的研究人员认为单应性模型的描述力正在成为图像拼接中的瓶颈。Gao等[8] 提出了使用双单应性模型的图像拼接方法，提高了单应性模型的自由度。Julio等[9] 在 Gao的基础上提出了称为moving DTL 的直接线性变换计算方法，以及图像配准方法as-projective-as-possible （APAP） warps。Moving DLT是加权版本的直接线性变换（DLT）算法，而APAP则是根据位置计算图像变换和投影矩阵的算法，这两种方法增加了经典单应性模型的描述力，使得其在少量的图像拼接中能够生成更好的全景。之后Julio提出了在bundle adjustment中使用APAP，但是当待拼接图像并不适用于单应性拼接时时，bundle adjustment APAP 同样会产生大量的畸变。

2 我们的算法

2.1 拟合参考平面

首先使用SfM算法，获取关于被摄物体的特征点点云。其产生一组三维点云包含被摄体的所有特征点，记和为输入图像与生成点云间的一对匹配点对，用下述公式拟合参考平面

表示将第j张图像投射直第k张图像。是一个等于或稍大于目标进度的变量，在我们的例子中，。最后对每张图像应用计算得到的相似性矩阵，便生成最终的全景图像。

3 实验及结果

我们采用了两组敦煌研究院提供的实际壁画集进行实验。此两组壁画集中分别包含56幅敦煌壁画相片，部分实验数据在图1中展示。

图1 112幅敦煌壁画摄影作为输入图像（在此展示56幅）

当使用我们的算法进行拼接时，我们取参数，，，前两者为Julio于[9]中建议的默认参数，为本实验的目标精度。由于展示的重点在于改进过的图像配准流程对于图像拼接结果的效果，本文的试验中将不使用类似multi-band blending的复杂融合。

由于Adobe Photoshop在处理56张图像时会崩溃，我们不在此提供有关Photoshop的定性或者定量分析。

3.1 定量分析

我们将RMS Error分为两部分：SfM RMS和重投影RMS，分别代表SfM步骤后的配准误差以及最终投影后的配准误差。由于我们的方法经历上述两个步骤，为了清晰起见我们展示全部两种RMS。可以看到SfM RMS往往显著的低于重投影RMS，这是由于SfM步骤不需要符合单应性模型，因此具有更高的自由度。

在两组实验中，PhotoScan均生成了RMSE极低的结果，同时损失了部分内容。我们的算法在SfM步骤同样具有极低的RMSE，以此为基础，对于每幅全景图像，本文以以RMSE ～0.3像素的代价，从大约为1万个特征点中恢复出完整的全景图像。其最终的重投影RMSE优于使用简单单应性投射的AutoPano。

3.2 定性分析

图2与图3以AutoPano Giga， Photosynth， PhotoScan以及我们的方法，这一顺序分别展示使用两组壁画集进行图像拼接的结果。

四组结果中，AutoPano与我们的结果仅经过了线性融合。

3.2.1 第一组实验

图2的最左的一栏展示了第一组拼接结果的全景。Photosynth未能恢复被摄物体的正确结构。AutoPano Giga生成了长宽比最不正确的最终结果。PhotoScan与我们的方法均、正确的对齐了图像，然而PhotoScan的生成了左右反转的结果。这是由于SfM生成的原始数据并不关心图像的方向，而PhotoScan完全依照这一数据构造全景。我们的方法同样使用SfM方法，并使用式（2～5）修正了这一问题。

右侧两栏展示了更多细节，在原图中粉色及红色线框标示。AutoPano的结果存在模糊和形变。由于外部推测的不足，PhotoScan损失了所有在边缘的图像信息。

3.2.2 第二组实验

图3的最左一栏展示了第二组拼接结果的全景。由于被摄体结构及纹理简单，四种拼接方法均正确的恢复了被摄物体的结构。由于式（1），我们方法产生的全景将单应性失真维持在最小，而其余三种方法产生的结果均在不同程度上存在单应性失真，直观地体现于拼接结果无法填满长方形的画幅。

右栏展示拼接结果中佛像的眼部细节。AutoPano Giga使用线性融合得到的结果中具有多处模糊，这是单应性模型描述力不足带来的。运用了复杂融合方法的Microsoft Photosynth在这一实验数据集中成功得到了非常锐利的全景图像。PhotoScan的结果上下翻转了。可以看到PhotoScan通过一些外部性假设，试图补全了图像中损失的部分，然而其拼接所得全景图的大小仅为4096 x 3250像素（作为对比，我们输出的全景图大小为21019 x 15892像素），观察其结果的眼部细节，甚至可以清晰的看到像素颗粒，这使得所得全景图像不再具有意义。我们的方法则在保证图像不经历旋转或反转的情况下，不需使用任何复杂的融合方法，得到了与Microsoft Photosynth同样锐利的全景图像。

4 结论

我们提出了一种简单而鲁棒的方法以拼接大幅面的壁画图像。壁画图像实际是不符合单应性假设的而又大致为平面的图像。我们的方法能够同时处理数十张输入图像，同时保持输出结果准确，完整，以及视觉上优秀。

参考文献：

[1] Szeliski R. Image alignment and stitching： A tutorial， Journal Article[J]. Foundations and Trends? in Computer Graphics and Vision， 2006，2（1）：1-104.

[2] Burt P J. Adelson E H， A multiresolution spline with application to image mosaics， Journal Article[J]. ACM Transactions on Graphics （TOG）， 1983， 2（4）： 217-236.

[3] Perez P， Gangnet M， Blake A. Poisson image editing， Conference Proceedings[C]. ACM Transactions on Graphics （TOG）. 2003. ACM.

[4] Szeliski R. Shum H Y. Creating full view panoramic image mosaics and environment maps， Conference Proceedings[C]. Proceedings of the 24th annual conference on Computer graphics and interactive techniques， ACM Press/Addison-Wesley Publishing Co，1997.

[5] Triggs B.Bundle adjustment—a modern synthesis， Book Section[C]. Vision algorithms： theory and practice. 2000：298-372.

[6] Ullman S. The interpretation of structure from motion， Journal Article[C]. Proceedings of the Royal Society of London. Series B. Biological Sciences， 1979，203（1153）：405-426.

[7] Agarwala A.. Photographing long scenes with multi-viewpoint panoramas[C]. Conference Proceedings. in ACM Transactions on Graphics （TOG）. ACM， 2006.

[8] Gao J， Kim S J， Brown M S. Constructing image panoramas using dual-homography warping[C].Conference Proceedings. in Computer Vision and Pattern Recognition （CVPR）， 2011 IEEE Conference on. 2011.

[9] Zaragoza J. As-projective-as-possible image stitching with moving DLT[C].Conference Proceedings. in Computer Vision and Pattern Recognition （CVPR）， 2013 IEEE Conference on. IEEE，2013.