何 胤,肖双九
(上海交通大学 电子信息与电气工程学院,上海 200240)
一种简便的大空间多摄像机自标定算法
何胤,肖双九
(上海交通大学 电子信息与电气工程学院,上海 200240)
针对现有的多摄像头全自动目标定方法要求至少3幅不同视图才能完成标定的限制条件,为减少摄像头数量、降低摆放设计复杂度以及提高系统的整体性能,通过严格的数学推论证明了在摄像头内参一致的约束下,只需要2幅不同视图即可完成标定.经实验验证,对标定结果进行二维重映射的像素误差约1个像素.该算法在更宽松的限制条件下,仍然保持了操作简便、计算结果稳定且精度较高的性能.
计算机视觉;大空间;多摄像头;自标定
摄像机标定的目的是寻找二维图像与三维空间的一种对应关系.1971年,文献[1]建立了线性的摄像机成像模型,将这种对应关系表示为一个参数矩阵,即摄像机矩阵,随后研究者们对摄像机标定进行了深入的研究,提出了一些更精确、更可靠的算法[2-4].
随着摄像机和计算机成本的降低和相关技术的发展,越来越多的多摄像机智能系统开始出现[5-6],摄像机标定作为很多智能系统的基础技术,直接影响着系统的性能表现,而到目前为止,对大空间多摄像机全自动标定算法的研究还较少.
摄像机自标定是直接由未标定的多幅图像来计算摄像机和景物的度量性质的一种算法类型[7].文献[8-9]利用二维的移动圆盘对摄像机进行标定,而文献[10]利用对应点求取外参矩阵后,再使用一维标定物求解外参矩阵的尺度因子.尽管这些算法都不需要知道标定物在三维坐标下的信息,但其有着一个共同的缺陷,它们都需要使用链式的方式,一个接一个地把标定结果结合起来,这个链接结果的过程很容易产生和传递错误.文献[11]使用传统的方法对大空间内多摄像机进行标定,该方法使用连接起来的标定板和一个三维镭射测量仪器来收集足够多的三维点,从而进行标定求解.文献[12]提出了利用高精度网格的平板进行多摄像机网络标定的算法.
文献[13]提出了一种全自动的自标定算法,标定过程要求用户拿着一支镭射笔在标定区域内自由晃动,而这也是唯一需要用户完成的动作.随后算法检测不同摄像机视图中的亮点,这些点满足摄像机的对极约束,利用4阶矩阵分解,可由这些点构成的测量尺度矩阵得到一个射影重构,最后再通过求解单应性变换矩阵,将射影重构转换为欧拉重构,完成标定过程.但是该算法受数学模型的限制,求解过程至少同时需要3个不同视图的图像,这会导致在大空间应用场景中,摄像机的摆放设计更复杂,需要更多的摄像机,在增加成本的同时,也增大了后续应用中(例如目标跟踪)的数据量,影响系统的整体性能.本文在文献[13]的研究基础上,对算法进行了改进,证明了在内参一致的约束下,可以仅通过2个不同视图求解单应性变换矩阵,从而减少已有算法的限制.
1.1摄像机模型
摄像机模型是光学成像几何关系的简化[14],最简单的模型为线性模型[1],或称针孔模型(pin-hole model).该模型的3个重要坐标系如图1所示.
(a) 图像坐标系
(b) 摄像机坐标系和世界坐标系图1 图像坐标系、摄像机坐标系和世界坐标系Fig.1 Image coordinate,camera coordinate and world coordinate
(1)
1.2生成和分解测量尺度矩阵
(2)
其中:i表示第i个摄像机;j表示第j个点.将所有的点和摄像机矩阵放入测量尺度矩阵Ws中
(3)
(4)
1.3求解单应性变换矩阵
本文提出了一种仅需两个视图即可计算单应性变换矩阵H的算法,该算法基于射影几何的绝对二次曲线[5].与文献[13]的方法类似,在本文的实现中,不需要测量三维点的世界坐标信息,而是假设世界坐标的原点在检测点的中心位置.由式(1)可知
(5)
定义
H4×4=[A4×3b4×1]
(6)
其中:A4×3和b4×1分别表示H4×4的前三列和最后一列.由式(4)~(6)可得
Ki[Riti]=Pi[A4×3b4×1]
(7)
若假设世界坐标系原点为所有采集三维点的中心,则可以获得关于b4×1的2m个方程[13],由式(7)有
KiRi=PiA
(8)
由此可以推出Ri=K-iPiA,用RRT=1消去旋转矩阵Ri得
PiAATPiT
(9)
定义一个4×4的对称矩阵
Q=AAT
(10)
此时,问题转化为计算有10个未知数的对称矩阵Q,本文假设摄像机的像素为方块,主点与图像坐标系原点相重合,且所有摄像机的内参相同,即KiKiT=KjKjT,则有
u0=0, v0=0, ax=ay, PiQPjT=PjQPjT
由此可得线性方程组
(11)
本文的实验设备为摄像机三脚架、IDS摄像机、红外发光板、红外反光小球、USB集线器以及一台电脑(Intel Core i7-3770 3.4 GHz CPU,内存8 GB),代码由Windows 7版本的Matlab 2013b编译运行.
实验所使用的主要设备如图2(a)~(c)所示,实验场景如图2(d)所示,摄像机放置在三脚架上,红外发光板放置在摄像头后方,保证顺着摄像头视线发射红外光,当使用红外反光小球在标定区域中晃动时,摄像机能捕捉到红外反光小球更高的亮度,以便于收集对应点.专用的USB集线器能提供更高的带宽和功率,保证在采集标定图像序列时,能够达到同步.
(a) 摄像机及红外发光板
(b) 红外反光小球
(c) USB集线器
(d) 实验场景,其中虚线框为摄像机,实线框为集线器图2 标定实验设备及实验场景Fig.2 Experiments devices and the scene
标定开始前,摄像机通过USB集线器连接到计算机,然后开始捕捉标定区域的图像,图像尺寸为752像素×480像素,图像捕捉的帧率保持在3~5帧/s,帧率过高会收集很多无用的对应点,晃动的速度与摄像机快门速度有关,晃动速度过快会造成采集的图像有运动模糊,从而影响对应点检测精度.
本文算法与文献[13]算法进行了两组对比实验,分别对3个和2个摄像头进行标定,每组实验均采集了500帧图像作为算法输入,1号摄像头图像序列的部分帧如图3所示.
(a) 第31帧
(b) 第63帧
(c) 第278帧
(d) 第498帧图3 实验采集标定图像样例Fig.3 Sample images collected in the experiments
采用了Svoboda算法[13]和本文算法同时对3个摄像机进行标定,结果如图4所示,图4(a)和图4(b)的3组柱状标识表示分别表示两种算法的二维重映射错误值,深色为错误值的标准差,浅色表示错误值的算术平均值.由图4(a)和图4(b)可以看出,两种算法在大于两个摄像头的场景下,都保持了较高的标定精度,二维重映射错误平均值都保持在0.6~0.9像素,标准差也无明显差别,图4(c)和图4(d)各自显示了3号摄像机所有检测到的点和剩余有效点二维再重建点的位置信息,其中圆圈表示检测到的实际点位置,十字表示根据计算得到的摄像机矩阵二维重建点的位置.值得注意的是,由于RANSAC算法的随机性,不同的计算过程中,有效点不一致,所以图4(a)和图4(b)被矫正的圆圈数量和位置不一致.
(a) 本文算法二维重映射误差
(b) Svoboda 算法二维重映射误差
(c) 本文算法对3号摄像机采集点二维重建结果
(d) Svoboda 算法对3号摄像机采集点二维重建结果图4 利用本文算法和Svoboda算法对3个摄像机进行标定的实验结果Fig.4 Experiments results of three cameras by ours and Svoboda’s algorithm repsectively
本文算法对仅有2个摄像头的场景下的标定结果如图5所示.在这种场景下,文献[13]的算法是无法完成标定计算的,而本文的算法解决了该限制条件,并保持了文献[13]的精确度,重映射错误平均值维持1像素左右,标准差在0.6像素左右.图5(b)与图4(c)和4(d)相似,根据计算的摄像机矩阵进行二维重建后的检测点分布,可以看出表示二维重建结果的十字位置与表示实际点的圆圈位置重合度高,证明了该算法的正确性.
(a) 本文算法二维重映射误差
(b) 本文算法对2号摄像机采集点二维重建结果图5 利用本文算法对两个摄像机进行标定的实验结果Fig.5 Experiment results of two cameras by our algorithm
在计算效率上,本文算法和Svoboda算法基本保持一致,在第一组实验中,两种算法耗时约8 min,在第二组实验中,两种算法耗时约5 min,可见两种算法数学模型的复杂度是相同的,计算耗时与输入的数据量密切相关.
本文在摄像机内参一致性的约束下,建立方程组对摄像机矩阵进行求解,并通过实验验证了这是一种简便可靠的全自动多摄像头标定算法.唯一需要用户的操作是拿着红外反光小球或者其他类似的发光小球在标定空间中自由晃动,避免了传统标定对复杂标定设备或标定物的要求和繁琐的过程.此外,在已有算法基础上,本文成功地利用更常见的恒定内参约束,放宽了已有算法需要至少3个不同视图的限制条件,而仅需2个不同视图即可完成标定过程,同时保持了较高的精度和稳定性.这项改进能够明显扩大该算法的潜在应用范围.在不同摄像机数量下保持高质量标定结果也证明了该算法广阔的可用性.
[1] ABDEL-AZIZ Y, KARARA H. Direct linear transformation from comparator coordinates into object space coordinates in close-range photogrammetry[M]. Illinois: ASP Symposium on Close-Range Photogrammetry, 1971:1-18.
[2] TSAI R. A versatile camera calibration technique for high accuracy 3D machine vision metrology using off-the-shelf TV cameras and lenses[J]. IEEE Transactions on Robotics and Automation, 1987, 3(4):323-344.
[3] ZHANG Z. A flexible new technique for camera calibration[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2000, 22(11): 1330-1334.
[4] SONG L, WU W, GUO J, et al. Survey on camera calibration technique[C]//Intelligent Human-Machine Systems and Cybernetics (IHMSC), 2013 5th International Conference on. Washington, DC, USA: IEEE Computer Society, 2013: 389-392.
[5] BRUMITT B, MEYERS B, KRUMM, et al. Easyliving:Technologies for intelligent environme-nts [C]//Handheld and Ubiquitous Computing. Berlin Heidelberg:Springer-Verlag, 2000:12-29.
[6] KHAN S, JAVED O, RASHEED Z, et al. Human tracking in multiple cameras[C]//International Conference on Computer Vision. Washington, DC, USA: IEEE Computer Society, 2001:331-336.
[7] HARTLEY R, ZISSERMAN A. Multiple view geometry in computer vision[M]. Cambridge UK: Cambridge University Press, 2003:1-670.
[8] PRINCE S, CHEOK A, FARBIZ F, et al. 3D live: Real time captured content for mixed reality[C]// ISMAR. Washington,DC,USA: IEEE Computer Society, 2002: 7-13.
[9] CHEUNG G, BAKER S, KANADE T. Shape-from-silhouette of articulated objects and its use for human body kinematics estimation and motion capture[C]// Computer Vision and Pattern Recognition. Washington, DC, USA: IEEE Computer Society, 2003:1-77.
[10] KURILLO G, LI Z, BAJCSY R. Wide-area external multi-camera calibration using vision graphs and virtual calibration object[C]//Distributed Smart Cameras, 2008. ICDSC 2008. Second ACM/IEEE International Conference on. Washington,DC,USA: IEEE Computer Society, 2008:1-9.
[11] KITAHARA I, SAITO H, AKIMICHI S,et al. Large-scale virtualized reality[R].Computer Vision and Pattern Recognition, Technical Sketches. Washington,DC,USA: IEEE Computer Society, 2001.
[12] BAKER, PATRICK T, ALOIMONOS Y. Calibration of a multicamera network[C]//Computer Vision and Pattern Recognition Workshop.Washington,DC,USA: IEEE Computer Society, 2001:72.
[13] SVOBODA T, MARTINEC D, PAJDLA T. A convenient multicamera self-calibration for virtual environments[J]. PRESENCE: Teleoperators and Virtual Environments, 2005, 14(4): 407-422.
[14] 马颂德, 张正友. 计算机视觉计算理论与算法基础[M].北京:科学出版社, 1998:1-282.
A Convenient Multi-camera Self-calibration Method in Large Site
HEYin,XIAOShuang-jiu
(School of Electronic Information and Electrical Engineering, Shanghai Jiaotong University, Shanghai 200240, China)
Now existing automatic self-calibration method has a limitation of requiring not less than three different views to complete the calibration.In order to reduce the camera amount, complexity of the camera placement, and enhance the performance of the whole system, rigorous mathematical reasoning is used to prove that two different views are enough if exploiting the constraint of invariable intrinsic parameters. The experiments show that the calibration result can achieve about 1 pixel error in 2D re-projection test.This algorithm has convenient pre-process and robust, accurate results under loosened limits as well as the state-of-the-art.
computer vision; large site; multi-camera; self-calibration
1671-0444(2015)04-0462-05
2014-11-30
国家自然科学基金资助项目(61173105, 61373085)
何胤(1989—),男,四川眉山人,硕士研究生,研究方向为计算机视觉.E-mail:Blocks89@gmail.com
肖双九(联系人),女,副教授,E-mail:xsjiu99@cs.sjtu.edu.cn
TP 391
A