增强现实无标识跟踪注册方法研究综述

2023-05-08 03:01曹鹏霞李文新马伟苹
计算机应用与软件 2023年4期
关键词:位姿鲁棒性现实

曹鹏霞 李文新 马伟苹

1(西北师范大学物理与电子工程学院 甘肃 兰州 730000) 2(中国空间技术研究院兰州空间技术物理研究所真空技术与物理重点实验室 甘肃 兰州 730000)

0 引 言

增强现实[1](Augmented Reality, AR)是一种将计算机生成的3D模型、文字、图片、视频等虚拟的信息实时地叠加到真实场景中并显示的技术。增强现实通过虚实融合配准能够实现自然的人机交互,它在健康医疗、工业维修、军事领域、娱乐游戏等行业具有广泛的应用前景。对增强现实技术的研究涉及到相机标定技术、跟踪注册技术、场景融合和显示技术等多项关键技术[2]。如何快速、准确地计算出摄像机相对于真实场景的位姿信息,并以该位姿信息为基础把虚拟信息与真实场景精确对齐的技术就是跟踪注册技术。跟踪注册技术是研究增强现实系统的核心和难点,已经成为了增强现实应用于更多领域亟须解决的一个关键问题[3]。

目前,针对增强现实系统的跟踪注册技术研究问题,研究人员主要是针对基于计算机视觉的跟踪注册方法的研究[4]。基于计算机视觉的跟踪注册方法主要是通过计算机视觉和计算机图形学等相关理论获取虚拟信息和真实场景之间的坐标变换矩阵的方法[5]。目前,基于计算机视觉的跟踪注册方法根据是否需要提前放置标识可以分为基于特殊标识的跟踪注册方法和基于无标识的跟踪注册方法两大类。

基于特殊标识的跟踪注册方法应用最多的工具包是ARToolKit[6]以及ARTag[7]。这类工具包具有计算量小、执行速度快、不需要复杂的硬件设备等优势。但是基于特殊标识的跟踪注册方法需要在真实场景中预先放置人工标识物,通过提取标识物的特征获得跟踪注册所需要的位姿信息从而实现跟踪注册。但是,在真实场景中预先放置特殊的人工标识物、使用特殊标识物进行跟踪注册的方法无法解决环境光照变化和标志物被遮挡的问题,具有鲁棒性差的缺点。同时,特殊标识物在真实场景中也会带来视觉污染的问题。在这些情况下,必须使用基于无标识的跟踪注册方法来解决增强现实中虚实场景的配准问题[8]。因此,基于无标识的跟踪注册方法是目前发展的主要方向。

基于无标识的跟踪注册方法不需要在真实场景中预先人为放置标识物即可以实现虚实场景之间的位置配准问题。因此它比基于特殊标识的三维跟踪注册方法应用范围更广、可用性更强[9]。本文概述了目前增强现实无标识跟踪注册方法的最新研究进展,根据不同的应用场景和目标的纹理情况将现有的研究分为基于自然特征的无标识跟踪注册方法、基于模型的无标识跟踪注册方法和基于视觉SLAM的无标识跟踪注册方法3类。在总结这三类方法的基本思想的同时概括和总结了这几类方法最新的研究进展和现有技术的优缺点。最后对现有的增强现实无标识跟踪注册方法存在的问题进行了总结,并对其进一步发展进行了展望。增强现实中三维跟踪注册技术分类如图1所示。

图1 增强现实中三维跟踪注册技术分类

1 基于自然特征的无标识跟踪注册方法

基于自然特征的无标识跟踪注册方法主要利用已知场景中的一些自然特征来检测场景中的目标来计算相机的姿态,然后通过自然特征坐标与相机姿态的转换来完成跟踪注册[10],如图2所示。其工作流程大致为:首先提取模板图像以及当前帧图像的自然特征点集,使用匹配算法得到特征点集之间的匹配关系来进行位姿估计从而实现跟踪注册。图3中,(xp,yp)是当前帧图像中任意点的坐标,(x0,y0)是目标模板投影到摄像机平面上的坐标,(xn,yn)是目标中的点投影到摄像机平面上的坐标,它们对应的关系为:

图2 基于自然特征点的无标识跟踪注册方法流程

图3 检测目标投影和摄像机运动关系

(1)

(2)

(3)

(4)

式中:λ是缩放因子;K是摄像机内参;[R|T]就是跟踪注册的三维位姿。

基于自然特征的无标识跟踪注册方法一般是基于特征描述子来进行特征点匹配。常用的特征描述子有传统的高维度浮点数类型的特征描述子SIFT(Scale-Invariant Feature Transform)[13]和SURF(Speeded Up Robust Features)[12]、二进制描述符BRIEF(Binary Robust Independent Elementary Features)[14]、ORB(Oriented FAST and Rotated BRIEF)、加速分割测试获得特征FAST(Features from Accelerated Segment Test)等。这些特征描述子的特点及性能如表1和表2所示。

表1 常用特征描述子特点

表2 常用特征描述子算法性能比较

目前基于自然特征的无标识跟踪注册方法因其不需要在真实场景中放置标识而得到了广泛的应用,但是部分跟踪注册方法在跟踪注册过程中存在不能满足增强现实实时性要求、匹配精度低、缺乏尺度不变性等问题。国内外研究人员针对上述描述子的特点以及它们的缺陷对它们进行结合和改进使得它们能够应用于更多的场合。针对特征描述子SIFT算法匹配速度过慢的问题,庄连生等[15]提出了一种面向DCT域的扩展SIFT特征,该方法以SIFT特征为基础并扩展到DCT域能够提高算法的匹配效率。彭勃宇等[16]为了提高增强现实图像匹配算法的实时性,提出了面向增强现实的SUSAN-SURF快速匹配算法。该方法使用SUSAN方法进行特征点定位并生成特征点主方向,同时使用SURF生成特征描述符,改进的算法能够有效提高算法性能使其满足增强现实系统对匹配算法在速度、精度、抗干扰能力等方面的要求。何林阳等[17]针对BRISK算法误匹配率高的问题,提出了一种改进的快速图像配准算法对BRISK特征提取进行改进,该方法利用BRISK算法构建连续的尺度空间并将图像分块获得分布均匀的角点,结合FLANN算法和RANSAC对角点特征进行快速匹配,改进的BRISK算法在保持原算法速度的基础上能够使匹配精度达到亚像素级。由于ORB算法缺乏尺度不变性,白雪冰等[18]对ORB算法进行改进,改进算法使用具有尺度不变性的Hessian矩阵检测算法提取特征点并用ORB生成特征描述子,改进后的算法同时具备了旋转不变性和尺度不变性。刘潇潇等[19]以效率较高的FAST算法为基础,在特征检测和匹配时加入颜色特征,提出了结合了图像的颜色特征的C-FAST改进算法。改进后的算法在保持FAST算法高效率的特点的情况下,具有更高的匹配精度,且在光照变化以及噪声条件下都能够表现出良好的稳健性。Ufkes等[20]将匹配算法和跟踪算法结合起来,使用ORB算法进行匹配检测,使用光流跟踪算法对姿态进行跟踪来完成跟踪注册。该方法因使用跟踪算法可以大大地提高整个系统的效率,但跟踪算法容易受光照等因素影响。雍玖等[21]提出的三维注册方法结合了MEEM跟踪算法以及改进的ORB特征检测算法。该方法使用MEEM算法对移动对象区域进行跟踪。在对跟踪模板区域使用ORB算法进行特征点提取时使用了多尺度空间理论对其进行改进提取稳定特征点并使改进的ORB算法具有了尺度不变性,实验验证了提出的算法具有很好的鲁棒性并能够满足跟踪注册算法在实时性方面要求。Kim等[22]结合FAST算法和SIFT算法提高了特征检测的检测效率。

基于自然特征的无标识跟踪注册方法因不需要在真实场景中放置标识物而大大地扩大了它的应用范围,这也使得基于无标识的增强现实系统的应用范围更广。但是这类方法需要利用场景中的一些自然特征来检测场景中的目标来计算相机的姿态,因此该类方法在目标被遮挡的情况下或者目标缺少足够多的纹理时容易出现无法精准跟踪目标的情况而导致跟踪注册失败。

2 基于模型的无标识跟踪注册方法

基于模型的无标识跟踪注册方法能够解决目标因缺少纹理而导致跟踪注册失败的问题。它首先以一定的先验知识为基础离线建立跟踪目标的模型,目标模型可以是计算机辅助设计(CAD)模型和三维点云模型等;然后实时地获取摄像机的位姿信息并对3D模型位姿进行更新,实现模型和目标的配准[23]。由于3D模型具有丰富的三维信息,并且模型对跟踪目标的表面、边缘和连接关系都有一定的描述。因此,基于模型的无标识跟踪注册方法能够应用于缺少纹理的复杂场景中。目前,研究人员提出的多种基于模型的三维跟踪注册方法大都是基于边缘特征的方法以及基于点云的方法。

基于边缘特征的3D模型跟踪注册方法通常使用跟踪注册目标的边缘特征来实现跟踪注册。该类方法提取输入视频帧图像的目标边缘特征与离线模型的边缘特征进行匹配,根据匹配关系获得相机位姿完成跟踪注册。其流程如图4所示。Lepetit等[24]使用实时姿态和位置确定(Real-time Attitude and Position Determination, RAPiD) 方法成功地实现了第一个基于3D 模型实时跟踪系统。该系统通过将前一帧的摄像头位姿估计近似为当前帧的摄像头位姿估计来实现模型的投影。因此该系统要求相邻帧之间的位姿进行缓慢变化才能实现实时跟踪。Imperoli等[25]提出了一种基于模型边缘信息的方法来对目标进行检测和定位,通过3D图像张量对位置空间中的边缘点的最小距离进行编码,同时最小化提取该3D图像的正倒角距离(DCD)的成本函数,从而对对象姿态参数进行优化,该方法不需要计算点对点对应关系。

图4 基于边缘特征的3D模型跟踪注册

基于边缘轮廓的方法当目标物体处于杂乱的环境中以及当目标物体被部分遮挡时鲁棒性较差。此外这类方法的建模过程通常都比较繁琐,计算成本较高。为了解决这些问题,李自豪等[26]提出了一种混合3D模型跟踪注册算法,该方法提出将边缘像素数量作为测量标准,使用粒子滤波算法获取相机的初始位姿,以初始位姿为基础结合非线性最小平方误差估计算法来对相机位姿进行跟踪,该算法应用于维修诱导系统中具有很好的鲁棒性。Murray等[27]使用粒子滤波器对模型边缘进行跟踪,该方法能够跟踪部分遮挡的复杂的3D目标,同时通过硬件加速来实现实时跟踪,其注册过程如图5所示。Neubert等[28]提出了一种基于外观的边缘模型的注册方法,该方法从视频帧中快速生成基于外观的粗略边缘模型,然后使用边缘跟踪算法对其进行跟踪。该方法避免了繁琐的建模过程。其注册过程如图6所示。

图5 基于粒子滤波器的模型注册结果

图6 快速构建外观模型注册结果

基于点云模型的跟踪注册方法通常利用三维点云数据来表示真实场景和模型,然后使用迭代最近点(Iterative Closest Point, ICP)算法来配准模型点云和环境点云从而获得相机的实时位姿。一般可以通过普通摄像机采集图像集并通过运动恢复结构(Structure From Motion,SFM)[29]算法建立环境点云数据,也可以从RGB-D相机采集的深度图像中获得环境点云数据,其流程如图7所示。Radkowski等[30]利用ICP算法配准模型点云和环境点云数据并获得相机位姿完成跟踪注册,并将其应用于增强现实装配系统。

图7 基于点云模型的跟踪注册方法

使用点云模型的方法能在表面缺少纹理的应用场景中表现出良好的鲁棒性,该类方法使用的ICP配准算法的配准效果易受相机的初始位姿的影响,且当相机快速移动时,ICP算法的迭代过程容易局部最优,使得跟踪注册过程中断。针对这类问题,Park等[31]使用DOT(Dominant Orientation Templates)模板检测算法获取相机的初始位姿同时使用RGB-D相机通过深度图像获取点云数据,最后使用ICP算法对点云数据进行配准完成跟踪注册。其注册结果如图8所示。王月等[32]提出的跟踪注册算法融合了点云和视觉特征,并将融合算法应用到增强现实的装配系统。该方法在ICP算法的基础上结合了彩色图像信息来提高摄像机快速移动时的跟踪注册过程的鲁棒性。

图8 基于DOT和点云模型的跟踪注册结果

3 基于视觉SLAM的无标识跟踪注册方法

基于视觉的同步定位与建图(Simultaneous Localization And Mapping, SLAM)因其适用性以及系统结构简单且易于实现等优点在增强现实领域中具有广泛的应用前景。Davison 等[33]使用扩展卡尔滤波器来实现同步定位与地图创建,实现了一种基于单目视觉的MonoSLAM 实时算法,该算法证明了基于视觉SLAM的无标识跟踪注册方法的可行性和易用性。

基于视觉SLAM的无标识增强现实跟踪注册方法是一种应用于未知场景的增强现实跟踪注册方法,一般可包含地图构建与更新以及跟踪注册两个并行的模块[34]。其中,地图构建与更新模块一般可通过SLAM算法来实现;而跟踪注册模块可以通过构建的地图库来进行摄像机位姿估计,对输入图像与地图库进行特征点提取及匹配并进行摄像机位姿信息更新,最后实现虚拟物体的注册。具体流程如图9所示。

图9 基于视觉SLAM的无标识跟踪注册方法流程

近年来,越来越多的研究人员致力于基于视觉SLAM的无标识跟踪注册方法的研究[35]。 Klein 等[36]提出了基于关键帧的单目视觉SLAM 算法-并行跟踪及地图建立(Parallel Tracking And Mapping,PTAM),PTAM使用SFM相关算法对SLAM进行改进并将地图构建更新以及跟踪注册进行并行处理,使得该方法比MonoSLAM 鲁棒性更好,实时性可以满足移动、可穿戴等计算性能较低的设备的要求。然而当需处理的地图较大时,PTAM 效果较差,它仅能应用于室内等规模较小的场景。Castle 等[37]提出并行跟踪与多地图建立(Parallel Tracking And Multiple Mapping,PTAMM)算法,PTAMM 以PTAM算法为基础引入多地图处理机制,将较大地图的建立问题分成若干子图进行分开建图并在跟踪定位的过程中实现在子图间进行自动切换。该方法在保持PTAM算法的优点的同时提高了其针对较大空间的建图能力,但是PTAMM仍易受场景光照条件和环境纹理的影响[38]。随着RGB-D深度摄像机的出现,使得硬件平台具有了获得深度感知的能力。Mur-Artal等[39]将深度信息融入到SLAM框架中,该方法在提升运算效率的同时还能应用于光照条件较差的场景。Richard 等在RGB-D相机的基础上使用KinectFusion算法进行三维重构,该方法在进行三维重构时还可以跟踪相机的位姿。Dong等[40]通过关键点提取以及RGB和深度图像平面上的特征匹配来找到连续RGB-D帧之间的相对相机姿态,将估计的姿态输入到高精度的KinectFusion算法中,同时使用快速ICP微调帧到帧的相对姿态,该方法能够有效提高RGB-D视觉SLAM系统的精度。谷晓琳等[41]提出了一种新的基于半直接视觉里程计的RGB-D视觉SLAM算法,该方法充分利用直接法和自然特征点法的优势,设计了鲁棒的后端优化以及闭环检测策略,使得算法在纹理稀疏等复杂的环境中鲁棒性较强。近年来,RGB-D视觉SLAM算法发展较快,然而深度摄像头势必增加整个系统的计算量以及设备成本。此外,目前消费级的深度摄像头并未大范围普及,能够获取的深度范围也受限,这使得该方法的应用范围受到很大的限制[42]。

4 结 语

本文概述了目前增强现实无标识跟踪注册方法的发展状况,分析了现有技术的优缺点。从中可以看出目前增强现实无标识跟踪注册方法的研究发展仍受场景复杂度、光照条件、算法的效率和鲁棒性等条件的限制,并没有适用于各种场景的通用的技术方案。存在的主要问题以及难点主要表现在以下几方面:首先,能够取得较好的跟踪注册效果实现虚实无缝融合的无标识跟踪注册方法势必都存在算法复杂的问题,这种情况下运行效率是我们需要考虑的关键问题,这也是目前很多精度较高的无标识跟踪注册方法很难满足实时性要求的原因;其次,目前很多无标识跟踪注册方法都仅适用于某些简单的场景环境,当遭遇场景背景过于复杂、光照条件显著变化、目标表面缺少足够纹理时很多无标识跟踪注册方法并不能满足系统对鲁棒性的要求,甚至会出现跟踪注册失败的现象。

针对现有无标识跟踪注册方法存在的问题和难点,我们下一步的工作可能有2个方向:(1) 使用具有大规模并行处理能力的专用图形处理器来加速和优化无标识跟踪注册方法[43]。针对目前无标识跟踪注册方法算法复杂和效率低的问题,将跟踪注册算法进行模块划分,使用大规模并行处理能力的专用图像处理器来解决增强现实无标识跟踪注册技术中的难点问题。(2) 多种跟踪注册技术相结合的混合跟踪注册方式[44-45]。与基于视觉的跟踪注册算法相比,混合跟踪技术能够在目标快速移动或者目标被部分遮挡时还能够保持很好的鲁棒性。因此,使用混合跟踪注册技术是实现增强现实跟踪注册算法高精度以及强鲁棒性的有效方法。

猜你喜欢
位姿鲁棒性现实
我对诗与现实的见解
荒漠绿洲区潜在生态网络增边优化鲁棒性分析
基于确定性指标的弦支结构鲁棒性评价
基于共面直线迭代加权最小二乘的相机位姿估计
基于CAD模型的单目六自由度位姿测量
基于非支配解集的多模式装备项目群调度鲁棒性优化
非接触移动供电系统不同补偿拓扑下的鲁棒性分析
一种基于Unity3D+Vuforia的增强现实交互App的开发
小型四旋翼飞行器位姿建模及其仿真
现实的困惑