不依赖于卫星的无人系统视觉/激光雷达感知与自主导航技术

2021-05-18 11:51赖际舟刘建业何洪磊

导航定位与授时 2021年3期

赖际舟，袁诚，吕品，刘建业，何洪磊

(南京航空航天大学自动化学院，南京 210016)

0 引言

无人系统作为社会智能化水平提升的典型代表，是一种可在复杂环境下工作且具有自主定位、自主运行、自主规划能力的智能机器人，如无人车、无人机等。近年来，无人系统在越来越多的行业中发挥了重要作用，如工厂自动化、建筑、采矿、排险、服务、农业、太空探测以及军事应用等领域，可有效保障社会公共安全、提高社会生产效率、优化工业智能化水平。

近年来，无人系统的应用及相关研究不断深入，感知与导航作为其智能核心尤为受关注，美国国防部高级研究计划局(Defense Advanced Resear-ch Projects Agency，DARPA)针对无人系统在环境感知和自主导航技术等方面投入了庞大的资金。2018年8月，美军发布了《无人系统综合路线图(2017—2042)》，明确了无人系统需要着重提高感知及导航能力。同年，DARPA举办地下挑战赛，在复杂无卫星信号环境下探索无人系统的感知与导航能力，力求快速提升无人系统的智能化水平，DARPA希望上述计划可以辅助美国在未来取得主导优势。国内也十分重视此方面发展，2015年，国务院印发《中国制造2025》，要求提高无人系统的感知智能水平。2020年，中国科协[1]将“无人车如何实现在卫星不可用条件下的高精度智能导航”列为十大工程技术难题之一。

随着应用需求的增加与细分，无人系统需要在一些室内、地下、隧道、对抗干扰等复杂、随机、多变的环境下进行自主作业，由于卫星导航系统信号被遮挡或屏蔽，视觉和激光雷达等自主传感器成为该环境下常用的自主感知与导航手段。

视觉传感器可以感知环境中丰富的信息，且由于其体积较小、成本较低，在小型化无人系统上得到了广泛应用。以苏黎世大学机器人感知团队(Robotics and Perception Group，RPG)、苏黎世联邦理工学院自主机器人团队(Autonomous Systems Lab，ASL)、德国慕尼黑工业大学机器视觉团队和香港科技大学空中机器人团队为代表，提出了丰富的不依赖卫星的视觉感知及导航算法，并在室内小型无人车、小型无人机等无人系统上进行了验证与应用。

激光雷达虽体积、功耗较大，但可以感知高精度的测距信息且不依赖外部光源，同样在无人系统上得到了广泛应用。芝加哥大学丰田技术研究所、百度Apollo和谷歌Waymo等研究机构已经将其应用于不依赖卫星的无人车等无人系统的自主感知及导航。同时，这些团队发布了EuRoC MAV、TUM RGB-D、KITTI等一系列包括真实参考值的数据集，对无人系统不依赖卫星的导航以及感知技术提供了可靠的验证数据支持，降低了算法研究的硬件门槛，并为算法性能的比较提供了基准。

如图1所示，无人系统的视觉/激光雷达环境感知与自主导航技术一般可以分为感知信息获取、里程计位姿估计、地图匹配位姿估计和地图构建等模块，为无人系统在自主执行任务的过程中提供丰富的环境感知信息与自身准确的位姿信息，各模块包括不同的关键技术。

图1 无人系统视觉/激光雷达感知与自主导航技术框架图

本文以图1框架图为基础，分析了视觉/激光雷达感知与自主导航技术及其国内外最新进展，对算法性能进行了评估和对比，并对其技术发展方向进行了分析和总结。

1 无人系统视觉/激光雷达感知技术

在无人系统自主执行任务的过程中，通过感知环境中的信息，可以为其提供可靠的决策数据基础。无人系统通过深度估计建立感知传感器与真实世界的尺度模型，使得感知信息可用于无人系统在真实世界的参考。通过目标检测技术可以获得更丰富、高层次的环境语义信息，对环境信息进行理解，可以提高无人系统的智能化水平。通过上述技术，可以确保无人系统自主、可靠的完成预定任务。

如图2所示，本节将基于视觉、激光雷达以及融合感知情况下的深度估计与目标检测技术，具体阐述技术机理、优缺点及应用场景。

图2 无人系统视觉/激光雷达感知技术框架图

1.1 视觉/激光雷达深度估计技术

如图3所示，深度信息在无人系统的感知中具有重要意义，机器人控制算法常使用深度信息来确定如何执行任务。视觉传感器与激光雷达都可以通过对深度进行估计获得点云信息。基于感知点云信息，通过迭代最近点(Iterative Closest Point，ICP)算法比较感知点云与地图点云，可以实现无人系统的位姿估计。点云信息也可用于同步定位与地图构建(Simultaneous Localization and Mapping, SLAM)技术，通过融合多个不同位置的感知点云，实现对整个环境完整地图的构建。这些算法的性能很大程度上依赖于输入点云的深度信息质量。深度估计可以基于硬件测量、几何算法与深度学习理论，其各有特点。

图3 室外深度估计图

• 基于视觉的深度估计技术

在视觉传感器深度估计方面，深度信息早期主要通过结构光、飞行时间法(Time of Flight，ToF)等硬件技术直接获得。此种方式获得的深度范围有限，根据M. Hansard等[2]的分析，此类相机在5m内可以获得较为精确的深度信息，虽然不依赖外部光源，但在外界光照强度大于100 lm时，深度估计结果会产生较大误差。同时，此类相机无法处理外观上涉及光干扰的物体，即黑色、透明和反射物体，因此在室内或者特定外部环境中应用较多。

伴随硬件计算水平的提升，利用多目视觉几何算法进行深度估计成为近年来学者们研究的热门课题。这种算法由于不依赖额外机械结构，可适用于室外光照良好、强烈等环境。基于视觉几何原理的深度感知算法，通过双目或多目之间成像的视差对深度信息进行估计，可以分为局部和全局的立体视觉视差计算方法。

局部方法主要包括基于区域的立体匹配与基于窗口的立体匹配方法，仅计算给定区域内的视差，具有低计算复杂度与实时运行的优势。为了进一步降低算法的计算量，L.D.Stefano等[3]在匹配过程中利用唯一性约束，对常用的绝对误差和算法(Sum of Absolute Differences，SAD)进行改进，实现了快速实时可靠的区域深度估计。W.Lui等[4]在此基础上实现了室外低算力机器人的自主深度感知。为了让无人系统在多任务情况下能够获得更好的深度估计精度自适应能力，S. Mattoccia等[5]建立了精度和实时性平衡策略，在算力限制的情况下可以获得更优的深度估计精度。

全局方法将视差计算视为最小化全局能量函数的问题，可以实现对全局像素更高精度的深度估计，但其计算量较大，不适用于实时系统。针对此问题，H.Hirschmuller等[6]提出了半全局匹配 (Semi-Global Matching，SGM) 方法，利用基于互信息和全局平滑度约束近似像素匹配的全局匹配方法，将深度精确至亚像素等级的同时，实现了实时计算，被广泛应用于低成本机器人的深度估计中。在相机深度估计硬件改进上，利用双目算法与结构光原理组合的深度相机也成为了目前深度感知传感器之一。随着图形处理器(Graphics Processing Unit，GPU)的应用与算力的进一步提升，利用深度学习技术，可以通过双目图像甚至单目图像实现实时全局深度估计。

• 基于激光雷达的深度估计技术

激光雷达传感器通过主动发射激光计算返回信号，可以在室内外场景对深度信息进行准确估计。现有激光雷达传感器的测距方法可以分为三角测距法与ToF。三角测距法通过激光器发射激光，照射到物体后产生反射，反射光由线性电荷耦合器件(Charge Coupled Device，CCD)接收。由于激光器与探测器间隔一定距离，反射光依照光学路径，不同距离的物体将会成像在CCD上不同的位置，依据三角公式对不同位置进行计算，从而求出被测物体的深度信息。ToF则是通过激光器发射激光脉冲，由计时器记录出射时间，回返激光脉冲经接收器接收，并由计时器记录返回时间。将出射时间与返回时间相减得到时间差，通过计算即可得到深度。

激光雷达目前存在点云较为稀疏的问题，二维激光雷达仅可以发射一束激光感知深度信息，三维激光雷达通过在竖直方向上排布多束激光，从而可以感知更丰富的深度信息。为了追求更丰富的深度信息，固态激光雷达依靠波的反射接收来探测目标特性，从而获得更高密度的深度感知信息。

• 基于视觉/激光雷达融合的深度估计技术

仅依靠单一传感器感知深度信息目前存在无法满足无人系统对深度感知需求的问题，因此激光雷达传感器常与视觉传感器融合互补，应用于无人系统的深度感知技术。例如百度Apollo无人车使用的Pandora[7]感知系统，由1台Pandar40激光雷达和5个环视摄像头(4个黑白，1个彩色)组成的视觉感知模组组成，该感知系统通过硬件外部对齐，为无人系统提供可靠的深度信息；谷歌DeepLab在2020年提出的ViP[8]深度估计深度学习模型，利用视觉与激光雷达融合数据，实现了目前在较多数据集上较高精度的深度估计。

本文以KITTI[9]Depth 2017数据集提供的视觉/激光雷达感知数据为基准，列出了目前较高精度的深度估计算法性能，如表1所示，主要以尺度不变对数误差(Scale Invariant Log Error，SILE)的平方根进行排序，并通过相对平方误差(Relative Square Error，RSE)、相对绝对误差(Relative Absolute Error，RAE)和反深度的均方根误差(Inverse Root Mean Square Error，IRMSE)进行全面对比。

表1 图像深度估计方法性能对比(2021年1月)

可以看出，在深度估计方面，基于传感器硬件深度估计如结构光、ToF、三角法等，由于感知深度信息稳定、可靠等特点，更广泛用于工业生产。但基于目前技术的传感器硬件深度估计由于功耗和体积受限，无法在深度感知密度与深度感知距离上得到较好的平衡。在基于软件算法的深度估计上，利用深度学习方法进行深度信息估计，相较于传统模型匹配方法估计精度存在明显的优势，但此类方法需要依靠大量的数据，且依赖较高的GPU计算能力，在复杂未知环境下的估计精度不太理想。

1.2 视觉/激光雷达目标检测技术

无人系统的目标检测是对感知信息进行语义提取与场景理解。通过对场景中的车辆、人物、标志等物体以及背景的识别理解，可以辅助无人系统进行有目的的行动。除此之外，提取的高级语义特征相对于传统灰度相关的底层特征，对于光照变化、视角变化甚至部分遮挡情况下的抗扰性大大增强，可以显著提高无人系统的自主性。

• 基于人工特征的目标检测技术

目标检测技术的主要发展先后经历了人工特征检测识别阶段(2001年—2013年)和机器自主学习特征的目标检测阶段(2013年至今)。在前期，对于目标的检测以及分析十分依赖人工特征的设计，研究人员致力于提出更全面的特征描述方法，包括尺度不变特征转换(Scale-Invariant Feature Transform，SIFT)、快速的图像匹配算法与定向二进制简单描述符(Oriented FAST and Rotated BRIEF，ORB)等特征，使得目标检测算法性能更为优异。但由于算力限制，鲁棒性与准确性有时无法满足实际应用的需求。

• 基于机器自主学习特征的目标检测技术

随着GPU硬件的推广带来的并行算力的提升，以G.E.Hinton等[15]在2012年提出的以Alex-Net为代表的深度学习卷积神经网络(Convolutional Neural Network, CNN)，实现了识别准确率以及鲁棒性的大幅提升，将目标检测带入新阶段。后人在此基础上提出了更深层的神经网络以及训练速度更快、检测正确率更高的R-CNN[16]、fast R-CNN[17]、faster R-CNN[18]和mask R-CNN[19]等算法，但此类算法为两步法，先检测目标在图像中的位置，再对目标进行分类识别，还无法满足无人系统的实时控制需求。以YOLO[20]算法为代表的一步法，把物体检测问题作为回归问题，用单个卷积神经网络结构实现了从输入图像直接预测物体位置和类别概率，大幅提高了检测效率，使得无人系统实现了实时的目标检测与场景理解。

随着无人系统应用场景的拓展与三维激光雷达传感器技术的成熟，基于二维图像的目标检测有时无法满足复杂环境下无人系统自主运行的需求，需要基于三维目标检测的自主避障以及路径规划为无人系统提供更为可靠的辅助参考。但与二维图像目标检测相比，三维目标检测需要更多参数描述检测结果，更具挑战性。三维目标检测主要包含三种方式：基于二维图像的识别、基于激光雷达点云的识别和基于相机/激光雷达融合信息的识别。基于二维图像的目标检测如图4(a)所示，它在单目深度估计的基础上，对场景中的目标轮廓进行估计。基于激光雷达点云的检测方法主要为基于网格的方法，以苹果公司提出的VoxelNet[21]架构为代表，将点云细分为体素，进行编码以及特征提取与识别，输出物体的类别概率以及外接边框参数。基于相机/激光雷达融合信息的检测如图4(b)所示，基于多传感器性能互补感知，利用二维图像识别目标并利用三维点云估计轮廓，可以检测出较远距离的三维物体。

(a)图像二维目标检测

(b)视觉/激光雷达混合三维目标检测图4 目标检测示意图[22]

本文以KITTI[9]Object 2012数据集提供的二维目标检测数据和KITTI Object 2017数据集提供的三维目标检测库为基准，分别列出了目前一些较高精度目标检测算法的性能，如表2和表3所示。其中，汽车目标以70%的重叠率作为识别成功基准，行人目标则以50%的重叠率为基准。并且根据数据集中目标的大小以及遮挡程度，将检测分为简单、普通与困难等级，以普通作为排行标准。

表2 二维目标检测方法性能对比(2021年1月)

表3 三维目标检测方法性能对比(2021年1月)

可以看出，基于深度学习的目标识别方法已经在社会中广泛应用。目前在多数场景下，基于二维图像的目标检测方法的准确率已高于95%，在安防监控、犯罪追踪和国防中得到了积极应用。但三维目标检测方法的准确率仍存在较大的提升空间，二维图像的三维目标检测，虽然成本较低，但精度上与其余方式仍存在一定差距。受限于激光雷达点云密度，激光雷达三维目标检测方法对远距离物体的检测性能较差。从方法性能对比表中可以看出，采用视觉/激光雷达融合三维目标检测方法，可能在多传感器融合过程中引入新误差，导致性能上略低于基于激光雷达点云的三维目标检测方法。

2 不依赖卫星的无人系统视觉/激光雷达自主导航技术

对感知信息进行处理后，无人系统可利用处理后的信息进行导航解算，获取自身的位姿，以执行预定的操作。无人系统的视觉/激光雷达导航按应用场景可分为合作或非合作场景。在合作场景下，可以通过提前储存的数据或地图进行导航解算，确保无人系统在已知的合作环境中保持较高的导航精度。在非合作场景下，无人系统则是自主地进行导航解算，典型的方案有视觉、激光雷达及多信息融合SLAM技术。如图5所示，本节将按应用场景及具体导航算法的不同，根据不同传感器类型，分别介绍涉及的导航关键技术。

图5 无人系统视觉/激光雷达自主导航技术框架图

2.1 合作场景下无人系统视觉/激光雷达自主导航技术

合作场景中，视觉、激光雷达导航系统可以通过提前已知的数据库或地图信息，在无人系统执行任务的过程中作为导航系统参考用于解算导航信息。

• 基于数据库匹配的自主导航方法

基于数据库匹配的自主导航方式主要为景象匹配方法，景象匹配一般通过自身搭载的视觉、激光雷达传感器对自身环境进行感知，通过匹配提前储存的数据帧与当前感知的数据帧，利用相同点关系求解出无人系统的位姿。研究人员主要通过寻找更鲁棒的特征以及更精确的位姿计算方法以提高精度。Y.Wang等[33]针对传统特征点匹配性能稳定性较差的问题，提出了基于最大类间方差算法的自适应阈值匹配方法，提高了景象匹配中特征点的提取数量、稳定性和最终匹配精度。

• 基于地图匹配的自主导航方法

随着先进驾驶辅助系统(Advanced Driver Assistance Systems，ADAS)技术的广泛使用与更新迭代，对于导航定位精度的需求也在逐步增加，传统的景象匹配方式已经无法满足厘米级的定位需求。如图6所示，地图匹配尤其是高精度地图匹配成为了无人系统的导航方法之一。高精度地图[34]预先由载波相位实时动态差分全球定位系统 (Real-Time Kinematic Carrier Phase Differential Global Navigation Satellite System, RTK-GNSS)、激光雷达、视觉、里程计和惯性传感器等组合构建，精度一般优于20cm，相对于传统地图有着更多维度的数据，例如道路标志物、车道线、道路形状、坡度、曲率和航向等。更多维的数据也对无人系统在匹配时的技术提出了新的挑战，为了提高高精度地图定位的精度与可靠性，在匹配特征方面，S.Ratz等[35]提出了一种基于激光雷达单次扫描的全局匹配方法，并利用定制神经网络的激光雷达/视觉段描述符提高了匹配的准确性，定位误差小于15cm。在位姿估计方面，R.Asghar等[36]将基于ICP的车道级地图匹配和基于决策规则的拓扑地图匹配相结合，实现了车辆速度60km/h下80cm的导航精度。多维数据也会带来更大的存储及搜索成本，为了提高在大范围环境地图中匹配的快速性，S.Garg等[37]基于视觉传感器使用更短的代码特征和相应更长的候选匹配，提出了连续数据哈希和反索引融合列表，提高了大数据场景库下的匹配速度与正确率。为了应对环境随季节变化带来的匹配错误，H.Zhang等[38]提出了一种区分度匹配方法，将地标的空间关系与它们的外观相结合，实现了季节变化环境外貌改变下的地图可靠匹配。

图6 视觉与激光雷达地图匹配示意图

目前，合作环境下导航的研究已经取得了一定进展，在军事、生产和运输方面已经得到了一定应用，但需要提前构建海量数据库，在特征匹配方法、匹配速度及数据库储存技术上受到很多研究人员的关注。

2.2 非合作场景下无人系统视觉/激光雷达自主导航技术

非合作环境一般指无先验信息的环境，随着相机/激光雷达传感器技术的成熟与硬件平台计算能力的增长，利用此类传感器可以在非合作场景下进行实时递推导航。这类方法为无人系统的导航提供了全面的环境参考，支撑其更智能地自主执行任务。此类方法可以分为里程计及地图构建技术。

视觉/激光雷达里程计技术通过连续感知无人系统周围的环境信息，形成多帧数据，并利用帧间的关联性对载体的位姿进行递推估计。此类技术可以分为视觉里程计、激光雷达里程计以及多信息融合里程计技术。按融合算法的不同可以分为基于滤波的里程计、基于优化的里程计与基于深度学习的里程计技术。

• 视觉里程计自主导航技术

视觉里程计(Visual Odometry，VO)利用摄像头作为传感器进行感知获得连续图像数据帧，并通过匹配帧间像素关联实现递推导航，如图7所示。VO按帧间的匹配方法不同可以分为间接法与直接法。间接法通过提取图像内具有一定不变性质的特征点进行前后帧匹配，如加速分割检测特征[39](Features from Accelerated Segment Test，FAST)、ORB[40]和加速鲁棒特征[41](Speeded Up Robust Features，SURF)等，通过特征点计算描述子的相似度进行匹配；直接法则是利用图像中的所有像素的梯度关系进行匹配。特征点法在特征丰富的情况下对光照变化等影响具有更好的鲁棒性。直接法基于光照不变的假设，利用图像中更多的冗余信息，可以获得更高精度的位姿估计精度，适用于特征较稀疏的环境，且由于无需计算描述子，实时性也更佳。

图7 视觉匹配位姿求解示意图

在VO技术框架方面，早期VO技术是以A.J.Davison等[42]提出的MonoSLAM为代表的基于KF架构的VO，特点是利用单线程进行位姿估计以及地图更新，但高维情况下复杂度较高，仅能在12个特征点数量左右实现实时跟踪。目前的VO技术主要以G.Klein等[43]在并行跟踪和构图(Parallel Tracking and Mapping，PTAM)中提出的位姿估计与构图并行双线程优化框架为代表，利用FAST作为特征点进行匹配求解，采用5点法和随机采样一致外点剔除方法估计本质矩阵，实现单目摄像头特征点的深度估计；同时利用非线性优化算法进行实时导航解算，这让基于离线运动恢复结构(Structure from Motion，SfM)技术的光束平差法[44](Bundle Adjustment，BA)在VO中得到应用，从而使精度得到了提升。J.Engel等[45]在此框架的基础上提出了大范围直接法单目SLAM(Large-Scale Direct Monocular SLAM，LSD-SLAM)，利用图像中的像素梯度信息与极线方向在稠密深度恢复中的角度关系，实现了移动端处理器上的实时位姿估计与半稠密场景构建。R.Mur-Artal等[46]在此框架的基础上，改用ORB特征点加强鲁棒性，并改进深度初始化方法，无需场景平面假设，同时加入了基于词袋算法的回环检测流程，提出了性能更好的ORB-SLAM算法。

但由于单目视觉成像过程中的深度信息丢失，且初始化的过程对载体的机动性要求较高，较难推广用于无人系统的导航。为了减少此限制的影响，J.Engel等[47]提出了利用双目视觉的直接法Stereo LSD SLAM，R.Mur-Artal等[48]提出了利用双目、深度视觉的特征点法ORB-SLAM2，通过双目或深度相机直接获取深度信息，无需复杂的初始化过程，可实现无人系统在多种环境中的应用。C.Campos等[49]提出的ORB-SLAM3算法，将ORB-SLAM2拓展至鱼眼镜头，以利用更丰富的环境信息，并将初始化过程加入优化函数中进行实时优化；同时采用多子地图算法，将累积递推分割为多个子地图，在场景重叠较多时进行无缝融合，在所有算法阶段重用所有先前信息，进一步提高了导航解算精度。

深度学习也同样被用于VO的位姿解算，B.Li等[50]利用场景中的文字语义信息辅助VO，将每个检测到的文本视为一个平面特征与VO系统进行紧组合，提高了VO系统的鲁棒性。S.Wang等[51]提出了一种基于递归卷积神经网络的单目视觉端到端框架DeepVO，直接从图像数据学习位姿变化，不考虑相机模型误差等一系列参数，实现了自身位姿的递推估计。N.Yang等[52]提出了一种单目VO深度学习框架，同时利用自监督深度网络估计深度、姿态和不确定性，将其与传统VO系统框架进行紧组合，实现了较高的递推精度。

• 激光雷达里程计自主导航技术

激光雷达测距误差模型较为简单稳定，测距范围较广，如图8所示。激光雷达里程计(LiDAR Odometry，LO)可以通过较为精确的测距点云进行点云匹配位姿解算，无需复杂的初始化尺度估计过程，目前在工业生产中得到了较为成熟的应用，如扫地机器人、工业物流机器人等。

图8 激光雷达点云匹配示意图

LO可以分为基于二维激光雷达传感器与三维激光雷达传感器的导航技术。在二维激光雷达导航技术方面，在M.Montemerlo等[53]提出的Fast SLAM为代表的网格地图基础上，G.Grisettiyz等[54]提出了Gmapping是目前基于RB粒子滤波(Rao-Blackwellisation Partical Filter，RBPF)常用的算法，通过增加扫描匹配过程，提高了位姿估计精度。同样基于扫描匹配过程，S.Kohlbrecher等[55]将其与惯性三维导航系统组合，提出了Hector SLAM，通过使用快速近似地图梯度和多分辨率网格，提高了系统的鲁棒性。为了进一步提升LO系统的精度，基于位姿图非线性优化的方法被提出，如Karto SLAM[56]、Lago SLAM[57]和Cartographer[58]等，Cartographer同时还加入了子图构建和回环检测等环节，提高了算法的整体鲁棒性。

三维激光雷达导航技术方面，更丰富的感知点云数据为更高精度与鲁棒性的导航算法奠定了基础，J.Zhang等[59]提出的LOAM将位姿递推与优化分为并行线程，递推线程以高频率但较低精度进行位姿递推估计，以确保三维激光雷达的解算速度;优化线程以较低的频率运行，用于点云的精细匹配和配准，提高了定位性能。以LOAM为基础，T.Shan等[60]提出了LeGO-LOAM，增加了特征分割模块，将地面进行分割作为单独约束，在减少计算量的同时提高了动态环境下的稳定性。为了提高LO系统的适应性，J.E.Deschaud[61]提出了IMLS-SLAM，利用隐式移动最小二乘算法对环境地面区域进行提取，随后对剩下点云聚类，并剔除小尺寸的聚类点，利用扫描点与模型进行匹配，实现了复杂城市环境下的高精度递推导航，但由于地图需要持续全局更新，实时性较差。

新类型的激光雷达传感器也催生了不同的算法，J.Lin等[62]提出的Loam_livox针对固态激光雷达如Livox的小视场和不规则采样的点云特性，设计了一种鲁棒的实时导航算法。深度学习的方法也被应用于LO系统，如LO-net[63]、Deeppco[64]等，用于估计载体的位姿变化。

与视觉受限于无法给出可靠的尺度估计相同，激光雷达存在点云数量较少、频率较低等问题，J.Zhang等[65]提出了V-LOAM，利用视觉较高频率60Hz进行粗匹配，激光雷达1Hz进行精匹配，将像素与点云深度进行关联以消除尺度不确定性，实现了无人系统上0.54%的导航精度。

多传感器融合里程计技术由于可以利用异类传感器进行优势互补，受到广泛关注。T.Qin等[66]提出了VINS-Fusion，通过惯性传感器感知估计视觉尺度，同时利用重力信息估计两自由度姿态角，降低了后端估计消耗，同时惯性的高频率性能也让其可直接用于无人系统的控制输入。惯性传感器也可以提高激光雷达的鲁棒性，C.Qin等[67]提出了LINS算法，通过迭代误差状态卡尔曼滤波器紧组合惯性与激光雷达数据，使得无人系统在具有挑战性的环境(如无特征场景)中实现鲁棒和高效的导航。X.Ding等[68]将惯性和激光雷达强度信息整合到基于占用网格的激光雷达里程测量中，提出了环境变化检测方法，通过对地图的增量更新，实现了在动态变化的城市场景下的准确导航。

此外，多传感器融合里程计技术使得无人系统可以在更恶劣的野外非结构化环境中进行作业，相比传统结构化环境中丰富的特征点以及明显的几何特征，野外非结构化环境对无人系统环境感知能力提出了更严格的要求。Y.Yue等[69]提出了一种基于视觉/激光雷达多模态环境感知的动态协同映射方法，使得无人系统可以长期在包括日夜变化的野外非结构化环境中进行鲁棒定位。D.Wisth等[70]提出了一种多模态视觉/激光雷达/惯性紧组合导航方法，利用视觉像素信息与激光雷达深度信息融合感知，实现了在DARPA地下挑战赛非结构化洞穴环境内的无人车鲁棒自主导航。P.Burger等[71]提出了在非结构化环境中基于B曲线的激光雷达道路分割方法，并利用无迹卡尔曼滤波进行预测跟踪，通过将道路信息加入后端图优化框架进行位姿估计，实现了无人车在野外非结构环境中的自主运行与道路建模。

本文以KITTI Odometry 2012数据集提供的惯性/视觉/激光雷达感知数据集为基准，列出了目前较高精度的里程计算法性能，如表4所示，主要以平移误差进行排序，并通过旋转误差、感知手段和运行时间进行全面对比。

表4 里程计方法自主导航精度对比(2021年1月)

可以看出，以里程计技术为代表的非合作环境自主导航技术已经取得了一定进展，学者们更关注在特定环境数据下通过改进特征提取方法、匹配方法或融合新类型传感器等实现精度的提升，在对传感器硬件与导航算法的兼容上研究较少。目前的算法在特定、小范围、光照稳定、环境特征丰富的环境下可以进行精确的导航，但是在随机、大范围、环境特征较为稀疏的情况下，仍存在较大的提升空间。同时，目前导航算法主要依赖高性能处理器才可达到实时处理，实时性仍有待加强。

• 地图构建技术

在通过里程计技术获取精准位姿的基础上，将感知信息处理后投影至统一坐标系，可以对环境进行建模，从而实现环境地图的构建。实际应用中，根据无人系统不同的任务需求，可以构建包括度量地图、拓扑地图及语义地图在内的不同类型的地图。度量地图的特点是可以通过精确的坐标唯一表示地图中的所有物体，如视觉特征点图和激光雷达占用栅格图等，可以用于固定场景内无人系统的精确导航与路径规划。拓扑地图着重于两地点间的连通性，通过带节点和相关连接线用图的方式表达环境，更适用于场景的快速探索。语义地图则通过对场景的理解，对场景中的物体打上语义标签，将场景中的道路或目标点以标签的集合作为表示，可以显著提高无人系统的智能性及自主性，但语义的提取需要较大的精确感知数据量且后续维护工作繁杂。

在实际使用时，结合多种地图类型的特性，如图9所示，自动驾驶的高精度地图融合了多种地图类型，包括度量及语义地图。在规划时利用拓扑地图可以实现无人系统的高智能自主行驶，但其获取高精度数据感知成本较高。为了降低获取精确感知数据的成本，J.Zhang等[75]提出的LiStereo采用自我监督的训练网络，将视觉与激光雷达数据融合，提高了获取感知数据的分辨率与精度，并将其用于高分辨率地图构建。A.Parikh等[76]为了提高语义地图的构建效率，通过融合语义和几何信息联合构图，采用增量式对象分割和分类方法实时更新地图，并引入信息论和启发式度量算法，用于快速规划载体的运动和降低地图构建的不确定性。M.Narayana等[77]针对地图中动态物体变化和长时间下场景变化的问题，通过引入元语义映射层解决长时间情况语义不一致问题，并在语义发现层允许语义更新，从而实现了无人系统上的终身室内地图更新。

(a)激光雷达高精度地图示意

可以看出，在地图构建上，单一的地图表达方式已无法满足无人系统的智能化需求，需要结合多地图特性构建更抽象、可靠、丰富的新型地图表述方式，且地图应具备长时间甚至终身更新的能力，使得无人系统具备在运行过程中持续优化导航精度的能力。

3 总结与展望

无人系统智能化水平的快速提升离不开感知与自主导航技术的飞速发展，依靠全球卫星定位系统的高精度定位，已经可以在室外开阔环境下实现自主运行。但在室内、地下、隧道和对抗等卫星信息被遮挡或屏蔽的环境下，目前还亟待对自主的高精度无人系统感知与导航技术进行研究和实现。

视觉传感器由于缺少尺度信息及依靠外界光源，双目与RGB-D传感器无法感知远距离尺度信息，且视觉传感器感知信息存在映射过程，对传感器模型建立精度要求较高，单纯基于视觉的导航误差目前仍然大于1%里程(Distance，D)，因此需要在低动态、良好光照环境下应用。

激光雷达利用深度感知原理，可以在结构良好、特征丰富的环境下实现0.5%D的定位精度，但存在感知信息较为稀疏的问题，需要环境中存在较为明显的特征结构。

由于视觉与激光雷达传感器感知信息量和信息特征差异较大，目前传统融合估计方法仍然无法克服两种传感器的缺陷，融合框架多为视觉辅助激光雷达导航，导航精度仍与单一激光雷达传感器定位精度相同。基于深度学习的感知与导航算法虽然可以在限定的数据下取得较好的性能，但在存在动态变化的复杂环境，尤其是未知环境下，其导航与感知结果会出现较大的误差，算法适用性较差；且深度学习的感知与导航算法需要较高的硬件计算能力与功耗。目前，不依赖卫星的感知与自主导航技术仍然需要在小范围、静态、良好光照条件下应用。

随着研究的深入与应用的拓展，未来无人系统的感知与自主导航技术存在着以下挑战与机遇。

1)更大范围的作业需求对无人系统多层次协同感知技术提出了挑战。无人系统往往处于大范围作业环境下，由于其自身体积有限，依靠单一信息源和单一观测角度的感知方式将难以准确全面地进行环境感知。同时，更大范围的作业场景也会带来更大的尺度误差与激光雷达的点云稀疏物体，需要结合视觉图像与激光雷达点云的像素及深度多层次信息、空地协同多角度感知信息，对环境进行多角度多层次建模。因此，多传感器的联合感知及多无人系统间联合感知是未来本领域的一个主要研究方向。

2)场景中的随机、动态因素与无人系统自身的动态特性对感知与导航技术提出了新的挑战。现实中，巡检、安防与运输等任务都要求无人系统具备长时间自主作业的能力，长期工作环境中不仅面临作业人员、突发事件的短期随机干扰，还伴随着日夜交替、季节交替及物体交替的长期不稳定变化，同时场景也会包括结构化与非结构化环境。此外，无人系统在不同任务下自身运动特性的不同也会对感知误差模型造成影响。这要求无人系统不仅需要感知可靠的几何特征，还需要具备多动态环境下准确稳定的环境认知与重构能力，对环境中的障碍物和适用于导航的物体进行语义识别与抽象储存，实现对长期变化场景的稳定不变理解与稳定可靠导航。因此，传感器动态感知模型的建立及动态场景的理解和更新也是未来本领域的一个主要研究方向。

3)长期作业的需求对无人系统的长航时环境导航自适应技术提出了挑战。未来无人系统环境要求具备终身作业能力，但环境中不仅存在动态物体的干扰，还存在长航时作业中由于作业目标场景改变，在自主前往新目标时途中出现的室内/外交替带来的感知信息源的变化。无人系统需要面对信息源变化对整体导航系统架构带来的干扰，在部分特殊场景，还会出现地面无人系统视角受限、导航解算参考信息不足，导致导航定位精度降低。因此，对无人系统的终身导航技术研究也是未来本领域的另一个主要研究方向。

除了技术上的挑战，在算法实际落地过程中，如何提高算法的计算效率，如何实现芯片级的运行，以及如何摆脱对特殊传感器和高能耗计算平台的依赖等关键问题，同样也亟待解决和突破，最终使得无人系统真正步入自主、智能的全新时代。