夏琳琳,张晶晶,初妍,张道畅,宋梓维,崔家硕,刘瑞敏
(1.东北电力大学 自动化工程学院,吉林 吉林 132012;2.哈尔滨工程大学 计算机科学与技术学院,黑龙江 哈尔滨 150001;3.东北电力大学 理学院,吉林 吉林 132012)
1986年,Smith等[1]提出同时定位与地图创建(Simultaneous Localization and Mapping,SLAM)技术。经过三十余年的发展与完善,SLAM已成为解决移动机器人自主导航问题的首选方案。从理论上看,SLAM过程可以抽象为一个机器人位姿与地图路标联合的状态估计问题;从技术上看,SLAM体现为机器人通过特定传感器对自我定位及增量建图两个核心任务的同步实现。早期的SLAM在硬件上借助一系列的范围传感器(如激光雷达、红外、声呐等)。然而,受制于范围传感器的物理形式和功率限制,此类SLAM技术在动态、复杂、大规模及非结构环境中的工作可靠性面临很大挑战。
近年来,随着低成本相机的推广及计算机视觉(Computer Vision,CV)技术的成熟,视觉SLAM正快速发展。其广泛借鉴CV领域中解决运动恢复结构问题的成熟方案,并在此基础上结合机器人状态估计理论中的滤波器理论、非线性优化理论,最终形成基本的算法框架。由于视觉SLAM本质上是一个“通过跟踪时序图像间局部特征变化,增量地估计相机运动”的过程,其在长航时导航任务中极易引发前端视觉里程计(Visual Odometry,VO)的漂移[2]。2007年至今,将VO与机器人自身携带的惯性测量单元(Inertial Measurement Units,IMU)有效集成,催生了视觉惯性里程计(Visual Inertial Odometry,VIO)及视觉-惯性导航系统(Visual-Inertial Navigation System,VINS)的研究。
当前,尽管多源融合的视觉SLAM研究还可以从多特征基元(点、线、面及其他高维几何特征等)融合、多维度(几何、语义、物理信息及深度神经网络的推理信息等)融合[3]等展开,然而,将新型传感器量测输入的信息融合策略在系统可靠性、环境适用性、结果的可解释性等方面具备的突出优势,必将使其成为促进视觉SLAM实用化进程的主要解决途径。
太阳光与大气散射形成的偏振光是地球大气空间的一种自然属性。利用大气偏振模式的稳定性、对称性等特性,仿生物偏振光导航不但适用于难以使用磁罗盘定向的高纬度地区,而且对弱/无卫星导航信号等陌生环境下的机器人自主导航与定位也起到了很好的补充作用[4]。
将天空偏振光引入以视觉SLAM为主导的室外机器人导航,体现为一种偏振光辅助VINS的思想,即以偏振光作为长期的定向参考,修正VINS长航时室外轨迹跟踪引起的航向角累积误差。从仿生光磁导航的角度来分析,仿生地磁导航同样可以抑制航向角偏差,但存在极易受载体磁场影响[5]、地球地磁数据库尚不完善等问题[6]。随着微机电系统(Micro Electro Mechanical System,MEMS)偏振传感器模块化集成的实现,将其与低成本相机、IMU等组合,搭载于车辆、自主移动机器人(Autonomous Mobile Robot,AMR)等载体,实现稳定、无源且完全自主的导航定位已成为室外视觉SLAM研究的热点之一。诚然,仿生偏振光导航技术本身尚在发展完善之中,本文以此为契机,通过回顾、分析多传感器融合的视觉SLAM解决方案、梳理偏振光导航的已有研究进展,期望与研究者一道探索融合天空偏振光的视觉SLAM的关键技术,并力图涵盖视觉SLAM框架下的图优化融合策略、面向室外机器人操作系统(Robot Operation System,ROS)传感器时间同步等挑战问题。
如图1所示,典型的视觉SLAM算法框架包含图像数据采集、前端、后端、回环检测和建图5个模块。
图1 典型视觉SLAM算法框架Fig.1 Algorithm framework of typical visual SLAM
前端VO是在连续的图像序列中提取、跟踪视觉特征,初步估计相机位姿和地图路标的过程。其实现方法有借助图像局部特征点估计相机运动的特征点法和直接使用像素强度信息的直接法。前者的顶峰之作为定向加速段测试的特征和旋转二进制鲁棒独立基本特征(Oriented FAST and Rotated BRIEF,ORB)-SLAM系列[7],后者的杰出代表为大规模直接单目(Large-Scale Direct Monocular,LSD)-SLAM[8]、直接稀疏里程计(Direct Sparse Odometry,DSO)[9]等。
后端旨在综合VO和回环检测模块提供的信息,同步优化相机位姿和地图路标。实现方法有滤波法和非线性优化法。当前,以非线性优化理论为主导的批量状态估计已成为主流,可借助高斯-牛顿、列文伯格-马夸尔特等优化方法对数据进行迭代求解。
回环检测旨在判断机器人是否回归到先前位置,并为后端提供校正信息。近年来,针对直接法缺乏成熟的与之匹配的回环检测问题,研究人员相继开发了环路闭合DSO(Loop-closure DSO,LDSO)[10]、直接稀疏映射(Direct Sparse Mapping,DSM)[11]及带环路闭合检测的视网膜皮层DSO[12]等算法,在一定程度上为系统添加了回环检测能力。
建图是根据优化后的相机位姿和环境地图,进一步重建与导航任务相匹配的地图的过程。目前随着美国微软公司生产的Kinect系列低成本RGB-D相机的推广,最新的研究偏向基于立方体模型和二次曲面模型的轻量型语义地图重建[13]。
如果把工作环境限制在静态、光照变化不明显、低速运动的理想室内环境中,视觉SLAM技术已经相当成熟。然而,面对运动速度过快、旋转过激烈、曝光过度等实际场景,视觉SLAM仍比较敏感,提升其在动态场景下的鲁棒性、精度和长期自主性,成为当前视觉SLAM亟待解决的问题。
“将各种传感器进行多层次、多空间的信息互补和优化,产生对观测环境一致性解释”的多传感器融合技术是应对上述挑战性问题的可行解。IMU在连续、短时快速运动中定位精度高,可满足AMR短时快速运动下稳定导航的任务需求(但存在测量误差随时间累积的问题[14]);全球导航卫星系统(Global Navigation Satellite System,GNSS)广泛用于室外载体的位置测量,是AMR长航时导航定位的可靠参考手段之一;其他如激光雷达、WiFi、地磁、红外等传感器也可以在一定程度上弥补相机在挑战环境下的视觉退化问题,成为视觉SLAM的有益补充。
多传感器融合的视觉SLAM将室内动、静态场景下的准确定位及地图重建问题,扩展至传感器类型、容错性能及融合策略等多个侧面。鉴于已有研究[3,15]已对视觉+IMU、视觉+激光雷达+IMU等导航模式在松、紧耦合方式上作出分类阐述,本节专注于对近年兴起的各类基准及当前技术水平(state-of-the-art,SOTA)算法的回顾,并侧重谈及图优化信息融合策略。
1.2.1 视觉+IMU
经典算法单传感器融合(Single-Sensor Fusion,SSF)[16]以扩展卡尔曼滤波(Extended Kalman Filter,EKF)为框架,融合以PTAM(Parallel Tracking and Mapping)及IMU、相机解算的位姿。2007年,多状态约束卡尔曼滤波器(Multi-State Constraint Kalman Filter,MSCKF)[17]通过将特征点转化为相机位姿间的几何约束,首次实现了视觉-惯性传感器间的紧耦合。除此之外,鲁棒VIO(Robust VIO,ROVIO)[18]探索了将图像光度误差作为滤波器观测更新项的技术。
2014年以来,随着非线性优化惯性VO开源关键帧视觉惯性SLAM(Open Keyframe-based Visual-Inertial SLAM,OKVIS)[19]的问世,更多的学者采用图优化的方式来求解全局一致的轨迹和地图问题。不难发现,该模型中VO是主体,图优化则联合IMU误差项。VINS-Mono[20]是当前性能最卓越的单目视觉+惯性系统之一,其通过高效的初始化、紧耦合非线性优化方法得到高精度的VIO,并利用回环检测、全局位姿图优化等机制,获得了强鲁棒的相机-IMU集成方案。2017年后陆续开源的VINS-mobile[21]、VINS-Fusion[22]则分别是其手机、双目ROS版本。近期,基于卷帘快门RGB-D相机的VINS-RSD[23]、轻型立体VINS[24]等又进一步延展了VINS-mono的功能。除此之外,将深度学习用于VIO的研究也逐渐发展起来,并在解决图像-IMU信息间关联[25]、传感器模型间不确定性[26]等方面取得应用。同时,将多特征基元考虑进VINS的研究[27]也逐渐引起了学者们的关注,衍生出高效鲁棒的线特征提取、初始化、数据关联等相关研究。
1.2.2 视觉+激光雷达+IMU
相机、激光雷达及IMU三种传感器间的优势互补同样可以由松、紧耦合两种组合模式实现。互补的机理有:以激光雷达的点云深度估计为视觉SLAM特征点提供深度信息[28]、以VIO的输出为激光雷达里程计提供运动先验信息[29],抑或使VIO与激光里程计形成单独的子系统再进行集成[30]等。不难发现,上述融合方案以不同形式构成了传感器间的主-辅设计。值得一提的是,近期基于图优化框架开发的LVI-SAM[31]提升了整机系统的容错性能,即激光惯导和VIO任一子系统失效时,整机系统仍可正常工作。VILENS[32]则从移动平台有限的计算资源挑战出发,通过连贯的因子图设计,使传感器间的实时平滑耦合成为可能。足型机器人动态手持设备户外扫描场景下的测试验证了该方案可有效应对传感器退化问题。目前,探索视觉+激光雷达+IMU在提升系统冗余度、容错能力及信息可靠性等方面的研究仍是此类导航技术的难点及热点之一。随着图论的发展,以视觉SLAM易于实现的因子图优化模型作为信息融合工具,回避掉松耦合下视觉约束与IMU、激光雷达约束解耦的信息丢失问题、滤波器的马尔可夫(Markov)性假设问题等,有望进一步提高整机系统的鲁棒性。
1.2.3 视觉+IMU+GNSS
相机、IMU及GNSS的组合研究将视觉SLAM推广至室外应用场景。众所周知,IMU/GNSS是最为主流的导航集成组件,但其只能在GNSS短时中断下维持较高精度。而在GNSS观测恶劣的城市环境中,往往存在丰富的视觉特征,将环境感知丰富、场景辨识能力强的视觉传感器引入,是获得连续导航定位信息的有效手段。当前,从解决途径上看,改进现有的VIO,辅以全球定位系统(Global Positioning System,GPS),或是在开源的VINS-mono等算法上融入GPS约束的两类研究[33-34]脉络较为清晰。从融合策略上看,有基于图优化的方法[20,34],或基于EKF成型滤波器[35]及其改进模型MSCKF的方法[36]等。此外,面向GNSS低可见性、四星定位不可用等情形,相关研究则更关注GNSS被动式导航的属性,力求在弱/无卫星信号(有限测量)条件下,提升视觉-惯性组件的性能。
AMR视觉导航脉络蜿蜒至今,随着人们对地球自然属性认识的深入,开发具备无引导特性的自主导航方法作为视觉+IMU的补充,引领了当前视觉SLAM室外应用的前沿研究。地磁、重力、偏振等都是地球的固有属性,近年来,不乏在VIO或VINS的框架下结合地磁信息抑制偏航角偏差的研究[37-38]。注意到,利用偏振罗盘或基于成像理论的大气偏振模式同样可以获得无源稳定的航向角观测,且仿生偏振光导航技术本身尚在发展完善之中,为此,本文致力于探索融合天空偏振光的视觉SLAM的最新研究进展。其他如视觉+WiFi[39]、视觉+激光雷达+IMU+GPS[40]、重力+SLAM[41]等导航模式在此不再赘述。
偏振光导航利用天空偏振模式获取罗盘信息,以太阳光在大气中传输的偏振特性为理论依据,以生物复眼背部边缘区域(dorsal rim area,DRA)中小眼阵列的偏振光感知机理及偏振敏感神经系统对偏振信息的处理机制为仿生基础,实现对载体航向信息的获取[42]。作为一种无源、自主的新型仿生导航方法[43- 45],具有误差不随时间累积、抗干扰能力强、精度高等特点,是对现有导航技术的有利补充。
早期的感知机理研究源于Frisch[46]对昆虫奇特的天空偏振矢量场感知力的发现。而后,偏振光导航呈现出新兴交叉学科的特色,研究扩展至光学、神经科学、大气科学及信息学等领域。瑞士、瑞典、德国、美国等西方国家在偏振感知机理的研究上取得了一系列的显著成果[47-50],随着蝴蝶、蟋蟀和沙蚁等更多昆虫的偏振光导航能力被证实,开启了开发具有偏振光检测功能的传感器的研究。
在工程上,按照测量手段,偏振导航传感器可划分为基于局部天空区域的点源式偏振光导航传感器和基于全天空区域的成像式偏振光导航传感器(单点式和阵列式)[51]。前者结构简单,以Lambrinos等[52]设计的基于光电二极管的三通道偏振光检测装置为代表(见图2(a)所模拟的沙蚁POL-神经元信号处理机制);后者结构更加精细,由光学镜头、偏振器及图像传感器等组成(见图2(b)),更接近生物DRA偏振光探测器官。
图2 偏振测量系统示意图Fig.2 Schematic diagrams of polarization measurement systems
近年来,偏振传感器的小型化及高度集成特性为其在机器人领域的应用提供了有利条件:德国 Schmolke等[53]在室内人造偏振光环境下,成功进行了移动机器人路径跟踪实验;澳大利亚 Chahl等[54]模仿蜻蜓偏振敏感机理,研制出包含3个独立敏感单元的偏振光传感器,并在无人机中完成初步航向测量;法国Expert等[55]基于CurvACE传感器,研发出全球首个不带重力加速度计即可沿崎岖表面自由飞行的迷你飞行器BeeRotor。2019年,法国 Dupeyroux等[56]开发出一款装有光学罗盘(将紫外偏振光转化为电信号)和光移动传感器的小型六足机器人AntBot,其重量仅为2.3 kg,在晴朗或多云的天气下均可精确定位。
国内一些高校和科研院所也在偏振传感器研制方面投入了大量的工作。褚金奎等[57]率先在国内开展了对本领域的研究,创新性地将四方向金属纳米光栅压印在CMOS图像传感器表面,实现了由单图传模块对多方向偏振光的检测。Fan等[58]发布的成像式偏振样机采用了四通道的CCD相机。韩国良等[59]将芯片在CCD/CMOS的每一个像元上刻蚀金属光栅,实现了光栅与感光芯片的一体化集成。此外,白杨等[60]、韩勇等[61]、Chen等[62]、杨中光[63]也在装置研发、误差建模及标定等方面对领域的发展提供了创新技术支持。
建立一个可以描述天空偏振模式真实特性的数学模型是模仿生物进行偏振光导航的前提。
2.2.1 天空偏振模式表征模型
现有的天空偏振模式表征模型主要包括Rayleigh单次散射模型、Berry奇异值模型、Monte Carlo随机传输模型及Hannay多次散射模型等。Rayleigh散射理论较完整地反应了晴朗天空散射光的偏振分布。积云、卷云及层云等[64]对太阳光具有不同的吸收能力,从而对偏振态产生影响,米氏(Mie)散射理论则详尽分析了有云、尘、气溶胶等天空光的散射状态。基于上述散射模型,本节分类归纳了近年来各类模型下的主要研究成果(见表1)。值得一提的是,目前尚无一个完备的天空偏振模式解析模型,研究者可根据环境、气候、时空等因素构建多因子可控、与实际天空偏振光分布形态更接近的解析模型。
表1 基于两种散射理论提出的解析模型Table 1 Analytical models based on two scattering theories (Rayleigh and Mie)
图3和图4分别给出Rayleigh模型和Berry模型的三维视图。其中,设偏振角(angle of polarization,AOP)为A和偏振度(degree of polarization,DOP)为D,二者均为重要的偏振特性表征参量,可由Stokes矢量参数表示为
图3 Rayleigh模型三维视图(太阳高度角=30°)Fig.3 Rayleigh model in 3D view (sun altitude =30°)
图4 Berry模型三维视图Fig.4 Berry model in 3D view
(1)
(2)
式中:Q、U分别为两个正交方向上的线偏振光的比例;V为右旋圆偏振光的比例,由于天空偏振光主要为线偏振光,因此认为V=0;I为总光强。而Stokes矢量表示为S=[I,Q,U,V]T,为描述天空光偏振态最常见的表征矢量。
2.2.2 偏振模式测量
天空偏振模式以太阳子午线为中心呈对称分布。主流的偏振导航算法是以太阳子午线作为导航的参考基准,先利用成像式偏振传感器获取全天域偏振图像,再采用相应的技术手段,拟合或提取出太阳子午线(或中性点)位置,进而开展对称特性分析,最终判断导航方向[76]。已有研究主要面向有限采样点偏振拟合[77]、AOP分布对称性评估[45]、基于Hough变换的太阳子午线提取[78]及模糊C-均值聚类法求取太阳子午线聚类中心等展开[79]。近期,又有学者对此问题下的直线拟合开展专门研究,提出利用连续旋转法精确提取太阳子午线的算法[80]。同时,利用支持向量机、深度学习等对原始偏振图像异常像素剔除,已被证实能够有效应对多云、遮挡等噪声情形下的天空偏振特征识别。图5给出理论上太阳位置和太阳子午线位置聚类中心确定的示意图。
图5 理论上的聚类结果Fig.5 Theoretical clustering results
无论是点源式,还是成像式偏振导航传感器,目前只能测量2维平面内的角度[81],对于世界坐标系、载体坐标系及相机量测(视觉、惯性)坐标系等三维世界来说,这种自主定位、缺少维度的导航的应用意义不大。将偏振光与IMU、相机集成起来,以偏振光作为长期的定向参考,修正VINS长航时室外轨迹跟踪引起的航向角累积误差,对弱/无GNSS信号条件下的机器人自主导航将起到很好的补充。
迄今,以VINS(或视觉+IMU)辅以偏振定向的研究尚不多见,本节按照测量手段(偏振罗盘直接输出航向角、偏振成像仪为系统提供定向观测约束)分类,从相机类型、融合策略、模型描述、实验载体及位置定位精度等多个侧面,对领域的研究进行梳理(见表2)。由表2可以看出,文献[87]将基于Berry模型的偏振成像观测集成至VINS-Fusion框架,构建图优化模型。作为当前AMR应用的先导性研究,研究中所重点谈及的ROS/Linux Ubuntu 18.04平台下的多源数据时间戳对齐、用于离线运动恢复的rosbag录包等细化方案,能够为AMR导航实测提供一定的技术支持。本节列出部分开放式问题供大家讨论,解决以下关键问题将有望推动融合天空偏振光的视觉SLAM技术的发展。
表2 辅以天空偏振光的视觉/惯性组合解决方案Table 2 Polarized skylight-aided visual-inertial solutions
与基于1阶Markov性质的滤波器[88]相比,图优化由于引入了全面的变量和约束,有利于获得全局一致的位姿估计,应是未来辅以天空偏振光的视觉/惯性组合后端优化的主流方法。
在图结构创建中,偏振成像仪为系统提供定向观测约束,因此可以将偏振信息作为节点的新增属性,对已有节点信息进行扩展。即设计中,将相对位姿表示为
(3)
图6 偏振光辅助的VINS-Fusion图优化模型Fig.6 Graph optimization model for polarized light-aided VINS-Fusion
录制数据集(录包)可以离线实时重复播放模拟实际场景,避免实际运行时每次轨迹不一致对不同组合导航系统性能评估造成影响。由于偏振光辅助的VINS-Fusion实验在室外进行,故可以调用ROS中rosbag功能包,利于后续离线的运动恢复。使rosbag同时录制偏振光成像仪、双目相机MYNTEYE、IMU和激光雷达VelodyneVLP-16,确保对齐时间戳。集成的信息处理示意图如图7所示(校园场景实验已取得全局一致的导航轨迹跟踪效果),VelodyneVLP-16在ROS下获得空间信息,在确保PCL开发环境(实时处理3维点云数据)与ROS通信端统一的情形下,由随机抽样一致(Random Sample Consensus,RANSAC)算法做误匹配剔除,并经迭代最近点(Iterative Closest Point,ICP)配准,获得精确的轨迹信息。该偏振光辅助的VINS-Fusion仅采用视觉SLAM框架(如图6所示,视觉SLAM解算的航向与偏振成像观测之差作为优化变量),即未采用激光SLAM框架。经上述数据处理及特征点匹配,VelodyneVLP-16所提供的信息仅用作Ground Truth。偏振成像仪的定向观测需解算航向(由ViewNX2软件),故可将PC机上的解算结果由USB传送至ROS系统。
图7 Bulldog-CX机器人实验系统Fig.7 Bulldog-CX robot experiment system
不同传感器间的时间同步非常重要,rosbag功能包在存储时间时,接收消息的时间和生成消息的时间可能会有差别,故选择合适的时间作为播放时的时间戳较为可行——使用每个topic内的header时间作为播放时的时间戳(rosbag功能包记录时间使用的是当前的电脑时间);而对于没有header的文件,则使用帧数最高的topic作为播放时的时间戳。此外,针对对齐后的时间戳会随运行时间产生漂移错位的问题,文献[89]提出通过设计一个硬件上的脉冲发生器进行消除。
偏振光辅助的VINS-Fusion以偏振光作为长期的定向参考,尽管成像仪以先测量全天域的偏振信息,再经图像处理的方式参与到集成信息的处理会比较复杂,但相较于航向的罗盘式输出方式,具有结果可解释性强、抗干扰及不易受到天空环境影响等优势。基于2.2节的分析可知,受到大气成分、气溶胶粒子浓度和云雾等影响,需要对适用于导航应用的天空偏振模式基于不同的机理进行建模和测试。虽然直接的航向角罗盘式输出更加便捷,但无法基于室外应用时的天空环境(如晴朗、浑浊大气等),使用户做出导航参考基准线、航向等是否准确[90],是否需要进一步优化处理的判断。注意到,复杂天气条件的大气偏振模式图与偏振光导航传感器的相关性同样有待研究,在VINS-Fusion长航时室外应用中,不妨先进行判断天空偏振模式合理性的静态实验,再进行如图7所示的室外实验。
本节还按照测量手段,从传感器类型、融合策略及实验载体等侧面,对集成偏振传感器的其他组合导航应用进行了归纳(见表3)。由表3可见,仿生偏振光导航正逐渐成为组合导航领域的研究热点。结合1.2节对已有多传感器融合的视觉SLAM的分析可以认为,研发适应性、鲁棒性更强的仿生偏振光传感器、探索更接近实际应用环境的天空光偏振模式、开发更准确的导航算法等,有望在无源且完全自主的导航框架下,将视觉SLAM推广至室外长航时导航实际。
表3 辅以天空偏振光的其他导航解决方案Table 3 Other navigation solutions aided by polarized skylight
融合天空光的视觉SLAM很大程度上依赖于纯光学器件,更接近生物的导航机理。作为以VINS-Fusion图优化模型实现AMR多源信息融合的先导性研究,本文对图结构创建、基于ROS平台的离线运动恢复及天空偏振模式确定等深入探索,有望推动仿生物导航的发展。注意到,视觉-惯性组件的鲁棒性改进研究也在不断取得突破:多特征基元融合的点-线VINS提升了视觉SLAM在弱纹理场景下的位姿估算精度;VIO中深度学习的融入则在应对图像运动模糊、光照变化及视觉-惯性退化等方面取得进展,这些工作将进一步优化现有成熟的算法框架,并为偏振光辅助的VINS-Fusion应用注入新的活力。偏振光导航技术亦在不断发展完善之中,如环境偏振光分布规律等诸多问题仍有待探索,但已有研究已对其具备的稳定、无源且完全自主特性做出较充分的证明。相信随着众多未解之题不断被攻克,这类面向视觉传感、仿生物导航的研究会不断取得进展,并将在导航、遥感、测绘及军事探测等领域得到广泛应用。