徐锦乐,潘树国,高旺,刘宏,王向
(东南大学仪器科学与工程学院,南京 210096)
自动驾驶等无人系统需要自主实现定位、导航和规划等功能,因此移动载体必须具备在信息缺失或是完全陌生的环境中同时进行定位和建图(SLAM)的能力,SLAM 技术作为自主移动载体的必备能力[1],也成为当今移动载体高精度定位领域的研究热点之一[2],并取得了许多引人注目的成果[3-5].其中,基于相机和惯性测量单元(IMU)互补的传感器,具有成本低和体积小的优势,视觉惯性里程计(VIO)技术在增强现实和空中导航等领域的应用中成为主流定位手段[6].特别是在地下、室内等复杂环境中,传统的定位方法例如全球卫星导航系统(GNSS)的性能退化,无法提供准确定位[7],而VIO 可以在一定程度上实现自主定位,成为一种在封闭空间中使用的定位手段.
VIO 技术视觉前端主要分为直接法和特征点法.在封闭环境导致相机光照条件不佳的情况下,与直接法相比,特征点法在面对图像低质量问题时的表现更具鲁棒性.特征点法根据匹配方法的不同又可分为光流匹配和特征描述符匹配[8],光流法相比于后者运行效率更快,但对照明变化和快速运动较为敏感,剧烈的照明变化可能会导致VIO 缺少足够的视觉几何约束来参与优化而出现系统发散[9].因此,对VIO 视觉前端图像增强的改进有重要意义.
目前已有许多图像增强方法,例如基于Retinex理论的图像增强算法[10],包括单尺度增强和多尺度增强[11],其将原始图像分解为照度分量和反射分量,由反射分量作为增强结果;He 等[12]提出的暗通道先验去雾算法,利用暗通道图复原清晰图像,并结合导向滤波提升算法效果;经典且广泛应用的直方图均衡化算法等[13].以上算法虽然在图像增强方面效果非凡,但多数并不是为视觉特征跟踪而专门研究,且特征的稳定跟踪需要依赖在不同场景下对不同策略进行合理的选择和搭配.Song 等[9]针对照明改变场景中图像特征跟踪困难和图像噪声过大的问题,提出一种将连续图像增强到相同亮度水平具有约束的块噪声去除算法,并在EuRoC 数据集验证了其算法的优势.高扬等[14]将图像转换到HSV 空间,对其中V 通道中的亮度信息进行处理,使用伽马校正和直方图均衡化加权融合的方式增强图像,在改良随机抽样一致性(RANSAC)算法处理后,提高了图像中特征点提取数量以及匹配的成功率.尹胜楠等[15]对自动彩色增强(automatic color enhancement,ACE)算法进行改进,使用快速ACE 算法在提升特征点提取数量和匹配成功数量上都取得了较大进步.Zhu 等[8]对前后图像的特征点邻域的亮度变化进行线性估计,根据结果对整幅图像进行灰度伽马校正,在EuRoC 数据集上取得了不错的效果.Tomasi 等[16]设计了深度卷积神经网络(CNN)模型,以自适应地改变相机曝光时间和增益,从而增加了高质量特征点的数量.
以上算法都针对光照变化提出了适合SLAM 系统的图像增强处理方法,但没有图像序列信息的前后关联价值完全利用;如若图像局部光照变化有别于整体,传统方法也将无法有效应对.本文提出了一种基于惯性先验校正图像灰度的方法,其中在VIO 系统中充分利用IMU 信息作为先验信息对特征点位置进行预测,并对预测点所在区域的像素进行伽马校正.由于图像中明暗变化的非一致性,在避免预测点区域图像质量受光照变化大幅下降的同时,还需对图像中光照过暗或过亮而导致细节确定的区域进行自适应伽马校正,并根据几何约束和图像相似性剔除误匹配后,以余下预测点作为迭代初值,得到匹配准确率更高的光流追踪结果,作为视觉几何约束参与因子图优化(FGO)从而估计载体运动轨迹.
本文的系统框图如图1 所示,以已知深度的特征点为被跟踪点,通过IMU 预积分结果得到相机位姿的先验估计;以该结果预测被跟踪点在当前图像中的像素位置,取预测点和被跟踪点邻域范围内的像素信息计算图像结构相似性衡量指标(SSIM)结果,并根据结果选择不同策略对预测点区域进行灰度变化(伽马校正);在L-K 光流金字塔中使用预测点像素位置为光流法迭代初值以得到跟踪效果可靠的特征点对,将其作为VIO 系统前端的视觉几何约束(重投影误差因子),与IMU 残差因子一同进入后端优化得到系统位姿估计结果.
图1 惯性先验校正图像灰度的VIO 系统前端改良方法原理框图
默认情况下,L-K 光流法遵循灰度不变假设[17],以前一帧图像中提取的特征点像素位置本身为初始位置估计进行光流追踪,这对相机运动状态和图像灰度变化情况要求较为严格.如果相机剧烈旋转运动或是光照条件发生变化造成图像质量大幅下降,都可能出现光流跟踪失败的现象,导致匹配成功的特征点数量减少,使VIO 系统鲁棒性降低.而使用惯性信息预积分结果作为相机运动先验估计预测特征点像素位置的做法,可以在一定程度上弥补L-K 光流法的不足.
通过对两帧图像时间内的IMU 预积分,我们可以初步估计两个时刻间的相机位姿变化,对应公式如下:
得到特征点的预测位置后选取特征点在两帧内对应的邻域像素,选取规则如图2 所示,其中p与q分别为被跟踪点与预测点.
图2 特征点邻域选取规则
选取邻域像素中尺寸相同且位置对应的矩形图像区域,计算两图像矩阵的SSIM 结果.SSIM 是常用的一种图像相似性衡量指标,给定大小一致的图像x和y,其SSIM 结果可由以下公式得到:
式中:l(x,y) 为x、y的灰度相似性;c(x,y)为x、y的对比度相似性;s(x,y)为x、y的结构相似性;α、β、λ(α ≥0,β ≥0,λ ≥0)分别为以上三者在图像相似性中占据的比重,通常取值为 α=β=λ=1 .
灰度相似性、对比度相似性和结构相似性分别表示为:
式中:µx、µy为特征点在前、后两帧图像中邻域像素的平均灰度值;σx、σy、σxy为特征点在前、后两帧图像中邻域像素的标准差和协方差;C1、C2、C3为控制参数,本文方法分别设置为:
式中:k1=0.01 ;k2=0.03;L取图像灰度最大值255(为SSIM 默认参数值).特征点邻域像素相似性越高.特征匹配成功率越高,同时可以根据SSIM 结果对结构相似性低、对比度低或纹理缺失的特征点进行剔除,当s(x,y) 小于某值时,说明对应区域的结构相似较低,匹配成功几率小.本文根据实验经验,在s(x,y) 低于0.3 时将对应特征点视作异常值剔除,不作为视觉几何约束参与系统FGO.
在筛选保留合适的特征点之后,需要评估其SSIM 结果,对预测点所在图像区域进行自适应伽马校正,灰度值计算可由下式表示:
式中:I′(x,y) 为校正后灰度值;I(x,y) 为原像素灰度值;γ 为关于I(x,y) 的函数,表示伽马校正数值,不同情况对应不同处理策略.
多数场景下,一张图像不同区域所需伽马校正的伽马数值往往是不同的,要根据特征点邻域灰度变化情况进行自适应伽马校正.
1.3.1 光照条件大幅变化情况
在评估特征点在前后时刻所处两邻域的图像相似性SSIM 指标时,能够跟踪成功的情形往往灰度、对比度、结构相似性都接近于1.当两者邻域内信息只存在灰度上的差异时,在SSIM 指标中前后图像对比度、结构相似性高且灰度相似性较低时对当前图像特征点邻域进行伽马校正,校正结果可由下式计算得到:
式中:伽马校正数值 γ 设为 l gµyµx,以指数形式求得两帧间平均灰度值的差距.
在一次校正后,为避免区域边缘出现分层现象,需要对校正区域进行取值调整,保留灰度值得到合理伽马校正的像素:
式中:I′′(x,y) 为 最终校正后的图像灰度;G为与特征点邻域对应矩阵阶数相等的高斯矩阵;k为增益,取值为G矩阵中最大值的倒数;m ax 函数与min 函数分别对应不同的光照变化情况,意在避免分层现象产生并保留区域中更亮(暗)的像素,以达到校正特征点邻域像素灰度值在图像序列中避免大幅波动的目的.
1.3.2 光照条件不佳情况
在相机采集图像的过程中还存在前后时刻特征点邻域都过亮或过暗的情况,采取的自适应伽马校正由如下公式表示:
式中,M为对应图像的灰度值中位数.同样,使用式(13)对校正区域进行灰度调整,避免图像分层.
1.3.3 对比度变化情况
在相机光照条件发生变化时,随着灰度变化采集图像的对比度往往也会出现变化,因此,当邻域像素的对比度相似性较低而结构相似性较高时,根据对比度进行伽马校正,但只针对图像对比度变低的情况进行校正,判断依据为 σx是否大于 σy,对应的伽马校正公式相对于1.3.1 中略有不同:
式中,c为区域内像素SSIM 结果中的对比相似度.同样使用式(13)对校正区域进行调整,对应的灰度校正曲线如图3 所示:
图3 自适应伽马校正灰度曲线
综上所述,根据SSIM 指标结果选择不同校正策略的自适应伽马校正流程图如图4 所示.
图4 自适应伽马校正流程图
需注意的是流程图中的伽马校正代表了1.3.1、1.3.2 和1.3.3 中不同光照变化情况下对应的伽马校正策略.
为验证本文方法实际效果,从视觉效果层面将本文方法校正图像与原始图像相比较;从耗时成本层面将本文方法平均耗时与VINS-Mono 中光流跟踪平均耗时进行比较;从定位精度层面,在TUM 数据集和真实室内外环境中进行实验,评估轨迹精度.本文实验使用的相机为海康工业相机(型号:MV-CA016-10UC,分辨率:1 440×1 080),系统运行配置为CPU:IntelCorei7-11700 2.50 GHz,显卡:NVIDIA GTX1060,内存16 GB.
本文所提方法处理结果与原始图像如图5 所示,抽取EuRoC 数据集V1_03_difficult 序列中光照变化幅度较大的5 张连续图像进行对比.
图5 图像处理前后对比
由图5 可以看到,原始图像的光照强度有较为明显的变化,整体由亮变暗,但经本文算法处理后,图像在特征丰富区域的灰度变化较为稳定,这有利于特征点的提取与跟踪;本文方法对对比度较弱的区域也进行了一定的图像增强,这有利于新的特征点的提取.
经本文方法处理后,特征提取与匹配结果得到一定改善,具体体现为相机大幅旋转后惯性先验能为光流跟踪提供特征点预测像素位置初值;相机在光照条件大幅变化后经灰度校正仍能使特征点遵循光流法中的灰度不变假设.抽取EuRoC 数据集V1_03_difficult序列中运动幅度剧烈、光照变化幅度大以及光线较暗不同情况下特征点跟踪结果进行对比如图6、7所示.
图6 光照条件大幅变化情况下的特征点跟踪结果
图6 表明,光照条件出现较大变化的情况下,灰度校正能够减轻光照变化给特征提取与匹配所带来的影响,处理图像对比原始图像保有更多跟踪成功的点.
图7 结果表明,载体运动幅度过大时,惯性先验信息能够为特征点光流跟踪提供更加准确的初始迭代值,因此相较于原始图像,特征点依然保持跟踪稳定.
图7 载体大幅旋转情况下的特征点跟踪结果
由以上示例可见,在出现不利于特征提取、跟踪的情况下,本文方法可以保有部分特征点的有效跟踪,因此将通过随机一致性检验的特征点视为跟踪成功的特征点.以其占总体特征点的比例为评价标准,并与VINS-Mono 进行对比,依然以V1_03_difficult序列为例,结果如图8 所示.
图8 特征点跟踪成功率对比结果
从以上结果可得出结论:相机光照条件出现较大变化的情况下,本文处理方法能够减轻相机运动、光照变化给特征提取与匹配所带来的影响,提高特征点跟踪成功率.
由于不同时刻图像的信息含量不同、特征点数量不同,而本文所提方法的时间复杂度与特征点数量以及邻域大小相关,因此将本文方法在TUM 数据集上运行的平均耗时与VINS-Mono 视觉前端中普通光流法的平均耗时进行对比.结果如表1 所示,普通光流法耗时相对较少,但本文所提方法耗时在100 ms 以内(相机采集频率为10 Hz),对VIO 系统的实时运行没有影响.
表1 TUM 数据集特征跟踪耗时
为客观评估定位精度,本文将VINS-Mono 配置中的直方图均衡化与回环检测设置关闭,使用TUM数据集中的VI 数据集对本文方法和VINS-Mono 的定位均方根误差(RMSE)进行比较,定位精度对比结果如表2 所示.
表2 TUM 数据集定位误差(RMSE)
在真实场景下对定位精度进行对比,使用GNSS/INS 组合导航作为定位基准,其定位精度为厘米级,绝对位置误差的RMSE 对比结果如表3所示,定位轨迹如图9、10 所示.
表3 真实环境定位RMSE
图9 序列1 轨迹
图10 序 列2 轨迹
从图7、10 和表3 中数据看出,改进视觉前端后,绝对位置误差最大值相较VINS-Mono 更小.
序列1 测试环境为室外真实环境,运动轨迹长度为274.9 m,本文方法与VINS-Mono 的定位绝对位置误差对比如图11 所示.
图11 序列1 运动轨迹绝对位置误差
由图11 可见,经过本文方法改进视觉前端后,在真实场景运行轨迹的绝对位置误差整体相较于VINS-Mono 更低,且误差波动相对更小.
序列2 测试环境为室外真实环境,运动轨迹长度为611.5 m,本文方法与VINS-Mono 的定位绝对位置误差对比如图12 所示.
图12 序列2 运动轨迹绝对位置误差(序列中一段时间载体处于静止不动状态)
可以看出,本文方法能够提供更加稳定和准确的视觉几何约束进入VIO 系统后端优化,提升轨迹定位精度.
本文针对光照变化场景图像过亮、过暗和灰度大幅变化问题,提出了一种基于惯性先验校正图像灰度的方法,根据IMU 预积分的位姿估计预测特征点像素位置并结合图像序列前后帧的局部图像相似性进行图像增强;实验对比了处理前后图像视觉效果,特征点跟踪成功率变化和视觉前端特征跟踪的耗时成本;与VINS-Mono 定位精度进行比较,在TUM 数据集上定位精度比VINS-Mono 平均提升了30.7%,10 组数据的轨迹精度提升幅度最大可达到57.9%;在真实的室内外环境下进行了实验,轨迹精度与VINS-Mono 相比平均提高了17.7%.