结合LiDAR与RGB数据构建稠密深度图的多阶段指导网络

2022-02-28 06:39:34贾迪王子滔李宇扬金志楊刘泽洋吴思

中国图象图形学报 2022年2期

贾迪，王子滔，李宇扬，金志楊，刘泽洋，吴思

1. 辽宁工程技术大学电子与信息工程学院，葫芦岛 125105； 2. 辽宁工程技术大学电器与控制工程学院，葫芦岛 125105

0 引言

在自动驾驶、增强现实和机器人导航等领域，获取准确的深度信息尤为重要。获取深度信息的方式分为被动传感测距和主动传感测距两类。被动传感测距通过立体匹配算法获得像对的稠密视差图，并根据三角测量原理计算深度信息，然而受相机分辨率及摄影基线的影响较大，视差精度不高；主动传感测距通过传感器本身发射与收集能量的方式获得深度信息，主要有TOF(time of flight)、结构光和激光雷达(light detection and ranging，LiDAR)扫描等方法，由于激光雷达具有测距范围广和测量精度高的优势，已广泛应用于3维空间感知的人工智能系统。通常，激光雷达获取的场景中的深度信息是稀疏的，且受运动状态和场景中运动物体的影响较大，导致收集的深度信息带有噪声。

为了解决上述问题，Ku等人(2018)提出将稀疏深度信息作为输入推理缺失深度值，进而得到稠密深度图。然而该方法在远处物体和物体边缘处激光雷达获得的深度信息存在歧义，很难在这些位置上推理出缺失的深度信息。研究表明，利用RGB信息可以有效地构建稠密深度图(黄军等，2019；周大可等，2021)。一些学者提出采用RGB图像引导稀疏深度稠密化，通过RGB图像中蕴含的丰富信息提高稠密深度图构建质量。Wang等人(2018)通过构建多尺度融合模块分别融合不同尺度下的RGB图像和稀疏深度信息，学习它们之间的相关性，从而提取深度信息。Ma等人(2019)也采用多尺度学习的方式提取深度信息，与Wang等人(2018)方法不同之处在于，该方法首先将RGB图像和稀疏深度信息级联为4D张量进行前期融合，之后再提取深度信息。与之对应的方法为后期融合，Shivakumar等人(2019)分别从RGB图像和稀疏深度中提取特征后再将二者融合，进而提取深度信息。与前期融合相比，后期融合可以在RGB图像和稀疏深度信息中提取到更多的上下文信息，进而保留更多细节。Zhao等人(2021)采用图传播的方式捕获空间信息，以此获得场景中更多上下文信息。从RGB图像中提取的信息也可用于引导稀疏深度信息的稠密化，Imran等人(2019)通过提取RGB图像中丰富的语义线索引导构建稠密深度图。此外，还有很多其他方法也可融合与提取多模态信息中的深度信息。Tang等人(2020)通过学习自适应卷积核大小和传播迭代次数，动态地为每个像素分配所需的上下文和计算资源。Yan等人(2020)通过掩膜感知操作来处理和融合稀疏特征，从而学习到更多的深度信息。对于多模态信息中模态表示能力不足问题，Lee等人(2020)通过多模态特征融合交叉指导的方式解决。Park等人(2020)学习多模态信息中的亲和度组合也可更好地构建稠密深度图。Xu等人(2019)的研究表明，在构建稠密深度图的过程中引入表面法线信息可以有效减小稀疏激光雷达点云受噪声的影响。

受上述方法启发，本文采用单幅RGB图像引导稀疏深度的方式构建稠密深度图，引入Dai等人(2017)提出的可变形卷积和Romera等人(2018)提出的ERF(efficient residual factorized)网络，并通过表面法线信息从几何约束的角度提高稠密深度图的构建质量。在多阶段指导网络(multi-stage guidance network，MsG)构建稠密深度图的策略上，以网络中提取的深度和指导信息为主导，将RGB图像中提取的信息作为次引导信息，引导稀疏深度稠密化并修正深度信息中的误差。在整体上，将稠密深度图构建工作分为指导信息引导路径和RGB信息引导路径，并将两条路径中的信息互补、整合获得最终多阶段指导网络的稠密深度图。本文的主要贡献如下：1)构造一种多阶段指导网络，能够有效处理物体边缘和细节处的深度信息，提高稠密深度图构建准确率；2)构建了多模态信息融合指导模块，可以在融合多模态信息的同时提取深度信息；3)构建了精细化模块，用于修正多模态信息融合指导模块输出结果。

1 方法

图1给出了多阶段指导网络结构，主要由指导信息引导路径和RGB信息引导路径构成。在指导信息引导路径上，首先通过ERF网络融合稀疏深度信息及RGB图像获取前期指导信息，并与稀疏深度信息共同输入指导信息处理模块构建表面法线。其次将多模态信息融合指导模块获得的中期指导信息与表面法线共同输入到ERF网络中，在表面法线的作用下，提取包含丰富深度信息的后期指导信息。然后利用后期指导信息引导稀疏深度稠密化，同时再次引入稀疏深度弥补前期忽略的深度信息，进而得到此路径上构建的稠密深度图。在RGB信息引导路径上，前期指导信息用于引导融合稀疏深度信息与RGB图像中提取的信息，并减小稀疏深度噪声和稀疏性的影响。同时，在多模态信息融合指导模块中提取具有丰富深度信息的中期指导信息和初期稠密深度图。但初期稠密深度图中仍包含误差信息，因此该图在通过精细化模块修正后才能够得到此路径上准确的稠密深度图。

网络中采用加法操作融合稀疏深度和指导信息，可有效引导稀疏深度稠密化。采用级联操作融合信息将有效保留不同信息中各自的特征，促使网络或模块提取到更多特征。

从整体上看，通过输入信息初步提取前期指导信息，促进表面法线构建并引导稀疏深度与RGB信息融合；采用多模态信息融合指导模块提取中期指导信息，以此作为连接两条路径的关键信息；融合中期指导信息与表面法线构建后期指导信息，用于引导稀疏深度构建稠密深度图。从两条路径上看，在指导信息引导路径上，通过包含丰富信息的前期、中期和后期指导信息引导稀疏深度构建稠密深度图；在RGB信息引导路径上，多模态信息融合指导模块通过RGB信息引导稀疏深度的稠密化，整合两条路径的结果从而对于物体细节和边缘处收获更好的效果。

图1 多阶段指导网络结构概览Fig.1 Multi-stage guidance network structure overview

1.1 指导信息处理模块

指导信息处理模块不但能构建指导信息引导路径上的深度特征，而且可用于构建表面法线信息，融合指导信息和稀疏深度以获取深度信息。在构建指导信息引导路径上的深度特征时，直接使用获取的深度信息，而在构建表面法线信息时，采用深度信息到真实表面法线映射的形式，利用深度信息构建表面法线，采用这种方式可以提高深度信息与表面法线信息之间更多的相关性。为了加强指导信息的指引性，促进稀疏深度与指导信息的融合，本文采用图2所示的网络完成信息融合，图中标记“1”表示特征信息与输入信息尺寸相同，“1/2”和“1/4”分别表示在输入信息1/2和1/4尺寸下的特征信息。

图2 指导信息处理模块主要结构Fig.2 The main structure of the guidance information processing module

1.2 多模态信息融合指导模块

为了更好地完成深度信息的提取，在多模态信息融合指导模块中，通过前期指导信息引导稀疏深度进行下采样，并将融合后的稀疏深度与指导信息作为融合信息共同进行特征提取操作。通过提取RGB图像中的信息引导融合信息稠密化并剔除融合信息中的深度误差。如图3所示，其中，标记“1”表示特征信息与输入信息尺寸相同，“1/2”、“1/4”、“1/8”和“1/16”分别表示在输入信息1/2、1/4、1/8和1/16尺寸下的特征信息。

图3 多模态信息融合指导模块Fig.3 Multi-modal information fusion guidance module

为了提取更加丰富的特征信息，采用残差结构块(如图4所示)进行多尺度下采样操作，其中BN为批归一化操作，具体为

(1)

(2)

进行多尺度特征提取的操作为

(3)

(4)

特征融合过程中，对不同尺度的特征设置不同的融合比例，在第一次和最后一次上采样前的级联操作中,可赋予融合特征信息更大的比例系数。上采样及融合操作是将对应尺度下的RGB特征与融合特征相加，得到对应尺度下每个特征量的稠密信息增量。具体为

A1/m=D1/m+F1/m

(5)

式中，m=16、8、4、2，A1/16，A1/8，A1/4和A1/2表示在输入图像1/16、1/8、1/4和1/2尺寸下的稠密信息。

第1次上采样操作表示为

U1/8=T(C(A1/16,D1/16,F1/16))

(6)

式中，C表示级联操作，T表示逆卷积即上采样操作，U1/8为输入图像1/8尺度下的上采样结果。

第2 4次上采样中，令K=4、2、1，则上采样结果为

U1/k=T(C(A1/2k,D1/2k,U1/2k))

(7)

式中，U1/4、U1/2和U1分别表示在输入图像1/4、1/2和原尺寸下的上采样结果。

在提取多阶段融合图U0时，采用浅层融合特征与具有丰富特征信息的U1相结合，具体为

(8)

然后，根据得到的多阶段融合图提取中期指导信息Mg以及初期稠密深度图Md，具体为

(9)

(10)

图4 残差结构块Fig.4 Residual block

1.3 精细化模块

常规卷积的主要操作过程为在输入的特征图上使用规则网格R进行采样，使用卷积核ω对采样点进行加权运算，R定义了感受野大小和扩张，具体为

R={(-1,-1),…,(0,1),(1,1)}

(11)

定义卷积核大小为3×3，扩张率为1，对特征图上的每个位置p0，则输出值y(p0)为

(12)

式中，pn为R中所列出的位置。

在可变形卷积中，通过对规则网格R增加一个偏移量{Δpn|n=1,2,…,N-1,N}，N=|R|，进行扩张。此外，对每个采样点预测一个权重Δmn，则输出值y(p0)为

(13)

图5为精细化模块结构。为了减少初期稠密深度图中的误差，在多模态信息融合指导模块中构建具有丰富特征的多阶段融合图，提取输入到可变形卷积的Δpn偏置项(x和y的偏置项)，并将初期稠密深度图和偏置项输入到可变形卷积中，细化初期稠密深度图并减小误差信息，进而得到RGB信息引导路径上的深度特征。

图5 精细化模块结构Fig.5 Structure of refined module

1.4 结果输出模块

根据输入的深度特征计算两条路径上的稠密深度图，再采用深度特征计算对应路径上的组合权重，如图6所示，进而计算出最终的稠密深度图，如图7所示，其中⊗表示乘法操作。相关计算方法为

(14)

图6 组合权重计算过程Fig.6 Combination weight calculation process

图7 结果输出模块的主要结构Fig.7 The main structure of the output result module

2 实验

2.1 实验细节

2.1.1 数据集

Uhrig等人(2017)构建的KITTI(Karlsruhe Institute of Technology and Toyota Technological Institute at Chicago)深度估计数据集包含93 000多幅真实深度数据图像、对齐的稀疏激光雷达深度图和RGB图像，大小为1 242×375像素。其中，采用85 898幅数据图像进行训练，采用KITTI官方提供的数据集(1 000幅带有真值的验证集和1 000幅未带有真值的测试集)进行测试，由于验证集带有真值，因此可直接对实验结果进行评估。测试集不带有真值，需要将实验结果提交到KITTI官方评估服务器才可获得公开评估结果，该结果是公正评估模型性能的重要依据，验证集与测试集均不参与网络模型训练。此外，真实表面法线数据通过KITTI深度估计数据集中的真实深度数据计算获得(Silberman等，2012)。

2.1.2 评价指标

采用与KITTI官方评估服务器相同的指标评估稠密深度图的构建结果，分别为均方根误差(root mean square error，RMSE)、平均绝对误差(mean absolute error，MAE)、反演深度的均方根误差(root mean square error of the inverse depth，iRMSE)和反演深度的平均绝对误差(mean absolute error of the inverse depth，iMAE)。MAE用于评估深度图构建的平均误差，RMSE用于评估较远距离场景、目标细节和边缘处稠密深度图的构建误差，该指标对检测异常值更为敏感，是KITTI官方评估服务器上对稠密深度图构建性能排名影响最为重要的指标(Lu等，2020)。iMAE和iRMSE与深度倒数相关(反演深度)，用于评估深度图中近距离场景的构建误差(Bai等，2020)。KITTI官方评估服务器网址为http://www.cvlibs.net/datasets/kitti/。各评估指标的相关公式为

(15)

(16)

(17)

(18)

2.1.3 训练

训练通过PyTorch和Adam优化器实现。Adam优化器的参数设置为β1= 0.9，β2= 0.999。将输入网络的图像裁剪为256×512像素，显卡选用NVIDIA 3090，批量大小设置为6，进行30轮训练。初始学习率为0.000 125，每5轮学习率减少一半。网络的损失函数(loss)为

(19)

(20)

式中，yi表示真实值，f(xi)表示估计值，用于计算构建的稠密深度图误差。

(21)

式中，Ai和Bi分别表示估计值和真实值，用于计算构建的表面法线误差。

根据如上条件训练本文给出的网络模型，在KITTI验证数据集上进行测试，结果如图8和表1所示。同时，将该网络模型在测试数据集上实验并将结果提交到KITTI官方评估服务器，结果如图9和表2所示。

图8 KITTI验证集上的稠密深度图构建结果Fig.8 The dense depth map construction result on the KITTI validation set ((a) LiDAR; (b) RGB information guidance path dense depth map construction result; (c) guidance information guidance path dense depth map construction result; (d) RGB; (e) final dense depth map construction result)

2.2 实验结果

KITTI深度估计数据集中的稀疏深度信息会存在一些交错信息，如图8(a)所示，路杆和后方景物的信息在边缘处混合在一起，与图8(d)中RGB图像的描述明显不同。从实验结果可以看出，RGB信息引导路径上构建的稠密深度图(图8(b))和指导信息引导路径上构建的稠密深度图(图8(c))均能够较好地修正该误差，最终的稠密深度图构建结果(图8(d))同样能够较为细致地分辨前景与背景。此外，如图8(a)中的红框所示，两根路杆中间几乎没有深度信息，而最终的稠密深度图(图8(d))良好地补全了相关深度，有效弥补了激光雷达点云的稀疏性缺陷，验证了本文方法在KITTI验证集上的有效性。

本文提出的多阶段指导网络通过整合指导信息引导路径和RGB信息引导路径的结果构建稠密深度图。此外，通过RGB图像提取深度信息的同时也会产生误差信息，因此本文通过精细化模块修正多模态信息融合指导模块的输出结果，并额外引入表面法线，修正中期指导信息，进而确保网络中信息的准确性。在图9展示的本文方法与其他几种方法的实验对比结果中，左侧一列的对比图中，其他方法构建的稠密深度图在近处的汽车(红色方框)附近，只能得到较为模糊的汽车边缘深度图，而本文方法可有效构建出清晰的边缘深度，在远处树木(蓝色方框)构建出的深度信息也十分清晰明显。在右侧一列的对比图中，相较于其他方法，通过多阶段指导网络获得的稠密深度图在一些远处(红色方框)及近处(蓝色方框)较小的路标上，获取的细节处深度信息更加细致精确。由此可见，本文方法可以较好地利用RGB和LiDAR信息，更好地处理物体边缘和细节处的深度信息，从而提升稠密深度图的构建性能。

表1 不同路径在KITTI验证集上的稠密深度图构建性能Table 1 The dense depth map construction performance of different paths on KITTI validation dataset

表2 不同方法在KITTI测试集上的稠密深度图构建性能Table 2 The dense depth map construction performance of different methods on KITTI test set

在多阶段指导网络训练结束后，分别计算每条路径及整个网络输出的稠密深度图，评估结果如表1所示。可以看出，指导信息引导路径上的结果优于RGB信息引导路径，表明在RGB信息引导路径上利用RGB图像可以获得更多的指导信息。此外，在指导信息引导路径上的指导信息可以起到有效的指导作用，构建良好的稠密深度图。多阶段指导网络在重要的均方根误差(RMSE)及反演深度的均方根误差(iRMSE)指标上获得最优值(见表2)，与同样获得两项最优指标的Yan等人(2020)方法相比，本文方法在物体边缘和细节处的深度占有明显优势(见图9)。总体而言，多阶段指导网络的结果优于单独使用两条路径的深度提取结果，验证了本文采用两条路径进行RGB信息和指导信息引导稀疏深度稠密化的策略是有效的，通过两种不同策略构建稠密深度图形成优势互补，利用更多信息获取更为准确的稠密深度图。

2.3 消融实验

在不同条件下进行实验，验证每个模块和路径的有效性，包括指导信息处理模块、精细化模块、指导信息引导路径和RGB信息引导路径。在消融实验中，为减少训练时间，本文对不同路径和模块设置下的多阶段指导网络分别进行10轮训练，调整初始学习率为0.001，其他与2.1.3节网络训练的参数相同。根据如上训练条件获得的实验结果如表3所示。可以看出，多阶段指导网络的整体模型达到了最好的性能，验证了多阶段指导网络中的所有模块和路径都是有效的。

表3中，在仅使用RGB信息引导路径或指导信息引导路径进行训练的情况下，后者构建的稠密深度图误差更高。对网络整体训练结果表明，指导信息引导路径构建的稠密深度图比RGB信息引导路径构建的结果更加准确(见表2)。多模态信息融合指导模块提供的中期指导信息是两条路径结合的关键环节。该模块由于具有较为复杂的网络结构，导致网络整体训练时间有所增加(见表1)，然而该结构却能更好地利用LiDAR与RGB信息提高稠密深度图的构建质量。表面法线信息在网络中起到重要作用，中期指导信息在表面法线的作用下更好地构建了后期指导信息。此外，若在多阶段指导网络中去除指导信息处理模块，会降低指导信息与稀疏深度信息的融合效能。多模态信息融合指导模块中构建的稠密深度图在经过精细化模块后，可以有效减少相关误差。综上，在本文给出的模块和路径共同作用下，多阶段指导网络可以更好地完成稠密深度图的构建。

表3 不同路径和模块在KITTI验证集上的稠密深度图构建性能的消融实验结果Table 3 Results of ablation experiment for the dense depth map construction performance of different paths and modules on KITTI validation set

3 结论

本文给出一种结合LiDAR与RGB数据构建稠密深度图的多阶段指导网络模型。采用指导信息处理模块促进指导信息与稀疏深度融合，通过多模态信息融合指导模块能够从稀疏深度和RGB图像中学习到大量深度信息，精细化模块用于修正多模态信息融合指导模块输出结果。多阶段指导网络通过RGB信息引导和指导信息引导两条路径的共同作用下实现。在KITTI深度估计数据集上的实验表明，与其他方法相比，多阶段指导网络能够更好地处理物体边缘和细节处的深度信息，提高稠密深度图的构建质量，减少稀疏深度中的误差信息。消融实验验证了每个模块和路径的有效性。

本文给出的多阶段指导网络可以更好地提高稠密深度图构建准确率，但构建的稠密深度图在个别指标上存在不足之处。如在景物较多且存在交错遮挡情况下，构建出的稠密深度图存在一定误差，在此方面仍有较大提升空间，将在未来的工作中进一步完善。