谢德胜,徐友春,陆 峰,潘世举
(陆军军事交通学院军事交通运输研究所,天津 300161)
自动驾驶系统作为人工智能技术应用的一个重要领域已经获得较大的发展,自动驾驶系统主要包括感知模块、决策规划模块、控制模块和定位模块等。感知模块是自动驾驶系统的基础,主要负责对自动驾驶汽车周围环境的多目标进行检测、跟踪和预测。自动驾驶汽车使用的传感器主要包括视觉传感器和3维激光雷达传感器等。视觉传感器的成本较低,可以获取目标的纹理信息,但容易受光照条件的影响出现漏检。3维激光雷达检测目标轮廓的精度较高,水平视场范围广,可以扫描生成自动驾驶汽车周围环境高精度的3维点云,但3维点云不包含目标的纹理信息,缺乏对场景的语义理解。因此通过融合高精度的3维点云数据和具备语义信息的2维图像,将使得数据源更丰富,更有利于准确检测3维目标。
近年来,深度学习在2维计算机视觉任务上取得了较大进展,但仅依靠单目视觉或立体视觉进行3维目标检测的精度较低。因此,国内外部分学者使用深度神经网络对体素化或是多视图映射后的3维点云进行3维目标检测,取得了一定的成果。体素化的方法保存了激光雷达点云部分3维信息,同时使得用3维卷积对激光雷达点云进行特征提取成为可能,但体素化的方法增加了数据量,使得目标检测的实时性变差。多视图映射的方法将3维点云投影到不同的方向生成点云2维映射图,损失了原始信息,使得目标检测的精度下降。不同于体素化和多视图映射的方法,PointNet++直接对3维点云进行特征提取,最大化地保留了点云的3维信息,同时显著提高了对3维点云的处理速度。仅使用2维图像或3维点云进行目标检测存在各自的弊端,因此,不少网络尝试融合2维图像与3维点云数据来进行目标检测,但大部分网络都采用体素化或多视图映射的方法来处理2维图像和3维点云数据,在一定程度上损失了原始信息,影响最终的3维目标检测结果。
为了有效利用3维点云的空间信息和2维图像的语义信息,提高对不同类型3维目标的检测精度和检测速度,本文中提出一种融合3维点云和2维图像的双阶段目标检测网络PointRGBNet(如图1所示)。在第1阶段的区域提案网络中,不使用体素化或多视图映射的方法,将PointNet++作为特征提取网络,直接对6维RGB点云(包括点的3个空间坐标和R、G、B 3个值)进行处理,让区域提案网络学习点云每个点的类别和每个点对应的包围框。由于输入的6维RGB点云具备语义信息,同时低维特征图与高维特征图进行了融合,区域提案网络可以同时对人、骑行者和汽车3类目标生成大量置信度较高的提案。在第2阶段的目标检测网络中,首先利用非极大值抑制(non-maximum suppression,NMS)筛选出每个区域中置信度较高的提案,然后根据筛选出的提案对融合后的特征图进行RoI(region of interest)池化,对RoI池化后每个提案内的点云特征集合进行学习,正是这种针对性地学习,使得提案分类和包围框回归的精度得到了进一步的提升。
图1 PointRGBNet网络整体结构
在KITTI3维目标检测数据集上的实验表明,相对于仅用2维图像的3DOP和仅用3维点云的VoxelNet等网络,以及使用3维点云与2维图像融 合 的MV3D和AVOD等 网 络,本 文 提 出 的PointRGBNet的检测速度和检测精度都有明显的提升。
(1)2维图像的目标检测
从RCNN、Fast RCNN和Faster RCNN为代表的双阶段目标检测网络,到以YOLO系列为代表的单阶段目标检测网络在2维目标检测任务中取得了非凡的成就。但自动驾驶汽车需要被检测的目标包含3维信息,Mono3D提出利用能量值最小和S-SVM的卷积神经网络来检测3维目标,但由于2维图像缺乏深度信息,3维目标的检测精度并不高。Deep3DBox使用卷积神经网络学习目标的方向和维度,利用估计的方向、尺寸、3维包围框的投影和2维检测窗口的紧密匹配等约束条件恢复出移位,从而检测出3维目标,但与使用3维点云的方法相比,仅使用2维图像的Deep3DBox在检测目标深度信息的精度上较差。
(2)3维点云的目标检测
VoxelNet将3维点云体素化并归一化,对每一个非空体素使用体素编码器和多个卷积核进行特征提取,虽然可以实现对3维目标的分类与包围框回归,但由于体素化在一定程度上损失了原始信息,同时增加了计算量,导致了VoxelNet的检测精度有所降低,同时也使得处理速度变慢。PointRCNN使用PointNet++作为主干网络对3维点云进行特征提取,并使用基于容器的思想对目标的包围框进行回归,对于单一类别的目标检测可以取得较好的结果,但由于PointRCNN仅使用二分类的focal loss进行前景背景点云的分割,因此无法一次完成对多个类别目标的检测。
(1)2维图像与毫米波雷达数据融合的目标检测
2维图像与毫米波雷达数据融合多应用于ADAS(advanced driving assistance system)场景,文献[22]中使用后融合的方式实现了2维图像与毫米波雷达数据融合的目标检测,能有效缓解在恶劣天气情况下由2维图像产生的误检。CenterFusion使用关键点检测网络CenterNet生成3维目标提案,再使用截锥将毫米波雷达检测结果与相应3维目标关联起来。最后利用融合后的特征估计出目标的深度、航向角和速度,但CenterFusion的检测精度较低,mAP(mean average precision)不到0.5。仅使用2维图像与毫米波雷达数据融合的方法并不可靠,特斯拉Autopilot多次因检测不到白色挂车等目标而发生致命交通事故也验证了此点。
(2)2维图像与3维点云融合的目标检测
2维图像具备语义信息,3维点云具备深度信息,理论上两种数据的有效融合将使目标检测的精度变得更高。MV3D使用2维图像与3维点云的正视图和俯视图作为输入,使用区域提案网络先生成候选提案,然后再将候选提案映射到3种视图中,通过融合3种视图的信息来检测3维目标,由于多视图映射的方式损失了原始信息,使得MV3D的检测精度并不高。AVOD先使用卷积神经网络分别对2维图像和3维点云的俯视图生成特征图,然后利用融合后的特征图生成提案,最后利用置信度高的提案结合特征图对3维目标进行分类和包围框回归,由于融合后的特征图具备多维度的特征信息,使得AVOD的检测精度比MV3D要高,速度也更快,但与不经过多视图映射,直接处理3维点云并与2维图像目标检测结果相融合的F-PointNet相比,AVOD的检测精度还是要低。
本文中提出的PointRGBNet为双阶段多类别目标检测网络,如图1所示。由2维图像与3维点云融合生成具备RGB通道信息的6维RGB点云作为网络的输入,将主干网络PointNet++输出的高维特征图与卷积层输出的低维特征图融合,进而区域提案网络利用融合后的特征图生成大量置信度较高的提案,目标检测网络利用区域提案网络生成的提案进行RoI池化得到每个提案对应在特征图上的特征集合,通过针对性地学习提案的特征集合来对3维场景中的人、骑行者和汽车等3维目标进行检测。
区域提案网络主要用于生成置信度较高的提案,在区域提案网络中,将6维RGB点云作为输入,经过1×1大小的卷积核作用,生成低维的特征图,然后将低维特征图与PointNet++生成的高维特征图融合,经过特征学习,实现点云语义分割和包围框的预测,得到大量置信度较高的提案。
2.1.1 6维RGB点云生成
根据相机的内部参数和外部参数将3维点云投影到2维图像,然后将点云投影后对应像素的RGB通道信息赋予3维点云,生成6维RGB点云。相机的内部参数包括焦距、畸变系数等,外部参数则主要包括激光雷达坐标系到相机坐标系的旋转和平移参数。
假设一个点在激光雷达坐标系下的坐标是m=(x,y,z,1),则这个点在图像坐标下的像素坐标m=(u,v,1)可由下式求得。
式中:K为相机的内部参数矩阵;R为激光雷达坐标系到相机坐标系的旋转矩阵;t为相应的平移向量。相机的内部参数可以通过张正友标定法等标定方法得到,外部参数则可以根据文献[27]中提供的标定方法求出。本文中采用KITTI数据集,可以根据KITTI数据集提供的内外部参数直接将3维点云投影在2维图像上,剔除投影在2维图像范围外的点云,保留投影在2维图像范围内的点云,在2维图像成像范围内的点云是扫描在目标及其周围环境的点云,将对应像素坐标的RGB通道信息赋予3维点云,得到6维RGB点云,如图2所示。
图2 6维RGB点云
2.1.2 点云语义分割
本文中主要对行人、骑行者和汽车进行检测,因此融合后的特征图经过2层卷积层的特征提取,得到大小为N×4的特征图,每个点对应4个通道,经过Softmax层之后,得到每个点属于行人、骑行者、汽车和背景的概率P。由于在一帧场景中,3维目标包含的点云与背景点云的比例悬殊,正负样本极度不平 衡 将 使 得 训 练 变 得 困 难。RetinaNet、CornerNet和F-PointNets等 目 标 检测 网络 使 用focal loss作为二分类的损失函数,可以有效识别场景中的单一类别,但在真实的应用场景中,往往需要同时识别场景中的多种类别的目标。在focal loss的基础之上,本文中提出新的多分类损失函数,让PointRGBNet在训练的过程中更专注于多类别中难以区分的样本,使得正样本的输出概率越大损失越小,负样本的输出概率越小损失越小。采用one-hot编码对每个点的类别真值进行编码,得到N×4的真值矩阵G,则在语义分割时的损失函数可以定义为
式中α为对应参数值构成的矩阵,对于正样本α=0.25,负样本α=0.75,参数γ=2。点云分割结果如图3所示,其中红色的点云为行人,蓝色的点云为骑行者,粉红色的点云为汽车,绿色的点云为背景。
图3 点云语义分割结果
2.1.3 提案生成
融合后的特征图经过2层卷积层的特征提取,可以得到用于包围框预测的特征图。由于不同类别目标的中心位置、航向角和包围框尺寸的差异较大,如果直接采用Smooth L1等回归损失函数对预测结果与真值的偏差进行学习,难以准确地预测3维目标的中心位置、航向角和包围框尺寸。受PointRCNN基于容器的包围框预测思想的启发,本文中采用先分类再回归的思想,将3维目标的中心位置、航向角和包围框尺寸先分类到某个区间,然后在这个区间内对偏差进行回归。相比于PointRCNN一次只能对一种特定的类别、尺寸相对固定的目标的包围框进行预测,本文中提出的方法可以同时对多种不同类别、各种尺寸目标的包围框进行预测。
将在行人、骑行者和汽车等目标的真值包围框内的点云视为前景点,其他点云视为背景点。若一个前景点的空间位置为(x,y,z),则在此前景点左下方向建立如图4(a)所示的局部空间直角坐标o-xyz,原点到前景点的横向距离与纵向距离都为d,原点处于前景点所在平面的下方,(x,y,z)表示预测的中心点(即汽车外接长方形的形心)所在区间,(,,)表 示 预 测 的 中 心 点 在 相 应 区 间(,,)的位置到此区间起点的偏差。将航向角的范围[0°,360°)划分为若干个相等的区间,航向角预测值所在的区间为,航向角预测值在区间的方向到此区间起始方向的夹角为,如图4(b)所示。同时,将长宽高的尺度范围划分为若干个相等长度的区间,长宽高预测值所在区间为(,,),长宽高预测值在区间(,,)的位置到此区间起点的偏差为(,,),如图4(c)所示。
图4 包围框预测示意图
采用交叉熵损失函数对预测的中心位置、航向角、包围框尺寸所在的区间进行分类,而相应的偏差则先进行归一化然后采用Smooth L1损失函数进行回归。
因此,在包围框预测时的损失函数如式(3)所示,其中,表示真值所在区间,表示真值在相应区间的位置到该区间起点的偏差,表示相应回归量区间的标准尺度,表示交叉熵损失函数,表示Smooth L1损失函数。
利用点云与真值包围框的位置关系可以确定出前景点,通过前景点来训练包围框预测子网络,从而实现点对包围框的预测,再将语义分割结果与包围框预测结果结合,保留语义分割结果为行人、骑行者和汽车的前景点云和对应的包围框预测结果,从而得到大量置信度较高的提案,这些提案将作为第2阶段目标检测网络的输入。利用非极大值抑制算法可以筛选出各个区域范围内置信度相对较高的提案,同时也降低了第2阶段目标检测网络的计算量,加快3维目标检测的速度,提案生成过程如图5所示。
图5 提案生成示意图
区域提案网络可以生成大量置信度较高的提案,但由于使用PointNet++进行特征提取和特征学习时,只考虑以前景点为中心、以特定长度为半径的球内所有6维RGB点云的特征,没有充分利用提案内及其附近的点云特征进行学习,为了进一步提高3维目标分类和包围框预测的精度,提出采用RoI池化对提案内和提案附近的点云进行采样和特征学习,以得到更精准的3维目标检测结果。
2.2.1 RoI池化
采用NMS可以得到各区域中置信度较高的提案,对提案的长宽高分别小幅度地扩大ε、ε、ε,得到由提案扩大后的RoI,RoI包含前景点云和部分前景点云附近的背景点云,采用最远点采样法从每个提案内采样得到固定数量的点云,如图6所示。
图6 RoI池化示意图
用最远点采样法获取N个采样点的步骤如下:
(1)随机选取RoI内一个点作为初始点,从剩余的点云中找到距离初始点最远的点,构成初始点集B;
(2)计算任意一个剩余点到点集B中所有点的距离,将所有距离中最小值作为该剩余点到点集B的距离;
(3)计算出每个剩余点到点集B的距离后,取距离最大的剩余点作为新的采样点,并加入点集B;
(4)重复步骤(2)~(3),一直采样到目标数量N为止。
通过RoI池化可以对包含不同点云数量的提案采样得到N个固定的采样点,原始点云主要用于最远点采样,不作为特征辅助目标检测网络的精修,将采样点云映射到融合后的特征图上,根据映射关系由融合后的特征图生成每个RoI的特征集合,进而通过特征学习实现更精准的提案分类和包围框预测。
2.2.2 3维目标检测
每个RoI对应的特征集合经过卷积层和全连接层的作用之后,得到长度为4的特征,使用Softmax层可以得到每个RoI属于人、骑行者、汽车和背景的概率,将概率最大的类别作为RoI的类别,由于区域提案网络可以有效地检测出场景中大量真实存在的提案,不同类别之间比例失衡的问题得到缓解,在对RoI进行分类时,直接使用交叉熵损失函数计算RoI所属类别的损失,如式(4)所示。
式中:C表示类别的预测值;C表示类别的真值;L表示分类时的损失。
在预测包围框时,采用先分类再回归的思想,区域提案网络生成的提案中心、航向角和包围框尺寸已经较准确,在进行中心位置和航向角的区间分类时,采用比区域提案网络中尺度更小的区间,以提高包围框预测的精度。得益于分类区间尺度的变小和使得特征学习更具针对性的RoI池化,包围框预测的精度获得了较大地提升。
对包围框中心进行预测时,在预测框中心左下角方向建立局部空间直角坐标o-xyz,原点到预测框中心的横向距离与纵向距离都为a,原点位于预测框中心所在平面的下方,(x,y,z)表示预测框中心所在区间,(x,y,z)表示预测框中心所在区间位置到此区间起点的偏差。对包围框航向角进行预测时,以包围框的航向预测值顺时针偏15°为0°起始方向,逆时针为正,顺时针为负,将航向角的范围[-45°,45°]和[135°,225°]划分为若干个区间,预测框的航向角所在区间为r,真值框的航向角方向所在区间r内到此区间起始方向的夹角为r,如图7所示。
图7 中心位置和航向角预测示意图
则中心位置和航向角的损失如下:
区域提案网络生成的包围框尺寸与包围框真值尺寸比较相近,若包围框尺寸预测值为(l,w,h),包围框尺寸真值为(l,w,h),两者的损失可以直接通过Smooth L1损失函数计算,如式(6)所示。
因此在包围框预测时的损失定义见式(7),在得到包围框的预测结果之后,同时结合包围框分类的结果,采用NMS得到各区域中置信度最高的提案,并作为3维目标的最终检测结果。
实验数据为KITTI数据集,KITTI数据集分为两部分,一部分有真值的数据集包含2维图像和3维点云各7 481帧,另一部分没有真值的数据集包含2维图像和3维点云各7 518帧。根据目标在相机视场内的可见程度,将数据分为简单、中等、困难3种不同等级。由于官方没有提供测试集的真值,所以将有真值的数据集等分为训练集和验证集,训练集用于网络的训练,验证集则用于网络的本地评估,而不含真值的数据集则全部作为测试集用于在线提交检测结果。因为KITTI数据集只标注了2维图像范围内的目标,本文对2维图像和3维点云融合时,只考虑在相机视场内的图像和点云,如图8所示。
图8 相机视场内6维RGB点云生成示例
本文中使用PyTorch框架实现PointRGBNet的网络结构,使用2块NVIDIA Tesla-V100 GPU和1块Intel i7 CPU共同进行并行训练,在NVIDIA GTX1060 GPU和Intel i7 CPU上进行推理测试。在区域提案网络阶段,采样的6维RGB点云数量为18 000个点,当采样点云数量不足18 000个点时,则在包含所有采样点云的基础上,从采样点云里面随机采样补足18 000个点,训练时,使用Adam优化器,动量为0.9,初始学习率设置为0.001,衰减系数为0.001,批的大小为16,共迭代200次。在目标检测网络阶段,RoI池化的采样点云数量为512个,当RoI内点云不足512个时,则在包含RoI内所有点云的基础上,随机采样补足512个点,训练时,使用Adam优化器,初始学习率设置为0.001,衰减系数为0.001,批的大小为16,共迭代100次。
KITTI数据集不同帧中的训练数据分布不均衡,为了更好地训练PointRGBNet,须对训练数据进行增强。对获取的每帧训练数据,随机将其他帧3维目标包围框内的6维RGB点云及其邻近的RGB点云添加到当前帧中,以增加训练时每帧点云的目标数量。
除此之外,随机选取每帧点云中的3维目标连同包含的6维RGB点云进行[-1 m,1 m]范围内的随机横向和纵向偏移、[0.9,1.1]比例范围内的随机尺度变换、[-15°,15°]范围内的随机水平旋转和[-3°,3°]范围内小角度俯仰旋转,若变换完以后的真值包围框和当前帧中其他真值包围框有重叠的情况,则放弃本次数据增强,随机选取其他目标进行数据增强。通过这种数据增强的方式,可以有效地提高网络训练精度和泛化能力。
本文中使用3维目标包围框真值和包围框预测值之间的交并比(intersection over union,IoU)作为评估包围框预测值准确程度的标准,当包围框预测值的IoU大于某一阈值时为正确检测,否则为错误检测,选取KITTI数据集官方阈值标准作为3维目标检测的IoU阈值,即汽车IoU阈值为0.7,行人和骑行者为0.5。KITTI测试集数据的真值只存在于官方测试服务器,用于统一评估各种算法的综合性能,具有较高的客观性和公正性。本文中提出的PointRGBNet在KITTI数据集官方测试服务器上进行了公开测评,结果如表1所示。
表1 KITTI测试集上不同网络目标检测精度对比
在检测汽车目标上,本文中提出的PointRGBNet的检测精度极大地优于仅采用单目视觉的Kinematic3D和3DOP,这主要是因为2维图像不包含深度信息,利用单目视觉难以精准地估计3维目标的空间位置,而PointRGBNet在利用2维图像语义信息的同时,也有效使用了3维点云的深度信息。PointRGBNet直接对6维RGB点云进行处理,最大程度地保留了原始信息,而VoxelNet和3DBN采用体素化的方法处理点云数据,在一定程度上压缩了原始信息,同时增加了计算量,因此PointRGBNet在检测精度和处理速度都优于VoxelNet和3DBN。PointRGBNet的输入包含2维图像的语义信息和3维点云的空间信息,在原始数据层面上进行了融合,因而检测精度高于同样使用PointNet++作为主干网络但采用后融合方式进行目标检测的F-PointNet。由于PointRGBNet没有进行多视图的映射和点云体素化,故其对汽车检测的精度比采用点云体素化和多视 图 映 射 的MV3D和AVOD、AVOD-、FPN、ContFuse和PointPainting都高。
在行人和骑行者目标检测上,PointRGBNet的检测精度要优于部分仅采用3维点云或是多传感器融合的3维目标检测网络,但也比部分目标检测网络的检测精度差,原因可能在于PointRGBNet使用6维RGB点云作为输入,当目标较小或是距离较远时,6维RGB点云会变得比较稀疏,不利于提高检测目标的精度,在下一步的工作中将研究如何利用图像的语义信息对点云进行上采样,提高点云的密度以优化行人和骑行者目标的检测精度。PointPainting先将点云投影到语义分割网络的检测结果上,将类别的置信度添加到每个点上,再使用仅以点云作为输入的目标检测模型来检测3维目标,故在骑行者目标检测上取得了较好的检测效果。
图9为PointRGBNet在KITTI测试集上对输入的6维RGB点云的检测结果,同时将检测结果投影到2维图像上,其中,红色包围框表示检测出的目标是行人,蓝色包围框表示检测出的目标是骑行者,粉红色包围框表示检测出的目标是汽车。由图9(a)和图9(f)可见,在2维图像上,当目标与目标之间出现严重遮挡的情况下,PointRGBNet依然可以十分有效地检测出不同3维目标,充分说明PointRGBNet在检测3维目标时的稳定性和鲁棒性。除此之外,由图9(e)可见,PointRGBNet可以同时检测出视场内行人、骑行者和汽车3种不同目标,实现了3维目标的多类别检测,比MV3D和ContFuse等单一类别检测网络,更能适应自动驾驶汽车的感知需求。
图9 在KITTI测试集中的部分检测结果
同时,本文中提出的PointRGBNet也在验证集上进行了测试,结果如表2所示。由于大部分目标检测网络在各自的论文中只给出了汽车类别目标在验证集上的检测结果,所以主要比较了PointRGBNet与其他目标检测网络在汽车类别目标上3维目标的检测精度,同时也比较了PointRGBNet使用和不使用数据增强的目标检测结果。从表2可以发现,通过采用数据增强的方法,使得每帧的训练数据更丰富,显著提高了PointRGBNet在验证集上的检测精度,使其明显优于目前先进的多传感器融合网络AVOD-FPN和ContFuse。
表2 KITTI验证集上不同网络目标检测精度对比
3.5.1 数据输入
为确定使用6维RGB点云作为网络输入的有效性,将使用3维点云作为输入和使用6维RGB点云作为输入的目标检测结果进行对比,在使用3维点云作为输入时,将区域提案网络的第1层卷积层的输入通道数改为3,PointRGBNet的其他结构和参数不改变,将仅使用3维点云作为输入的目标检测结果提交至KITTI官方服务器进行评价,其结果如表3所示。由表3可见,使用3维点云作为输入检测汽车和骑行者的精度比使用6维RGB点云低,但在行人目标检测上,两者的检测精度没有太大差别,这可能是因为行人的体积比汽车和骑行者的体积小,点云更为稀疏,对应的RGB通道信息相对于汽车和骑行者要少,但对于汽车等体积较大的目标检测精度有较大的提升,这可能是因为RGB通道信息可以使输入数据的语义信息变得丰富,如图2第1幅图中银色汽车的点云为银色,蓝色汽车的点云为蓝色,明显区别于汽车所在位置背景点云的颜色,更有利于PointRGBNet进行目标检测。
表3 KITTI测试集不同输入数据目标检测精度对比
3.5.2 包围框预测
本文中采用先分类再回归的思路来预测包围框,为确定这种做法的有效性,将目标检测网络的包围框预测部分改为采用直接回归的方法来实现,维持网络的其他部分不变,实验结果如表4所示。由表可见,相比于直接回归的方法,先分类再回归的方法可以极大地提高多类别目标包围框预测的精度。通过分类先确定出中心位置、航向角和包围框尺寸所在的区间范围,然后在区间范围内进行回归,这样有利于避免出现较大误差的情况,提高包围框预测的准确性。
表4 KITTI测试集不同包围框预测方法目标检测精度对比
本文中提出了一种多传感器信息融合的双阶段目标检测网络PointRGBNet。该网络利用3维点云投影到2维图像生成的6维RGB点云作为输入,不经过体素化和多视图映射,让PointRGBNet直接学习6维RGB点云的特征,一次输出3维场景中所有行人、骑行者和汽车目标的检测结果。在KITTI验证集的检测结果和测试集在官方服务器的评估结果表明,本文中提出的方法相对于目前仅基于2维图像或3维点云的目标检测网络,以及先进的多传感器融合网络具有更高的精度,且运行速度可以达到12帧/s,满足实时性要求。
现实的交通环境十分复杂,不仅包含行人、骑行者和汽车,更有锥形标、小动物等各类目标,为了使自动驾驶汽车更好地适应现实交通环境,下一步将研究在一个网络中识别更多常见目标,同时确保3维目标检测的精度有较大提升。