自动驾驶相关数据集研究综述

2021-04-03 13:03:36张迅李锦江
中国设备工程 2021年1期
关键词:数据量激光雷达语义

张迅,李锦江

(1.同济大学软件学院,上海 200000;2.北京科技大学机械工程学院,北京 100000)

自动驾驶是当今热门研究领域,面临许多技术挑战。无人车在行驶时需要依赖感知识别系统对周围的环境(道路、行人、车辆等)进行感知,为接下来的基于深度学习及人工智能的驾驶决策及控制提供依据。系统要感知检测的事物种类繁多,且容易受到天气、环境等因素的干扰。如果自动驾驶的算法不能在大量可靠的数据上进行适量的、有效的训练,那么,当其被投入实际使用后,就可能造成不可预估的后果。因此,为了推动这一领域的后续研究与发展,自动驾驶相关数据集应运而生,科研工作者围绕众多数据集做了很多开创性的工作。本文在现有文献基础上,从数据集内容、采集方法、是否进行标注和标注方法等方面,针对不同的自动驾驶数据集进行总结与对比,为研究自动驾驶场景感知、行为决策及控制算法奠定基础。

1 数据集介绍

从采集内容、采集设备及方法、标注及标注方法等方面对数据集进行介绍。典型数据集包括KITTI、Apollo、BDD100K、nuScenes、CityScapes 和HDD 等。

1.1 数据集内容

KITTI 数据集包含市区、乡村和高速公路等场景采集的真实图像数据,每张图像中最多达15 辆车和30 个行人。整个数据集由389 对立体图像和光流图(包括194 对训练图像和195 对测试图像),39.2km 视觉测距序列以及超过200k 的3D 标注物体的图像组成,采样频率为10Hz,总共约3TB。

Apollo 为百度推出的交通场景解析数据集,包括上万帧的高分辨率RGB 视频和与其对应的逐像素语义标注。26 个语义类提供了总共17062 张图像和相对应的语义标注与深度信息,用于设计算法和训练模型。

BDD100K 为目前规模最大、兼具内容复杂性与多样性的公开驾驶数据集,包含了10 万段高清视频,每段视频约40s时长,分辨率为720p,帧率为30fps。每个视频的第10s 对关键帧进行采样,得到10 万张图片(1280×720),并进行标注。数据集覆盖了晴天、多云等6 种天气;公路、城市街道等6 种场景;黎明/黄昏、白天、夜晚3 个阶段,还有对目标遮挡和截断情况标注。

nuScenes 包含1000 个场景,每个场景20 秒长,并用23 个类别和8 个属性的3D 边界框完全注释。

Cityscapes 数据集主要针对城市景观进行采集,由50个不同城市的街道上录制的大量不同的立体视频序列组成,总计25000 张图像。

HDD 为日本本田研究所驾驶数据集,主要用于研究在现实生活环境中学习驾驶员的行为。该数据集包括了104小时真实人类驾驶数据总计150GB(1280×720 分辨率、30fps),包括GPS、图像、激光雷达、汽车导航、司机驾驶行为等方面的信息。

1.2 数据集采集设备及方法

KITTI 数据集使用标准旅行车进行收集,配备有两种颜色和两种灰度的PointGrey Flea2 摄像机、Velodyne HDL-64E 3D 激光扫描仪以及带有RTK 校正信号的GPS/IMU 定位单元和运行实时数据库的功能强大的计算机。以不同速率工作的摄像头、激光雷达、GPS 等传感器置于同一坐标系下;最小化产生基础事实需要的监督数量,为每个基准选择适当的序列和框架,以及为每个任务开发指标。

Apollo 数据集的采集使用了装备有RIEGL VMX-1HA 移动测绘系统的中尺寸多功能越野车来进行。该系统包括两个LiDAR 传感器(每秒500 条扫描线,覆盖420 米内的360 度视角)、一部INS/GNSS 单元以及两个前向相机(VMX-CS6,3384×2710)。数据的采集频率为每米一张图像。

BDD100K 数据集是伯克利大学AI 实验室在Nexar 协助下完成的,数据获取自成千上万的普通司机,主要由相机、GPS 和IMU 采集。

nuScenes 的采集主要依靠激光雷达和相机。使用诸如激光笔和标定目标板之类的工具将每个传感器的外在坐标表示为相对于自我框架,即耳轴的中点。特点是可以产生良好的数据对齐。

Cityscapes 数据收集使用了汽车级22 厘米基线立体声相机,1/3 的CMOS 2 MP 传感器,以及帧率为17Hz 的滚动快门,产生16 位线性颜色深度的高动态范围(HDR)图像,每个16位立体声图像对随后被剥离和校正。

HDD 数据集的收集使用了三个摄像头、一个水平激光雷达、一个汽车动力运动分析器和一个汽车控制器区域网络(CAN)。

1.3 标注及标注方法

文献[2]中自行设计了一个图片标注系统,该标注系统是一个通用、可扩展的注释工具,适用于数据库中所需的各种注释,如边界框、语义实例分割和车道检测等。该注释工具可完成的工作包括框注释、区域注释等,同时,具备高可扩展性。标注包括图像标记、物体检测、车道、可驾驶区域、语义实例分割等。

Cityscapes 数据集中,5000 幅图像具有高质量的像素级注释;另外,20000 幅图像具有粗略注释,以支持利用大量弱标记数据的方法。

HDD 数据集对驾驶场景做了目标方向行为、刺激驱动行为、原因、关注,4 层注释方案,使用ELAN 软件进行。

2 数据集之间的比较

上述数据集中,KITTI 是诞生最早的一个较为全面且合理的数据集,所以率先成为了该领域的一个基准,后续的许多研究都是通过从KITTI 中进行抽取或改良来获取实验用数据的。Apollo 数据集作为在中国国内诞生的数据集,在收集的数据量上有所突破,为国内自动驾驶领域做出了杰出贡献。BDD100K 在数据量最大最全面,数据种类的多样性也几乎能覆盖所有的自动驾驶场景;nuScenes 以场景划分为标志的多模态3D 数据集,是第一个包含雷达数据的自动驾驶数据集;CityScapes 数据集致力于捕捉真实城市内部交通场景的可变性和复杂性,数据量不大,更为精简;HDD 数据集专注于自动驾驶系统在现实生活环境中学习真实驾驶员的行为,一种新的注释方法用于从未经修剪的数据序列中理解驾驶员行为。

总之,数据量、数据种类与制作数据集的目的为数据集之间的主要差别,目的在于针对自动驾驶场景感知、行为决策及控制算法等的不同应用。

3 结语

综上所述,现有数据集主要基于计算机视觉相关,为自动驾驶提供广泛真实的驾车场景,模拟行车复杂环境,进行先进安全特性的研究。数据集主要由静态单图像组成,通过使用“边界框”来识别和跟踪道路内和周围环境的常见物体。接下来,需要更精确、像素级的道路物体表示,以及通过连续视频驾驶场景的镜头。基于视频的驾驶场景感知提供的数据流将更接近动态的真实驾驶情况,可进一步促使自动驾驶中机器学习、场景理解和行为预测的进步。

猜你喜欢
数据量激光雷达语义
手持激光雷达应用解决方案
北京测绘(2022年5期)2022-11-22 06:57:43
法雷奥第二代SCALA?激光雷达
汽车观察(2021年8期)2021-09-01 10:12:41
基于大数据量的初至层析成像算法优化
计算Lyapunov指数的模糊C均值聚类小数据量法
高刷新率不容易显示器需求与接口标准带宽
语言与语义
宽带信号采集与大数据量传输系统设计与研究
电子制作(2019年13期)2020-01-14 03:15:18
基于激光雷达通信的地面特征识别技术
基于激光雷达的多旋翼无人机室内定位与避障研究
电子制作(2018年16期)2018-09-26 03:27:00
“上”与“下”语义的不对称性及其认知阐释
现代语文(2016年21期)2016-05-25 13:13:44