程宇杰,刘卓涵,闫 实,彭木根
(北京邮电大学 网络与交换技术国家重点实验室,北京100876)
自动驾驶是提高出行安全、提升交通效率、实现智慧交通的关键技术之一,已成为当下世界研究热点。虽然单车智能化水平正逐步提高,但在更高级的自动驾驶发展过程中仍面临严峻挑战,如2022年8月美国佛罗里达州发生的特斯拉致死事故[1],因单车感知受到视距影响,缺少通信协同信息导致感知能力受限,导致横穿行车道的行人死亡。为满足未来自动驾驶全方位、高可靠等驾驶需求,实现全场景下自动驾驶的部署,亟需解决单车感知能力受限问题[2]。未来6G网络预计可实现低于1 ms的通信时延和相对于5G算力10倍的提升,结合6G高性能通信技术,车联网络将在多源感知数据融合处理技术使能下实现多节点协同的超视距感知增强,突破单车智能的瓶颈限制[3]。通过引入路侧感知,车辆网络可获得更高维的数据,并借助于通感算融合实现车-路-云一体化协同感知、传输、决策的全局架构[4]。在该架构中,通信功能可支持全方位多层次的协同智能,扩展感知的深度和维度,实时共享的分布式算力可对收集到的感知数据进行计算处理,实现高精度感知。通过“车-路-云”多维度、全方位的感知融合,车联网络将从网联辅助信息交互阶段进入到网联协同感知阶段[5],从而能够服务于L5级自动驾驶车辆[6]。
目前,自动驾驶采集感知信息的传感器主要有三类:摄像头、激光雷达与毫米波雷达。摄像头成本低,并可提取出丰富的语义信息,但提取深度信息能力弱,且受环境影响较大。激光雷达易于重构准确的三维环境信息,但信息稀疏,描述能力相对较弱,且易受雨雪雾霾天气的影响导致检测距离变短,感知信息失真。毫米波雷达几乎不受环境影响,但感知信息更加稀疏,感知具有非常大的不确定性,稳定性差。同时基站无线感知技术也可提供范围更广且不受环境影响的感知点云信息,但只能检测出目标的速度和位置,难以辨别属性[7]。鉴于传感器独立工作的缺点和差异性感知方式存在的不同感知缺陷,业界对多传感器融合技术进行了许多研究,国内外主要讨论了三种多传感器的融合方式:毫米波雷达与摄像头融合[8]通过将毫米波雷达提供的障碍物距离和速度信息与摄像头提供的语义信息进行融合,实现对障碍物的有效探测;摄像头与激光雷达融合[9]通过将点云数据和高分辨图像进行数据级融合,实现对周围交通环境的准确感知;激光雷达与毫米波雷达融合[10]通过将双雷达的点云数据进行配准相互补全,实现三维交通环境地图的精确建图。然而,上述融合方法仅对多传感器信息进行简单叠加,尚缺乏不同传感器深度融合的能力。
同时,由于传感器感知范围有限以及单车视野易受视距影响,仅依靠传感器堆砌的车辆感知和计算能力存在上界,如国内企业“小鹏”在为汽车装备32个传感器的情况下,也只能达到L2级别自动驾驶能力[11]。为此,业界开始对协同感知融合技术进行研究,借助于车车/车路等无线通信技术,车联网络可通过多源感知数据融合技术将车侧与路侧的感知数据融合,通过车路协同将分布在车侧与路侧的多源传感器联接成一个有效的传感网络。但在车联网络实现协同感知过程中,仍存在以下问题:
① 协同感知融合方法不明确:国内外主要关注于车-路-云融合的信息服务架构,计算分层架构的研究,而对车-路-云一体化协同感知融合方法和架构的研究仍处于初步阶段[12],车联网络尚缺乏多源感知数据进行分级融合的能力,难以满足更高等级自动驾驶的智能感知需求。
② 多源感知数据难以进行精确融合:现有融合技术主要分为前融合和后融合,前融合将数据级信息融合,形成的高清地图不丢失信息特征和维度,具有高精确度、广覆盖性等特性,可为车辆在复杂交通环境下的自动驾驶提供有力支撑[13],但是由于感知节点空间上分布散乱,传感器位姿难以确定,融合过程中重叠特征稀疏等问题,多视角感知数据难以实现精确融合;后融合将特征级和决策级信息进行融合,精度易受传感器和算法等因素影响,例如当融合网络中某个传感器精度低但被错误赋予很大的权重时,将得到差的融合结果[14]。
③ 有限通信带宽难以支撑海量感知数据上传:目前全球车联网通信技术标准包含的5G-V2X技术可支持单车上行传输速率为50 Mbit/s,然而在TR 22.886 V16.1.1[15]中,3GPP定义单车原始感知数据达G级别,若不对原始数据进行处理,则难以满足通信一定时延要求下的感知数据传输。
针对上述问题,本文的主要贡献包括如下:
① 提出了一种面向多源感知的分级融合方法。通过设计车-路-云一体化的全局感知融合架构,实现了多节点协同下的全方位感知增强。
② 设计了新颖的单车多传感器融合技术和路侧基于特征的两步配准融合技术,在通感基站辅助下统一了多源传感器对交通环境的空间描述。
③ 基于多源感知数据时空冗余性,设计了时间融合-八叉树压缩-空间去冗余的感知数据简化流程,减少了感知数据上传带来的通信开销。
④ 搭建了仿真平台,验证了所提数据融合方法和技术的有效性,并给出了评估结果。
图1为通感基站辅助下的多源感知与数据融合系统模型,车联网场景中包含M个通感一体化基站、N个智能网联车(Connected-Automated Vehicle,CAV)和其他交通参与者(包括普通车辆与行人等)。智能网联车通过搭载摄像机、激光雷达与毫米波雷达等传感器收集感知数据,车-车间利用V2V通信技术,自组织形成车辆队列协同共享感知数据,车-路间利用V2N通信技术传输感知数据,通感一体化基站通过发送无线感知信号执行无线感知,路-云间利用前传和回传通信技术传输感知数据。
图1 通感基站辅助下的多源感知与数据融合系统模型
本文将车侧激光雷达、摄像头、毫米波雷达与路侧无线感知作为车联网络主要的感知手段,并定义了5类坐标系:包含激光雷达坐标系{L}、毫米波雷达坐标系{M}、无线感知坐标系{U}、图像坐标系{C}和世界坐标系{W}。激光雷达通过模拟全向旋转与各通道投射的激光仿真出每帧点云,垂直感知角度值域为-30°~+10°,得到的第i帧激光雷达数据由Li(x,y,z)表示,其中x、y、z表示由笛卡尔坐标系表征的{L}中的三维坐标值;摄像头为RGB相机,记录每帧场景的二维画面,水平感知角度值域为-45°~+45°,得到的第i帧图像数据由Ci(u,v,r,g,b)表示,其中u、v表示{C}中的二维坐标值,r、g、b表示像素点中颜色深度值;毫米波雷达传递一个圆锥形视图,记录每帧探测物体的极坐标和速度,水平感知角度值域为-15°~+15°,垂直感知角度值域为-15°~+15°。得到的第i帧毫米波雷达感知数据由Mi(d,α,θ,v)表示,其中d、α、θ分别表示极坐标系中的距离、水平角与俯仰角,v表示速度。
路侧感知采用基站无线感知技术,通过发送承载感知信号的无线波形,并基于反射回波估计环境信息,得到的第i帧无线感知数据由Ui(d,α,θ,v)表示。无线感知的精度、距离、角度值域与分配的感知资源和波束形状相关,分配的感知带宽资源越多,距离分辨率越高[16],其关系可表示为:
(1)
式中,ΔR表示感知距离分辨率,c为光速,SNR表示接收感知信号反射回波的信噪比,B表示感知带宽资源。
图2为单车感知融合流程,输入为车载激光雷达、摄像机、毫米波雷达采集到的感知数据,输出为单车感知融合结果,图3为协同感知融合流程,融合网络主要针对原始感知数据进行融合,协同感知融合流程输入分为车-路-云的多级输入,具体过程如下:
图2 单车感知融合流程
① 单车感知融合输入为多传感器感知数据,输出为单车感知融合结果。将感知到的摄像机图像数据与激光雷达点云数据在数据层面上进行融合,得到带深度信息的分类检测框;然后将毫米波雷达通过目标检测得到的检测框进一步融合,得到多传感器融合结果。同时,单车针对感知所得的多个帧间的高时间相关性进行时间特性融合,完成多帧的感知数据融合处理,并根据历史帧的感知数据信息预测一定时延后的感知信息结果,降低单车感知上传的数据量,弥补通信传输时延造成的感知滞后,最终得到单车感知融合结果。
② 队列感知融合输入为车辆队列内多车感知数据,输出为初步协同感知融合结果和感知需求信息。借助于V2V通信技术,车辆通过分簇算法主动组织成“簇”,协同共享感知数据,簇头通过PC5接口接收到的来自簇内多车的感知数据后,针对不同车辆感知结果的高空间相关性,完成多车感知数据融合与空间特性去冗余处理,并向路侧上报感知需求信息。
③ 路侧感知融合输入为不同簇的队列级别融合结果与路侧通感基站的无线感知数据,输出为全局感知融合结果。借助于V2N通信技术,路侧通过UU接口接收到多个车辆队列上传的感知融合数据后,提取不同视图的重叠特征,在路侧无线感知辅助下将多源感知数据进行配准融合,同时根据车侧反馈的感知需求信息利用无线感知技术对车联网环境缺失的全局感知信息进行补全,得到全局感知融合结果。
④ 云侧融合输入为路侧全局感知数据,输出为协同感知融合结果。借助于前传和回传,云和中心网络在接收路侧上传的路侧感知融合数据后,进一步融合计算得到最终的协同感知融合结果,构建出全局高清地图。同时,云侧还可通过提供数据分析、运行管理等服务,下发感知决策信息,改善车联网道路交通状况,提高交通通行效率,避免交通事故发生。通过上述车-路-云多级多源感知数据融合方法,构建多节点协同下的一体化感知架构,网联车视野扩展的同时感知识别精度也得到提高。同时针对感知数据的时空冗余性对感知数据进行的优化处理,也将有效减少上传的感知数据量,降低通信开销。
为将不同模态与不同源的传感器进行融合,首先需将不同传感器的坐标系进行统一,包括{L}、{M}、{U}、{C}、{W}坐标系之间的变换。
为了更好地融合,需将由极坐标系表征的雷达数据转换为由笛卡尔坐标系表征,转换公式为:
(2)
3.1.1 毫米波雷达坐标系到激光雷达坐标系
(3)
式中,R表示坐标系变换的旋转矩阵,T表示坐标系变换的平移矩阵。
如图4所示,图4(a)描述坐标轴由Oa-XaYaZa通过T变换到Ot-XtYtZt的过程,T表示如下:
(a) 坐标轴通过T的变换
T=(TxTyTz)T,
(4)
式中,Tx、Ty、Tz分别表示为在X轴、Y轴、Z轴上的平移分量。
图4(b)描述了坐标轴Oa-XaYaZa通过R变换到Or-XrYrZr的过程,R由分别绕X轴、Y轴、Z轴上的三个旋转分量计算得到:
(5)
式中,βx、βy、βz分别表示绕X轴、Y轴、Z轴上的旋转角,最后计算得到R:
R=Rx(βx)·Ry(βy)·Rz(βz)。
(6)
3.1.2 激光雷达坐标系到世界坐标系
(7)
基于上式可通过求解R、T实现多辆CAV的点云在同一世界坐标系中的配准。
3.1.3 世界坐标系到图像坐标系
(8)
式中,fx、fy、u0、v0为相机内参参数,R、T为旋转平移矩阵,Zc为尺度系数。
车侧感知融合处理技术主要基于式(2)~(3)、式(7)~(8)对相机、激光雷达和毫米波雷达感知数据进行融合,将激光雷达的点云深度信息[17]和毫米波雷达的检测信息匹配到同一像素坐标系下,并利用摄像机和毫米波雷达目标检测框的深度信息得到目标位置,得到三者的最终融合结果。
协同感知融合流程主要以激光雷达原始点云数据作为各级融合的输入,并引入路侧无线感知数据作为全局信息的补全。为进行更好地融合,在融合算法输入前需进行预处理操作,对于激光雷达点云数据需先去除运动畸变并分离地面点,在融合后可根据感知需求基于融合变换的矩阵重新拼接地面点云到融合点云中。对于路侧无线感知数据需先进行滤波操作,将由噪声、杂波及多径等因素产生的孤立点、虚假点、地面点等剔除掉,以保证对交通环境的真实描述。队列感知融合针对空间内不同CAV的点云数据,通过求解式(7)的R、T将多帧点云配准到同一个基准坐标系进行描述,配准算法采用ICP算法,具体过程如下:
① 初始化R、T矩阵,基于式(7)将待配准点云与基准点云置于同一坐标系,迭代开始将两帧点云的空间点进行匹配。匹配点集如下:
(9)
式中,Lik代表第i辆CAV的待配准点云点集,L1k代表簇头CAV的基准点云点集。
② 构建最小化误差方程求解R、T矩阵:
(10)
③ 求解的R、T矩阵作为下一次迭代的输入,直到达到预设误差或迭代次数阈值停止。基于求解的R、T矩阵利用式(7)得到配准结果。
路侧点云在配准过程中由于存在大量独立点,导致匹配点对误差过大,在迭代过程易陷入局部最优,传统ICP算法不再适用。为此提出一种粗配准+精配准的两步点云配准方法,粗配准基于点云提取的特征点对进行匹配,得到的粗配准结果再输入到ICP算法中得到精确的配准结果。特征点提取过程引入了路侧感知数据,以路侧通信节点的无线感知数据为例,对路侧融合过程进行说明:
① 路侧无线感知基于检测提取得到的车辆与路边障碍物构建特征点组成基准点集U。
② 第j队簇群基于点云聚类算法提取到的车辆与路边障碍物构建特征点组成待配准点集Lj。
③ 迭代开始,构建U和Lj匹配点集,并删去匹配误差过大点,基于式(10)构建最小二乘问题,求解R、T矩阵,并利用式(3)完成路侧无线感知数据和激光雷达数据的配准。
④ 重复②~③,直到所有簇的待配准点云数据都统一到无线感知的基准坐标系中时结束,完成多簇点云数据以及路侧无线感知点云数据的初步融合。
⑤ 将粗配准融合结果作为输入,利用ICP算法得到更精细的多簇点云配准融合结果。
最后,将融合的多源感知数据上传到云侧,云侧通过目标检测、数据融合等处理技术完成数据处理计算决策和数据级高清地图的构建。
车联网络传感节点采集得到的感知数据存在时空冗余,时间冗余指同一传感器在时间维度上的感知数据高度相似,空间冗余指多源传感器在空间维度上的感知数据描述的三维环境信息高度重叠。针对以上特性,通过时间特性融合实现时间序列上多帧点云融合,利用空间特性去冗和压缩算法实现对感知数据的简化,以降低通信上传的数据量,具体流程如图5所示。
图5 感知数据压缩去冗流程
时间特性融合针对多帧感知数据的高时间相关性,基于卡尔曼滤波完成数据级的预测,实现时间上多帧感知数据融合处理,并得到一定时延后的感知预测结果,弥补通信上传产生的时延影响。融合分为预测步和更新步。预测:
(11)
(12)
更新:
(13)
(14)
(15)
观测方程为:
yk=h(sk)+vk,
(16)
式中,Kk为卡尔曼增益矩阵,Hk为h(sk)在sk的观测矩阵,sk为估计值,yk为观测值,vk为观测噪声,其协方差矩阵为E,pk为更新后的协方差。以激光雷达点云数据的融合为例,具体过程为:
③ 输入后续帧点云继续迭代,直至迭代t-2次根据第t-1帧测量状态值st-1得到第t帧预测状态值st。最后基于st得到第t帧点云数据。
激光雷达点云在上传过程中,根据其特殊的空间结构采用八叉树压缩算法进行压缩处理,可减少通信上传的数据量,具体流程如图6所示。
图6 基于八叉树的压缩算法
首先通过递归构建八叉树空间模型,将点云三维场景划分为2n×2n×2n个小区间组成的场景,并基于式(16)得到尺度参数:
(17)
式中,n代表八叉树递归深度,xmax、xmin等参数为从点云中提出的对应坐标轴上最大最小值。
根据尺度参数划分区间,将处于区间参数之间的点云坐标映射到对应区间的格点坐标上,得到映射后新点云坐标(xi,yi,zi)。
基于式(18)量化映射后的点云坐标(xi,yi,zi),并得到每个点云坐标索引值(xk,yk,zk)。
(18)
基于式(19)进一步得到坐标索引值K,最后对K编码表达得到压缩结果。
K=xk·2n2+yk·2n+zk。
(19)
空间特性去冗余针对多视角点云,通过滤波去除冗余感知数据,可提升感知有效性。算法设计基于以下思想:若某一半径为a的领域内存在一个以上的点,则视为领域内存在重复点,若某一半径为b领域内少于阈值k的点数,则将其领域内点视为离群点。具体流程如下:
① 从第一个点开始遍历,根据半径a和半径b构造KD树索引点云,记录半径a和半径b内领域点个数。
② 若半径a的领域内点数超过1,则将除该点以外的点都视为重复点并进行去除,若半径b内点数少于设定阈值k,则将半径b的领域内所有点都视为离群点并进行去除。
③ 重复步骤①和②,直至遍历完点云所有点。
由于八叉树压缩算法特性,解压缩后点云将存在大量坐标完全相同的点。在将这些重复点去除的过程中,a值设置很小也能达到非常高的去除率。结合离群噪点的滤除,该方法可有效去除对感知无益处的冗余点云,提高点云数据的感知有效性。
本文基于CARLA模拟车联网驾驶环境,搭建车联网多源感知数据融合的仿真平台,验证融合技术的有效性。CARLA是许多研究自动驾驶的公司(如奔驰、丰田、华为等)正在使用的一款开源模拟器,支持传感器和环境的灵活配置,可用于自动驾驶系统的开发和仿真验证[18]。仿真平台基于系统模型和感知模型生成智能网联车、车载传感器采集感知数据,并采用CARLA中时钟作为同一时间源,对不同传感器采集感知数据的时间进行同步。图7为车辆传感器摆放位置与感知范围。
图7 车侧传感器摆放位置和感知范围
图8对单车多传感器融合的检测精度进行仿真,采用均方根误差来衡量障碍物检测精度。
图8 使用不同传感器的检测精度
(20)
仿真结果表明,当距离达到70 m时,车侧数据融合相对于单目相机和双目相机的检测精度性能增益分别为365%和136%。虽然激光雷达检测精度更高,但难以通过聚类算法判别障碍物类别,且当距离达到52 m后,由于激光雷达检测点云的稀疏性,难以通过聚类检测到障碍物。利用激光雷达深度图和相机高分辨率图像融合,单车感知可以达到近似激光雷达的距离检测精度,并且相对于激光雷达多一维度语义信息,可用于判别障碍物类别,同时在远距离情况下,稀疏点云无法进行聚类检测时,融合方法相对于纯视觉检测方法,可更精确地检测障碍物信息。
通过仿真平台模拟恶劣天气下城镇交通环境,并生成智能网联车与车载传感器采集感知数据,如图9所示。图9(a)为CAV车载摄像机采集到RGB图像,由于恶劣天气影响,场景中车辆D未能被车载摄像头检测到。图9(b)为CAV车载激光雷达和毫米波雷达采集到点云数据,其中白色点云来自激光雷达,红色点云来自毫米波雷达。由于距离影响,激光雷达采集到关于车辆D的点云十分稀疏,因此也未能被车载激光雷达点云的聚类算法检测到,而只有毫米波雷达能成功检测车辆D。如图9(c)所示,通过车侧摄像头-激光雷达-毫米波雷达多传感器融合,车侧数据融合处理技术实现了激光雷达深度信息与摄像机语义信息的精确融合,在达到近似激光雷达检测精度的同时,多了一维语义信息,并利用毫米波雷达扩展了单车感知视野,提高了恶劣天气下单车感知的鲁棒性。
(a) 摄像头检测结果
协同感知融合结果如图10所示,由于距离和视野遮挡,单车感知到的点云感知范围受限,如图10(a)所示,图中左上框和右上框中车辆无法被检测到,下方框中点云十分稀疏。通过簇内多车协同后,感知融合结果如图10(b)所示,可以看出,感知范围明显提升。但因为车辆低视角造成视野遮挡,仍有右上框的车辆没有被检测到。如图10(c)所示,路侧通信节点位于矩阵框中,并朝箭头方向在虚线范围内发送通感波形,执行无线感知,图中白色点云来自激光雷达,红色点云来自路侧通感基站的无线感知。最后在通感基站辅助下通过多帧点云配准实现了车联网络数据级高清地图的构建,并同时通过路侧高视角、高维度、不受恶劣天气影响的无线感知信息补全了车联网环境的全局感知信息。
(a) 车侧点云数据
图11对应图10的协同感知融合结果,将协同感知带来的范围扩展通过感知覆盖率量化展示。感知覆盖率定义为检测到车辆数目与总车辆数目的比值:
图11 不同车辆数目下感知覆盖率
η=ni/N,
(21)
式中,ni为场景中有i辆CAV参与协同感知时检测到车辆数目,N为场景车辆总数目,该十字路口场景车辆总数目为40。车辆数目为1时对应图10(a)中的单车感知,感知范围受限,而随着加入协同感知融合的车辆数目增加,协同感知范围也在不断提升。车辆数目为5时对应图10(b)中的队列侧感知融合,感知范围得到拓展。同时在加入新簇的簇成员时,感知覆盖率会大幅提升,当三个簇中加入协同车辆数达到12时,该十字路口40辆车都能被检测到,实现车联网环境下的全局感知。
表1为单车感知数据量简化前后对比,图12展示了车侧、队列侧、路侧经过感知数据简化处理前后感知数据量大小对比的仿真图。
表1 感知数据所需传输速率
图12 压缩去冗后感知数据量
图12结果表明,经过数据简化处理后,单车上传的感知数据量仅为原始数据量的1.62%,队列侧和路侧上传的感知数据量下降了两个数量级,仅为原始数据量的0.97%和0.92%。
然而,数据压缩去冗余时也会引入误差,采用均方根误差来计算原始点云数据处理前后造成的误差:
(22)
图13 不同感知资源分配下的均方根误差
仿真结果表明,分配给传输感知数据的通信资源越多,点云数据失真越小。为保证原始感知数据厘米级别精度,在上传15辆车的感知融合数据时,路侧应至少分配支持110 Mbit/s传输速率的上行通信带宽用于感知数据上传。
本文对面向多源感知的数据融合处理技术进行研究,提出了一种车联网络面向多源感知的数据分级融合方法,该方法借助于多源感知、协同传输、融合计算的通感算融合,实现了“车-路-云”一体化感知的全局架构。同时对数据融合处理技术进行设计,通过摄像头、激光雷达和毫米波雷达优势互补的深度融合,实现了单车智能感知。通过所提出的两步配准方法,实现了在通感基站辅助下多源感知数据的全局融合。通过感知数据压缩去冗技术,减少了通信上传的感知数据量。最后搭建平台验证,将车辆三种传感器的感知数据进行融合,可以有效扩展单车感知维度,提升感知性能,将多源点云数据进行全局融合,可以有效扩展车联网络感知视野,在保证恶劣天气下感知可靠性的同时,实现了数据级高清地图构建。此外感知融合精度受压缩去冗余算法影响,精度低将导致点云失真严重,精度高将消耗过多的通信资源,通过选择合适的精度能在较少通信开销前提下有效实现多节点协同下的全局感知。