赵树恩 苏天彬 赵东宇
(重庆交通大学,重庆 400074)
主题词:自动驾驶 驾驶意图识别 轨迹预测 图神经网络 门控循环单元
传统车辆与自动驾驶车辆混行交互场景中,由于驾驶人意图与环境的不确定性,车辆的未来轨迹仍有多种可能性。对周围车辆轨迹进行精准预测有助于自动驾驶车辆作出合理的决策规划,进而实现自动驾驶车辆在高动态复杂环境中的安全行驶。
目前车辆运动轨迹预测方法可分为基于模型和基于数据驱动2 种类型[1]。M.Brannstrom 等[2]将车辆动力学模型简化为二自由度车辆模型,根据车辆当前状态分析潜在的运动模式,生成预测轨迹。L.Rummelhard等[3]基于车辆速度和运动学模型预测其运动轨迹。A.Eidehall 等[4]基于车辆动力学模型,采用蒙特卡罗(Monte Carlo)仿真算法从模型的输入变量中随机选取值生成可能的轨迹簇,并通过车辆模型约束得到可行驶的轨迹簇。
基于数据驱动的车辆轨迹预测主要采用基于神经网络的方法。季学武等[5]运用深度学习方法设计了一种基于长短时记忆(Long Short Term Memory,LSTM)网络的驾驶意图识别及车辆轨迹预测模型,通过混合密度网络(Mixture Density Network,MDN)输出预测轨迹分布。Xie 等[6]利用卷积神经网络(Convolutional Neural Networks,CNN)在空间上的优势和LSTM在时间上的优势,提出了CNN与LSTM相结合的周围车辆轨迹预测模型。郭景华等[7-8]提出了一种基于残差双向长短时记忆(Residual Bidirectional Long Short Term Memory,Residual Bi-LSTM)网络的车辆驾驶行为识别和轨迹预测模型。Yook 等[9]提出了一种高精地图与深度学习模型结合的方法来提升轨迹的预测效果。高振海等[10]基于环境交互信息提出了基于单双向长短时记忆(Monodirectional and Bidirectional LSTM,MB-LSTM)的交通车辆意图识别及轨迹预测模型,以提高长时域内轨迹的预测精度。
综上所述,基于车辆物理模型的轨迹预测方法适用于短时域运动轨迹预测,但由于车辆轨迹的高度非线性及驾驶人习惯的多样性,基于模型的轨迹预测方法在长时域预测上难以取得令人满意的精度。基于数据驱动的轨迹预测虽能预测长时域内轨迹的变化,但未考虑被预测车辆和周围车辆的相互影响,其轨迹预测精度有待进一步提升。
为了充分理解车-车间的交互行为,提高对周围车辆驾驶意图识别及轨迹预测的准确性,本文基于图采样与聚合(Graph SAmple and aggreGatE,GraphSAGE)的图神经网络和门控循环单元(Gated Recurrent Unit,GRU)网络,提出一种基于GraphSAGE-GRU 的车辆驾驶意图识别及轨迹预测模型。通过构建被预测车辆与其周围车辆之间交互的时空图,运用GraphSAGE 图神经网络识别出被预测车辆的驾驶意图,然后采用编码-解码的GRU网络,构建考虑驾驶意图的轨迹预测模型。
图1 所示为传统驾驶与自动驾驶多车混行汇流场景示意。
图1 高速混行汇流场景示意
为了更好地作出决策,自动驾驶车辆S4需要对周围车辆进行驾驶意图识别和轨迹预测。假设自动驾驶车辆对周围车辆S0进行驾驶意图识别和轨迹预测时,被预测车辆S0的驾驶意图和轨迹受到其左前车S1、左后车S2、前车S3、后车S4、右前车S5、右后车S6的直接交互影响。因此,以被预测车辆S0及与其存在交互影响的车辆的状态参数作为驾驶意图识别和轨迹预测模型的输入,输出为车辆的预测轨迹,即
式中,I(t)为被预测车辆及与其存在交互的车辆的历史状态参数矩阵;Si(t)为t时刻i位置车辆状态信息;i=1,2,3,4,5,6分别表示左前、左后、前、后、右前、右后位置;x(t)、y(t)分别为t时刻车辆横、纵向坐标;v(t)为t时刻车辆绝对速度;a(t)为t时刻车辆加速度;L、LW分别为车辆长度、宽度;T为当前时刻;TP为历史时域;为t1时刻预测的轨迹坐标;分别为t1时刻预测的横、纵向坐标;TF为预测时域。
在实际行驶过程中,t时刻i位置被预测车辆的周围可能存在没有车辆的情况,则可默认t时刻i位置的车辆与被预测车辆的距离为无穷大,将t时刻i位置车辆状态参数设为Si(t)=[10 000,10 000,0,0,0,0]。
由图1 可以看出,车-车间的动态交互特性具有时空关联关系。将车辆视为“节点”,则车-车间的交互关系即为连接节点的“边”,从而,多车间动态交互特性就构成了无向图(Undirected Graph)网络结构。
本文运用图神经网络和门控循环单元理论,提出基于图神经网络和门控循环单元的周围车辆驾驶意图识别和轨迹预测模型,模型架构如图2所示。该模型主要包括驾驶意图识别模块和轨迹预测模块。其中驾驶意图识别模块首先将多车动态交互场景内车-车间的运动状态描述为时空图的形式,运用GraphSAGE 图神经网络理论对时空图中车辆的运动状态进行推理,进而识别出周围车辆的驾驶意图。轨迹预测模块由GRU网络构建的轨迹编码器和解码器组成。编码器对历史轨迹进行编码,并将编码信息和驾驶意图向量共同输入解码器,最终得到考虑驾驶意图的周围车辆预测轨迹。
图2 基于图神经网络与门控循环单元的周围车辆轨迹预测框架
结合图1所示的复杂交通场景,建立描述多车间交互关系的时空关联图,如图3所示。将车辆作为“节点”,根据同一时刻车辆的空间位置确定多车交互关系的“边”。从而,多车动态交互特性即可描述为无向图网络结构,即G=(V,E)。其中,为车辆“节点”的集合;为车车间关联关系“边”的集合,为连接2个节点的“边”。
图3 车辆动态交互时空图
将“节点”的特征矩阵H和“边”的邻接矩阵A作为图神经网络的输入,交互规律信息hG为图神经网络输出。其中,特征矩阵的变量分别为不同时刻交互车辆的位置(x(t),y(t))、速度v(t)、加速度a(t)、长度L、宽度LW等动静态特征变量,用特征矩阵H0表示:
式中,d(Si(n),Sj(k))为同一时刻2 个节点的欧式距离;d0=50 m为距离阈值。
驾驶意图识别模型如图4所示。
图4 基于GraphSAGE网络的驾驶意图识别模型
车辆动态交互时空图的特征矩阵H0和邻接矩阵A作为GraphSAGE[11]图神经网络的输入,经过2 层Graph⁃SAGE 图神经网络深度学习,得到车-车间的交互规律信息hG,再经过全连接层的映射和Softmax函数的计算,即可得到车辆向左换道、直行或向右换道的驾驶意图概率,进而实现对车辆驾驶意图的识别。主要步骤如下:
式中,fGraphSAGE()为GraphSAGE图神经网络函数;fFC()为全连接网络函数;hFC为全连接层映射的信息;wFC为全连接层的权重;b为全连接层的偏置参数;P为输出的概率矩阵;P1、P2、P3分别为周围车辆左换道、直行、右换道的概率。
基于GraphSAGE的驾驶意图识别算法伪代码为:
其中,Hv0为输入的节点v的特征;K为GraphSAGE网络的层数;Wk为k层GraphSAGE网络中的权重参数矩阵;σ为非线性激活函数;AGGREGATEk为邻居节点特征的聚合函数;N为邻居节点的领域函数;为节点v的邻居节点在(k-1)层的特征;为节点v的邻居节点在k层聚合后的特征值;CONCAT()为将(k-1)层v节点的特征与k层聚合的邻居节点特征拼接的函数;为节点v在k层的特征;zv为节点v最终的输出特征。
为准确预测长短时域内自动驾驶周围车辆的行驶轨迹,本文提出了考虑车辆驾驶意图的GRU编码-解码轨迹预测模型,如图5所示。将周围车辆历史轨迹特征信息输入GRU 编码层,对编码信息和驾驶意图信息进行融合,再经过GRU 解码层和全连接层进行轨迹维度调整,最后得到车辆的预测轨迹。
图5 基于GRU编码-解码的轨迹预测模型
T时刻GRU编码器中的单元体输入车辆轨迹信息I(T)和上一时刻历史轨迹信息的隐含状态he(T-1),经过“更新门”对输入信息进行“丢弃”或“保留”,得到新的更新信息Ze(T),再经过“重置门”的重置,得到重置信息Re(T),以及候选编码隐藏信息,历史轨迹信息编码过程如下:
周围车辆的驾驶意图对被预测车辆轨迹的准确预测至关重要。基于GraphSAGE 的驾驶意图识别模型输出的结果是周围车辆驾驶意图的概率。为准确预测长短时域内周围车辆的行驶轨迹,本文将驾驶意图识别结果与GRU 编码信息融合,作为GRU 解码器的输入信息。为了更好地表达驾驶意图信息,选择识别结果概率最大的驾驶意图为确信类别,令该驾驶意图为1,其余为0。此时驾驶意图的识别结果成为一个“独热编码”向量,并将此向量与编码的历史轨迹信息融合,建立一个新的特征向量C(t)作为轨迹预测解码器GRU的输入。
在T时刻,GRU解码器根据当前时刻的融合向量C(t)和上一时刻的隐藏信息hd(T-1),经过GRU解码器中“更新门”对融合信息进行“丢弃”或“保留”,得到解码更新信息Zd(T),再经过“重置门”重置,得到解码重置信息Rd(T),以及候选解码信息,解码过程如下:
式中,WZd、WRd、UZd、URd为GRU解码器中“更新门”和“重置门”中的参数矩阵;、为候选解码隐藏信息的权值矩阵。
GRU解码器经过对融合信息的重置、更新,解码出当前时刻车辆预测的轨迹信息:
最后,为了得到不同时域的车辆预测轨迹,需要将解码的信息经过一层全连接层进行轨迹维度的调整,从而映射出预测的轨迹坐标,其映射过程为:
式中,[X(t1),Y(t1)]为预测的轨迹坐标;fFCd为输出层的全连接网络函数;wFCd为全连接层的权重;bd为偏置向量。
本文采用美国联邦公路局提供的NGSIM(Next Generation Simulation)的US-101 与I-80 高速公路开源数据集,从数据集中提取交互场景。Deo 等[12]定义了车辆换道时间为8 s,韩皓等[13]研究了轨迹预测的最佳历史序列长度为3 s,因此,本文以当前帧被预测车辆的坐标为参考点,分别提取前3 s 轨迹和后5 s 的轨迹,并将前3 s 的轨迹进行驾驶意图标注,用于驾驶意图识别模块的训练与验证。从数据集中共提取到20 543 条左换道、31 747条直行数据、8 491条右换道。为了避免驾驶意图识别模型训练时出现严重的偏向性,将标注的样本均衡化,即从3种标注的类型中各选取8 491组数据,共25 473组数据作为总数据集,按照8∶2的比例随机划分为训练集和测试集,进行预测模型的训练和测试。
为了测试本文提出的基于GraphSAGE 图神经网络的周围车辆驾驶意图识别模型的识别效果,分别选取1 698个左换道、直线行驶、右换道3种驾驶意图历史数据,并与图卷积神经网络(Graph Convolution Network,GCN)识别模型和基于LSTM[5]的驾驶意图识别模型进行了对比,识别效果对比结果如表1所示。
表1 驾驶意图识别效果对比
由表1可以看出:GraphSAGE模型识别的总准确率相较于其他2种算法分别提高了6.20百分点、6.57百分点;在对直线行驶驾驶意图识别中,基于GCN 和LSTM模型的识别准确率均明显小于GraphSAGE 模型的准确率,车辆在行驶过程中存在一定的抖动,导致易将直线驾驶意图误判为换道意图,降低了对直线行驶驾驶意图识别的准确率。通过GraphSAGE 图神经网络对车车交互行为的学习推理,能更好地识别出车辆的驾驶意图,提高意图识别的准确率。
为了评价轨迹预测模型在预测时域5 s 内的优势,选择均方根误差(Root Mean Square Error,RMSE)Erms进行评价:
式中,n为预测轨迹坐标的总数量;xi、yi分别为横向坐标和纵向坐标的真实值;、分别为横向坐标和纵向坐标的预测值。
对比未考虑驾驶意图的GRU模型和未考虑驾驶意图的LSTM模型,各轨迹预测模型的均方根误差结果如表2所示。
表2 均方根误差
从表2中可以看出,本文所建立的考虑驾驶意图的GRU 编码-解码的轨迹预测模型在长短时域内对车辆未来的运动轨迹预测的准确度最高,随着预测时域的增加,虽然车辆未来运动的不确定性增加,预测误差随之增大,但本文的模型的均方根误差增加缓慢,说明考虑车辆的驾驶意图能够增加预测模型的语义信息,从而提高车辆轨迹的预测精度。
被预测车辆换道时,在车辆到达车道线前,越早识别出车辆的驾驶意图和预测出未来的轨迹,越有利于车辆的决策。从测试集中选择一段向左换道的车辆行驶数据进行驾驶意图识别和轨迹预测,输入的历史时域为3 s,预测时域为5 s。图6 所示为车辆在达到车道线的过程中,实时输出的3类驾驶意图的概率。图7所示为车辆在距离车道线2 s、1 s、0 s 时距时,预测出未来5 s的轨迹。
图6 驾驶意图识别结果
图7 轨迹预测结果
从图6 中可以看出,在距离车道线2.5 s 时距时,车辆开始进行左换道,但是左换道驾驶意图不明显,此时模型识别出的左换道概率较低,随着车辆接近车道线,识别出的左换道驾驶意图概率逐渐增高,在距离车道线2 s 时距时,识别出的左换道意图概率已经超过了直线行驶概率,将其判断为左换道意图,在到达车道线时,识别出的左换道驾驶意图概率为100%,说明基于Graph⁃SAGE 网络的驾驶意图识别模型能够准确识别出车辆的意图。
从图7中可以看出,在距离车道线2 s时距时,车辆已经向左偏移,但是对于左换道轨迹编码的信息较少,使预测的轨迹误差较大。随着提前预测时间的缩短,车辆越靠近车道线,车辆换道的运动轨迹信息越多,预测出的换道轨迹也更加精确。同时,相比其他2种模型的轨迹预测效果,增加车辆的驾驶意图信息,能够有效提高轨迹的预测精度。
本文提出了基于GraphSAGE-GRU 周围车辆驾驶意图识别及轨迹预测模型,分析了高速环境下被预测车辆与其周围车辆的相对位置关系,构建了车辆之间交互博弈的动态时空图,采用GraphSAGE 图神经网络对其推理,识别出车辆意图为左换道、直线行驶、右换道的概率,运用GRU 网络对车辆历史轨迹进行编码-解码,充分挖掘车辆历史轨迹中的运动信息,并融入驾驶意图信息,使其输出更为合理的预测轨迹,并在NGSIM自然驾驶数据集上进行了验证。试验结果表明,该模型能更好地推理车-车之间的交互关系,理解周围车辆的驾驶意图,提高自动驾驶车辆对周围车辆的态势认知能力,并且考虑对周围车辆驾驶行为认知的车辆轨迹预测模型能够提高预测轨迹的精度和合理性。
本文模型是基于高速汇流场景数据进行训练的,未考虑如十字路口等存在转弯等驾驶意图,同时,车辆的运动轨迹也受到交通环境中道路结构、交通流等的影响,因此后续研究中将考虑更多的驾驶意图以及将道路结构、交通流信息融入到模型中,得到更为精确的驾驶意图和更合理的预测轨迹。