人机混驾环境下基于深度学习的车辆切入*

2022-03-01 07:17郭景华何智飞罗禹贡李克强

汽车工程 2022年2期

郭景华，何智飞，罗禹贡，李克强

（1. 厦门大学航空航天学院，厦门 361005；2. 清华大学车辆与运载学院，北京 100084）

前言

当今，国内外掀起了一股自动驾驶汽车的发展浪潮，无论是传统车企还是互联网公司，都把目光聚焦于自动驾驶领域。美国勒克斯研究公司的一项报告显示，预计到2030年全球范围内将售出1.2 亿辆自动驾驶汽车，这表明在未来很长一段时间内，自动驾驶车辆将长期在人工驾驶车辆与自动驾驶车辆混合的交通环境下运行。人机混驾环境下，由于人工驾驶车辆驾驶人的驾驶风格的差异与人类意图的不确定性，无人驾驶车辆难以准确地预测人工驾驶车辆的行为，从而造成交通系统安全隐患的存在。据一项调查显示，90%以上的车祸是由人为错误造成的，而变道一直被认为是造成交通事故的主要因素之一。如果能够准确预测周围车辆的切入轨迹便可以提前规划安全的行驶路径，从而有效减少交通事故的发生。

近年来主流的轨迹预测方法是基于数据驱动的轨迹预测。Schreier 等提出了一种基于动态贝叶斯网络的长期轨迹预测方法。Laugier 等使用隐马尔可夫模型和高斯过程进行短期预测。Wiest等提出了一种基于高斯混合模型的概率轨迹预测方法。这些预测模型属于经典机器学习范畴，它们有着一些难以克服的缺点，模型非常杂，容易受到外部环境的影响，较长时域的轨迹预测精度较低，预测效果有待提升。

随着人工智能的快速发展，基于深度学习的轨迹预测方法被广泛使用并取得较好的效果。长短期记忆（LSTM）网络作为循环神经网络的一类，对于时间序列问题的处理非常有效，因此被广泛用于轨迹预测。Xing等提出了一种基于LSTM 的个性化联合时间序列建模方法来预测联网车辆的轨迹。Messaoud等基于LSTM 的编码器解码器框架提出了一种采用多注意力头机制来强调相邻车辆的作用以提高轨迹的预测精度。Xie 等提出了一种结合了卷积神经网络和LSTM 网络的模型进行轨迹预测。然而，目前关于邻车切入场景下的研究较少，且多数集中在意图预测。且现有研究大多数使用国外的公开数据集，针对我国自然驾驶数据集相关的研究并不多，不同地域的交通状况可能造成预测结果的差异。

综上所述，本文中以车辆切入轨迹为研究对象，提出了基于深度学习的改进型Bi-LSTM轨迹预测模型。采用符合我国道路状况的自然驾驶数据集来进行训练和测试，该数据集包含了国内多个省市的人工驾驶车辆行驶数据，有助于人机混驾环境下对车辆轨迹的研究。首先，对采集的大规模数据集进行预处理，使用Savitzky-Golay 滤波器平滑数据集噪声，并根据准则提取车辆切入片段，建立车辆切入数据集。其次，考虑车辆的相互作用以提高模型的预测效果，提出改进型Bi-LSTM轨迹预测模型。最后，分别在自然驾驶数据集和NGSIM 数据集上进行试验，与其它模型进行对比，验证了所提出预测模型的有效性。

1 车辆切入数据集的建立

1.1 自然驾驶数据

本文中采用的数据集为“中国汽研自然驾驶数据研究（CAERI-NDS）”项目采集的自然驾驶数据。该项目在国内多个省市进行了大规模的驾驶数据采集，自2017年年底到现在已累计采集10 万km 级的自然驾驶数据。试验车配置的数据采集设备有摄像机、毫米波雷达和GPS 等传感器，可以获取到自车行驶数据、周围目标车辆信息等，采样频率为25 Hz。自车行驶数据由车辆的CAN总线获取，包括自车的速度、加速度、转向盘转角等；周围目标车辆的信息由摄像头、雷达等采集，包括目标车辆的速度、加速度和与自车的间距等。

1.2 数据预处理

为了降低后续的运算成本，首先对试验数据进行降采样，采样频率降低一倍。驾驶数据在采集的过程中难免会受到一些特殊因素的影响，如光环境条件的影响和设备条件的影响等。这些因素可能会导致采集数据的不完整或不准确，从而对试验造成不可预测的后果。所以在利用数据之前，必须对数据集中存在的缺失值和噪声等问题进行加工处理。

由于车辆轨迹具有时间特性，所以结合最近邻填补法和插值法对缺失值进行填补。针对驾驶数据集中存在的噪声，对其进行滤波处理。Savitzky-Golay 滤波器是一种在时域内基于多项式最小二乘法拟合的方法，在滤波的同时可确保信号的形状和宽度不变，被广泛应用于数据的平滑去噪。本文中采用Savitzky-Golay 滤波器对自然驾驶数据的噪声进行滤波处理，其表达式为

式中：()为处理后的数据，= -，…，0，…，；为总的误差平方和；()为未经处理的数据；≤2；= 0，1，2，…，。

图1 所示为数据集中车辆的速度和加速度滤波前后的效果。可以看出过滤之后的数据变得更加的平滑。

图1 滤波效果

1.3 车辆切入场景片段提取

车辆的切入时机和切入速度等受目标车道上车辆（主车）的影响。车辆切入场景主要包含主车道上的一个主车和相邻车道上想要切入主车道的一个目标车辆。图2 所示为人机混驾环境下车辆切入场景示意图，黄色AV 表示主车道上的无人驾驶车辆，蓝色HV 表示可能切入主车道的人工驾驶车辆；此时，蓝色HV 未来轨迹的不确定性可能使黄色AV 生成错误的决策，造成车辆碰撞。

图2 人机混驾环境下车辆切入场景

基于上述定义的切入场景，从自然驾驶数据集中提取符合条件的切入场景片段相关数据。首先定义坐标系以确定切入目标车辆和主车的位置，以主车辆所在车道的中心线为基准作纵轴，以垂直于纵轴的方向作横轴，过历史观测序列中第一个时间步主车所在轨迹点作垂线垂直车道中心线，以垂点为坐标系的原点，以沿车辆前进的方向为纵轴正方向。以面向车辆前进方向的左侧为横轴的正方向。通过采集数据可先确定主车的坐标，之后再根据主车与目标车辆的相对距离确定目标切入车辆的坐标位置。建立的坐标系如图3所示。

图3 轨迹片段坐标系

Deo 等提出车辆变道包括准备阶段和稳定阶段，若车辆在时刻处于换道点，定义时间区间±4 s上的轨迹为变道状态；受此启发，并设定若提取轨迹片段最后一个时间节点落入时间区间±3.2 s 内，则该轨迹片段记为切入场景片段。选取每7.2 s 的切入轨迹片段作为一个训练样本，其中将前4 s的数据作为历史轨迹数据，后3.2 s的数据作为未来轨迹数据，样本的一个时间步长为0.08 s。根据所建立的坐标系提取切入场景片段，提取准则如下。

（1）计算每个时间步的车辆位移，舍去一个时间步内位移大于3 m 的车辆轨迹；由于研究的是切入场景，并重点关注车辆的横向位移，故舍去一个时间步内横向位移大于0.2 m的车辆轨迹。

（2）根据历史轨迹信息预测未来轨迹需要足够长度的轨迹片段信息，在此舍去持续时间不足10 s的轨迹片段。

（3）求出切入车辆轨迹和车道线的交点，将其定为切入点，然后沿时间轴方向采样40 个时间步，沿时间轴反方向采样129 个时间步（至少要满足50 个时间步，以符合切入场景片段的定义），将这个时段的车辆轨迹定为一个切入场景片段。

1.4 车辆切入数据集

由上述的切入场景片段提取准则，共提取了543 个场景片段。采用滑动时窗的方法提取指定长度的序列，以最大限度地利用所提供的数据。设定滑动时间窗口为0.4 s，从每个片段第一个时间点开始，每次更新时向后滑动5 个采样点。设截取序列的长度为，即每次滑动提取的序列都有-5个采样点的信息，提取示意图如图4 所示。采用上述方法对所有轨迹进行轨迹片段的提取，取90，即每个序列包含90个轨迹点。从切入场景片段中筛选出7092 个样本序列，同时从自然驾驶数据集中筛选了4321 个车道保持的样本序列。从切入场景类型数据集中随机选取4321 个序列，使两者数量比为1∶1。将这共8642 个序列作为整个数据集，并用z-score方法对其进行归一化：

图4 序列提取

式中：为归一化之前的原始数据；ˉ为原始数据的均值；为原始数据的标准差；x为归一化之后的数据。

在试验中，共选择了11 个特征作为输入，同时选择在预测目标车辆轨迹点的纵向和横向坐标共2 个特征作为输出。将上述经归一化处理后的样本序列作为整个数据集，为了方便观察训练过程，按8∶1∶1 的比例将数据集划分为训练集、验证集和测试集。

2 切入轨迹预测模型

2.1 输入特征

车辆切入轨迹预测模型的输入特征的选取对于预测的准确性来说是至关重要的。对于目标车辆的短期未来轨迹预测而言，它的历史轨迹特别是靠近当前时间点的部分具有更有效的信息特征。另一方面，车辆之间存在相互作用，周围车辆的行为也会对目标车辆的未来运动轨迹造成影响。因此，选取的输入特征包含以下两个部分。

（1）目标车辆的信息：目标车辆的纵向坐标、横向坐标、速度和加速度，车辆相对于自车的方向角和方向角速度。

（2）相互作用的信息：目标车辆与自车的相对纵向距离、相对横向距离、相对纵向速度、相对横向速度、相对纵向加速度。

因此，输入特征的信息可表示为

其中

式中：t为观测历史序列的时间长度，为4 s；T为目标车辆的信息；I为目标车辆与自车相互作用的信息；x、y分别为目标车辆的纵向坐标和横向坐标；v为目标车辆的速度；a为目标车辆的加速度；θ和˙分别为目标车辆相对于自车的方向角和方向角速度；Δx和Δy分别为目标车辆与自车的相对纵向距离和横向距离；Δv和Δv分别为目标车辆与自车的相对纵向速度和相对横向速度；Δa为目标车辆与自车的相对纵向加速度。

2.2 LSTM 模型结构

循环神经网络（recurrent neural network，RNN）是重要神经网络模型之一，它常被用来处理有关时序的数据。长短期记忆网络（long short term memory，LSTM）是RNN 的一个改进模型，它早在1997年就被提出来了，主要是用来弥补RNN 无法处理长期依赖问题的缺陷。因此LSTM 较RNN 在实际应用场合中有着更多的应用。LSTM 引入门控机制来约束信息的流动以此来保留有用的关联信息。细胞状态是LSTM 的关键，它代表着某个时刻存储的信息，表示细胞状态的这条线水平穿过单元的顶部。一个LSTM 单元主要由输入门、遗忘门和输出门这3个门控单元组成：输入门决定要添加哪些信息；遗忘门决定丢弃和保留哪些历史信息；输出门决定要输出信息的哪些部分。LSTM 的单元结构如图5所示。

图5 LSTM单元结构

LSTM具体的数学表达式为

2.3 改进型Bi-LSTM 模型

单向LSTM 根据前面多个时刻的输入来预测下一刻的输出，但很多情况下预测需要由前面的若干个时刻输入和后面若干个时刻输入共同来决定。双向长短期记忆（bi-directional long short term memory，Bi-LSTM）在LSTM 模型的基础上添加一个LSTM 反向层，把前向和反向的隐藏层向量拼接（concat）起来，它最后的输出是前向层和反向层在每个时刻的综合输出。因此它可以充分利用上下文的信息，来提高时间序列预测结果的准确性。其网络结构如图6所示。

图6 LSTM单元结构图

Bi-LSTM模型输出的数学表达式可表达为

式中：y为时刻的输出；h 为前向层LSTM 在时刻的输出；h为反向层LSTM在时刻的输出。虽然LSTM 能克服RNN 存在的梯度消失的问题，但是在深层网络中梯度消失仍然存在。在神经网络能收敛的前提下，随着网络深度的增加，会出现一种退化问题，也就是当网络变得越来越深时，训练的准确率会趋于平缓，但训练误差会变大。为了解决这种退化的现象，残差网络（residual network，ResNet）被提出。受ResNet 的启发，引入快捷连接，将输入层的信息通过1 层全连接层传输到后续层，以此来减少梯度消失和网络退化的问题。

最终的改进型LSTM 车辆切入轨迹预测模型主要由4 个部分组成：输入层、Bi-LSTM 层、全连接层和输出层。历史轨迹输入信息由输入层输入，通过Bi-LSTM 层进行预测获得预测结果，再把预测结果结合从输入层通过1 层全连接层直接传输的信息结合起来，经过RELU 激活函数变换，最后通过1 层全连接层进行线性映射，由输出层获得输出结果，将输出结果反归一化后获得预测位置坐标。

Bi-LSTM 层数为3，Dropout 率设为0.3，每层隐藏单元数为256。训练采用Adam 优化器，学习率设为0.001。模型如图7 所示，RELU 是常用的激活函数。

图7 改进型Bi-LSTM网络

模型输出的表达式可表达为

式中：为当前时刻；t为预测未来序列的时间长度；x、y分别为时刻目标车辆的纵向坐标和横向坐标。

3 验证与分析

3.1 试验设置

本文采用平均位移误差（average displacement error，ADE）和最终位移误差（final displacement error，FDE）来评价轨迹预测模型。ADE 表示预测窗口中所有预测位置与实际位置的平均欧式距离（mean euclidean distance，MED），FDE 表示预测轨迹末端的最终预测位置与对应的真实位置之间的平均欧式距离。ADE 和FDE 的值越小，预测效果越好。公式为

为了验证本文提出的预测模型的效果，使用4种网络与其进行对比，比较各个模型的性能。

（1）LSTM：采用长短期记忆网络进行轨迹预测。

（2）门控循环单元（gated recurrent unit，GRU）：RNN 的变种，是为了解决长期记忆和反向传播中的梯度等问题而提出来的，从结构上来说，GRU 只有两个门（update gate 和reset gate），它的表现类似于LSTM。GRU的参数更少，计算成本更低。

（3）Bi-LSTM：双向LSTM网络。

（4）Bi-GRU：双向GRU网络。

（5）改进型Bi-LSTM：即本文所提出的方法。

通过对比上述几种模型，来验证所提出模型的有效性。设置相同的超参数以便进行对比，如表1所示。

表1 超参数

3.2 模型训练及对比

采用1.4 节获得数据集进行试验验证。利用训练集训练模型，利用验证集观察训练过程，最后在测试集上对模型进行评估。

损失函数采用均方误差（mean squared error，MSE）函数。使用ReduceLROnPlateau 方法来调整学习率。当模型训练过程中的验证损失值连续20 个epoch 都没有降低时，就将学习率调整为原先的10%，直至学习率低于10时模型停止训练。用50个时间步长的历史数据来预测未来40 个时间步长的位置。图8 显示了各模型在训练过程中的损失变化趋势。由300 个epoch 训练可得：改进型Bi-LSTM收敛速度最快且训练损失值最低。在最初的100 个epoch 中，各模型的训练损失值迅速下降，之后进入缓慢收敛阶段。

图8 各模型在训练过程中的损失变化

验证结果如表2 所示。对比评价指标可知，GRU 和Bi-GRU 模型的表现最差，LSTM 和Bi-LSTM模型次之，这表明了LSTM 模型的预测效果比GRU模型更好；双向模型的评价指标总体小于单向模型，这表明了双向模型具有更好的预测效果；改进型Bi-LSTM的ADE值和FDE值最小，其中ADE值低于1 m，预测效果最佳。

表2 各模型的评价指标

为进一步验证本文模型对最终车辆位置的预测能力，绘制了不同时域范围内车辆FDE 的对比图，如图9所示。

图9 各模型不同预测时域FDE值对比

由图可见：各模型的FDE 值随预测时域延长而增大，这表明预测时域越长，车辆的最终位置偏差越大；改进型Bi-LSTM 的FDE 值在全时域范围内都小于其他模型，且在3.2 s处的FDE值不到2 m，比其他模型在0.8 s 处的FDE 值还要低，这表明改进型Bi-LSTM对车辆位置的预测能力最好。

为了更直观地了解切入轨迹预测效果，本文中分别对比了各模型在向左切入和向右切入两个场景下的预测轨迹，如图10所示。

从图10 可以看出，对于切入轨迹的预测结果而言，预测轨迹的质量因模型而异。在两种切入情况下，改进型Bi-LSTM与真实轨迹最为贴合，这表明本文提出的改进型Bi-LSTM能得到比其他模型更加精准的轨迹。

图10 切入轨迹预测

3.3 NGSIM 数据集验证

为了测试所提出模型的鲁棒性能，本文中还采用美国联邦公路管理局NGSIM 项目的车辆轨迹数据，选取其中的US-101 数据集进行对比试验。US101 是加利福尼亚州洛杉矶的好莱坞高速公路，检测路段的数据通过高空摄像机采集获取，采样频率为10 Hz，数据集提供了车辆的速度、加速度、位置坐标、车道信息等。从数据集中提取换道轨迹片段和车道保持片段生成试验数据集，按8∶1∶1 的比例拆分为训练集、验证集和测试集。模型训练之后采用测试集验证，验证结果见表3、图11 和图12。

由表3 可得，改进型Bi-LSTM 的ADE 值和FDE值分别为1.366和2.318 m，表明改进型Bi-LSTM 同样具有最小的ADE值和FDE值。从图11可以看出，在全时域范围内，NGSIM 数据集的FDE 值和自然驾驶数据集的FDE 值上升趋势相同，改进型Bi-LSTM的FDE值仍然小于其他模型。

图11 各模型不同预测时域内FDE的对比

表3 各模型的评价指标

从图12 可以看出，改进型Bi-LSTM 的预测结果与真实轨迹的重合度最高，在所有模型中表现最好。

图12 切入轨迹预测

综上可知，本文所提出的改进型Bi-LSTM 能较好地适应数据集差异所带来的影响，在NGSIM 数据集上同样具有优势，具有较好的鲁棒性。

4 结论

本文中设计了车辆切入场景提取准则，从自然驾驶数据中提取出符合条件的车辆切入场景片段，采用滑动时窗的方法从上述提取出的切入场景片段进行筛选并生成数据集，利用此数据集对所提出的模型进行训练和测试。考虑了自车对前方切入车辆未来状态的影响，结合Bi-LSTM 网络善于学习利用上下文信息的优点和in-out 快捷连接有效减少梯度消失和网络退化的能力，提出了一种人机混驾环境下基于深度学习的改进型Bi-LSTM模型来预测车辆的切入轨迹的方法。通过试验结果的对比分析，可证明所提出的方法大幅改善了对切入车辆轨迹的预测效果，具有较高的应用价值。