高速动态交通场景下自动驾驶车辆换道意图识别模型研究*

2023-04-27 07:48张新锋王万宝柳欢赵娟
汽车技术 2023年4期
关键词:预判意图残差

张新锋 王万宝 柳欢 赵娟

(1.长安大学,汽车运输安全保障技术交通行业重点实验室,西安 710064;2.长安大学,汽车学院,西安 710064)

主题词:换道意图识别 自动驾驶 长短期记忆网络 注意力机制 交互信息

1 前言

据统计,人为驾驶失误是大多数交通事故的主要原因之一,其中18%的交通事故发生在换道过程中[1]。自动驾驶车辆准确、高效地识别出周围车辆的换道意图,可以帮助车辆作出合理决策,大幅降低交通事故发生的风险。

针对自动驾驶车辆换道意图识别,已有大量研究。如Schreier 等[2]提出利用因果和诊断证据在贝叶斯网络中对车辆的行为进行建模,但无法考虑车辆动态变化,导致识别性能不佳。Gindele 等[3]利用动态贝叶斯网络对车辆的驾驶意图进行建模,但需要大量的参数设置和模型假设;Kumar 等[4]提出基于支持向量机和贝叶斯滤波的换道意图预测方法,但仅利用车辆当前状态,无法充分利用驾驶数据的时间特征;Li 等[5]提出隐马尔可夫模型和贝叶斯滤波结合的算法,将驾驶行为分解为各种子行为,以提高识别性能,但忽略了时间序列信息之间的联系。因此,传统机器学习方法无法充分利用历史时序信息,忽略了车辆前、后时刻信息的关联性,导致在长时域范围内的识别性能受限。

近年来,许多学者将深度学习应用于车辆换道意图识别研究。如Zyner 等[6]利用长短时记忆(Long Short-Term Memory,LSTM)网络预测车辆在十字路口的驾驶意图,但未考虑周围车辆信息,导致精度受限;Tang等[7]将经典的单层LSTM 扩展到多层LSTM,以增加模型的非线性成分,提高算法的鲁棒性,但仅利用LSTM 提取车辆交互信息;宋晓琳等[8]通过构造收益函数来描述目标车辆不同驾驶行为的收益,对车辆间的交互行为进行建模,将收益输入LSTM 网络,得到较高的识别精度。与传统机器学习相比,深度学习方法能够更加准确地描述复杂的驾驶行为,在识别精度上更具优势[9]。

在高速动态复杂的交通场景中,车辆之间有较强的交互关系。现有研究大多仅关注目标车辆自身的状态信息,导致精度和预判能力受到限制。因此,本文利用目标车辆的运动状态信息以及与周围车辆之间的时空交互信息,引入注意力机制,基于卷积神经网络和长短时记忆网络理论,提出基于融合注意力机制的卷积残差双向长短时记忆(CNN Residual BiLSTM Attention,CRBiLSTMA)车辆换道意图识别模型。

2 CRBiLSTMA车辆换道意图识别模型

2.1 残差双向长短时记忆网络结构

2.1.1 LSTM网络结构

车辆换道意图识别属于典型的时序分类问题,而LSTM 是一种特殊的循环神经网络,能够解决长时间序列训练中的梯度消失和爆炸问题,因此LSTM网络在该应用中具有良好的性能。单个LSTM单元结构如图1所示。

图1 LSTM单元结构

LSTM单元的计算公式如下:

式中,It为输入门;Ot为输出门;Ft为遗忘门;σ为Sigmoid非线性激活函数;Wi、Wo、Wf、Wc和bi、bo、bf、bc分别为各部分的权重矩阵和偏置项;xt为t时刻的输入;Ht为t时刻的隐藏状态;Ct为t时刻的记忆细胞,其作用是保留长期信息;为当前时间步的候选记忆细胞;tanh 为双曲正切非线性激活函数;⊙为哈达玛(Hadamard)乘积。

2.1.2 多层双向长短时记忆网络结构

为了使模型学习到更多深层的信息,将单层LSTM网络堆叠形成多层LSTM网络。与传统的单层LSTM网络相比,多层LSTM 网络结构可以显著增加非线性分量,从而提高模型的泛化能力和鲁棒性。双向长短时记忆(Bi-directional Long Short-Term Memory,BiLSTM)网络由2个LSTM子层组成:前向LSTM(FW LSTM)层和反向LSTM(BW LSTM)层。与LSTM 不同,BiLSTM 网络具有双向特性,因此可以通过FW LSTM和BW LSTM相结合充分考虑时序信息,将前、后信息双向传递,有助于解决长期依赖性问题并提高预测精度。BiLSTM单元的最终输出为:

2.1.3 残差连接

多层BiLSTM网络的深化和复杂性的增加容易导致梯度消失问题,使得学习效率降低,模型精度提升微弱[10]。受到残差神经网络(Residual Network)的启发,为了解决优化瓶颈问题,将残差连接引入模型,得到残差双向长短时记忆(Residual BiLSTM)模型,如图2所示。

图2 残差BiLSTM车辆换道意图识别模型

2.2 注意力机制

在处理时间序列问题时,可通过注意力机制[11]对不同时刻的序列数据赋予不同的权重。在根据车辆历史轨迹和交互信息进行意图识别时,不同时刻的轨迹数据信息重要程度不同,通过注意力机制调整权重,可以使模型更好地提取到重要的深层换道特征。因此将注意力机制引入本文的卷积残差BiLSTM模型中。注意力机制原理如图3所示,其中softmax为激活函数。

图3 注意力机制原理

注意力机制计算可以分为3 个步骤,即信息输入、计算注意力权重系数α、根据α计算输入信息的加权平均值:

a.信息输入:X=(x1,x2,…,xT)为数量为T的输入信息;

式中,Wv、Wk、Wq为权重系数矩阵;q为输入序列中与换道意图识别相关的查询向量。

c.信息加权平均:注意力权重系数αi表示相对于查询向量q的第i个信息受关注程度,将其与v进行加权求和,可以得到注意力层输出:

2.3 CRBiLSTMA车辆换道意图识别模型

本文基于循环神经网络构建了一种CRBiLSTMA车辆换道意图识别模型,其结构如图4所示。

图4 CRBiLSTMA车辆换道意图识别模型

该模型由输入层、卷积层、残差BiLSTM 层、注意力层、softmax层和输出层组成。特征信息较多时,输入的轨迹数据尺寸较大,可能会导致模型训练过慢以及准确率下降,而卷积神经网络具有局部连接和权值共享的特点,能够实现对高维数据的处理并提取车辆之间深层的时空交互信息;基于LSTM网络对处理时序数据分类问题的优势,选取LSTM网络对车辆的历史轨迹和交互信息进行换道意图预测;针对深层BiLSTM 模型的优化瓶颈问题,引入残差神经网络的残差连接来解决;在卷积残差BiLSTM模型的基础上引入注意力机制来优化该模型,调整不同时刻多层BiLSTM网络输出的权重,使模型从不同时刻的数据中更好地提取到换道特征。最后将注意力层的输出利用softmax层,将多个神经元的输出映射到(0,1)区间,视为不同换道意图的概率分布,将概率最大的换道行为作为模型的意图识别结果。

3 换道意图特征参数选择

现有研究的换道意图主要根据目标车辆的历史轨迹信息提取换道特征。当车辆尚未表现出关键的典型换道特征时,例如,车辆还未穿过车道线,仅使用目标车辆本身的运动信息不足以预测车辆的未来换道意图。因此,除了目标车辆本身的信息外,还应考虑目标车辆周围车辆的信息,通过对车辆间的时空交互信息,提取深层的换道特征,来提前预测目标车辆的换道意图。

在高速动态复杂的交通场景中,为了使模型更好地理解车辆的交互作用,提取车辆之间深层的时空交互信息,输入信息[12]应包括目标车辆本身及周围车辆的信息,输入信息可表示为:

式中,E(t)为目标车辆在t时刻的信息;H(t)为周围车辆在t时刻的信息;Tp为历史时域,即输入车辆轨迹序列的长度。

设目标车辆在t时刻的状态信息集合为:

目标车辆与周围车辆的位置关系如图5所示。

图5 目标车辆及其周围车辆位置示意

设周围车辆集合为:

周围车辆的位置信息和速度信息可表示为:

假设目标车辆的周围车辆数量为m,实际行驶中会出现某个位置不存在车辆的情况,因此m≤6。若周围某个位置(相对于目标车辆的正前、正后、左前、左后、右前、右后)的车辆不存在,则根据该车相对于目标车辆的位置,将该位置车辆信息设置为,其中,d为车道宽度。

4 试验与结果分析

4.1 数据集

为了验证2.3 节所提出的CRBiLSTMA 车辆换道意图模型在高速动态复杂交通场景中的车辆换道意图识别性能,这里选取NGSIM数据集[13]中的高速公路数据作为分析数据集。根据研究需求,选取其中的US-101 和I-80高速公路路段车辆轨迹数据集,每个数据集记录了车辆位置、GPS 坐标、速度、车辆类型等信息,采样周期为10 Hz。研究区域路段结构如图6所示。

图6 I-80和US-101研究路段

4.2 数据预处理

NGSIM 数据集的轨迹数据存在一定的误差和噪声,如US-101路段车辆2的加速度与时间的关系,如图7 所示。从图7 中可以发现:车辆在较短的时间内频繁出现急加速和急减速相互切换的情况[14],这是不符合实际的;此外,根据统计发现数据集中还存在8.99%的数据具有超过±3 m/s2的异常加速度现象。

图7 US-101路段车辆2加速度-时间关系

为了避免车辆运动信息中的误差和噪声对试验结果的影响,可以采用Savitzky-Golay 滤波器[15]对其进行平滑处理,计算流程如下:

设一个窗口内待拟合的数据组为x[i],i=-m,…0,…m,i的取值为(2m+1)个连续的整数值,构造一个n阶多项式(n≤2m+1)来拟合数据:

式中,bnk为系数。

拟合数据点与原数据点的残差平方和为:

使用最小二乘法,要使拟合效果最好,则残差平方和应E最小,令E对该多项式的系数bnk求偏导等于0:

式中,r=0,1,…,n。

当需要拟合的点数量m、多项式的阶次n、待拟合的数据x[i]已知时,即可确定该多项式。

这里采用3 阶Savitzky-Golay 滤波器,窗口长度为21,以US-101路段中车辆2的加速度为例,滤波器平滑前、后的车辆加速度对比如图8所示。由图8可以看出,滤波后的加速度数据平滑性更显著,能够为模型提供更符合实际的高速公路车辆行驶测试数据。

图8 车辆加速度滤波结果

4.3 数据提取与标注

将从数据集中提取的轨迹片段分为车道保持、左换道和右换道3类,并添加相应的标注[16]。轨迹提取划分过程如下:

a.确定换道点和航向角。如图9所示,从车辆的一段左换道轨迹中求取车辆在换道过程中与车道线的交点B,定义为换道点。设车辆位置为(x,y),则车辆在前进方向上每个时刻的航向角为:

图9 车辆左换道序列标注示意

b.确定换道过程点。换道点确定后,即可通过车辆的航向角θ确定换道过程的起点和终点。沿着换道点向前、后两侧遍历所有时刻的车辆航向角θ。如果|θ|≤θs(θs为车道变换的起始航向角阈值)连续5次(目的是减少由数据噪声引起的模型误判),则将第1 次达到阈值θs的位置向前1 s(目的是更早识别出车辆的换道意图)获得的点A定义为换道起点,同理,如果|θ|≤θe(θe为车道变换的结束航向角阈值)连续5次,第1次达到阈值θe的点C定义为换道终点。将车辆从换道起点行驶到换道终点之间的位置点定义为换道过程点[17]。

c.轨迹标注。为了充分利用数据,使用滑动窗口提取车辆轨迹数据。选取窗口大小Tp=10,若提取轨迹的最后一个采样点在换道起点A和换道终点C之间,则将该轨迹序列标记为左换道序列0。同理,将右换道序列标记为1;将直线行驶车辆的全部轨迹标注为2。

基于以上方法,本文从数据集中共提取了93 311条标签为0 的左换道序列、36 305 条标签为1 的右换道序列、641 848 条标签为2 的保持直行序列。由于各类样本数据量差别较大,会导致模型识别结果准确率虚高。为了减少由样本比例失衡引起的过拟合问题,各类样本统一随机选取36 305个序列,并按8∶1∶1的比例将数据集划分为训练集、验证集和测试集。

4.4 意图识别模块性能分析

针对车辆换道意图识别问题,常用以下指标进行性能评价:

a.准确率Acc,指分类正确的样本占总样本数量的比例:

式中,STP、STN、SFP、SFN分别为真正例、真负例、假正例、假负例数量。

b.精确率P,指真正例占被预测为正的样本总数的比例:

c.召回率R,指真正例占所有实际为正类样本总数的比例:

d.F1,指精确率P与召回率R的调和平均值:

本文提出的CRBiLSTMA 车辆换道意图识别模型由3 层BiLSTM 堆叠,学习率设置为0.000 1,批量处理尺寸(Batch size)设置为64,各层之间的随机失活(Dropout)设置为0.2,使用交叉熵损失函数(Cross Entropy),采用自适应动量评估(Adam)优化器,输入历史轨迹长度Tp=10。识别算法基于Python3.9.7语言编写,基于Pytorch1.11.0 框架实现。识别结果利用混淆矩阵图来表征,评价指标结果以及混淆矩阵如表1 和图10所示。

表1 模型性能评价

图10 换道意图识别模型混淆矩阵

由表1 和图10 可知,所提出的CRBiLSTMA 模型的总体准确率达到了97.44%,3类驾驶意图的精确率都到达了94%以上,说明意图识别模型能够准确识别车辆的换道行为。左、右换道行为的识别精确率接近,高达98%以上,高于车道保持的识别率,这是因为车辆在实际直线行驶过程中会发生左右晃动。由于车辆晃动,轨迹数据的横向坐标会发生抖动,造成模型容易将保持直行误判为换道行为。而且,左右换道行为的换道特征差别明显,模型将左(右)换道行为误判为右(左)换道的概率较低,从而导致左、右换道行为的识别精确率高于车道保持行为。

为了进一步验证所提出模型的性能,选取LSTM模型、SLSTM 模型、RBiLSTM 模型和CRBiLSTM 模型与本文所提出的CRBiLSTMA 模型进行对比分析,并利用同一测试集进行验证。模型性能对比结果如表2所示。

表2 五种模型性能评价对比

分析表2 可以发现,所提出的CRBiLSTMA 模型的识别准确率高于其他模型,总体准确率达到了97.44%。进一步分析发现:SLSTM 模型与LSTM 模型相比,准确率提高了8.19百分点,说明在车辆意图识别过程中,考虑目标车辆周围的车辆信息时,SLSTM 模型能够对交互进行隐式建模,通过交互感知特征能够明显提高识别准确率;RBiLSTM 模型与SLSTM 模型相比,准确率提高了2.48 百分点,说明BiLSTM 网络可以通过在神经网络中建立双向连接来解决长期依赖问题并提高预测准确率,且引入了残差连接可以解决多层BiLSTM 网络学习效率降低的问题;CRBiLSTM 模型与RBiLSTM 模型相比,准确率提高了0.41 百分点,说明输入层的数据先经过一维卷积神经网络能够提取更深层的信息;CRBiLSTMA 模型与CRBiLSTM 模型相比,准确率提高了0.15百分点,说明通过引入注意力机制调整不同时间帧的数据权重,能够更好地考虑时间序列之间的内在联系。

因此,本文提出的CRBiLSTMA 模型由于引入了残差连接、卷积神经网络和注意力机制,对输入信息的换道特征提取能力更强,具有更高的换道意图识别精度。

然而,对于高速动态自动驾驶车辆而言,必须具有更高的提前预测换道意图的能力,对周围车辆的车道变换意图预判时间有着更高的要求。将车辆从当前位置行驶到车道变换的位置所需要的时间定义为预判时间。高速公路环境下车辆的换道时间一般在3.5~6.0 s范围内,平均持续时间为5.0 s 可以完成一次换道[18-19]。从测试集的换道车辆中挑选预判时间分别为3.0 s,2.5 s,2.0 s,1.5 s,1.0 s,0.5 s 的轨迹序列作为输入,本文所提出的CRBiLSTMA模型在不同预判时间下的识别性能如表3所示。

表3 不同预判时间下模型识别性能评价对比

由表3可知,随着被预测车辆驶向换道点,向左、向右换道意图识别准确率均逐渐提高。当预判时间为2.5 s 时,本文所提出的CRBiLSTMA 模型即可准确识别出换道意图,整体准确率达到90%以上。

进一步对比分析不同预判时间下各模型的识别准确率,结果如图11所示。

图11 不同预判时间的识别结果

由图11 可知,随着被预测车辆驶向换道点,5 种模型的意图识别准确率都逐渐提高。通过SLSTM模型与LSTM模型对比分析可知,在预判时间较长,即车辆换道特征不显著时,考虑目标车辆与周围车辆的交互信息,能够明显提升识别精度。并且随着预判时间的增大,识别准确率的提升也尤为显著。在预判时间为1~3 s 时,本文所提出的CRBiLSTMA模型识别准确率最高,此时,车辆还未穿过车道线,即车辆尚未表现出明显的换道典型特征,表明该模型能够从数据中更早、更准确地提取深层的换道特征,且有更高的识别精度。假设在换道点前、后各占2.5 s时间,本文所提出的模型能够在车辆执行换道动作前作出恰当预判。

5 结束语

本文针对高速动态复杂交通场景下自动驾驶车辆换道意图识别问题,通过注意力机制调整LSTM 不同时刻的权重,并考虑车辆之间的交互性,将目标车辆与周围车辆之间的信息通过CNN 网络进行融合,提出了CRBiLSTMA 车辆换道意图识别模型,基于NGSIM 数据集验证了模型的有效性,并通过LSTM、SLSTM、RBiLSTM、CRBiLSTM 等模型与本文所提出的CRBiLSTMA 模型进行对比分析,结果表明:

a.CRBiLSTMA 模型的整体识别准确率最高,达到97.44%。而且通过对比发现考虑交互信息时,识别准确率能够得到明显提升。

b.CRBiLSTMA 模型由于引入残差连接、卷积神经网络和注意力机制,使得模型提取输入信息的换道特征能力更强,换道意图识别精度更高。

c.随着预判时间的缩短,CRBiLSTMA 模型的意图识别准确率逐渐提高,在预判时间为1~3 s时,模型识别准确率最高,在换道前2.5 s 内即可准确识别车辆换道意图,准确率可达90%以上,具有更好的意图识别和预判能力。

猜你喜欢
预判意图残差
原始意图、对抗主义和非解释主义
基于双向GRU与残差拟合的车辆跟驰建模
陆游诗写意图(国画)
制定法解释与立法意图的反事实检验
2021年下半年集装箱海运市场走势预判
对书业的30个预判
基于残差学习的自适应无人机目标跟踪算法
基于递归残差网络的图像超分辨率重建
整体供大于求 苹果行情预判
平稳自相关过程的残差累积和控制图