基于深度强化学习的智能网联车匝道合并策略

2022-04-02 16:32:19陈广福
电脑知识与技术 2022年33期

陈广福

摘要:针对高速公路智能网联汽车(CAV)匝道合并时的协同决策问题,提出了一种基于近端策略优化(PPO)改进的协作深度强化学习算法(C-PPO)。首先,基于强化学习构建CAV匝道合并场景下的马尔科夫决策过程(MDP)模型,接着设计了一个新颖的协作机制,即在策略更新过程中的多个时期动态考虑匝道附近CAV的策略更新信息,这一过程可以协调地调整优势值以实现匝道合并车辆之间的协作。实验结果表明,与传统的PPO算法相比,C-PPO算法在匝道合并问题中的效果显著优于基于PPO和ACKTR等主流算法。

关键词: 深度强化学习; 智能网联车;匝道合并; 近端策略优化; 马尔科夫决策过程

中图分类号:TP391        文献标识码:A

文章编号:1009-3044(2022)33-0001-03

1 概述

据估计,全球机动车数量已经超过了10亿辆,而这一数字可能会在二十年内翻一番[1]。密集的交通活动会导致各种问题,包括速度故障和交通汇聚段的拥堵等,其中匝道合并场景是高速公路上最具挑战性的场景之一,它涉及车速的调整和变道控制[2]。近年来,一些学者研究了CAV是如何安全有效地通过匝道合并区,并提出了一些CAV的控制策略,可分为传统基于数学模型和基于人工智能强化学习方法两大类。前者主要包含基于规则和基于优化的方法来解决匝道的合并问题[3]。其中基于规则的方法采用启发式和硬编码规则来指导CAV进行驾驶决策。虽然这类方法在某些确定性场景下取得了较好的效果,甚至有些技术已经在大型科技公司实现了商业化[4]。然而,这些方法在面对交通流量较为复杂的匝道合并场景时很快变得不切实际[5]。

在智能交通领域,基于DRL的无人驾驶智能决策是一个新兴领域[6],受到了诸多关注。LIN等[7]设计了一个多目标奖励函数,利用DDPG算法来解决匝道合并问题;EL等[8]将RL算法与驾驶员意图预测结合起来,提高CAV匝道合并的安全性能。但是,这些基于DRL的决策方法局限于单智能车的设计,很少考虑匝道合并过程中智能车之间的协同决策机制。

针对上述存在的不足,提出一种基于DRL的CAVs匝道合并模型。使用改进的PPO算法构建匝道合并场景下的强化学习模型,通过考虑匝道附近其他车辆的策略更新信息,以在CAVs之间协调适应步长来实现匝道合并过程中的协作。最后进行仿真实验,表明所提算法可以取得更高的回报,在保证安全的情况下以更快的速度完成匝道合并,验证了其优越性。

2 方法

2.1 强化学习问题描述

在混合交通场景中基于DRL决策的匝道合并环境建模为一个马尔可夫模型,定义如下:

状态空间定义为[N×F]的维度矩阵,[N]为邻居车辆加上自身的车辆数量,在两车道场景中,相邻车辆包括同车道前后车辆、相邻车道前后车辆。[F]用于表示车辆状态的特征数,其为一个五元组:(是否能观测到车辆,纵向位置,横向位置,纵向速度,横向速度)。

动作空间描述采用五元组(左转、右转、匀速、加速和减速)来描述。

奖励函数从安全性、速度稳定性、时间进度以及匝道合并成本四个维度进行设置:

[ri,t=w1r1+w2r2+w3r3+w4r4]

其中[w1、w2、w3、w4]分別对应前述四个维度的权重,而其四个维度对应的奖励分别[r1、r2、r3、r4]。当发生交通事故时[r1=-1],此外[r1=0]。[r2=min(1,(vt-vmin)/(vmax-vmin))],其中[rt]、[rmin]、[rmax]分别为当前速度、最小速度和最大速度。[r3=loge(d/(thvt))],其中d是距离进展,[th]是预定义的时间进展阈值。[r4=-exp(-(x-L)2/10L)],其中x为CAV在匝道上导航的距离,L为匝道合并区的长度,随着CAV更接近合并端终点,惩罚增加以避免死锁[9]。

2.1 C-PPO算法

C-PPO算法是一种将原始的PPO扩展到多智能体环境中的算法。其关键思想在于,在CAV策略更新过程中,引入匝道附近车辆的策略更新信息以便在多个CAV之间协调适应步长, 这一过程可以协调地调整优势值,进而促使匝道合并附近的车辆实现协同。在基于策略的方法中,适当限制策略更新的步长被证明在单智能体设置中是有效的[10]。在存在多个策略的情况下,每个智能体在调整自己的步长时考虑到其他智能体的更新也很重要[11]。基于这一见解,提出了C-PPO算法,C-PPO算法的基本结构如图1所示。

图1中的环境为汽车(即环境车)和无人驾驶车辆CAV的混合交通场景,C-PPO训练两个独立的神经网络:一个是网络参数为[θA]的Actor行动者网络,另一个是网络参数为[?C]的Critic评论家网络。Critic网络可表示为[V?],执行[S→R]的映射,Actor网络可表示为[πθ],将智能体当前的状态映射到离散动作空间中动作的分类分布,或在连续动作空间中对一个动作进行采样的多元高斯分布的均值和标准差向量,从该分布中采样一个动作。

Actor网络生成策略,Critic网络通过估计优势函数[At]来评估并改进当前策略[π],二者都是根据策略梯度进行优化。其中Critic网络参数[?C]的更新公式为:

[At=yt-V?Cst,at]                     (2)

[L?C=EA2t]                     (3)

Actor网络参数[θA]更新公式为:

[LCLIP(θi)=Εa~πold{min[(j≠irj)ri(θ)Ai,clip((j≠irj)ri(θ),1-ε,1+ε)Ai]}]            (4)

其中,[yt=rt+γV?C(st+1,πθA(st+1))]             (5)

[ri(θ)=πθat|stπθoldat|st]                      (6) 式中的[yt]是由贝尔曼方程计算得出的目标价值,[V?C(st,at)]表示一个智能体的Critic网络的输出值,[γ]为衰减系数,[ε]为超参数,[ri(θ)]为概率比,[θi]是第[i]个智能体策略的参数,[Ai]则为第[i]个智能体的优势函数。

算法中每个智能体都有两个结构相同的[Actor]行动者网络,其中一个[πθAold(at|st)]用于收集数据,另一个用于生成待优化的策略[πθA(at|st)],新策略通过重要性抽样来估计。在存在多个智能体的情况下,每个智能体在调整自己的步长时考虑到周围其他智能体的更新,协调地调整优势值来直接协调智能体的策略,C-PPO核心优化公式为(4),该损失函数限制了[πθA(at|st)]的更新幅度,确保新旧策略之间的偏离程度不会太大。其中[clip(·)]截断函数可以防止联合概率比超过[[1-ε,1+ε]],从而近似地限制了联合策略的变异散度。

3 实验分析

3.1 实验环境和数据集设置

本文实验环境是在基于Gym构建的highway-env[12]环境上进行修改构建的匝道合并仿真环境,使用PyTorch构建Actor网络和Critic网络。主道路长度为520m,合并车道入口为320m,合并车道长度L为100m,在道路上将随机出现1~3辆环境车以及CAV。

将C-PPO与两种主流的RL算法进行了比较,这两种对比算法分别由单智能体算法PPO、ACKTR扩展到多智能体环境中,将其分别表示为MAPPO以及MAACKTR。从平均奖励值、平均速度、安全性三个方面进行评价。实验中C-PPO算法使用的Actor和Critic网络都是由多层神经网络构建,Actor和Critic网络的隐藏层均使用了Softmax函数。

3.2 实验结果与分析

分别使用三种算法训练环境中的CAV来进行匝道合并,场景进行10000回合的训练,每回合步长100步,共100万步。由图2可以看出,在经过100万步的训练后, C-PPO算法能够收敛到比MAPPO以及MAACKTR算法更高的平均奖励值,说明这三种算法中,有协作的C-PPO算法能够取得更好的性能,获得更高的奖励回报。

图3、图4分别表示在匝道合并过程中,CAV的平均速度以及每个回合能否安全完成匝道合并任务。图3显示MAACKTR算法控制下的车辆能够具有更高的速度,但是结合图4可知,在一个回合中,MAACKTR算法并没有走完一个回合中的100步,即在该匝道合并过程中出现了交通事故,例如碰撞等导致提前结束该回合,这也是导致其平均奖励较低的原因。而C-PPO算法在早期会出现提前结束回合的情况,这是因为车辆在初步阶段还处于探索学习过程,与环境交互进行试错,大概1000回合后,C-PPO算法都能完整跑完一个回合,保证其安全性,匝道合并成功率稳定且高于其余两种算法,其平均速度也快于MAPPO算法。故C-PPO算法能够在安全的前提下以较快的速度完成匝道合并,具有更好的性能。

4 结论

本文提出了一种适用于高速公路环境下CAVs匝道合并的协作深度强化学习算法C-PPO。首先构建了CAV匝道合并场景下的马尔科夫决策模型,接着设计了一个新颖的协作机制,即在CAV的策略更新中考虑了匝道附近其他CAV的策略更新信息以调整优势值来实现车辆之间的协作。与其他主流的RL算法进行了比较,C-PPO算法可以取得更高的回报,以更快的速度完成匝道合并且安全性更好。实验结果验证了本文所提算法的优越性。下一步考虑将具有明确协同机制的传统控制领域方法与RL进行结合,进一步加强车辆之间的协作。

参考文献:

[1] Jia D Y,Lu K J,Wang J P,et al.A survey on platoon-based vehicular cyber-physical systems[J].Communications Surveys & Tutorials,2016,18(1):263-284.

[2] Wang H J,Wang W S,Yuan S H,et al.On social interactions of merging behaviors at highway on-ramps in congested traffic[J]. IEEE Transactions on Intelligent Transportation Systems, 2021.

[3] Jackeline R T,Malikopoulos A A.A survey on the coordination of connected and automated vehicles at intersections and merging at highway on-ramps[J].IEEE Transactions on Intelligent Transportation Systems,2017,18(5):1066-1077.

[4] Dong C, Dolan J M, Litkouhi B. Intention estimation for ramp merging control in autonomous driving[C]//2017 IEEE intelligent vehicles symposium (IV). IEEE, 2017: 1584-1589.

[5] Cao W, Mukai M, Kawabe T, et al. Cooperative vehicle path generation during merging using model predictive control with real-time optimization[J]. Control Engineering Practice, 2015(34): 98-105.

[6] Haydari A,Yilmaz Y.Deep reinforcement learning for intelligent transportation systems:a survey[J].IEEE Transactions on Intelligent Transportation Systems,2020,(99).

[7] Lin Y,McPhee J,Azad N L.Anti-jerk on-ramp merging using deep reinforcement learning[C]//2020 IEEE Intelligent Vehicles Symposium (IV). IEEE, 2020: 7-14.

[8] el abidine Kherroubi Z, Aknine S, Bacha R. Leveraging on Deep Reinforcement Learning for Autonomous Safe Decision-Making in Highway On-ramp Merging (Student Abstract)[C]//Proceedings of the AAAI Conference on Artificial Intelligence,2021, 35(18): 15815-15816.

[9] Bouton M,Nakhaei A,Fujimura K,et al.Cooperation-aware reinforcement learning for merging in dense traffic C]//2019 IEEE Intelligent Transportation Systems Conference (ITSC). IEEE, 2019: 3441-3447.

[10] Schulman J,Levine S,Moritz P,et al.Trust region policy optimization[C]//International conference on machine learning. PMLR, 2015: 1889-1897.

[11]Wu Z F,Yu C,Ye D H,et al.Coordinated proximal policy optimization Advances in Neural Information Processing Systems, 2021(34).

[12] Leurent E. An environment for autonomous driving decision-making[J]. GitHub, 2018.

【通聯编辑:唐一东】