付一豪,鲍 泓,梁天骄,付东普,潘 峰
(1.北京联合大学 北京市信息服务工程重点实验室,北京 100101;2.北京联合大学 机器人学院,北京 100027;3.首都经济贸易大学 管理工程学院,北京 100070)
随着无人驾驶技术的逐渐落地,这些技术运行的安全性和鲁棒性问题得到了广泛关注。基于机器学习的算法无需严格的编程规则就能解决复杂问题,在对大量样本数据进行适当训练后,模型就拥有处理不可预见情况的能力[1,2]。但该类算法存在训练需要大量数据,而数据的获得以及标注成为发展的一大障碍。
近些年,随着AlphaGo[3]在围棋比赛上出色的发挥,深度强化学习迅速成为研究热点并应用在各个领域[4~8]。有研究者将深度强化学习应用在换道决策算法中,比如基于深度Q网络(deep Q network,DQN)的换道决策方法[9~12],其中,文献[10]将周围车辆的位置和速度信息进行卷积特征提取,让DQN进行车速与换道的决策,但在实验中过于理想化,虽可直接获取所有车辆的信息,但没有很好地解决DQN收敛速度慢的问题。另外,在基于视觉的无人车换道决策研究方面,DQN 相关文献较少,大多数是使用DDPG(deep deterministic policy gradient)与长短期记忆(long short-term memory,LSTM)结合的方式[13],这些方法较为复杂,不易实现且实时性较差,难以满足实际需求。
为了更好地解决上述问题,本文提出了基于视觉DQN的无人车换道决策模型。
本文所提决策模型结构如图1 所示。基于视觉DQN的换道决策模块,根据前方视觉图像进行换道决策,基于DQN的速度决策模块,根据前车及本车信息进行速度决策。
图1 基于视觉DQN的无人车换道决策模型结构
DQN针对传统的强化学习方法无法处理高维输入的问题,使用神经网络来替代原始的学习Q 表,直接将环境状态映射为智能体动作。它拥有两大特点:经验回放和双网络结构。经验回放可让DQN进行离线训练,并去除样本相关性。双网络结构也是打乱相关性的一种机制,它建立2个参数不同、结构相同的网络,分别为估值网络和目标网络。估值网络拥有最新的参数,每训练一段时间,就将其参数更新到目标网络上。算法更新公式如式(1)所示
式中 Q(st,at)为估计值,Q′(st+1)为目标值,lr为学习率,R为奖励值,γ为衰减因子,结构如图2所示。
图2 DQN结构
本文算法以DQN 为网络主体,输入数据为三原色(RGB)图像。首先将Xception 卷积模型[14]加入在网络前部,并与注意力机制结合,用以提取特征,接着将特征信息展平与全连接层结合输出Q 值,最后结合Q-Masking 输出最终动作,如图3所示。
图3 基于视觉DQN的无人车换道决策算法结构
1.2.1 注意力机制
本文网络模型为了使DQN 聚焦图像中的重要特征以提高网络的收敛速度,特引入注意力机制,其模块为卷积块注意力模块(convolutional block attention module,CBAM)[15],该模块分为两部分:通道注意力和空间注意力,通道注意力主要关注有意义的特征,而空间注意力则关注特征的位置信息。其过程如式(2)所示
式中 ⊗为element-wise乘法操作,Mc为通道注意力操作,F为输入的特征图,Ms为空间注意力操作,结构如图4。
图4 CBAM结构
1.2.2 状态空间、动作空间、奖励函数及Q-Masking定义
状态空间s,动作空间a及奖励函数R定义
其中,s为680 ×480的RGB图像;a1为保持车道动作,a2,a3分别为左、右换道;dchange为期望换道距离,dfront为前车距无人车的距离,dtarget为目标车道(换道对应的车道)上目标车辆的距离;w1,w2皆为权重参数。该奖励函数用以引导无人车做出合适的换道决策:当无人车保持车道时,按式(3)奖励函数R公式中第一行给予奖励;当无人车选择换道时,按第二行给予奖励。
Q-Masking设置:1)当车道为0 时禁止左转,车道为3时禁止右转;2)当无人车距目标车道车辆距离小于安全距离,则禁止换道。
主体网络为DQN,输入数据为前车距离、前车速度和本车车速。其结构如图5所示。
图5 基于DQN的速度决策算法结构
状态空间s,动作空间a及奖励函数R定义
其中,vfront为前车车速,vself为本车车速;a4为保持车速,a5,a6分别为加、减速5 km/h;dwilling为无人车期望与前车保持的距离;w3为权重系数。该奖励函数期望与前车保持合适的距离来应对换道需求。
Q-Masking设置:1)若前车较远,则最高速行驶;若与前车距离接近安全距离,则强制减速。2)当车速达到最高时,禁止加速;当车速达到最低时,禁止减速。
Q-Masking在本文的应用体现在以下3个方面:1)先验规则的应用,例如在换道过程中,若无人车在最左侧车道,则禁止向左换道;2)约束的应用,例如限速,当车速达到最高时,屏蔽加速动作;3)基于规则的方法应用,例如基于规则的碰撞时间方法,屏蔽导致碰撞的决策。
经过上述3个方面的应用,无人车直接将已有的先验知识纳入学习过程,无需为异常状态(碰撞)设置负奖励,从而简化奖励函数,摆脱这类先验状态的探索。其本身学习速度加快,在学习过程中更加专注于高级策略。
Q-Masking与DQN结合的算法流程如下:初始化记忆表M初始化估值网络Q以及目标网络Q′
其中,N为总回合数,Tmax为单回合最大时间,p为随机概率,ε为贪婪因子即以多少概率采取随机动作。
仿真平台为Carla。它主要用于城市自动驾驶系统的开发、训练以及验证。实验场景为具有四车道的高速路,如图6(a)所示。实验采用Python3.7 作为编程语言,神经网络框架使用Tensorflow-GPU2.1,显卡NVIDIA GTX3070。设定训练最大回合数为10000,单回合最大时间为2 min,终止条件为无人车达到单回合最大时间或到达终点,车程为1 km,单回合车流量为40,中间两车道车流量大,两边车道车流量相对较小,其车流量分布如图6(b)所示。
图6 实验场景与车流量分布
每辆车的初始位置在预设置的200个出生点中随机选取,初始车速范围为30 ~40 km/h,道路限速为50 km/h,车辆的行驶控制采用Carla自带的自动驾驶功能。无人车的横向控制采用传统的纯追踪算法。
本文取衰减因子γ =0.95,学习率设置为0.001,批尺寸大小为32,记忆库容量为20 000。此外,为了防止样本失衡,特将记忆库均分成2个部分:换道数据存储与保持车道数据存储,从而保证数据平衡性,使网络最终能够收敛。
2.2.1 基于DQN的速度决策算法训练与分析
本文提出的算法与2021 世界智能驾驶挑战赛(天津)仿真赛中,自动驾驶赛项冠军所采用的基于规则的换道决策算法[16]进行比较,最后通过分析总奖励,来描述模型训练结果,如图7(a)所示。可知,本文算法在训练350 次,奖励趋于稳定,均值在290,优于对比算法的速度决策。
图7 模型训练结果
2.2.2 基于视觉DQN的换道决策算法训练与分析
在基于DQN的速度决策算法的基础上,本文对基于注意力机制的换道决策算法进行消融实验并与比赛方法进行对比,通过分析规定时间内到达终点的成功率以及总奖励,来描述模型训练结果,如图7(b)和图7(c)所示。
由图7(b)可知,训练10 000 次后本文方法、无注意力机制方法的成功率分别为99.6%和99.3%,本文方法在训练过程中成功率最高且提升快。由图7(c)可知,本文算法在训练400 次,奖励趋于稳定,均值在510;无注意力机制算法在训练1 800 次,奖励趋于稳定,均值在440;比赛方法平均奖励为410。综上,本文方法可以明显提升DQN 的收敛速度,同时体现了强化学习的优越性。
场景1的车流量为40,场景2的车流量为100。3种算法的测试结果如表1所示。
表1 3 种算法测试结果
由表1可知,场景1中,本文方法在平均奖励和平均速度方面皆高于其他方法;场景2中,在车辆相对密集的条件下,3种方法的平均奖励和平均速度有所下降,但本文方法仍能发挥较好的性能。
在基于视觉的无人车换道决策算法应用上,本文提出了基于视觉DQN的无人车换道决策算法,通过结合注意力机制和Q-Masking方法,简化奖励函数,解决了DQN收敛速度慢等问题。实验结果表明:本文所提出的方法在满足实时性要求的同时,在平均奖励和平均速度方面都有较大提升,为无人驾驶技术提供了一种换道方案选择。