基于深度强化学习的车辆多目标协同巡航决策控制系统设计

2023-10-28 10:24罗富贵蓝俊欢

计算机测量与控制 2023年10期

宋倩，罗富贵，蓝俊欢

(1.河池学院大数据与计算机学院，广西河池 546300；2.河池市供电局，广西河池 546300)

0 引言

车辆多目标协同巡航过程中存在多障碍物，影响车辆多目标协同巡航决策的性能。车辆巡航避障在全方位控制方面存在一定的欠缺，为此车辆多目标协同巡航决策控制成为当前相关领域的重点研究课题。深度强化学习是一种极其接近人类思维方式的新型人工智能方法，将强化学习决策机制与深度学习感知思维完美结合起来，可以直接根据输入图像制定控制执行指令[1]。该算法的应用为解决复杂系统感知决策问题提供了全新的思路，既能够根据预期回报结果对动作价值函数做出评价，也可以通过既定策略将当前执行状态映射为相应的动作指令，从而在得到准确数值解的同时，制定与目标对象相关的最优策略执行原则。相较于其他类型的应用算法，深度强化学习行为打破了数据样本之间的制约性关系，可以在推导完整信息学习规则的同时，定义多个独立的神经元结构，不但解决了网络环境中信息参量的不合理分配问题，还深化了学习主机的区域性主导地位，使得网络设备能够直接处理已存储的数据样本对象[2]。

文献[3]提出自适应巡航控制系统。巡航决策系统对于车辆目标的管理主要包括轨迹规划、全局路径规划与行为决策。车辆运动行为要求行进轨迹必须具有平顺性、连续性的特征，所以构造连接始末位置的连续平滑轨迹是巡航决策系统的主要工作目标。自适应巡航控制系统借助卡尔曼滤波器及模型预测控制器原理，建立跟车动力学模型，再通过求解向量松弛因子的方式，求解决策控制指令的最优执行结果。文献[4]提出基于变采样时间模型的巡航系统。根据车辆速度变化率条件，建立MPC控制器闭环，再联合Carsim、Matlab、Simulink等多个执行软件，对决策指令与车辆巡航目标之间的适配性进行测试。

上述两类系统的应用，只能实现车辆在某一特定巡航方向上的精准避障，在全方位控制方面存在一定的欠缺。为解决上述问题，针对基于深度强化学习的车辆多目标协同巡航决策控制系统展开研究。

1 巡航决策控制系统的主要应用结构

车辆多目标协同巡航决策控制系统的主要应用结构包括控制电路、处理器子模块、多目标解耦模块，本章节将针对上述模块结构的设计方法展开深入研究。

1.1 主控制电路

巡航决策控制系统采用12 V直流电源提供传感器所需的电量信号，因此需要ADC传输导线实现对电量信号的分配处理。STC12C5A60S2单片机自带A/D转换功能，可以在无外设AD模块设备的情况下，调节巡航目标传感器、航速传感器对于决策对象的捕获及处理能力，由于A/D转换功能可以实现模拟信号与数字信号的转换，所以在系统运行过程中，巡航目标传感器可以在IN4007设备的配合下[5-6]，确定K1、K2设备两端负载电压的具体数值，面对车辆巡航目标时，K1设备负责检测目标节点的横向坐标，K2设备负责检测目标节点的纵向目标。IN4007设备具备较强的电信号集合处理能力，可以根据车辆目标的具体航速水平，完成对电量信号的按需分配。具体的主控制电路结构如图1所示。

图1 主控制电路示意图

航速传感器在采集车辆目标行进速度的过程中，由于外界信号量大且杂乱，会导致航速传感器采集到的信息出现细微振动状态，但由于STC12C5A60S2单片机所输出数字信号的总量有限，能耗保证信号传输过程的稳定性，这也是传感器振幅能够得到有效控制的主要原因。

1.2 处理器子单元模块

1.2.1 ACC控制器

ACC控制器是主控制电路的下级负载结构，如图2所示，可以在传感器、决策主机等多个应用元件的配合下，制定多项执行指令，并能够根据固定目标节点、运动目标节点的实时排列状态，来判断系统主机的当前执行状态是否能够满足协同处理车辆目标节点的实际应用需求[7]。控制器主要部件由ACC执行设备、定向传感器、动向传感器、7280S控制器、PLC决策主机五部分共同组成。其中，ACC执行设备同时控制定向传感器与动向传感器，可以在输出车辆行进指令的同时，标记固定目标节点、运动目标节点所处的实时位置，并可以借助传输信道组织，将已生成的指令文本反馈至系统核心控制主机之中。7280S控制器、PLC决策主机是两个相互关联的控制器执行结构，负责制定循环控制指令与决策执行指令，且为保证系统主机能够对车辆目标进行不间断地监测，这两类设备元件可以在脱机状态下保持长时间的稳定运行[8]。

图2 ACC控制器结构简图

由于ACC控制器元件对于指令文件的寄存能力有限，所以在决策控制系统快速运行的过程中，有一部分信息样本会被直接存储至数据库主机之中。

1.2.2 MPC轨迹跟踪器

MPC轨迹跟踪器控制指令的实现是以选定被控车辆目标为基础，生成最优控制解与实际巡航轨迹。MPC调度主机通过全局规划的方式，确定被控车辆目标在既定巡航区域内所处位置，再联合深度强化学习算法应用原则，求解与车辆巡航轨迹相关的运动学方程。对于系统主机而言，求解所得结果会以状态量参数的方式输入既定执行模块，以供ACC控制器、双闭环控制器元件对其进行直接调取与利用[9-10]。MPC轨迹跟踪器的运行原理如图3所示。

图3 MPC轨迹跟踪器运行原理

已被输入的被控车辆目标信息经过系统主机的计算与处理之后，会形成完整的动力学约束条件，随着数据样本的不断传输，MPC调度主机中生成参考轨迹路线与动力学参考模型，而这些信息参量都会为决策指令的生产提供数据样本支持。最终执行阶段，MPC轨迹跟踪器整合所得到的参考轨迹、决策指令与动力学模型表达式，并联合真实的车辆目标对象节点信息，计算最优解结果，从而使系统控制主机能够掌握完整的车辆巡航轨迹路线。

1.2.3 双闭环控制器

相较于其他处理器子单元模块，双闭环控制器的运行模式较为复杂，由两条完全独立的巡航决策指令传输线路组成，能够同时调度PI控制器、转矩响应器、同步补偿器与PMSM控制器，既可以在制定决策控制指令的过程中，更改数据信息文本的传输方向，也可以在不改变信息传输方向的情况下，提取系统运行所必需的关键数据样本[11]。双闭环控制思想的具体执行原理如图4所示。

图4 双闭环控制回路

PI控制器与转矩响应器之间的信息互传：PI控制器作为巡航决策指令输出端，可以直接控制下级转矩响应器，当车辆目标行驶至既定巡航区域内，系统主机所生成的所有决策指令都会经由转矩响应器设备，分发至其他应用元件。

PMSM控制器与同步补偿器之间的信息互传：PMSM控制器作为巡航决策指令输出端，不具备直接控制同步补偿器元件的能力，但却可以在运行过程中，借助巡航决策指令干扰补偿器设备的运行状态，但这种干扰行为的表现能力具有明显时效性，一般来说，车辆目标巡航轨迹在既定决策区域中的累积量越大，PMSM控制器对于同步补偿器元件的干扰作用能力就越强[12]。

1.3 多目标解耦模块

为适应双闭环控制器的运行需求，多目标解耦模块同时设置直轴解耦元件、曲轴解耦元件两类执行设备，能够对决策控制主机输出的车辆巡航信号进行交叉分析，并从中选取数据样本的重合部分，作为制定解耦信号所必需参考的信息参量。所谓多目标解耦就是指决策控制主机在单位时间内所能检索到的车辆目标对象并不唯一，由于这些目标对象所描述的车辆运动状态并不相同，所以处理器元件所表现出的执行情况也并不相同[13-14]。一般来说，直轴解耦元件负责记录直行运动区域内的车辆巡航目标节点，而曲轴解耦元件负责记录转弯运动区域内的车辆巡航目标节点，虽然巡航节点的标记形式不同，但对于决策控制主机而言，这些标记信息都可供目标处理器设备的直接利用。多目标解耦模块的运行原理如图5所示。

如果直轴解耦信息、曲轴解耦信息存储于相同的数据库主机之中，则表示系统主机所选取车辆目标属于相同的巡航区域，车辆执行往复巡航任务的可能性较大。

2 车辆位姿估计

为实现对车辆巡航目标的精准决策，还需借助深度强化学习模型，定义车辆目标数据集，并联合相关系数指标，求解协同参数的实际取值范围。

2.1 深度强化学习模型

深度强化学习模型是系统主机决策车辆巡航目标所遵循的核心处理原则，可以在一级、二级协同节点的作用下，分析所选目标对象的实时巡航状态，从而使得系统主机能够精准定义决策控制指令。深度强化学习模型表现形式如图6所示。

图6 深度强化学习模型

图6中，一级协同节点对于车辆目标的提取具有不确定性，所以未进行强化学习处理的数据信息样本并不满足制定决策控制指令的应用需求[15-16]。二级协同节点负责对车辆目标进行整理，并可以按照核心处理器的运行需求，对已采集到的数据信息样本进行强化学习，从而生成满足决策控制需求的巡航对象信息。设δ表示一个无序的车辆目标对象，qδ、wδ表示两个不相等的协同处理系数，χ表示强化度指标，α表示深度学习向量的初始取值，联立上述物理量，可将深度强化学习模型表达式定义为：

(1)

在一个标准的巡航运动区域内，深度强化学习模型对于车辆目标对象的捕捉准确度必须达到100%，且模型表达式不存在为空值的可能，所以参数δ的取值只能属于[0，+∞)的数值区间。

2.2 车辆目标数据集

车辆目标数据集是包含所有车辆目标协同巡航特征的样本集合空间，对于深度强化学习模型而言，其在定义决策控制指令时所需应用的数据样本都必须来自该样本集合，所以该集合对于样本数据的完整性提出了明确要求[17-18]。在深度强化学习模型中，车辆目标数据的单位累积量为ΔQ，随着单位巡航时间的延长，ΔQ参数的实际取值也会不断增大。q1，q2，…，qn表示n个可能出现的样本学习参数，在满足深度强化学习模型处理标准的情况下，可将学习参数求解结果表示为：

(2)

(3)

若目标车辆处于静止状态，且静止节点处于单位巡航区域内，则表示整个巡航区域内只存在一个目标决策节点，当前情况下，深度强化学习模型规定车辆目标数据集中n参数的取值等于自然数“1”。

2.3 协同参数

协同参数决定了深度强化学习模型对于车辆目标对象的处理能力，系统主机制定巡航决策控制指令时，该项物理参数的取值越大，就表示单位车辆巡航区域的划定范围越大。系统主机对于车辆目标协同巡航的要求就是指所选定目标决策节点必须处于同一巡航区域之内，对应深度强化学习模型的约束要求，就是指所有目标决策节点必须属于同一个车辆目标数据集合[19-20]。规定y1，y2，…，yn表示n个不同的车辆目标节点对象，ymin表示所选取目标节点对象的最小取值结果，ymax表示目标节点对象的最大取值结果，为满足深度强化学习模型对于车辆目标的决策处理需求，要求目标节点对象取值应满足式(4)：

(4)

设i表示单位巡航区域内的车辆目标分散度指标，联立式(4)，推导协同参数定义式为：

(5)

如果式(5)的计算结果小于零，则表示车辆运动方向与系统主机对于决策节点的规划方向相反；如果式(5)的计算结果大于零，则表示车辆运动方向与系统主机对于决策节点的规划方向相同；如果式(5)的计算结果等于零，则表示所选车辆目标保持静止状态。

3 巡航决策轨迹规划

在深度强化学习模型的基础上，根据车辆运动坐标转换原则，对选取决策目标进行量化分析，再参考所得计算结果，实现对巡航决策轨迹的规划与控制。

3.1 坐标转换

由于车辆运动行为只存在于平面区域内，所以对于巡航决策目标的坐标转换处理也只需参考横轴、纵轴两个方向上的轨迹偏移量[21-22]。对于横轴方向上的轨迹偏移量，需要参考X轴方向上的坐标转换结果，对于纵轴方向上的轨迹偏移量，则需要参考Y轴方向上的坐标转换结果。

X轴方向上的坐标转换定义式：

(6)

Y轴方向上的坐标转换定义式：

(7)

3.2 多目标量化分析

多目标量化分析就是根据车辆目标标记结果，制定巡航决策执行指令的过程，对于系统控制主机而言，只有保证多目标量化分析结果的唯一性，才能够确保已定义车辆目标处于同一巡航区域之中[23-24]。g表示巡航区域分配系数，l1表示所选巡航区域内n个不重合的决策节点，f表示无误差量化参数。在上述物理量的支持下，联立式(6)、式(7)，推导多目标量化分析表达式如式(8)：

(8)

在不考虑非精准巡航避障问题的情况下，系统控制主机可以根据多目标量化分析结果，制定车辆多目标协同巡航决策指令，从而确保式(8)计算结果的合理性，是实现控制系统应用的必要条件。

4 对比实验分析

4.1 实验说明

本文设计了基于深度强化学习的车辆多目标协同巡航决策控制系统。

系统硬件通过调节ACC控制器、MPC轨迹跟踪器、双闭环控制器的实时连接状态确定目标车辆所处巡航位置，利用多目标解耦模块提供巡航决策控制系统硬件平台。根据深度强化学习模型估计车辆巡航位姿，确定坐标转换原则，结合巡航决策控制系统硬件，实现基于深度强化学习的车辆多目标协同巡航决策控制系统的设计。

为验证基于深度强化学习的车辆多目标协同巡航决策控制系统的有效性，设计实验环节。行驶车辆在巡航区域内只具备横、纵两个方向上的运动能力，所以本次实验需分别在这两个方向上以及全方位控制方面，对所选控制系统的避障准确度进行验证。划定长200 m、宽50 m的巡航区域作为实验环境，在中部区域选择5个决策节点作为避障性能测试位置，相邻节点之间的物理间隔为10 m。设置障碍物物体的长度和宽度为0.3 m*0.3 m，具体实验步骤如下：

1)当目标车辆运动至1、2、3、4、5号节点时，利用基于深度强化学习的车辆多目标协同巡航决策控制系统，统计车辆实际运动位置与障碍物位置之间的间隔数据，所得结果为实验组数据；

2)利用自适应巡航控制系统重复步骤1)，所得结果为对照a组数据；

3)利用基于变采样时间模型的巡航系统再次重复步骤1)，所得结果为对照b组数据；

4)由于设置的障碍物物体的长度和宽度为0.3 m*0.3 m，当障碍物与目标车辆之间的距离小于0.3 m时，会产生碰撞的风险，而当障碍物与目标车辆之间的距离大于0.3 m，表示当前情况下可以实现精准避障；

5)将所得实验数值与最小避障距离对比，分析所选实验系统是否能够提升车辆的巡航避障能力。

4.2 横向避障实验

根据图7设计巡航车辆的横向避障实验，具体实验情况如图8所示。

图7 横向避障实验原理

图8 横向避障实验结果

分析图8可知，在横向避障实验中，应用实验组、对照a组控制系统可以实现巡航车辆的精准避障，而应用对照b组控制系统则无法实现精准避障。

4.3 纵向避障实验

根据图9设计巡航车辆的纵向避障实验，具体实验情况如图10所示。

图9 纵向避障实验原理

图10 纵向避障实验结果

分析图10可知，在纵向避障实验中，应用实验组控制系统依然可以实现巡航车辆的精准避障，而对照a组、对照b组控制系统都只能在个别目标节点处实现巡航车辆的精准避障。

4.4 全方位避障实验

根据图11设计巡航车辆的全方位避障实验，具体实验情况如图12所示。

图12 全方位避障实验结果

分析图12可知，在全方位避障实验中，应用实验组可以实现巡航车辆的精准避障，而应用对照a组控制系统、对照b组控制系统则无法实现精准避障。

4.5 数据统计

联合图8、图10中的实验结果，求解障碍物与目标车辆之间距离的平均值，具体计算结果如表1所示。

表1 间隔距离平均值

分析表1可知，整个实验过程中，实验组横向、纵向及全方位间隔距离平均值均大于0.3 m，表示应用该系统始终可以实现巡航车辆的精准避障；对照a组横向间隔距离平均值大于0.3 m、纵向及全方位间隔距离平均值小于0.3 m，表示应用该系统仅可使实现巡航车辆的横向精准避障；对照b组横向、纵向及全方位间隔距离平均值均小于0.3 m，表示应用该系统不可以实现巡航车辆的精准避障。

综上可知本次实验结论为：

1)自适应巡航控制系统、基于变采样时间模型的巡航系统的应用都无法保证障碍物与目标车辆之间的距离一直大于0.3 m，故而这两种系统在实现巡航车辆精准避障方面的应用能力相对有限。

2)基于深度强化学习的协调决策控制系统可以保证障碍物与目标车辆之间的横向、纵向距离均大于0.3 m，符合精准避障的应用需求，因此与其他类型的控制系统相比，该系统的应用可以大幅提升车辆巡航避障能力，实现对运动目标的精准决策。

5 结束语

车辆多目标协同巡航决策控制系统在深度强化学习算法的基础上，联合主控制电路、ACC控制器、双闭环控制器、多目标解耦模块等多个硬件应用结构，对车辆运动行为进行控制，又通过定义车辆目标数据集合的方式，求解协同参数的取值范围，从而实现对多目标对象的量化分析。与自适应巡航控制系统、基于变采样时间模型的巡航系统相比，这种新型控制系统在横、纵两个方向上的避障准确度都达到了100%，不但提升了行进车辆的避障能力，还可以对运动目标进行精准决策。未来相关研究单位可以在该控制系统的基础上，提升巡航车辆对动态障碍物的运动避障能力，从而在满足协同巡航作用需求的同时，实现对目标对象节点的精准捕获与处理。