基于多智能体深度强化学习的大规模交通信号灯控制模型研究

2022-08-12 09:30陈骁

工业仪表与自动化装置 2022年4期

陈骁

(陕西交通职业技术学院，陕西西安 710018)

0 引言

随着我国经济社会的快速发展，我国的汽车保有量持续快速增长，交通拥挤问题显得越发严峻，特别是在高度动态的复杂十字路段[1]，进一步加剧了交通资源浪费及环境污染，一定程度上增加了交通事故发生的概率，开展高度动态复杂路段交通疏导需求下的大规模交通信号灯协同控制模式研究具有重要的理论和实践价值[2]。目前主流应用的交通信号灯控制模型主要包括基于最优触发算法和基于最长队列优先配时算法等，但在高度动态复杂路段交通疏导实践中逐渐显露出缓解交通拥堵的效率较低、无法实现与动态环境实时交互、解决交叉路口拥堵问题时失效等诸多不足[3]，开展具备与环境实时交互功能的新型大规模交通信号灯协同控制模式成为当务之急。伴随着我国交通路况的动态复杂性加大，交通信号灯的规模也越来越大，对高度动态复杂路段交通运行态势自主感知的依赖性越来越强，大规模交通信号灯协同控制内部逻辑规模呈指数增长，由于内部逻辑混乱或者外部条件突变触发故障发生的概率大大提高，大规模交通信号灯协同控制核心进程一旦发生故障[4]，往往造成重大的损失。提出了一种基于多智能体深度强化学习的大规模交通信号灯控制模型，选择西安市某高度动态复杂路段交通疏导为工程实践分析载体，开展了大规模交通信号灯协同控制模型工程应用实践验证，基于交通及市政部门现有的软硬件设备，辅以高清CCD矩阵群，搭建了模型仿真验证环境，从定性与定量两个层面对模型开展了典型需求场景下的仿真验证及应用实践定量分析，多维度验证了模型的可行性及优越性。

1 大规模交通信号灯控制模型架构设计

以基于多智能体深度强化学习的大规模交通信号灯控制模型典型需求为控制流顶层设计指导，着重改善基于最长队列优先配时算法的大规模交通信号灯协同控制模式在高度动态复杂路段交通疏导实践中显露的诸多不足，把大规模交通信号灯协同控制模型完整控制流逻辑进行目标导向下的任务分解[5]，着重关注高度动态复杂路段交通运行态势经验池构建、大规模交通信号灯与多智能体之间的物理映射、复杂路段大规模交通信号灯最优协同控制等三个耦合子架构，构建了基于多智能体深度强化学习的大规模交通信号灯控制模型体系架构，具体如图1所示。其中，高度动态复杂路段交通运行态势经验池构建子架构主要完成目标高度动态复杂路段交通疏导态势的采集与池化处理[6]，对数据池进行学习集和应用集分区划分，为大规模交通信号灯与多智能体之间的物理映射构建提供统一的数据集支撑；大规模交通信号灯与多智能体之间的物理映射构建子架构主要利用深度长短期神经网络对态势经验池进行高度动态复杂路段较长周期内的大规模交通信号灯协同控制收益产出进行预测，建立时间正序下的大规模交通信号灯与多智能体之间的物理映射关系；复杂路段大规模交通信号灯最优协同控制子架构主要利用深度确定性策略梯度算法构建大规模交通信号灯协同控制与交通疏导效率之间的耦合模型，实现复杂路段大规模交通信号灯最优协同控制。

图1 大规模交通信号灯控制模型架构示意图

2 大规模交通信号灯控制模型核心算法设计

基于大规模交通信号灯控制模型逻辑架构，分阶段对基于多智能体深度强化学习的大规模交通信号灯控制模型核心算法进行设计，首先给出大规模交通信号灯协同控制收益产出预测子算法，然后给出复杂路段大规模交通信号灯最优协同控制子算法，最后给出模型典型需求场景下的仿真验证，详细给出基于多智能体深度强化学习的大规模交通信号灯控制模型定量化实现过程，为工程化效能分析提供理论支撑。

2.1 大规模交通信号灯协同控制收益产出预测子算法

(1)

(2)

(3)

2.2 复杂路段大规模交通信号灯最优协同控制子算法

利用高清CCD矩阵搭建高度动态复杂路段交通运行态势快速获取装置，形成融合经验学习集和实践应用集的高度动态复杂路段交通运行态势经验池。利用深度确定性策略梯度算法构建大规模交通信号灯协同控制与交通疏导效率之间的耦合模型，实现复杂路段大规模交通信号灯最优协同控制[10]。由于复杂路段大规模交通信号灯数据源与数据结构具有多维特性，因此引入经验缓冲因子降低参数复杂度，根据深度卷积神经网络数学原理，需形成策略网络并形成评估指标，设μ为特征识别策略，利用(s,a)衡量识别性能，定义γ表示累计折扣因子，其本质为价值信息，因此可形成如下的交通信号灯最优协同控制评价函数：

J(θμ)=Eθμ[r1+γr2+γ2r3+…]

(4)

由于参数多维特性将导致收敛次数激增，因此引入训练机制，利用经验缓冲因子预处理数据，从数据集合中按一定比例进行采样[11]，根据策略安排形成多个训练集合并存储相关数据，基于多个存储集中的参数特性求解交通信号灯最优协同控制评价函数的梯度，从而提升了优化迭代效率，其收敛次数大幅下降，设回报的数学期望为Q，则全交通信号灯最优协同控制如式(2)所示，其中符号∇表示求高阶偏导，其具备自主进化功能。

(5)

自主进化功能来源于多重网络中的参数θQ，因其存在融合效应，可利用数据的互通特性自动识别物理量信息[12]，降低了参数多维特性导致的数据处理复杂度，提升交通信号灯最优协同控制评价函数的进化性能，且具备一定的智能化，可以实现经验学习自主演进，求解如下积分。

(6)

基于公式(6)，进而构造了大规模交通信号灯协同控制与交通疏导效率之间的耦合模型，为交通信号灯最优协同控制提供收敛依据。机制原理为利用数据交集的存储与训练形成数学期望，具体的，在每个时间点上提取特征数据[13]，与经验数据进行交互，将交互结果输入样本(st,at,rt,st+1)中进行存储，其具备时移特性，可动态调整学习行为，且实现了显性的物理映射，进而提取部分数据采用策略形成训练集，加快了感知进程，因此复杂路段大规模交通信号灯最优协同控制可表征为如下的数学期望：

(7)

2.3 模型典型需求场景下的仿真验证

模型典型需求场景为西安市某高度动态复杂路段，利用该文模型对大规模交通信号灯控制模型展开工程效能分析，模型搭建与算法设计是基于Geatpy开源工具箱[14]，并在PyCharm集成开发环境下进行，验证该文模型的合理性。采集了2021年01月～06月期间的某高度动态复杂路段的交通疏导数据，数据采集设备为高清CCD矩阵群，通过池化处理形成经验池进行仿真。该文抽取池中78600组数据进行训练，将其中28600组数据作为学习集，剩余50000例数据则为应用集。考虑到交通态势图像的采集是在不间断策略下进行，因此该文引入了融合经验缓冲因子的深度卷积神经网络提高原有LSTM模型的判读效率，其网络层数目选取为16层保证交通态势感知的时效性。实验过程中始终激活Inception V3，保障交通态势图像实时输入，将神经网络类型设为Target-action Value与Action Value，利用前者神经网络处理当前状态s，可得Next Q值，利用后者神经网络处理当前状态s，可得eval Q值，实现较长周期内的大规模交通信号灯协同控制收益产出精准预测。将该文所提算法与单纯BP神经网络算法、单纯确定性策略梯度法以及改进的深度信念网络法进行大规模交通信号灯协同控制收益产出预测对比，得出算法的收敛性能对比结果如图2所示；将该文所提算法与单纯确定性策略梯度法、改进深度信念网络法进行改善高度动态复杂路段交通疏导的效率对比，算法收敛性能的对比结果如图3所示。

图2 大规模交通信号灯协同控制收益产出预测子算法仿真图

图3 复杂路段大规模交通信号灯最优协同控制子算法仿真图

3 大规模交通信号灯控制模型应用实践定量分析

对利用高清CCD矩阵群采集到的融合经验学习集和实践应用集的高度动态复杂路段交通运行态势经验池展开研究，搭建实践平台并对该文模型进行训练，验证方法的工程实用性。基于交通及市政部门现有的软硬件设备，辅以高清CCD矩阵群，搭建了模型应用实践定量分析环境，其分析逻辑示于图4中。该文在正在使用的配套软件基础上利用所提核心算法增加了高度动态复杂路段交通运行态势经验池构建、大规模交通信号灯与多智能体之间的物理映射、复杂路段大规模交通信号灯最优协同控制等3个子模块，其运行进程与主模块始终保持时间同步性，并利用通信端口保证数据互通，且在可视控制界面上进行实时更新，保障应用实践定量分析能够有效进行。采用运行态势经验池构建子模块采集交通态势图像，经过预处理池化，并筛选出预先训练数据形成集合，余下则为测试集；将数据池模块的集合作为原始变量，利用深度长短期神经网络对态势经验池进行高度动态复杂路段较长周期内的大规模交通信号灯协同控制收益产出进行预测，建立时间正序下的大规模交通信号灯与多智能体之间的物理映射关系；在大规模交通信号灯最优协同控制子模块中，进而利用GoogLeNet深度神经网络结合Inception V3模型实现图像智能化学习[15]，利用深度确定性策略梯度算法构建大规模交通信号灯协同控制与交通疏导效率之间的耦合模型，实现复杂路段大规模交通信号灯最优协同控制。三个子模块针对数据处理进程有一定的辅助分析效果，且具备耦合独立控制性能，可独立控制数据集合的形成、收益预测与协同控制行为。

图4 大规模交通信号灯控制模型应用实践定量分析逻辑图

图4给出了大规模交通信号灯控制模型应用实践定量分析逻辑框架，利用该平台对实际应用实践效果进行分析，对大规模交通信号灯控制模型的效能分析中引入了定量化指标。利用高清CCD矩阵搭建高度动态复杂路段交通运行态势快速获取装置，在收集形成数据样本的基础上进行参数设定，考虑到高度动态复杂路段交通疏导参数的多源异构特性，采取差异化的参数设定方式，保证大幅度改善高度动态复杂路段交通疏导的效率等核心参数，该文的对照系统选为西安市市政部门采购的交通信号灯运行状态可视化实时监测及预警平台。为了验证模型与方法的合理性，设置交通信号灯运行状态可视化实时监测及预警平台为跟随系统，对原始训练数据进行预处理并池化，将数据池根据成像特性划分为训练与测试集合，其中的训练集具有先验特性，测试集则具备动态进化功能[16]。该文提出了高度动态复杂路段交通疏导的总体有效率、正常交通流下复杂路段交通疏导平均等待时间、正常交通流下复杂路段交通疏导平均队列长度等3项指标对工程效益进行表征，并仿真得出这3项指标的定量数据，实现精准评判。该文提出大规模交通信号灯控制模型工程实践效能分析验证环境人机交互友好性(YH)、大规模交通信号灯控制模型便捷化程度(ZH)、大规模交通信号灯控制模型异常信息互联推送(YJ)等3项指标，并对其进行定性分析。大规模交通信号灯控制模型应用实践效能分析对比表如表1所示。

表1 大规模交通信号灯控制模型应用实践效能分析对比表

4 结论

研究了利用多智能体深度强化学习算法改善基于最长队列优先配时算法的大规模交通信号灯协同控制模式在高度动态复杂路段交通疏导实践中显露的诸多不足，提出了一种基于多智能体深度强化学习的大规模交通信号灯控制模型并进行了典型需求场景下的仿真验证。首先把大规模交通信号灯协同控制模型完整生命周期运行逻辑进行目标导向下的任务分解，给出了大规模交通信号灯协同控制模型逻辑架构；然后利用深度长短期神经网络对态势经验池进行高度动态复杂路段较长周期内的大规模交通信号灯协同控制收益产出进行预测，建立时间正序下的大规模交通信号灯与多智能体之间的物理映射关系；最后利用深度确定性策略梯度算法构建大规模交通信号灯协同控制与交通疏导效率之间的耦合模型，实现复杂路段大规模交通信号灯最优协同控制。选择西安市某高度动态复杂路段交通疏导为工程实践分析载体，开展了大规模交通信号灯协同控制模型工程应用实践验证，基于交通及市政部门现有的软硬件设备，辅以高清CCD矩阵群，搭建了模型仿真验证环境，从定性与定量两个层面对模型开展了典型需求场景下的仿真验证及应用实践定量分析，多维度验证了模型的可行性及优越性。