基于车辆诱导的交通灯动态配时算法研究

2017-11-03 08:14赵佳文赵云志
沈阳理工大学学报 2017年5期
关键词:交通灯奖惩交叉口

文 峰,赵佳文,赵云志

(沈阳理工大学 信息科学与工程学院,沈阳 110159)

基于车辆诱导的交通灯动态配时算法研究

文 峰,赵佳文,赵云志

(沈阳理工大学 信息科学与工程学院,沈阳 110159)

随着城市交通流量日益增加,现有的交通灯固定时间控制系统不能很好解决交通拥堵问题。针对这一背景,采用基于Q_学习的交通灯控制策略(QTGCS)对交通灯进行动态配时,以减少车辆在交叉口的平均等待时间,通过模糊逻辑控制根据车辆诱导信息对Q_学习的动作选择进行优化(FQTGCS),以提高Q_学习算法的收敛速度。实验结果表明,所采用的交通灯控制策略可以很好地解决交通拥堵问题,能更好地提高交通系统的性能。

交通灯控制;Q_学习;模糊逻辑控制

随着我国城市现代化进程的不断推进,交通问题成为影响我国社会发展的一个大问题,而城市道路交通问题的核心就是交通灯控制系统和车辆诱导系统。常见的车辆诱导系统基于最短路径策略,常见的交通灯控制系统基于固定时间配置策略(FTGCS),这种配时策略存在交叉口车辆较少的相位为绿灯和车辆较多的相位为红灯的问题。

越来越多的学者致力于智能交通系统的研究,提出很多交通灯控制策略。文献[1-2]通过模糊逻辑控制对交叉口车道队列长度进行模糊得到配时方案对交通灯进行控制。文献[3-4]通过强化学习算法利用Agent与环境交互为交通灯选择最优动作。文献[5-8]通过Q_学习算法与环境交互,并且利用模糊逻辑控制对当前交叉口的队列长度进行模糊化或者对Q_学习的回报函数进行模糊化,来选择交通灯的最优动作,模糊逻辑控制主要应用在Q_学习状态空间的划分。

在实际的交通控制策略中,交通灯控制策略和车辆诱导策略在信息产生、数据处理和策略实施等多个方面应相互协同。本文提出一种由环境状态到动作映射的Q_学习方法,应用到交通灯动态配时中,并且通过模糊逻辑控制根据车辆诱导信息得到当前交通灯与协同交通灯的数据对Q_学习的动作选择进行优化,可以提高Q_学习算法的收敛速度,达到提升智能交通系统性能的效果。

1 模型及问题分析

1.1 交通灯相位模型

交通灯相位是指一个交叉口某个或某些方向的交通流同时得到通行权的时间带。本文相位方案有:三相位方案,如图1所示;四相位方案,如图2所示。每个相位包含左转、右转、直行、调头。

图1 三岔口相位

图2 四岔口相位

1.2 多智能体

多智能体系统(MAS,Multi-Agent-System)是多个智能体组成的集合,它的目标是将大而复杂的系统转变成小的、彼此互相通信和协调的、易于管理的系统。

1.3 强化学习

强化学习过程中Agent判断当前状态,选择一个动作作用于环境,环境在动作的影响下发生变化,并反馈给Agent一个奖惩值,Agent根据奖惩值进行下一个动作的选择,即Agent通过不断试错与环境进行交互获得信息。

2 交通系统控制策略

本文设计一种基于Q_学习的分布式交通灯控制策略。每个交通灯作为Q_学习的Agent,Agent根据交叉口车道上车辆密度(State)选择交通灯绿灯时间作为Agent的动作(Action),车辆在车道上的平均行驶时间成为Q_学习的回报函数值。学习系统与环境不断的交互,获得反馈值并调整状态到动作的映射策略。

Q_学习更新公式为

Q(s,a)=(1-α)Q(s,a)+α[R(s,a)+γQmax(s′,a′)]

(1)

式中:参数α为学习率;参数γ为折扣率;参数s为Agent的状态;参数a为Agent的动作;R(s,a)为动作a作用于环境的回馈值(reward);Q(s,a)为R(s,a)的累积值;Agent将根据reward值来进行Q(s,a)的更新。

2.1 状态描述

Q_学习的状态定义会影响动作选择的好坏和交通灯的控制性能。本文根据交叉口各方向车道的车辆密度进行描述,对于有n个方向交叉口,其状态描述为s(d1,d2,...,dn),其中di表示第i个车道的车辆密度。

2.2 动作选择

本研究使用Boltzmann策略进行动作选择,公式为

(2)

式中:A为交通灯的动作集合;p[a|s]为交通灯在状态s选择动作a的概率;τ为温度参数。

基于Q_学习的交通灯控制算法流程:

步骤1 对Q_学习算法参数进行初始化;

步骤2 Agent判断周围环境的状态;

步骤3 Agent根据状态,利用动作选择策略进行动作选择;

步骤4 动作作用于环境,环境发生变化,反馈给Agent一个奖惩值,根据奖惩值更新Q值;

步骤5 如未满足停止条件,返回步骤2。

3 车辆诱导策略

Dijkstra算法是常见的用来解决车辆诱导的算法,是求从某一个节点到其余各个节点的最短路径算法,是以贪婪策略为基础的最短路径算法。它的特点是以某一中心节点向外层节点逐层延伸,直到延伸至终止节点为止。

对系统中节点进行标记为(ld,vd),ld是从起始节点o到某一节点d的最短路径长度,vd表示从o到d的所确定的路径中d节点的前一个节点。

Dijkstra算法执行步骤如下:

(1)初始节点设置为:lo=0;vo等于空;所有其他点:li=∞,vi未定义。设置源节点为m,记m=o,对于其他节点不进行设置。

(2)通过各路径上权重值得到节点m到达与其直接相连的其他所有节点i的距离,并设置:

li=min[li,lm+w(m,i)]

(3)

式中:w(m,i)表示节点m到节点i的最佳路径长度。

(3)进行下一个点的选取,即在直接相连的节点中筛选出li最小的节点i,节点i视为节点m距离最近的点,并对当前点m和节点i进行记录。

(4)对最短路径进行设定,找到已记录的节点i对应一个点m。把mi视为起始点到达终止节点的最短路径,并对其进行记录。

(5)如果所有节点都已经被检测,则算法结束,否则,记m=i,跳转到步骤(2)。

通过该算法步骤总结出,Dijkstra算法的核心是从没有被记录的节点中找到距离起始节点最近的节点,并对该节点进行记录,即加入到点集合中。并对最短路径的记录进行更新,即把新记录的节点加入到最短路径的集合中。

4 模糊逻辑控制优化Q_学习动作选择模型

Q_学习以绿灯时间为动作选择,当可选动作数量少时,虽然Q_学习搜索空间变小,学习过程容易收敛,但每次选择的动作(绿灯时间)准确性降低。当可选动作数量多时,导致Q_学习的搜索空间变大,不利于Q_学习算法的收敛。由于交通系统的每个交叉口的拥堵状况差异性很大,本文通过模糊逻辑控制对Q_学习算法在每个交叉口的动作选择进行优化,以达到设定适当动作数量的基础上,提升Q_学习算法的收敛速度。在每次动作选择时,Agent根据车辆诱导策略中的车辆诱导信息实现多交通灯协同,即根据车辆诱导信息得到协同Agent对应车道上的车辆密度,并根据协同车道的车辆密度判断该相位的拥堵情况,对Q_学习选择的动作进行优化,协同模型如图3所示。

图3 协同模型

文中分别对当前交叉口相位车辆密度、协同交叉口相位车辆密度及动作的奖惩值进行模糊化处理,建立模糊推理规则库。最后通过模糊推理完成对动作的奖惩值的模糊初始化。

4.1 数据模糊化

隶属度函数的定义:若对论域U中的任一元素x,都有A(x)∈[0,1]与之对应,则称A为U上的模糊集,A(x)是x对A的隶属度,即模糊集合A的隶属度函数。A(x)的值越接近1,表示x∈A的可能性越高,A(x)越接近0,x∈A的可能性越低。本文采用三角隶属度函数。

交叉口相位车辆密度的论域为[0,1]。车辆密度的四个模糊子集分别为“小”L、“较小”ML、“较大”MB、“大”B,各子集的隶属度函数如图4所示。

图4 交叉口相位车辆密度各子集的隶属度函数

动作的奖惩值的论域为[-2,2]。奖惩值的四个模糊子集分别为“小”S、“较小”MS、“适中”M、“较大”MB、“大”B,各子集的隶属度函数如图5所示。

图5 动作的奖惩值各子集的隶属度函数

交通灯根据当前交叉口的车辆密度和协同交叉口的车辆密度,对选择动作进行优化,实现交通灯之间的协同,更好地提高交通灯控制能力。

4.2 模糊库设计

如果当前交叉口相位车辆密度较大,且协同交叉口相位车辆密度较小,则动作的奖惩值适中。

如果当前交叉口相位车辆密度较小,且协同交叉口相位车辆密度较小,则动作的奖惩值较小。

这样规则一共16个,可表示为

IFVDiisVDiandVDjisVDj

THENTisTij,i=1,…,4,j=1,…,4

(4)

式中:VDi为车道i上的车辆密度。

表1为当前交叉口和协同交叉口的车辆密度推理得到动作奖惩值模糊库

表1 动作奖惩值模糊库

5 仿真实验及结果分析

5.1 实验环境

为验证本文提出的交通灯控制策略的有效性和正确性,通过开源软件SUMO仿真器[9]在如图6所示路网上进行仿真和实验,通过java语言实现,路网是美国佛蒙特州的部分路段。以基于最短路径算法的车辆诱导系统(DVIS)为基础。基于Q_学习的交通灯控制策略中公式(1)的α设为0.7、γ设为0.9。

图6 路网

表2仿真实验所在路网的路网信息。

表2 路网信息

本实验对算法进行评价的数据为:

每100s统计交通系统中的车辆数量。

5.2 DVIS和QTGCS协同实验以及结果分析

DVIS中车辆根据诱导信息进行路径选择,QTGCS中根据动作信息对交通灯进行控制,FTGCS中交通灯根据系统设置的固定时间50s进行相位更新。DVIS和QTGCS协同得到评价数据与DVIS和FTGCS协同得到的评价数据进行比较。

交通系统中的车辆数量如图7所示。

图7 交通系统中的车辆数量

从图7可以观测到,DVIS和QTGCS协同中得到的评价数据优于DVIS和FTGCS协同中得到的评价数据。

实验结果表明,QTGCS协同可以提高交通系统的效率、减少系统中车辆的行驶时间,与传统的固定配时策略相比,基于Q_学习算法的交通灯控制模型可以很好地利用路网中的实时信息,实现对交通灯绿灯时间的合理配置,达到缩短交通系统中车辆行驶时间和车辆延迟时间的目的。

5.3 DVIS和FQTGCS协同实验以及结果分析

DVIS中车辆根据诱导信息进行路径选择,FQTGCS中根据模糊优化后的动作对交通灯进行控制。DVIS和FQTGCS协同得到评价数据与DVIS和QTGCS协同得到的评价数据进行比较。

交通系统中的车辆数量如图8所示。

图8 交通系统中的车辆数量

从图8中观测到:DVIS和FQTGCS协同中得到的评价数据优于DVIS和QTGCS协同中得到的评价数据。

实验结果表明,FQTGCS可以提高交通系统的效率,减少系统中车辆的行驶时间。与QTGCS相比,利用模糊逻辑控制对Q_学习算法的动作选择进行优化的交通灯控制模型提升了Q_学习算法的收敛速度,可以更好地利用路网中的实时信息,实现交通灯绿灯时间更加合理配置,达到缩短交通系统中车辆行驶时间和车辆延迟时间的目的。

6 结束语

城市交通系统影响因素复杂,本文提出基于车辆诱导的交通灯动态配时对交通灯进行配时。实验结果表明,通过基于车辆诱导的交通灯控制策略减少了车辆在交叉口的等待时间和车辆到达终点的行驶时间。提升了交通灯的交通疏导能力和交通系统的通行能力。

[1] 段宣翡,唐泽杭.基于车流量的红绿灯实时配时算法[J].硅谷,2013(13):52-53.

[2] 王鼎湘,李茂军.基于车流量的交通灯智能控制算法[J].计算机应用与软件,2015(6):241-244.

[3] 夏新海.MDP下基于特征表示强化学习的自适应交通信号控制[J].公路交通科技,2015,32(1):116-121.

[4] Prabuchandran K J,Hemanth Kumar A N,Bhatnagar S.Multi-Agent reinforcement learning for traffic signal control[C]// International Conference on Intelligent Transportation Systems.IEEE,Melbourne,2014:2529-2534.

[5] 何兆成,佘锡伟,杨文臣,等.结合Q学习和模糊逻辑的单路口交通信号自学习控制方法[J].计算机应用研究,2011(1):199-202.

[6] Moghaddam M J,Hosseini M,Safabakhsh R.Traffic light control based on fuzzy Q-leaming[C]// International Symposium on Artificial Intelligence and Signal Processing.IEEE,Mashhad,2015.

[7] Bi Y,Srinivasan D,Lu X,et al.Type-2 fuzzy multi-intersection traffic signal control with differential evolution optimization[J].Expert Systems with Applications,2014,41(16):7338-7349.

[8] Chin Y K,Wei Y K,Wei L K,et al.Q-Learning Traffic Signal Optimization within Multiple Intersections Traffic Network[C]// Computer Modeling and Simulation (EMS),IEEE,Malta,2012:343-348.

[9] Krajzewicz D,Erdmann J,Behrisch M,et al.Recent Development and Applications of SUMO - Simulation of Urban MObility[J].International Journal on Advances in Systems & Measurements,2012,3(3):128-138.

(责任编辑:马金发)

ResearchofTrafficLightsDynamicTimingAlgorithmBasedonVehiclesInduction

WEN Feng,ZHAO Jiawen,ZHAO Yunzhi

(Shenyang Ligong University,Shenyang 110159,China)

With the traffic flow increasing in our country,the fixed time traffic lights control system can′t very well solve the problem of traffic congestion.Under this background,the traffic light control strategy based onQ-learning algorithm(QTGCS) for dynamic traffic light timing is put forward,in order to reduce the average waiting time of vehicles in intersection,and by the fuzzy logic control algorithm and using vehicles induced information to optimize the action section of theQ-learning(FQTGCS),the convergence speed of theQ-learning algorithm is improved.The experimental results show that the proposed traffic lights control strategy can solve the problem of traffic congestion,and better improve the performance of transportation system.

traffic lights control;Q-learning;fuzzy logic control

TP301

A

2016-10-24

国家自然科学基金资助项目(61672359)

文峰(1977—),男,副教授,博士,研究方向:人工智能。

1003-1251(2017)05-0022-05

猜你喜欢
交通灯奖惩交叉口
基于模糊马尔可夫链的奖惩系统*
基于单片机的交通灯模糊控制器研究
为什么交通灯是红黄蓝三种颜色?
论如何正确对待高校学生奖惩工作
信号交叉口延误参数获取综述
我国纳税信用体系建设研究
一直飘红的交通灯
基于单片机的LED模拟交通灯设计
珠海金鼎转盘交叉口改造设计
一种Y型交叉口设计方案的选取过程