基于C-FQL算法的城市干线交通信号控制

2011-03-02 07:37宋正东刘智勇
关键词:智勇协调控制模拟退火

宋正东,刘智勇,2

(1.五邑大学 信息工程学院,广东 江门 529020;2.江门职业技术学院,广东 江门 529090)

基于C-FQL算法的城市干线交通信号控制

宋正东1,刘智勇1,2

(1.五邑大学 信息工程学院,广东 江门 529020;2.江门职业技术学院,广东 江门 529090)

针对城市干线交通协调控制难于建立准确数学模型的问题,提出了混沌模糊Q学习(C-FQL)方法,即在模糊Q学习过程中添加混沌扰动以改变Agent选择动作的方式,并通过添加遗忘因子以平衡学习过程中扩张与利用之间的关系.城市干线交通协调控制中应用C-FQL方法以优化各交叉路口的周期、相位差和绿信比.借助TSIS交通仿真平台,建立了C-FQL方法在城市干线交通协调控制中的应用仿真,结果表明,C-FQL方法收敛速度快,在城市干线交通协调控制中效果良好.

交通干线协调控制;混沌模糊Q学习;模糊控制;城市交通

交通干线承担了城市大量的交通负荷,其畅通对改善城市交通状况往往具有很大作用[1].随着城市化和交通需求的快速发展,干线协调控制成为智能交通控制研究中的热点,但交通控制系统是一个庞大的、非线性、不确定性系统,难以建立精确的数学模型.Q学习作为一种被广泛应用的强化学习算法,无需模型且能实现在环境中学习,尤其适用于交通控制[2-3],因而愈来愈引起人们的重视.文献[4]将Dyna-Q强化学习应用于城市交通信号在线控制,文献[5]将Q学习应用于城市干线交通控制,文献[6]则在模糊Q学习的基础上引入模拟退火准则,以解决学习过程中探索和扩张之间的平衡问题,提高整体交通效率和学习的速度.但模拟退火的初始温度和降温策略的选取是一个难题,且它们的选取将直接影响收敛速度.文献[7]给出了模拟退火算法参数的确定方法,但交通控制中对实时性要求较高,以本文为例每5个周期优化一次周期长度,在短时间内学习难以获得理想的初始温度,若花大量时间学习用于获得初始温度又得不偿失.混沌优化方法相比模拟退火和遗传算法等其他随机搜索算法有较好的寻优效率[8],基于此,本文提出了混沌模糊Q学习(C-FQL)方法,用于提高城市交通干线协调控制的学习速度和交通效率.

1 问题的描述

图1 5路口城市干线交通图

设一城市交通干线如图1所示.根据道路承载的交通负荷选择交通负荷较重的东西向道路为主干线、南北向道路为支线.相邻两交叉口间的距离不超过800 m,干线交通流以直行为主(这是干线协调控制的条件),绿灯期间车辆不准左转(实际交通控制中也常这样规定).[9]

根据经验,当车流较稀疏时,信号周期应短一些;当车流较稠密时,信号周期应长一些.考虑到交通安全和驾驶员心理,信号周期的变化范围应在60~120 s.某一方向某一车道组上车流的稀疏稠密可用实际交通流量与通行能力之比v/c来描述[10].

式中,vi为车道组i的实际车流量,ci为车道组i的通行能力,gi为车道组i的有效绿灯时间,si为车道组i的饱和流量,T为周期长度.

干线上相邻两交叉口的相位差根据相邻两交叉口之间的距离和区间平均速度确定,相邻两交叉口之间的车流速度的获取需要在交叉口上游设置检测器.

式中,O为相位差,d为两交叉口之间的距离,v为两交叉口之间车流的区间平均速度.实际使用中要用式(3)将时间平均速度转化为区间平均速度[11].

于是城市交通干线协调控制策略描述为:在一个阶段内(本文选为5个信号周期)采用递阶控制,干线上信号周期T和相位差O保持不变,各交叉口的绿信比根据实时交通状况调整.本阶段的信号周期T和相位差O由上阶段检测所得各交叉口的交通状况协调确定.

2 交通干线的C-FQL控制

交通干线的C-FQL控制步骤如下:

步骤1 各交叉口Agent首先根据以往的交通信息给出干线的公共周期T和各交叉口的相位差Ot( i =1,2,… ,n);

步骤2 设m=0;

步骤3 各交叉口根据给定的信号周期T和相位差Oi进行控制,根据各交叉口的交通量调整绿信比;

步骤4 m←m+T,若m>5T则转到下一步,否则回到步骤3.

步骤5 各交叉口Agent由本阶段测得的干线上的交通状况预测下一阶段各交叉口的交通量,用C-FQL方法确定下一阶段的公共周期和相位差,使干线上交叉口的饱和度维持在0.9附近,回到步骤2.

上述步骤5应用到第i个交叉口,有如下控制过程:

1)初始化FQ(s, a)值和混沌变量C0,其中 C0∈ (0,1),此处将FQ(s, a)表均赋值为0;

2)观测当前交通状况s(v/c和区间平均速度),若交通状况在目标区即v/c在0.9附近[9],并满足则维持当前公共周期和相位差,返回;

4)Agent按照ε-greedy策略选择的一个动作ag,添加遗忘因子并将混沌扰动嵌入到Agent执行的动作中:为遗忘因子;

5)Agent将动作a作用到交通系统,转到下一个状态s′,获得立即回报r( s, a),k=k+1,其中为一正实数;

6)s ← s′,然后按照公式(4)更新FQ值[12-13];

式中,α ∈ (0,1)为学习速率,r( s, a)为状态s下Agent执行动作a后的立即回报,γ ∈ (0,1)为折扣因子,A为所有可供Agent选择的动作的集合,FQ(s′, a′)为下一个状态s′下Agent执行动作a′后的Q函数值,μc(s, a)为在状态s下Agent执行动作a的隶属度,“∧”为逻辑与操作.

7)返回到2)继续,直到FQ(x, a)值收敛.

根据HCM2000,在分析信号交叉口和优化配时时首先划定车道组,以各车道组的交通状况为根据进行分析和优化.本文中各信号交叉口相位设置如图2所示,车道组的划分如图3所示.

图2 信号交叉口相位设置图

图3 车道组的划分

在各相位中选取v/c最大的车道组作为关键车道组,利用已获得的各车道组的实际流量按式(5)对交通流量进行简单预测.

式中,vij表示第i车道组上第 j周期的流量,其中只利用前5个周期的流量进行预测, j=0表示下一周期; γ∈ (0,1),其意义在于时间越近则影响越大[6].利用预测的关键车道组的交通流量按式(6)在周期固定的基础上分配各相位的绿时,进行绿信比的优化.

式中,iλ为第i相位的绿信比,vci为第i相位关键车道组的车流量.

优化周期时,v/c作为环境状态可看作模糊变量s,其论域为:

取7个语言值:s1(很小),s2(较小),s3(小),s4(零),s5(大),s6(较大),s7(很大).赋值表如表1所示.

周期的增量作为Agent执行的动作可看作模糊变量c,其论域为:

取7个语言值:c1(负大),c2(负中),c3(负小),c4(零),c5(正小),c6(正中),c7(正大).赋值表如表2所示.

表1 语言变量s赋值表

表2 语言变量c赋值表

根据控制经验,优化周期时的控制规则为:

优化相位差时,区间平均速度作为环境状态可看作模糊变量v,其论域为:

取7个语言值:v1(很慢),v2(较慢),v3(慢),v4(中速),v5(快),v6(较快),v7(很快).赋值表如表3所示.

相位差调整量作为Agent执行的动作可看作模糊变量o,其论域为:

取7个语言值:o1(负大),o2(负中),o3(负小),o4(零),o5(正小),o6(正中),o7(正大).赋值表如表4所示.

表3 语言变量v赋值表

表4 语言变量o赋值表

根据控制经验,优化周期时的控制规则为:

优化周期和相位差时,Agent的回报函数设计为: r( s, a) =i- 4,其中i分别为环境状况si、vi的下标,其意义在于:Agent执行动作后环境改进则得到正回报,否则得到负回报.

3 仿真实验

本文用VC++6.0编写城市干线交通混沌模糊Q学习控制的RTE接口程序,采用TSIS5.1交通仿真平台对图1所示的干线交通路网进行仿真,各交叉口相位设置如图2所示.主要仿真参数设置如下:仿真12个时段,每时段3 600 s,时间间隔60 s,共仿真12 h,且不考虑行人和公交车辆影响,初始化路网的最大时间设为10 min.各信号交叉口的转向率为{ p右, p直, p左} ={0.2,0.6,0.2},东西和南北右转均不控制.东西向各车道饱和流量为1 800 pcu/h,南北向各车道饱和流量为1 200 pcu/h.算法参数设置如下:Q学习因子α取0.2,γ取0.95,ε取0.1,遗忘因子系数m取4,混沌初始变量C0取0.1,最小周期设为60 s,最大周期设为120 s.初始交通量设置如表5所示,仿真结果和算法性能比较如表6所示.

表5 各方案的交通流量设置 单位: pcu⋅ h-1

表6 仿真结果和算法性能比较

从表6的仿真结果可见:在各种交通方案下,C-FQL比定时单点控制和SA—FQL(Simulated Annealing Fuzzy Q-learning)法控制干线上的平均延误有不同程度的减少、平均速度有较大程度提高,表明本文方法在城市交通干线协调控制中能取得更好的整体效果;与SA-FQL算法相比,本文方法Q值收敛时的平均学习步数减少10.71%,学习速度加快.

4 结论

本文通过添加混沌扰动改进模糊Q学习中Agent产生动作的方式,使Agent选择动作的空间增大,能够在各种环境下更好地进行学习优化,以适应各种交通状况,因此能有效地解决干线交通控制配时优化问题.相比以一定概率接受较差解的模拟退火策略,本文方法利用混沌扰动自身的随机性和遍历性,更易跳出局部最小点,搜索速度更快、收敛速度也得以加快.

[1]刘智勇.智能交通控制理论及其应用[M].北京:科学出版社,2003.

[2]高阳,陈世福,陆鑫.强化学习研究综述[J].自动化学报,2004,30(1):2834-2837.

[3]ABDULHAIB B,PRINGLE R,KARAKOULAS G J.Reinforcement learning for true adaptive traffic signal control[J].Journal of Transportation Engineering,2003,129(3):278-285.

[4]刘智勇,马凤伟.城市交通信号的在线强化学习控制[C]//中国控制会议论文集.张家界:[s.n.],2007:34-37.

[5]马凤伟,刘智勇.城市交通干线的Q-学习控制算法[J].五邑大学学报:自然科学版,2007,21(3):17-22.

[6]邓军,刘智勇.基于SA-FQL算法的区域交通控制[J].计算机工程与应用,2010,46(27):231-237.

[7]闫利军,李宗斌,卫军胡.模拟退火算法的一种参数设定方法研究[J].系统仿真学报,2008,20(1):245-247.

[8]滕皓,曹爱增,杨炳儒.一种改进变尺度混沌优化的模糊量子遗传算法[J].计算机工程,2010,36(13): 175-177.

[9]刘智勇,吴今培,李秀平,等.城市交通干线递阶模糊控制[J].公路交通科技,1997,14(3):17-23.

[10]TRB,National Research Council.Highway Capacity Manual 2000[Z].Washington:[s.n.],2003.

[11]张飞舟,范耀祖.交通控制工程[M].北京:中国铁道出版社,2005.

[12]BERENJI H R.Fuzzy Q-learning for generalization of reinforcement learning[C]//Fuzzy system,Proceedings of the Fifth IEEE International Conference.New Orleans:1996,3:2208-2214.

[13]GUO Maozu,LIU Yang,JACEK M.A new Q-learning algorithm based on the metropolis criterion[J].IEEE Transactions on Systems Man and Cybernetics,2004,34(5):2140-2143.

Methods of Control for Traffic Signals on Urban Trunk Roads Based on C-FQL Algorithm

SONG Zheng-dong1,LIU Zhi-yong1,2
(1.School of Information Engineering,Wuyi University,Jiangmen 529020,China; 2.Jiangmen Polytechnic College,Jiangmen 529090,China)

Given the fact that it is difficult to establish an accurate mathematical model for coordinating control on urban traffic trunks,a chaotic fuzzy Q learning(C-FQL)approach,i.e.,the addition of chaotic disturbance to a fuzzy Q learning process,to change the way Agent chooses an action and to balance the relationship between the expansion and utilization by adding the forgetting factor.The C-FQL method is applied to control coordination on Urban Trunk Road to optimize the cycle,offsets and splits of the intersections.Application simulation to be used in control coordination on urban trunk roads is established using the C-FQL method and the TSIS traffic simulation platform. Simulation results show that the C-FQL method converges faster and is effective in control coordination on urban trunk roads.

trunk road coordinated control;chaotic fuzzy Q learning;fuzzy control;urban traffic

?

TP391

A

1006-7302(2011)03-0045-06

2011-03-15

广东省自然科学基金资助项目(8152902001000014);广东省高等学校自然科学重点研究项目(05Z025)

宋正东(1985—),男,湖北宜昌人,硕士研究生,研究方向为智能交通控制;刘智勇,教授,博士,硕士生导师,主要研究方向为智能交通控制.

猜你喜欢
智勇协调控制模拟退火
结合模拟退火和多分配策略的密度峰值聚类算法
High-performance and fabrication friendly polarization demultiplexer
杨智勇艺术作品欣赏
身家50亿的智勇坚守
多个MFD 子区边界协调控制方法
中考题中的整式
基于模拟退火剩余矩形算法的矩形件排样
基于模糊自适应模拟退火遗传算法的配电网故障定位
注塑机驱动系统模糊协调控制研究
空间机器人协调控制全物理仿真设计与验证