对策论下的交叉口TSCA 间的多交互学习

2014-02-28 06:10
关键词:交通信号交通流交叉口

夏 新 海

(广州航海学院 港口与航运管理学院,广东 广州 510725)

对交叉口设置一个信号控制Agent,称为TSCA(Traffic Signal Control Agent),其主要功能是针对本交叉口当前交通流的状态制定相应的控制策略,让执行装置执行,进而改善本交叉口交通流环境。路网中交叉口之间交通流是相互关联的。由于对策论是研究理性的主体之间冲突及合作的理论,也是研究人类社会交互的最佳数学工具,因此非常适合协调交叉口TSCA之间的关系。目前对策论主要应用在交通诱导中交通管理者和出行者之间的博弈分析。刘建美,等[1]建立了诱导-出行信号博弈模型。有文献初步探讨了博弈论进行交叉口交通信号交互研究,马寿峰[2]、Shahaboddin[3]利用Q学习及二人非零和合作型对策来进行交叉口间的信号协调控制,但假定交叉口TSCA的效用值为公共知识;李振龙,等[4]应用对策论的Nash平衡理论建立了交叉口之间的交互模型并给出协调算法;I.Alvarez,等[5]利用马尔科夫决策过程为交叉口交通信号控制进行建模,在每一迭代过程中求得Stackelberbg平衡和Nash平衡,但其研究的为孤立交叉口。由于单交互学习方法不考虑历史上的交互,只根据交叉口TSCA本身的先验知识决策,在知识不完备的情形下无法达到协调。而标准强化学习方法仅考虑最近一次的交互信息,因此笔者采用多交互学习方法进行信号控制。

1 交叉口TSCA多交互数学模型

利用对策论的Nash平衡理论构建交叉口TSCA多交互数学模型,可用如式(1)中的3元组表示:

(1)

2 交叉口TSCA间博弈交互过程

Step 1:当交叉口TSCA 1在预测某相位排队车辆数超过阀值时,向相邻的交叉口TSCA 2发出交互请求,如用车辆排队数表示的效用矩阵值。

Step 2:相邻的交叉口TSCA 2收到交互请求并响应,并对相邻交叉口TSCA1的类型(即下一周期到达的车流量的大小)进行预测,按照多交互数学模型求解纳什均衡策略。

Step 3:若纳什均衡策略存在,TSCA 2同时将计算得到的TSCA 1应执行的行为发送给TSCA 1,即TSCA 1和TSCA 2按照均衡策略执行;若纳什均衡策略不存在,则交互结束,各交叉口采用自主定时信号控制策略。

在交互过程中,可以引入一些规则如绿波带思想。如某一交叉口TSCA某一相位车辆数超过阀值,向下游交叉口TSCA发送交互请求时,下游交叉口TSCA根据其知识模型中的路段长度及路段上车辆的平均速度计算上游交叉口放行的车辆到达下游交叉口的时间,并在此时刻将对应相位放绿灯。

3 交叉口TSCA间多交互学习算法

开始:

k=0,初始化交叉口TSCA水平参数[βi(交叉口i交通状态变化的概率),pi]以及路网参数[γ(路网交通状态变化的概率),α(交叉口TSCA学习概率),r(交叉口TSCA与相邻交叉口TSCA交互幅度),K(最大交互次数限制),δ( 记忆因子)]。

当没有达到最大限制交互次数K,对于路网中每一交叉口TSCAi重复如下过程:

k=k+1

While路网交通状况没有发生变化

调查交叉口交通状况

While not 交叉口TSCA状态变化期间

While not 学习期间

结束(与上第1个while对齐)

其中,当交叉口TSCA间进行信号学习时,可能考虑到由安全规则引起的一般的约束,如最小(大)绿灯时间要求等。

4 实例分析

将多交互学习方法与下面两种控制策略进行比较:

1)随机策略。初始策略对应于均匀随机策略,即采用softmax函数对所有相位分配相同的概率;

2)均匀策略。对所有相位分配相等的时长,其中相位遵守固定的顺序。

用到的交通情景见图1。设置东西和南北两个相位,每条路的两个末端交叉口作为车辆的起始结点和终止结点,这些交叉口的TSCA的控制策略对网络没有影响,而其他3个交叉口作为控制路口。道路长度设为3个时间单位,则每辆车最大行驶时间为12个时间单位。

图1 用到的交通网络Fig.1 Traffic network used in the simulation

东西方向和北南方向进入系统的交通量分别是时间的正弦和余弦函数,因此,中心交叉口的交通需求也随着时间振荡。上游交叉口释放周期性的突发交通流后,在道路行进过程中消散,因此此情景建立了一个具有某种形式的快速变化需求的模型,具有一定的现实意义。

令cn(t)为在时间步0t从北向进入系统的车辆数,cw(t)为从西向进入的车辆数,其计算如下:

cn(t)=[(sin(f(t))+1)/2*base_num]

cw(t)=[(cos(f(t))+1)/2*base_num]

式中:f(t)是当前时间步的函数,base_num是系统产生的平均车辆数,这里设置f(t)=πt/10,base_num=3,这样经过20时间步后完成了一个周期。

4.1 有效性分析

采用平均车辆行驶时间作为性能指标,多交互学习算法到达稳定状态后的运算超过100 000次,截止时间是887 150 s。多交互学习方法取得了良好的结果,行驶时间为14.3,与理论优化值12很接近。而随机策略及均匀策略行驶时间分别为250和102,相对于多交互学习方法其性能要差得多。

4.2 收敛性分析

图2给出了算法运行K=30次的结果,其中βi=0.2,γ=0.9,α=0.8,r=2,δ=0.8,反映了多交互学习方法的行为的极值情况。从图2可以看出,多交互学习在某一时间点取得了明显改进,算法在大约7 000~8 000时间步后达到“准定态”。

图2 多交互学习算法收敛情况Fig.2 Convergence of the multi-interactive learning algorithm

5 结 语

构建了交叉口TSCA多交互数学模型,在此模型中,每次交叉口TSCA间进行交互时,仅根据选择策略获得的效用值来更新它的混合策略,此模型克服了单交互及标准强化学习的不足。在此基础上分析了相邻两交叉口TSCA间博弈交互过程,并提出了交叉口TSCA间多交互学习算法。通过实例分析,基于多交互的交通信号控制优于基于随机策略和均匀策略的交通信号控制,并具有一定的收敛性。

[1] 刘建美,马寿峰.交通诱导-出行信号博弈分析及其虚拟行动学习模型[J].武汉大学学报:工学版,2010,43(1):102-107.Liu Jianmei,Ma Shoufeng.Analysis of guidance-travel signaling game and fictitious play model [J].Journal of Wuhan University:Engineering,2010,43(1):102-107.

[2] 马寿峰.一种基于agent协调的两路口交通控制方法[J].系统工程学报,2003,6(3):273-278.Ma Shoufeng.Agent-based traffic coordination control method for two adjacent intersections [J].Journal of Systems Engineering,2003,6(3):273-278.

[3] Shamshirband S.A distributed approach for coordination between traffic lights based on game theory [J].The International Arab Journal of Information Technology,2012,9(2):148-152.

[4] 李振龙,陈德望.交通信号区域协调优化的多智能体博弈模型[J].公路交通科技,2004,21(1):85-88.Li Zhenlong,Chen Dewang.A game theoretical model of multi-agents in area coordination and optimization of traffic signals [J].Journal of Highway and Transportation,2004,21(1):85-88.

[5] Alvarez I,Poznyak A,Malo A.Urban traffic control problem a game theory approach [C]//Proceedings of the 47thIEEE Conference on Decision and Control.Cancun,Mexico:IEEE,2008:2168-2172.

[6] 夏新海,许伦辉.交叉口TSCA间的博弈学习协调方法[J].重庆交通大学学报:自然科学版,2010,29(2):269-271.Xia Xinhai,Xu Lunhui.Method of intersection agent coordination based on game-learning [J].Journal of Chongqing Jiaotong University:Natural Science,2010,29(2):269-271.

[7] 石纯一.基于Agent 的计算[M].北京:清华大学出版社,2007:149-161.Shi Chunyi.Computation Based on Agent [M].Beijing:Tsinghua University Press,2007:149-161.

[8] 汪贤裕,肖玉明.博弈论及其应用[M].北京:科学出版社,2008.Wang Xianyu,Xiao Yuming.Game Theory and Its Application [M].Beijing:Science Press,2008.

猜你喜欢
交通信号交通流交叉口
《城市轨道交通信号图册》正式出版
《城市轨道交通信号设备》正式出版
基于加权组合模型的短时交通流预测研究
一种平稳化短时交通流预测方法
城市轨道交通信号设备监测技术探讨
信号交叉口延误参数获取综述
交通信号智能指挥模型
交通流随机行为的研究进展
珠海金鼎转盘交叉口改造设计
一种Y型交叉口设计方案的选取过程