人员疏散出口选择行为的演化博弈模型

2013-07-25 02:28群,刘磊,高轶,顾
计算机工程与设计 2013年2期
关键词:元胞博弈论视野

刘 群,刘 磊,高 轶,顾 金

(重庆邮电大学计算机科学与技术研究所,重庆400065)

0 引言

现代城市中大型商场、交通枢纽和体育馆等大规模人群集散的公共场所越来越多,规模越来越大。随之而来的遭受灾害和重大突发性事件的威胁也越来越严重。目前的人员疏散仿真研究的主要手段是建立通过计算机模拟的疏散仿真模型,其中,主要的模型有社会力模型[1-2]、元胞自动机模型[3-4]和基于博弈论的模型[5-8]等。

在很多疏散失败案例中,疏散出口并没有发挥出最佳效率,有的出口拥挤不堪,而有的出口却鲜少使用。在疏散仿真研究中,关于如何发挥疏散出口的最佳疏散效率变得越来越重要,然而现有的模型对于多出口条件下的疏散出口选择的研究较少。施正威[3]等建立了基于随机效用理论的元胞自动机模型,用多项Logit模型描述行人的出口选择行为,并分析了行人疏散时的理性程度、影响因素的敏感性系数等对出口选择行为的影响。Lo[5]等通过建立一个基于博弈论的疏散仿真模型,采用不合作博弈模拟多出口疏散环境中疏散人员动态的出口选择过程,表明疏散人员之间交互会影响疏散决策和疏散时间,并且模型的混合策略纳什均衡描述了疏散人员的均衡及疏散出口的拥塞状态。目前基于博弈论的疏散仿真模型中博弈参与者是完全理性的,完全理性是一个理性化的模型,然而事实上由于自身生理的限制以及周围环境的影响人类是处于完全理性和非理性之间的有限理性。人类的决策过程是一个不断学习、试探乃至适应的过程,只能找到令人比较满意的策略而非最优策略,而博弈论中却可以通过一次博弈就能找到纳什均衡解,也就是最优策略,并且在多重纳什均衡博弈中博弈结果具有不确定性。因此有必要将疏散人员看作有限理性者,在疏散过程中不断的调整策略,疏散也就是一个学习、模仿的过程,即演化博弈。目前,演化博弈论已广泛应用于舆论传播[9]、交通选择[10]和个体路径选择[11]等方面。

本文基于元胞自动机对人员疏散的仿真研究,模型中利用演化博弈理论来描述疏散人员的出口选择行为。最后通过仿真实验研究了出口保持率,视野范围以及初始策略对出口选择的影响,实验结果表明本文方法能够明显反应疏散人员在疏散过程中出口选择这一动态演化过程。

1 模型构建

1.1 出口选择行为分析

人员疏散问题是一个复杂的现象,人在紧急情况下的某一行为可能会影响到疏散过程中逃生出口的选择,而出口选择是疏散行为中最复杂的方面。当若干人在一个危险区域寻找逃生路径时,一个人的行为可能会受到另一个人行为的影响,换言之,在人员疏散仿真模型中,人与人之间的影响是需要考虑的。在疏散过程中,疏散人员会根据自己掌握的信息和拥有的知识以及其他疏散人员传递的指示信息,对形势进行了分析判断,选择疏散出口。因此,采用博弈论来研究疏散人员在疏散中的相互作用行为怎样影响疏散决策。通常所说的博弈都是以博弈方完全理性为前提条件,完全理性不仅要求疏散人员在疏散过程中始终以追求自身利益最大化为目标,还要求他们有完美的判断和预测能力以及疏散人员之间的完全信任。另一方面,由于疏散环境的复杂性,信息获得总是不完整的。所以,疏散中疏散人员是无法满足现代主流博弈论关于完全理性的前提假设,而是不断的进行着试探、学习并且积极适应环境。而且虽然疏散人员具有有一定的理性和智力,但是在疏散过程中要一次就找到最佳疏散策略是不太现实的。因此,将疏散过程看作是一个学习过程来讨论,应用演化博弈论来研究在疏散过程中疏散人员之间的相互影响以及疏散人员出口选择这一动态过程。

1.2 疏散人员的疏散时间描述

疏散人员在疏散过程中每一个决策都是为了尽快离开事故现场,尤其是出口选择,不同的出口所要的行走距离、拥挤程度等所造成的时间耗费就不同,因此将疏散人员所处的位置到他所选出口的距离以及比其更早到达这一出口的疏散人员数目作为该疏散人员疏散所需时间。

根据文献[4]中静态地场的计算方法,为每个出口计算静态地场,然后疏散人员选择疏散时间短的出口进行疏散,出口i疏散时间的计算如式 (1)、(2)所示

式中:Ui——疏散人员通过出口 i所需要的疏散时间;Li——该人员距离出口i的路径长度;Ti——比该人员更早从出口i疏散离开的人数;Ai——比该疏散人员距离出口i更近的人数;Bi——与该疏散人员距离出口i相等的人数;Di——出口i的宽度。

1.3 基于最优反应动态机制的演化博弈

最优反应动态机制是演化博弈论中典型的动态演化机制之一,该机制适用于博弈参与者学习能力较快较强,在复杂的情况下他们能够较快的对上一阶段的结果进行总结分析,若是策略收益存在差异,就会模仿比较成功的策略。他们依据上一阶段的结果进行调整策略,对上一阶段是正确的,而其他参与者也会进行调整,因此在本阶段就不一定正确,这是因为人类在学习过程中受到主客观因素的影响对其他人的策略调整缺乏预见。

人员疏散过程中,由于受到疏散环境 (如火灾时烟气等)的影响,疏散人员在紧张情况下会出现缺乏理性、无法获得完整信息或者接收到错误信息等状况,疏散人员会根据周围其他人员的策略而决定自己的策略。在本阶段,疏散人员会观察视野范围内的其他疏散人员的策略选择,并按照观察到结果进行策略评估,然后决定下一阶段的策略。基于最优反应动态机制,本文出口选择的策略调整思想是:疏散人员 j在 t+1时期会选择出口 i0,i0=G为t时刻疏散人员j在其视野范围r内为观察到的疏散人员集合。

1.4 元胞自动机模型参数设计和更新规则

首先对模型的做如下设定:

(1)元胞及其状态:元胞分布在大小相等的二维平面空间上,元胞可以被墙体、桌椅以及疏散人员等占据,也可为空;

(2)元胞邻居规则:本文模型中的邻居规则采用Moore型领域,疏散仿真时疏散人员可以向其所占据元胞周围8个相邻的元胞移动,也可以保持在该处元胞静止不动,如图1所示。

图1 元胞的Moore型领域及其可能的移动方向

(3)元胞空间:选择大小为的L×L的正方形网格为元胞空间大小,其中L为0.4m。

(4)时间步:模型中规定在疏散过程中每一个疏散人员一次只能移动一个元胞。根据正常状态下人的速度为1.0m/s,而元胞大小为0.4m×0.4m,则时间步长为0.4/1.0,即0.4s大小为一个时间步长。

其次,在每个时间步内,本文模型的更新规则如下:

(1)疏散人员以概率P(为了更真实地体现出口选择行为,防止疏散人员过于频繁变化目标出口,根据文献[3]在此引入出口保持概率P)保持目标出口不变,否则根据2.3节选择目标出口i,然后依据静态场i,选择该人员所占据元胞的邻居中静态场值最小的元胞作为下一个目标元胞。

(2)当多个疏散人员竞争一个元胞或者一个疏散人员有多个元胞可选择时,等概率选择一个疏散人员进入下一个元胞或者等概率选择一个元胞作为下一个选择元胞。

(3)为了防止本文模型出现确定性现象,对于每一个将改变位置的疏散人员,以5%的概率保持静止不动[4]。

(4)某疏散人员位于出口处元胞时,则该人员完成疏散,退出本次仿真。

(5)当仿真空间内不再有疏散人员存在时,一次实验仿真结束。

2 仿真分析

在仿真分析中,本文设计的仿真例子是运用元胞自动机方法来模拟一间有2个出口 (出口宽度为1L,右侧出口记为A,下侧出口记为B)、长为40L、宽为21L的办公室的疏散情形。初始时刻有132人,如图2所示。

图2 办公室初始时刻疏散仿真

图3 给出了视野受限制的情况下 (视野范围设定为2个网格大小、初始出口选择为距离最短的出口)不同的出口保持率对疏散的影响。在图3(a)中,我们可以看出当出口保持率从0到0.4时,总疏散时间不断变小,但是之后逐渐增大出口保持率,总疏散时间不断却不断增大。这是因为疏散过程中,过于频繁的改变出口则会使疏散人员不断变换疏散出口,浪费大量的时间寻找出口,不利于疏散,因此增大出口保持率能够减少疏散时间,而随着不断增大出口保持率的不断增大,疏散人员减少改变疏散出口,这样会导致不能够有效利用疏散出口,增大疏散时间。在图3(b)中曲线分别代表出口保持率为0.0、0.4、0.8、1.0时选择出口A的疏散人员的人数,可以看出疏散过程中疏散人员选择出口A的总数大体上是不断减小,疏散人员不断的寻找其他出口疏散,但是曲线却是非线性变化,表明疏散人员在不断的试探、学习直至找到合适的出口;我们还可以发现在出口保持率为0.0时,选择出口A的人数虽然总体在变小,但是有可能会增多,这是由于过于频繁变换出口,导致演化会走向一个不利方向,疏散时间较大;当增加出口保持率时,出口变换相对减少,较有利于疏散,疏散总时间较少;随着出口保持率的继续增大,则疏散人员很少改变出口,这时选择出口A的人数较多,不利于其他出口的利用,总疏散时间较大;当始终保持出口不变时,疏散人员的出口选择为初始策略,总疏散时间依赖于初始策略的选择。

图3 不同出口保持率下的疏散仿真实验

在疏散过程中,疏散人员得到的疏散信息越全面,疏散决策就会越有利于疏散。现实疏散中疏散人员无法获得周围环境的全部信息,只能根据自己获得的局部信息作出疏散决策。因此,本文仿真研究了在不同的视野对疏散的影响 (出口保持率为0.6、初始出口选择为距离最短的出口),如图4(a)中曲线代表不同视野下与疏散时间的关系曲线图,增加视野范围时会减少总疏散时间,当视野范围增加到一定值得时候,疏散人员能获得全部信息,总疏散时间不再变化。在图4(b)中曲线分别代表视野为2、4、6个网格时选择出口A的疏散人员的人数,可以发现在疏散开始时候,视野范围越大,疏散人员越能及早的收集到环境信息,及时的改变出口策略,寻找到其他合适出口,有效的利用疏散出口,这样会减少总疏散时间,同时疏散能够越早进入进化稳定策略;反之,则不能有效利用疏散出口,造成一些疏散出口拥挤,而其他疏散出口利用率不高,总疏散时间就较大。

图4 不同视野下的仿真实验

为了比较不同初始出口选择对疏散的影响 (出口保持率为0.6),图5给出了在不同初始出口选择情况下,随着时间变化疏散人员选择出口A的变化情况。在图中:5(a)视野为2个网格、初始出口选择为随机时选择出口A的疏散人数随时间变化曲线图,而5(b)为视野不受限制、初始出口选择为随机时选择出口A的疏散人数随时间变化曲线图。我们可以看出视野范围不受限制,并且初始状态不同时,疏散却能达到同一个演化稳定策略,而视野受限制时,不同的初始状态可能导致不同的演化稳定策略。这是由于视野受限时,疏散人员不能够获得整个疏散环境的全部信息,最终的结果会受到初始策略的影响,每次不同的初始策略也即每次的疏散状况是不同的,因此疏散人员会根据不同的状况作出不同的决策,最终得到的演化稳定策略也是不一样的。然而在视野不受影响时,疏散人员能够获得全部的疏散信息,这样即使初始策略不同,疏散人员也能够根据全部信息作出策略,能够达到同一演化稳定策略。并且我们也可以看出视野不受限制时进入演化稳定策略的时间要比视野受限时要小的多。

图5 不同初始状态下仿真实验

3 结束语

本文基于元胞自动机对人员疏散的仿真研究,模型中利用演化博弈理论来描述疏散人员的出口选择行为。最后通过仿真实验研究了出口保持率,视野范围以及初始策略对出口选择行为的影响,仿真结果表明本文方法能够有效的应用于研究疏散出口选择的动态演化过程中。

目前演化博弈疏散仿真模型仍需完善,模型中要进一步考虑各种影响因素。由于人的模仿学习过程比较复杂,模型中的最优反应动态的策略更新机制有待进一步改进。

[1]Seyfried A,Steffen B,Lippert T.Basics of modelling the pedestrian flow [J].Physica A,2006,368(1):232-238.

[2]Parisi D R,Dorso C O.Microscopical and dynamical aspects of the room evacuation process[J].Physica A,2007(385):343-355.

[3]SHI Zhengwei,CHEN Zhiya,ZHOU Le,et al.A cellular automata model of pedestrian evacuation under multi-exit conditons[J].Systems Engineering,2010,28(9):51-56(in Chinese).[施正威,陈治亚,周乐,等.多出口条件下行人疏散的元胞自动机模型 [J].系统工程,2010,28(9):51-56.]

[4]Varas A,Cornejoa M D,Mainemera D,et al.Cellular automaton model for evacuation process with obstacles[J].Physica A,2007(382):631-642.

[5]Lo SM,HUANG H C,WANG P,et al.A game theory based exit selection model for evacuation [J].Fire Safety Journal,2006,41(5):346-349.

[6]ZHENG X P,CHENG Y.Conflict game in evacuation process:A study combining cellular automata model[J].Physica A,2011(390):1042-1050.

[7]ZHOU Yong, ZHANG Heping, WAN Yutian.Analysis of evacuation congestion based on game theory[J].China Safety Science Journal,2008,18(8):131-134(in Chinese).[周勇,张和平,万玉田.人员疏散拥堵问题的博弈分析[J].中国安全科学学报,2008,18(8):131-134.]

[8]LI Dewei,HAN Baoming,ZHANG Qi.Modeling and simulation of microscopic pedestrian using game theory[J].Jouranl of System Simulation,2007,19(11):2590-2594(in Chinese).[李得伟,韩宝明,张琦.基于动态博弈的行人交通微观仿真模型[J].系统仿真学报,2007,19(11):2590-2594.]

[9]HAN Shaochun,LIU Yun,ZHANGYanhui,et al.Herd instinct of opinion based on dynamic evolutionary game theory[J].Journal of Systems Engineering,2011,26(2):275-281(in Chinese).[韩少春,刘云,张彦超,等.基于动态演化博弈论的舆论传播羊群效应 [J].系统工程学报,2011,26(2):275-281.]

[10]GUANHongzhi,PULiang.A drivers'choice behavior model based on evolutionary game thoery[J].Journal of Beijing University of technology,2010,36(8):1077-1083(in Chinese).[关宏志,浦亮.基于演化博弈理论的有限理性交通选择行为模型[J].北京工业大学学报,2010,36(8):1077-1083.]

[11]LIU Jianmei,MA Shoufeng.Evolutionary game mode about individual travel route choice based on bounded rationality[J].Control and Decision,2009,24(10):1450-1454(in Chinese).[刘建美,马寿峰.基于有限理性的个体出行路径选择进化博弈 [J].控制与决策,2009,24(10):1450-1454.]

猜你喜欢
元胞博弈论视野
基于元胞机技术的碎冰模型构建优化方法
居· 视野
基于元胞自动机下的交通事故路段仿真
基于元胞自动机下的交通事故路段仿真
基于元胞数据的多维数据传递机制
无知之幕与博弈:从“黄灯规则”看博弈论的一种实践方案
樊畿不等式及其在博弈论中的应用
视野
博弈论视角下的建筑工程外包道德风险
真相