基于混合博弈模型的合作演化研究

2017-06-23 08:47琦,周
宿州学院学报 2017年4期
关键词:雪堆囚徒异质性

辛 琦,周 晓

福建江夏学院经济贸易学院,福州,350108



基于混合博弈模型的合作演化研究

辛 琦,周 晓

福建江夏学院经济贸易学院,福州,350108

为了研究不同的个体在面对相同的社会困境时会有不同的感知此类场景下的合作演化,通过构建混合博弈模型对结构化群体的合作演化进行研究。模型不仅考虑了博弈规则的多样化,而且增加了相同博弈规则下个体收益矩阵的多样化,由此形成群体的异质性。仿真结果表明,多博弈规则下,不同子群体内个体收益矩阵的多样化可以进一步提高整个群体的合作水平,尤其是在背叛诱惑处于中等水平时,这种异质性对合作涌现的促进作用更为显著。

混合博弈;合作演化;囚徒困境;雪堆博弈

1 问题提出

社会困境是个体在自己利益和社会利益之间进行选择的一种情景。如果自私盛行,追求短期的个人利益会迅速导致相互有益的合作行为的消失,并最终造成公共的悲剧。囚徒困境是受到最广泛关注的社会困境[1-7]。在每次囚徒困境博弈中,两个博弈者需同时做出合作或背叛的决定,产生的困境是:尽管相互合作能使集体的收益最高,但是当博弈对手为合作者时,个体选择背叛会有更高收益,并使得其选择合作的对手收益最低。与囚徒困境一样受到广泛关注的还有雪堆博弈[8-10],在雪堆博弈中,合作者的处境较囚徒困境略好些,在遇到背叛者时,个体选择合作会比选择背叛会获得更高收益。

自然界和人类社会广泛存在的合作行为与达尔文的进化论和自然选择相违背,因此,有大量的研究致力于找出产生合作的机制,以解决社会困境中的合作问题。演化博弈理论是研究社会困境所采用的通用理论框架[11]。可以用网络来表示处于同一社会困境的某个群体,其中,网络节点代表群体中的不同个体,节点之间的连边代表个体之间的交往关系。事实上,不同个体在面对同一社会困境时会有不同的感知,在演化博弈过程中表现为群体内有不同的博弈模型或收益矩阵并存。一个简单地例子可以说明这个观点:两个司机开着车在一条狭窄的街道相遇,他们需要避免碰撞,第一个司机开的是便宜的旧汽车,第二个司机开的是昂贵的新汽车,一般情况下,第二个司机会更愿意避免出现碰撞。由此可见,当面临冲突时,不同个体因博弈对手选择背叛而带来的损失感知不同,进而导致个体有不同的收益矩阵,那么这种情况的出现将会如何影响整个群体的合作水平呢?

上述问题适合用多模型博弈/混合博弈模型[12-14]对其进行建模。多模型博弈/混合博弈模型已在均匀混合系统中得以研究,而事实上,自然界和人类社会的几乎任何群体都不会是均匀混合的,每个个体都与不同的其他个体发生联系。基于此,Wang等在方格网络和无标度网络上研究了以弱囚徒困境为核心,弱囚徒困境、强囚徒困境和雪堆困境并存时博弈规则的多样性对合作率的影响,研究结果表明群体中采用强囚徒困境和雪堆博弈的个体越多,就越能促进合作的涌现[15]。但是,该文采用同样博弈规则的所有个体所感受到的社会困境程度(即收益矩阵)都是相同的,这显然与实际情况不符。因此,在文献[15]的基础上,本文增加了相同博弈模型中收益矩阵的多样性,并通过仿真与文献[15]的结果进行对比,仿真结果表明,在博弈规则多样性之上考虑收益矩阵的多样性,以此形成的群体异质性能进一步促进群体合作演化水平的提高。

2 混合博弈模型

考虑囚徒困境博弈模型和雪堆博弈模型并存的混合博弈模型,并且同一博弈模型中存在收益矩阵的多样性。

囚徒困境博弈模型是研究社会困境演化最常用的一种模型,参与囚徒困境博弈的个体可以选择合作(C)与背叛(D)两种策略。合作者碰到背叛者时,合作者收益为S,背叛者收益为T;合作者碰到合作者时,两者都可获得收益R;背叛者碰到背叛者时,两者的收益都为P。当囚徒困境博弈中的这四种收益满足T>R>P>S,这类囚徒困境被称为强囚徒困境。由于在强囚徒困境博弈中选择合作总是比选择背叛吃亏,所以它是一种最难产生合作行为的两个体博弈模型。如果T>R>P=S,则为弱囚徒困境博弈,它是对强囚徒困境博弈的简化,具有等价的研究效果[16]。不失一般性,设置弱囚徒困境的收益矩阵为T>1,R=1,P=S=0;强囚徒困境的收益矩阵为T>1,R=1,P=0,S<0。

雪堆博弈模型是另外一个常被研究的两个体博弈模型,它是由司机回家的道路被积雪堵住后所面临的困境而得名。在此模型中,合作(C)就是下车铲开积雪,背叛(D)就是不下车铲雪呆在车上坐等别人铲雪。如果下车铲雪的话,虽然会付出一定的代价,但自己多少还是会有回报,因此对应于两个体博弈的收益矩阵元素而言,存在T>R>S>P的数量关系,即当面对背叛者时,个体选择合作能获得一定的收益,会好于选择背叛策略。设置雪堆博弈的收益矩阵为T>1,R=1,P=0,S>0。

网络拓扑结构采用L×L周期性边界条件的方格网络,初始时等量的合作者与背叛者在该网络上随机分布,每个个体与四个邻居互作用(冯·诺依曼邻域)。博弈以弱囚徒困境为核心,即T=b>1,R=1,P=S=0。群体中ρ比率的个体使用不同的S值来表征他们在面对相同社会困境时的不同认知,其中,一半的个体使用S=+Δ(雪堆博弈),另一半使用S=-Δ(强囚徒困境),Δ取位于区间(0,1)的随机数,用以模拟网络中雪堆子群体和囚徒困境子群体所面临同类型社会困境的多样性。

在每个时间步的博弈中,个体与所有邻居互作用并累计收益,并采用费米动力学进行策略更新,即随机选择个体的一个邻居,记个体与该邻居的策略和收益分别为sx、sy和fx、fy,值得注意的是,个体的收益是根据自己所采取的收益矩阵进行计算的。将fx、fy代入费米函数(如式(1)所示)可以得到个体由策略sx更新为策略sy的概率。

(1)

上式中,κ是环境噪声因子,用来量化个体学习邻居策略过程中的不确定性,这种不确定性可能是由于信息不完全、对博弈对手的错误估计以及类似的不可预测的因素带来的。κ=0,代表个体不受环境噪声影响,完全理性;κ=+∞,则代表个体完全不理性,其策略学习完全随机。本文采取与文献[17]相同的设置,即κ=0.1,可以使得收益高个体的策略更容易被邻居所学习,同时,收益低个体的策略也有小概率被邻居学习的机会。

3 仿真结果与分析

仿真在具有周期边界条件的100×100方格网络上进行,仿真数据均为50次独立实验结果取平均得到,其中,每次独立实验结果是博弈演化10 000个时间步中最后1 000步的数据平均值。

图1所示为(ρ,b)二维参数空间所对应的合作率map图,ρ为群体中强囚徒困境和雪堆困境个体所占的比率,b为背叛诱惑。图1(a)中所有个体的Δ值均为0.5(以下用Δ0.5表示固定取值为0.5),图1(b)中个体的Δ值为区间(0,1)内的随机数(以下用Δ(0.1)表示Δ在区间(0,1)内随机取值)。

图1 (ρ,b)二维参数空间所对应的演化稳定合作率map图

由图1可见,增加ρ值能促进合作率的提高,说明群体博弈规则的多样化能有效促进合作的演化;进一步对比两图可知,图1(b)参数点的合作率都高于所对应的图1(a)参数点的合作率,表明Δ=Δ(0.1)时高合作率参数范围比Δ=Δ0.5时更大,相比Δ固定,Δ取值的多样性意味着群体中异质性进一步增强,当异质性增强时,在绝大部分(ρ,b)参数空间都能够在文献[15]基础上进一步促进合作的涌现。

图2为ρ=1,Δ=Δ0.5与Δ=Δ(0.1)两种情况下,合作率fC随背叛诱惑b变化的曲线。图2(a)为整个群体的合作率变化曲线,图2(b)为强囚徒困境和雪堆博弈子群体的合作率变化曲线。从图2可以看出:(1)所有合作率曲线均随着背叛诱惑的逐渐增大而不断下降。(2)Δ随机取值时的合作率曲线都比固定取值时的曲线下降更缓慢,说明个体困境程度的多样性能有效抑制由背叛诱惑引发的合作率的迅速下降。(3)存在分界点b1≈1.15,当bb1时,Δ随机取值的合作率较高,尤其在b≈1.5时,Δ随机取值对合作涌现的促进作用最为显著。(4)相同背叛诱惑条件下,雪堆博弈子群体的fC>整个群体的fC>强囚徒困境子群体的fC,说明在博弈规则的多样性方面,雪堆博弈子群体对整个群体合作率的贡献比强囚徒困境子群体更为显著。(5)对比Δ固定和随机取值两种情况,两者合作率曲线上的差异在雪堆博弈子群体中最为明显,说明在个体困境程度的多样性方面,雪堆博弈子群体对整个群体合作率的提高比强囚徒困境子群体发挥的作用更大。

由此可见,一般情况下,通过增强群体中个体困境程度的多样性而带来的群体异质性,能有效提高群体的合作演化水平,特别是背叛诱惑居于中等水平时。其中,雪堆博弈群体的异质性对合作率的提升作用更为有效。但是,在较低的背叛诱惑环境中,上述异质性反而会降低整个群体的合作水平。

图2 Δ=Δ0.5与Δ=Δ(0.1)两种情况下,合作率随背叛诱惑b变化的曲线(ρ=1)

为了进一步探索是什么微观机制导致Δ=Δ(0.1)时群体合作水平比Δ=Δ0.5时更高,把Δ随机取值的(0,1)区间以0.1宽度进行划分,考虑到同时存在强囚徒困境和雪堆困境两种困境,就相当于是把(-1,1)区间以0.1间隔分为20个子区间,然后统计在不同的背叛诱惑下S落入各个子区间的个体中合作者所占的比例(以下简称区间合作率),如图3所示。从图3可以看出:(1)强囚徒困境(S∈(-1,0))下在(-1,0)内的各个子区间的区间合作率都比较小,并且分布比较均匀;雪堆困境(S∈(0,1))下区间合作率明显要高于强囚徒困境的区间合作率,并且随着S的增大,区间合作率迅速增加。(2)当S≤0.2时,区间合作率与b反相关;但当S>0.2之后,这种反相关关系被破坏,高背叛诱惑下的合作率曲线开始迅速上升;当S≥0.8时,二者变成正相关的关系,即背叛诱惑越大,区间合作率越高。

图3 不同背叛诱惑b下的S区间合作率

由此可知,高背叛诱惑情况下,较大的S取值能引发相应区间合作率的快速上升,从而使整个群体的合作率随着背叛诱惑的增大而迅速下降的趋势得到缓解,这也是图2所示Δ随机取值时合作率曲线下降缓慢的原因。但是,在背叛诱惑较低时,S的随机取值对合作率的影响不太大(由图3中b=1.1曲线可见),甚至整个(-1,1)区间(即整个群体)的合作率低于Δ=0.5时的合作率,这也揭示了图2所示的低背叛诱惑下Δ随机取值较Δ固定时合作率更低的原因。

4 结 语

不同个体在面对相同的社会困境时有着各自不同的感知,基于此,本文研究了结构化群体的混合博弈对合作演化的影响。在文献[15]的基础上,博弈模型不仅考虑了弱囚徒困境、强囚徒困境和雪堆困境的并存以体现博弈规则的多样性,而且通过对收益矩阵参数S进行随机取值来模拟个体感知到的困境程度的多样性。仿真结果表明:(1)在博弈规则多样性的基础上,增加同类型困境中子群体困境程度的多样性能进一步促进整个群体的合作水平,即子群体中异质性越大,就越能促进整个群体的合作演化。(2)当背叛诱惑居于中等水平时,混合博弈模型对合作的促进作用最为明显;而较低背叛诱惑时,该模型反而不利于合作的演化。(3)一般情况下,合作率与背叛诱惑反相关,但是,当S较大时,在高背叛诱惑下合作率更高。这意味着雪堆博弈的异质性较囚徒困境而言更有利于合作的演化。

由此可见,博弈个体在进行博弈时具有不同的收益矩阵使群体的异质性进一步增强,进而使结构化群体的合作水平超出仅考虑博弈模型多样化所达到的水平,甚至能在不利的环境中维持合作行为。希望本文可以促进当前结构化群体中混合博弈的研究,因为这是一个值得进一步探索的新领域。

[1]Fu F,Wu T,Wang L.Partner switching stabilizes cooperation in coevolutionary prisoner's dilemma[J].Phys Rev E,2009,79(3):036101

[2]Fu F,Nowak M A,Hauert C.Invasion and expansion of cooperators in lattice populations:Prisoner's dilemma vs.snowdrift games [J].J Theor Biol,2010,266(3):358-366

[3]Antonioni A,Tomassini M.Network fluctuations hinder cooperation in evolutionary games[J].PLoS ONE,2011,6(10):e25555

[4]Tanimoto J,Brede M,Yamauchi A.Network reciprocity by coexisting learning and teaching strategies[J].Phys Rev E,2012,85(3):032101

[5]Hilbe C,Nowak M A,Sigmund K.Evolution of extortion in Iterated prisoner's dilemma games[J].Proc Natl Acad Sci USA,2013,110(17):6913-6918

[6]Szolnoki A,Perc M.Evolution of extortion in structured populations[J].Phys Rev E,2014,89(2):022804

[7]Liu J,Li Y,Xu C,et al.Evolutionary behavior of generalized zero-determinant strategies in iterated prisoner's dilemma[J].Phys A,2015,430(15):81-92

[8]Qin T,Fu C F,Chen G.Herding effect for the evolution of cooperation in the snowdrift game[J].International Journal of Modern Physics B,2008,22(27):4909-4916

[9]Laird R A.Evolutionary strategy dynamics for tag-based cooperation and defection in the spatial and a spatial snowdrift game [J].International Journal of Bifurcation and Chaos,2012,22(11):1230039

[10]Rocha A,Laruelle A.Evolution of cooperation in the snowdrift game with heterogeneous population[J].Advances in Complex Systems,2013,16(8):1350036

[11]Nowak M A.Evolutionary Dynamics[M].Cambridge,MA:Harvard University Press,2006

[12]Hashimoto K.Unpredictability induced by unfocused games in evolutionary game dynamics[J].J Theor Biol,2006,241(3):669-675

[13]Hashimoto K.Multigame effect in finite populations induces strategy linkage between two games[J].2014,345(11):70-77

[14]Wardil L,Silva J.The evolution of cooperation in mixed games [J].Chaos,Solitons & Fractals,2013,56:160-165

[15]Wang Z,Szolnoki A,Perc M.Different perceptions of social dilemmas:evolutionary multigames in structured populations[J].Physical Review E,2014,90(3-1):185-198

[16]Nowak M A,May R M.Evolutionary games and spatial chaos[J].Nature,1992,359:826-829

[17]Perc M,Szolnoki A,Szabo G.Restricted connections among distinguished players support cooperation[J].Phys Rev E,2008,78(2):066101

(责任编辑:刘小阳)

10.3969/j.issn.1673-2006.2017.04.028

2017-01-22

福建省中青年教师教育科研项目(社科)“基于博弈论的便利跨境电子商务贸易监管研究”(JAS160610)。

辛琦(1975-),江西万载人,博士,讲师,研究方向:网络演化博弈、计算机仿真。

TP273

A

1673-2006(2017)04-0100-04

猜你喜欢
雪堆囚徒异质性
基于可持续发展的异质性债务治理与制度完善
奥地利一卡车穿越4米厚雪堆开辟道路
机智的囚徒
捕熊妙计
囚徒
现代社区异质性的变迁与启示
海盗的囚徒
论男性出轨者的囚徒困境
1949年前译本的民族性和异质性追考