囚徒困境、交易费用与演化动力学

2021-06-23 19:37刘红军

西部学刊 2021年5期

摘要：囚徒困境模型指出，追求个人利益最大化的纳什均衡解是集体利益最小化，这与古典经济学的“看不见的手”核心思想背道而驰。相比囚徒困境模型，鹰鸽博弈区分了策略H种群和策略D种群，这样就从两个体不合作分析转变为不同策略的群体间混合演化稳定策略分析，这个混合策略中包含一定概率的合作策略。西格蒙德证明了均衡点存在，这些均衡点包含一定概率的合作策略，在其基础上，诺瓦克证明了当种群中合作策略的群体占种群总量的三分之一以上时，合作策略会成最优策略，囚徒困境被破解。

关键词：囚徒困境;交易费用;三分之一定律

中圖分类号：F069.9 文献标识码：A文章编号：2095-6916（2021）05-0140-03

一、博弈论中的囚徒困境

1928年，匈牙利裔数学家约翰·冯·诺依曼（John von Neumann）发表了他关于博弈论的第一篇论文，后来奥地利经济学家奥斯卡·莫根施特恩（Oskar Morgenstern）为逃避纳粹迫害到美国避难，在他的帮助下，冯·诺依曼对博弈论进行了完善，并将其成功应用于经济领域。

博弈论中有一个非常有趣的博弈模型——囚徒困境，由梅里尔·弗勒德（Merrill Flood）和梅尔文·德雷希尔（Melvin Dresher）于1950年共同提出。囚徒困境模型指出，追求个人利益最大化的纳什均衡解是集体利益最小化，这与古典经济学的“看不见的手”核心思想——自由竞争的一般均衡解带来集体利益最大化——背道而驰。

假设你和你的同伙犯罪并已被警方缉拿归案，二人分别隔离囚禁不能互通信息，现在正面临检方的犯罪指控。假设检方对二人分别进行审讯，并对每人只提供一次选择机会。这个选择机会正是囚徒困境的核心：如果某人选择不合作，充当背叛者，坦白认罪并指控另一人的罪行，而同时另一人保持沉默（不认罪，不指控），那么坦白者被从宽处理，刑期1年，而保持沉默（不认罪，不指控）的同伙被重罚，面临4年监禁;如果二人都保持沉默，互相合作，不认罪不指控，检方由于证据不足只能轻判，二人分别获刑2年;还有一种情况，二人都选择背叛对方，互相揭发，因证据确凿都会被治以重罪，但考虑都有坦白表现，将会分别判处刑期3年。

在囚徒困境里不管对方的选择如何，己方的最优策略是背叛，每个人的最优策略构成的稳定均衡是纳什均衡，囚徒困境里的纳什均衡是（不合作，不合作），或者说（背叛，背叛）。有意思的是，从个人的最优策略角度构成的（不合作，不合作）均衡，从总体来看是最差的，因为两人的刑期总和为6年，显然比一人坦白一人不坦白的5年或者二人都不坦白的4年效果要差。

要注意的是囚徒困境分析中没有区分策略的种群差别。

二、鹰鸽博弈

1973年，约翰·梅纳德·史密斯（John Maynard Smith）和普瑞斯（Price）在《动物冲突的逻辑》中研究生物进化现象时，提出了进化博弈论的思想以及进化稳定策略（ESS），从此进化博弈理论诞生。史密斯在他出版的《演化与博弈论》[1]一书中描述了鹰鸽博弈，这一模型已成为演化动力学与进化博弈论的基本模型。

假设两种动物为争夺价值为V的资源而展开竞争，所谓价值指的是该资源使得动物的达尔文适应性之增加值。一种动物可以采取的行动有三种：炫耀、战斗或撤退。炫耀指的是动物只能虚张声势而不会伤害到对手，采取战斗的动物如能伤害对手使其撤退就能获取资源，而采取撤退行为的动物则等于放弃竞争，将资源拱手让人。

为了简化，将动物的策略只归为两种，鹰（H）策略：战斗，仅当自己受伤或对手撤退时才停止战斗;鸽（D）策略：炫耀，当对手开始战斗时立刻撤退。

如果两种动物都采取战斗策略，其中的某种动物早晚会受伤退出，受伤的结果将降低其达尔文适应度为C。假设鹰策略对鹰策略：竞争者有50%的机会伤害并击退对手获取资源V，也有50%的机会可能受伤退出竞争，那么鹰策略的收益为（V-C）/2。对手是鸽策略，鹰策略的竞争者将会击退鸽策略者，获得收益V，而鸽策略者获得收益0。如果两个鸽策略者竞争，他们最后将分享资源，每个竞争者的收益为V/2。

设策略I是稳定策略，策略J是突变策略，梅纳德·史密斯和普瑞斯（1973）指出存在进化稳定策略（ESS）的条件是E（I，I）>E（J，I）或者E（I，I）=E（J，I）且E（I，J）>E（J，J）。显然，D不是一个ESS，因为E（D，D）0，即V>C，H是一个ESS。但如果V

要注意的是，在鹰鸽博弈分析中，实际是区分了策略H种群和策略D种群，这样就从囚徒困境的两个体不合作分析转变为不同策略的群体间混合演化稳定策略分析，这个混合策略中包含一定概率的合作策略。

三、交易费用和演化动力学的统一方程

1999年，邓肯·瓦特（Duncan Watts）在《美国社会性杂志》发表《网络，动力学，小世界现象》;2004年，又在《社会性年鉴》发表了《网络新科学》，瓦特介绍了“小世界”网络研究。瓦特的研究表明，社会网络有三种类型：熟人社会、冷漠社会和介于二者之间的“小世界”，小世界的典型特点是存在不同策略的群体。关于真实世界的社会网络的研究结果表明，交易与病毒在小世界网络里传播的速度最快——或者说其交易费用足够低。

哈佛大学演化理论家马丁·诺瓦克（Martin A.Nowak）2002年发表了论文《演化动力学的统一方程》，论文核心围绕“演化基本方程”展开，复制子—变异子方程为，这一方程也被称为演化基本方程，设为有机体承载的被称为“合作行为”的策略，方程右端的fi（x）代表物种i的适存度，f代表这一生态环境下全部物种的平均适存度。方程左边为变量xi随时间变化的百分比，方程两端同除以xi然后对时间求导数，方程左端变为ln（xi）对时间的导数。演化基本方程的含义是：变量有机体承载的“合作行为”策略百分比变化率等于物种i的适存度与全部物种的平均适存度之差。要注意的是：（1）适存度fi（x）是向量X的函数，而xi只是X的一个分量;（2）平均适存度f也是向量X的函数;（3）使得适存度之差为零的X值称为微分方程组的静态均衡点，或称为零点。

卡尔·西格蒙德（Karl Sigmund）在其著作《演化博弈与种群动力学》[2]中研究了这些均衡的稳定性，在扩展到两个变量x和y，得到和，联立方程组后能得到稳定的均衡解，由这一方程组所刻画的动力系统的轨迹总是趋向于均衡点。他还证明了当有三个变量时，相应的相平面轨迹同样存在均衡点。

四、三分之一定律和最后博弈者仿真

在西格蒙德著作的基础上，诺瓦克于2006年出版了《演化动力学：探索生命的方程》[3]一书，这本书源自诺瓦克2004—2005年在哈佛大学的讲义。诺瓦克在书中提出了“三分之一定律”，这一定律為：对于任一规模有限的种群，如果对个体而言策略A比策略B占优，当策略A的载体占到种群载体总数的三分之一或以上时，策略A的载体能够侵入由策略B的载体组成的种群，并最终颠覆策略B。

假设有一个两策略二阶矩阵，策略分别为A和B，相应的支付矩阵为：

限定种群数量大小为N，其中采用A策略的个体数量为i，采取B策略的个体数量为N-i。对于每一个体而言，对应有其他个体N-1个。对于单个A个体，种群当中相应有i-1个其他个体采用A策略，对单个B个体，种群当中相应有N-i-1个其他个体采用B策略。假设种群当中个体之间的相互作用机制是随机的，一个A个体同另外一个A个体之间相互作用的概率为（i-1）/（N-1），而一个A个体同B个体之间的相互作用概率为（N-i）/（N-1）;相应的一个B个体同另外一个B个体之间的相互作用概率为（N-i-1）/（N-1），而一个B个体同A个体之间的相互作用概率为i/（N-1）。

A的期望支付为

B的期望支付为

指标i表示种群中含有i个A个体。

在Moran过程下：

A的适合度是：

B的适合度是：

其中参数w表示选择强度，且w介于0和1之间。如果w=0，博弈对适合度没有影响，策略A与策略B是重型变量;如果w=1，选择作用强度很大，适合度完全由期望支付决定;在w趋于0的情况下，支付对适合度影响不大。

诺瓦克推导得到不等式为：

a（N-2）+b（2N-1）>c（N+1）+d（2N-4）

对于只有两个个体的种群，N=2，可得b>c

此结果意味着：在一个由单个A个体和单个B个体组成的种群中，前者获得的支付是b，后者获得的支付是c;如果b>c，自然选择会更青睐A。

对于大种群，以上不等式可得a+2b>c+2d

也就是说在一个博弈下，如果a>c且b

五、囚徒困境的破解

博弈论里面所说的“策略”并不同于博弈参与者的“行为”，例如，在一个2╳2博弈中，每名博弈者对对方的每一可能行为都有最佳的对应行为，所以，一个策略往往是由一系列行为及最佳反应的组合而构成。但是在合作行为传播的仿真研究里，行为主体并非完全理性，而是有限理性（或零理性）。由于行为主体只是在一个内随机游走，它们的理性程度由每一步的步长所刻画，根据西蒙的寻优算法，因为步长很短，最后它们的寻优结果往往只是局部最优而不可能是全局最优。当载体在仿真平面内的视野很近时，两个随机相遇的载体并不能想象双方在两步及多步之后的行为，这时策略就退化为行为。

设想一个种群规模有限的演化博弈模型，这个种群内部有大量策略B的载体，可以想象，任一变异导致策略A的载体的出现，都会导致策略A的载体可能被策略B的载体所包围。我们假定策略A是合作，策略B是不合作，在囚徒困境的博弈中，A载体会被B载体出卖，从而极大地降低了策略A载体繁衍后代的数量及可能性。假定策略A的载体采取抱团集体行动，在这一小集体内部，A载体只会遇到A载体，并能够得到合作所带来的双赢收益，于是策略A载体繁衍后代的速度将高于策略B载体。可以想象，在整个种群内部，如果策略A载体在抱团行动下总数达到种群的三分之一时，将会触发诺瓦克等证明的三分之一定律。诺瓦克小组证明这是一个“临界点”，一旦超过这一临界点，策略A载体随机遇到的另一载体更可能是载体A而不是策略B载体，这样，合作双赢下策略A种群的增长速度和数量更快，而且策略A载体遇到策略A载体的概率越来越高，并高于遇到策略B载体的概率。最终物竞天择的结果，是策略B载体将逐渐被策略A载体所取代。

六、竞争与合作的关系

研究竞争时，在经济学视角下，任意两种商品之间的关系是互替性而不是互补性。但在日常生活中，人使用的各种物品和他的生活是融为一体的，起主导作用的是互补性而不是互替性。比如人的左脚和右脚，以及与两只脚相匹配的两只鞋。秩序间的关系，以互补性为主导;秩序内的各类关系，以互替性为主导。合作的本质就是互补性，竞争的本质就是互补性。

2013年诺瓦克出版了《超级合作者》[4]，他指出合作的机制有五种：直接互惠、间接互惠、空间博弈、群体选择和亲缘选择。从生命的起源到细胞社会、蚂蚁社会，都离不开合作的机制和功劳，人类作为超级合作者，从RNA到细胞、到语言，再到人类社会各种问题都离不开合作，诺瓦克的三分之一定律给我们指出了囚徒困境的破解之道，并说明了竞争与合作的作用机制是双向的，远比我们想象的要复杂。

参考文献：

[1]John Maynard Smith.Evolution and the Theory of Games[M].New York：Cambridge University Press，1982.

[2]Josef Hofbauer，Karl Sigmund.Evolutionary Games and Population Dynamics[M].New York：Cambridge University Press，1998.

[3]Martin A.Nowak.进化动力学：探索生命的方程[M].北京：高等教育出版社，2010.

[4]马丁·诺瓦克.超级合作者[M].杭州：浙江人民出版社，2013.

[5]汪丁丁.行为经济学讲义——演化论的视角[M].上海：上海人民出版社，2011.

作者简介：刘红军（1979—），男，汉族，河北大城人，单位为滇西科技师范学院，研究方向为西方经济学。

（责任编辑：王宝林）