“囚徒困境”问题探讨

2016-10-14 23:39方孟孟
现代商贸工业 2016年4期
关键词:囚徒困境帕累托坦白

方孟孟

摘 要:

现实世界的资源是有限的,而人的需求和欲望却是无限的。为了实现社会的福利最大化,就需要有效地配置各种经济资源。然而,在传统“理性人”的假设下,自利人为了自身利益而展开争夺,最终形成的纳什均衡结果,往往陷入“囚徒困境”的无效率境地,造成资源的无效配置和浪费。为此,试从合作博弈和交易费用的视角探讨帕累托改进的路径,寻找“囚徒困境”的破解方法,以图实现帕累托最优结果。

关键词:

囚徒困境;帕累托最优;合作博弈;交易费用

中图分类号:F27

文献标识码:A

文章编号:16723198(2016)04006803

1 引言

传统经济学中,“理性人”假设是一切经济分析的基础,每个人都是聪明绝顶且自私自利,为实现自身效用最大而努力。然而,最终的纳什均衡解却往往是无效率的,不仅没有实现自己的效用最大,也造成社会福利的损失,出现个体理性和集体理性之间冲突局面,既不是帕累托最优,甚至也不是希克斯-卡尔多有效的。根据达尔文《物种起源》中的论点,可以假设:所有的生命个体在面临选择时,都是自私自利的,完全忽视其他个体的利益,没有悲悯之情。但是,即便是这样的起点,也会有类似于兄弟姐妹的伙伴关系的出现,并且实现个体利益和集体利益的协调。“囚徒困境”并非是不可破除的魔咒,只要找到合适的能够影响参与者收益和行为的有效机制,就能走出困境的阴霾,实现帕累托最优。同时,应该认识到:囚徒困境中的参与者并非是“真正的理性人”,“囚徒困境”只是两个自私自利的人“聪明反被聪明误”的结局,不是真正的“聪明绝顶”的人所应该做出的决策。如果是真正的“理性人”,他们就应该掌握博弈论的基本知识,能预计到自己的处境,最后两个囚徒都会毫无顾忌的选择抵赖,从而实现另一个均衡(并不坦白,不坦白)。此外,如果博弈的参与者是利他人或为己利他,也可以有效突破困境。

2 “囚徒困境”模型

“囚徒困境”是博弈论研究中虚构的一个经典案例,最早是在20世纪50年代,由美国Rand公司的Dresher和Flood采用。在之后,鉴于“囚徒困境”模型在社会科学研究方面的作用,普林斯顿大学的教授Albert Tucker逐渐将它推广开来。因此,“囚徒困境”模型成为了博弈论研究的典型案例,尤其在非合作博弈中。

作为简单的博弈模型,“囚徒困境”假设有两个嫌疑犯(A和B)被捕,罪名是入室抢劫。根据各种推理,警察判定他们是有罪的,但是证据明显不足。依据法律规定,如果他们两人都对此缄口不言,最多只能被判入狱1年。为了破案,警察采取分开审讯的办法,并对其作出承诺:在其中一人对抢劫抵赖的情况下,坦白者会被无罪释放,抵赖者入狱10年;在两人都选择坦白时,均被判入狱5年。在此情况下,嫌疑犯A和B的处境相同,将他们的可能选择及结果归结为如图1所示。

图1是参与人A和B博弈的矩阵式表述。这里,A和B被隔离审讯。对于参与人A而言,不论B做出何种决策,相对不坦白而言,坦白是严格占优策略,總会使其处境变好。作为一个理性的经济个体,A就会选择坦白。同理,由于A和B所处的位置对称,B也会选择坦白。这样,在理性的抉择下,A和B两人都选择了坦白,各自被罚关押5年。这时,在给定对方的策略,任何一方都没有动力去改变自己的策略,因为只要改变策略,自己的境况就会变得更差,因而(坦白,坦白)是这个博弈的纳什均衡解。

很容易发现,在这个博弈中,无论是对两个囚徒的总体来讲,还是对他们各自来讲,最佳的结果都不是同时坦白各得到-5,因为都不坦白各得到-1显然比都坦白各得-5好得多,其纳什均衡解并非是帕累托最优的。然而,在不能合谋的情形下,双方出于个人理性,都会选择最大化自身利益的做法。由于两个嫌疑犯都采取不合作手段,最终实现的结果只能是对他们而言最差的。在这个博弈中,很明显的出现了个人理性和集体理性的矛盾对立:从个人利益出发,既没能实现个体的最大利益,也没能实现集体的最大化利益。

3 突破“囚徒困境”

“囚徒困境”的简单博弈反映了个人理性和集体理性的深层次矛盾。它对于人类行为的预测是灰暗的:在个人理性前提下,自主决策的市场经济中,最大化个人利益的目标指向常常会导致合作的失败。究其根源,主要是该博弈假定博弈方都是完全自利而不顾他人利益的经济人,并排除了双方合谋的可能,然而现实当中并非完全如此。只要双方存在合作的共同利益或者存在有约束力的合作协议,就有可能实现帕累托改进。

3.1 合作博弈视角

合作博弈主要是指在博弈过程中存在自愿签订但有约束力协议的博弈。这意味着参与人(疑犯A和B)能够达成某种协议,建立攻守同盟。在此背景下,协议给参与人提供的激励将会改变疑犯A和B的策略选择,进而影响博弈的结局。

假定在博弈开始之前,参与者预期对方会屈从背叛的诱惑,因而每个参与者都要求签订一份文件,以保证如果其中一人背叛时,他将被迫支付给其他参与人足够数额的货币,这个足够大的货币支付要能够抵消选择背叛所带来的收益,或者说背叛者将受到其他人的严厉报复。如果签订协议的激励足够大或报复很严重,每个参与人预期对方会签订协议,并且进行合作。这样,原有的博弈就为新的博弈所替代。在新的博弈中,疑犯A和B的理性选择就是同时选择不坦白,遵守承诺、拒绝背叛。这样,疑犯A和B的“囚徒困境”也就不会出现,从而实现帕累托改进。

即使双方没能达成有约束力的协议,但只要博弈重复的次数足够多,双方都不知道博弈结束的确切时间,仍可能形成合作的局面。这时,可将其看作无限次重复博弈,如果双方都采用这样的“触发策略”:第一阶段采取合作策略,在第t阶段,如果前t-1阶段的结果都是(合作,合作),则继续采用合作,否则将一直采用不合作进行报复。

易知触发策略是纳什均衡。现引入贴现因子δ,来比较参与人不同策略情形下未来各期收益的贴现值。首先,有必要假定参与者双方具有相同贴现因子。这样,在博弈开始时,若两人都决定采取合作行为(抵赖),各得到收益-1。在接下来的博弈中,假如参与者A决定在某个时刻选择了不合作策略(坦白),他将被无罪释放而得到收益0。然而,这种选择必定会遭到对手的报复性行为,嫌犯B在此后的博弈中,将采取永不合作的策略对其进行惩罚,使得A在随后的每阶段收益均为-5。因此,欲使在B合作时,A同样选择合作,需满足条件:

-(1+δ+δ2+…δn+…)≥0-5δ-5δ2-…-5δn-…

即-11-δ≥-5δ1-δ

解上述不等式,可以得到:δ*≥0.2。

这就是说,如果δ*≥0.2,给定疑犯B坚持触发策略并且B没有首先选择不合作,那么A不会首先选择不合作,也即双方都会选择合作,从而促使帕累托效率的实现。

3.2 交易费用的视角

交易费用源于科斯的两篇代表作:《企业的性质》和《社会成本问题》。在文章中,科斯阐述了交易费用的思想。其体现交易费用的理论主要集中在两方面:一方面是在企业与市场的相互替代关系上。由于交易费用的普遍存在,使得企业得以产生;企业能以内部管理来取代市场交易,也随之产生了管理费用。根据市场经济原则,交易总是会发生在交易费用较低的地方。也即,当管理费用小于交易费用时,交易在企业内部进行;反之,交易则在市场进行;当管理费用和交易費用相等时,市场和企业都可进行。另一方面是在产权的界定与交易费用的关系上。这涉及到科斯定理的精髓,也即在零交易费用的假设下,科斯所说的市场交易的前提之一便是产权的界定。而最后的结果,虽然是产值的最大化,但这往往是与法律判决没有关系的。

在理性经济人前提和完全信息条件假设下,只有在制度的运行中才会产生交易费用。此外,只要没有各种不确定因素的影响,在其他条件不变和已知的情形下,所有为降低交易费用所做出的努力,都会带来交易费用的降低。基于此降低交易费用模型(如图2所示)。

x轴表示降低交易费用做出的努力,y轴表示交易费用,F(x,y)向右下方倾斜表示随着降低交易费用的努力的增多,交易费用逐渐降低。

虽然交易费用是广泛存在的,但在既定的制度基础上,它并不可能无限大。因此,如交易费用模型所示,交易费用函数F(x,y)与坐标轴其实是相交的,点A表示其最大的交易费用。然而,由于各种摩擦,零交易费用是不存在的,所以函数F(x,y)只能无限的接近于X轴,却不会与之相交。此外,随着降低交易费用的努力的增多,交易费用会逐渐减少。因此,x与y之间存在负相关关系。

假设在一个有限的市场中,不会有外来厂商的进入或者存在极高的进入成本,仅有两家实力相当生产同质商品的厂商甲、乙,假设厂商甲、乙均为理性经济人,都以自身利益最大化为目标,要为自己的商品做广告。他们之间存在囚徒困境(如图3所示)。

在图3的困境中,甲和乙最佳的选择是双方都不做广告获得(3,3)的最大收益,但是在现实生活中甲和乙往往会选择(2,2)由于有收益4的驱动,导致双方之间即使作出承诺也将是不可信的。

将甲和乙之间为不做广告进行的承诺谈判看作是交易,那么该项交易带来的交易费用主要是谈判发生的交易费用NC和道德行为产生的交易费用。如图4所示,若不考虑道德风险的影响,只有在NC>2时(图中的AB之间),双方才会寻求合作,“囚徒困境”才能破除。

x轴表示降低交易费用做出的努力,y轴表示交易费用,F(x,y)向右下方倾斜表示随着降低交易费用的努力的增多,交易费用逐渐降低。

总之,在现实的经济生活当中,各种摩擦的存在使得交易费用广泛存在,而理想的零交易费用状态是不存在的。交易费用意味着成本,因此它影响到交易的发生与否。此外,为实现利益最大化,尽可能的降低交易费用成为多数情况下的最优选择;但是也有例外。例如在“囚徒困境”模型中,与一般情况相反,为了实现帕累托改进或最优,应当适当增加交易费用。

4 结语

综上可知,基于“理性人”的假设,最终往往得到不理想的结果,致使效率的损失和资源的浪费。因为在此假设之下,个人都变成自私自利的,理性人假设抹杀了个人之间的差异甚至是人格,所有人都罔顾集体的利益。然而,如果成功是来自与其他成功的规则相互作用的话,这个成功将孕育更多的成功,而如果成功是靠占失败者的便宜而得到的,这样的成功者必将随着失败者的淘汰而失去赖以生存的基础,走上一条自我毁灭的道路,最终的结局只能陷入“囚徒困境”。而唯有自利与利他想协调,基于有约束力的协议的合作协议或者是交易费用的提高,才有助于突破“囚徒困境”,实现帕累托最优。

然而,从另一方面考虑,“囚徒困境”的参与者真的是理性人吗?根据假设他们都聪明绝顶。而囚徒困境的结果却是各判5年,实际上他们可以各判1年。他们自己会较被判1年好还是被判5年好,他们肯定不会满足于被判5年,所以如果囚徒真是“理性人”,他们都会选择抵赖,最后的结果是各判1年。这是从“理性人”的假设中自然得到的结论。按照经典博弈论的分析,囚徒困境的纳什均衡是(坦白,坦白),这显然违背了“理性人”假设。这个结果实际上是两个自私自利的人“聪明反被聪明误”的结局,不是真正的“聪明绝顶”的人所做出的决策。如果是真正的“理性人”,他应该掌握博弈论的基本知识,能预计到自己的处境,最后两个囚徒都会毫无顾忌的选择抵赖。另外从纳什均衡的定义出发也可以得到各判1年的结果。根据纳什均衡的定义,在囚徒困境博弈中,各判5年不是大家最好的结果,因为有更好的选择是各判1年。如果在最初有个攻守同盟,即两人都不坦白,两个“聪明”的囚徒如果能分析所有可能的战略,他们应该不会打破攻守同盟的协议,因为打破攻守同盟意味着各判5年,执行攻守同盟只判1年。所以攻守同盟(抵赖,抵赖)是纳什均衡。同时上述(坦白,坦白)战略也不符合纳什均衡的定义。纳什均衡说给定别人战略的情况下,没有人有积极性选择其他的战略。但纳什均衡没有说别人的战略是不是可以变。如果双方最初的同盟是(抵赖,抵赖),大家会看到如果有一方想法改变,另一方也会跟着改变,从而使情况进展两步,达到一个更坏的结局各判5年,在这种情况下“理性人”会想改变同盟战略吗?因此,我认为根据纳什均衡的定义(抵赖,抵赖)是纳什均衡,这是两个“真正的理性人”博弈最后达到的均衡。

同时,个人是社会中的个人,个人利益的实现是依托于集体利益的,没有集体利益也就没有个人利益的实现,集体利益是个人利益的前提和基础,促进集体利益才能更好地实现个人利益。在“囚徒困境”模型中,如果参与者是为己利他甚至是利他的,他们每个人都轻易会认识到:只有自己选择沉默不言时,不管对方怎样选择,都能使同伴的利益最大化。在这样的逻辑下,两人都会选择对罪行抵赖,最终均被判入狱1年。此时,个人最佳选择与集体最佳选择达到一致。如同受到亚当·斯密倡导的“看不见的手”原理所指引,每个囚徒的目的都是利他,却在集体利益增进的同时,个人利益也得到了保证。

因此,即使是在一个总是背叛的小人世界,只要有哪怕是很小的一个合作性群体,合作仍然可以产生,合作一旦在群体中建立,就能保护自己不受非合作策略的侵入,并不断的发展壮大,群体以不可逆转的方式向合作的方向进化,并保证帕累托效率的实现。

参考文献

[1]胡明光.突破“囚徒困境”:合作是如何可能的[J].新政治学,2010,(01).

[2]王健.囚徒困境的破解—基于Agent的复杂适应系统仿真[J].商场现代化,2011,(08).

[3]黄文平.囚徒困境—沉默权与人际合作秩序的扩展[J].广东商学院学报,2011,(03).

[4]尹晶晶,王朝全.基于交易费用理论分析破解囚徒困境[J].经济研究导刊,2011,(36).

[5]郭洪伟.囚徒困境的均衡辨析[J].技术经济与管理研究,2011,(02).

[6]朱富强.重新理解合作博弈概念、内涵和理性基础[J].社会科学辑刊,2012,(02).

[7]郭佳臻.综述纳什均衡与帕累托最优的冲突—囚徒困境[J].现代经济信息,2011,(24).

[8]谢识予.经济博弈论[M].上海:复旦大学出版社,2002.

猜你喜欢
囚徒困境帕累托坦白
成都经济区极端降水广义帕累托分布模型研究
博弈论—囚徒困境模型浅析
审判工作量何以最优:民事审判单元的“帕累托效率”——以C市基层法院为例
中文的魅力,老外理解不了
帕累托最优
“囚徒困境”在贿赂犯罪审讯中的运用
真情告白
关于公共品博弈的文献综述
重复博弈现象分析
论坦白的处遇