□ 陈建先
非合作博弈均衡与合作博弈均衡之研究
——博弈均衡的裂变分析
□ 陈建先
传统均衡和博弈均衡是均衡理论发展中的不同阶段,也是均衡由静态转变为动态的一个过程。传统均衡概念是以静态的理论来分析社会状况,而现代社会是动态的和发展的,因此需要运用博弈均衡来思考、探讨社会均衡问题。
博弈论中小约翰·福布斯·纳什 (JohnForbes NashJr)首先提出对博弈进行分类,即非合作博弈均衡和合作博弈均衡,而非合作均衡博弈理论的核心是“纳什均衡”。因为纳什提出的均衡理论对学界影响极大,由此获得1994年诺贝尔经济学奖。纳什均衡是经济学的一个重要概念,也是博弈论的一个重要概念,同时也是均衡理论的一个重要概念。诺贝尔经济学奖获得者萨缪尔森曾说过:你可以将一只鹦鹉训练成经济学家,因为它所需要学习的只有两个词:供给与需求。博弈论家坎多瑞引申说:要成为现代经济学家,这只鹦鹉必须再多学一个词“纳什均衡”[1]。所谓纳什均衡是指博弈行动的稳定状态,在此状态下,每一个参与人都拥有对其他参与人行动的正确预期,并且能理性行动。这是博弈论中最基础、最基本的均衡。也就是说,在给定别人战略不变的情况下,没有任何人可以通过选择其他战略获得更多支付,从而没有任何人有积极性打破这种均衡。“给定你的策略,我的策略是我最好的策略;给定我的策略,你的策略也是你最好的策略”,这正是 “纳什均衡 ”概念在两人博弈情况下最通俗直观的表达方式[2]。纳什均衡认为,因为每一方选择战略时都没有共谋,他们只是选择对自身最有利的战略,而不考虑社会福利或任何其他群体的利益。纳什均衡就是博弈中每个博弈方的策略构成的一个策略组合。其中每个博弈方的策略,都是根据针对所有其他博弈方的策略构成的,并且是最佳反映。过去,“囚犯困境”是一个难题,但用纳什均衡理论就迎刃而解了。
在纳什均衡概念提出之前,美国经济学家霍特林 (HaroldHotelling)探讨两个商铺如何定位的问题,后称为霍特林模型[3]。即在一个1000米的沙滩上,两个小商贩,卖的商品和服务质量都是一样的。按照一般概念设想,商贩A应该将其位置安置在250米的这个点上,可以方便0~500米的消费者;商贩B应该将其位置安置在750米的这个点上,可以方便500~1000米的消费者(见图1)。
这样的位置安置,商贩A和商贩B的收益都是均等的。人是“经济人”,要追求个体利益最大化。假设商贩A将其位置由250米处往前移动100米(即350米处),那么,就意味着500~600米的消费者有一半属于他的,也就是说,他的收益是0~500米,加上500~600米的一半消费者,其收益高于商贩B;商贩A这么做,商贩B也可以这样做,将其位置向前移动100米(即650米处),此时,商贩A和商贩B的收益又均等了;假设商贩A又将其位置移动到500米处,那么,他的收益又比商贩B的大了。商贩A怎么做,商贩B也可以这样做(将其位置移动到500米处),此时商贩A和商贩B的收益又均等了。他俩不断的移动位置,最后在500米处,找到了俩人的均衡点(见图2)。霍特林模型是典型的非合作均衡博弈,模型表明:虽然人们都在追求个体利益最大化,但最终还是会形成均衡。
博弈视角背景下的社会均衡,最重要的是要实现从理性到有限理性的转变,从零和博弈到变和博弈的转变,从非合作博弈到合作博弈的转变。这种转变是基于有限理性理念、变和博弈理念和合作博弈理念的重塑。
有限理性理念。1978年诺贝尔经济学奖获得者西蒙认为,人的理性能力是有限的,不可能对所有的可能选择作出精确的利益计算。人在作决策时,采用的是由局部到整体的实验方法,这时要求集体选择达到个体都无法到达的理性是不可能。原因是人的理性能力是有限的:信息是不完备的,个人不知道全部备选方案;环境存在不确定性,外生事件随时可能发生;人的认识能力和计算能力是有限的。而且,人的理性在政治领域表现得更加弱化,其一是与经济活动相比,政治活动有更大的不确定性,人的政治行为难以理性化;其二是与经济活动相比,人们在政治活动中对自己行为结果所承担的责任并不总是直接的,而且往往不是很确定的,这也淡化了人们进行理性计算的动力[4]。博弈界中有一个著名的“最后通牒”实验[5],在经过长达十年时间,选择15个不同文化背景的民族而进行的。实验规则:如两人分一笔财产(1000元),由第一个人对第二个人提出自己的分配方案(如“我得995元,你得5元”)。若第二个人同意,就按此方案实施;如拒绝则1000元全收回,两人均分文没有。实验结果表明:其一,在现实社会中,人们并非都是在个体追求利益最大化,与囚徒困境中的纳什均衡并不相吻合。实验中按照“经济人”假设理论判断,第二个人的理性选择是:只要有1元就应该选择同意,而不是选择拒绝。但是实验结果:大部分的实验里,第一个人提出的方按是“5∶5”和“6∶4”分。“人是理性的”这个基本假设在理论上是成立的,但在现实社会中,人们不可能这样追求利益最大化,即有限理性;其二,尽管民族、地域、国家和文化等存在诸多差异,但是却存在相对一致的“公平”理念。
变和博弈理念。相对变和博弈而言,零和博弈(博弈方各自收益之和为零)在分析问题上进行了简化,这对于理性的分析问题带来一些便捷途径(尤其二人零和博弈,是博弈理论中研究最早的、最多的博弈),也成为研究其它博弈的基础,为复杂的博弈研究提供了基石。但零和博弈的基本出发点是理性的追求利益最大化,而这种理性在现实社会中是难以到达的,所以往往可能会出现偏离现实社会中人们的真实活动。美国《时代周刊》著名撰稿人罗伯·赖特在其名著 《非零和年代——人类命运的逻辑》中谈到:人类命运的昌盛必然要懂得从零和年代走向非零和年代[6](所谓非零和博弈,如一个博弈的博弈各方之得益总和不总是保持为零的博弈)。零和博弈观念正逐渐被变和博弈(博弈方有各自的收益值)理念所取代。因为,人们认识到“利己”不一定要建立在“损人”的基础上,通过有效合作仍然可能出现“双赢”的局面。在一个“非零和”博弈中,赢得良好的结果往往不是靠战胜对方,而是靠引导对方做出对双方都有利的行为[7]。行为科学研究表明,对未来的预期是影响人们行为的重要因素:一种是预期收益:这样做将会有什么好处;一种预期风险:这样做将会面临什么问题,这样会影响人们的现实选择。纳什认为:“在这个理论中,‘预期’的概念是重要的。”[8]对未来没有明确的预期,是引发机会主义的关键要素。而只有在稳定性机制作用下的未来,才会有较为明确的未来,才会有相对确定的预期。因而,人们应塑造博弈的新理念——由单向的零和博弈转变为互动的变和博弈,追求均衡合作、双方共赢的新范式。
合作博弈理念。合作博弈与非合作博弈之间的区别在于,博弈方的行为相互作用时,博弈方能否达成一个具有约束力的协议,如果能就是合作博弈,否则就是非合作博弈。非合作博弈强调的是个体理性、个体最优策略,其结果往往是低效率的甚至是无效率的;而合作博弈强调的是团体理性、效率、公正、公平,合作博弈实际上就是一种“双赢”或“多赢”的策略,它通常能获得较高的效率。其实,博弈是一种“理念”,而非合作与合作方法是其两个“影子”[9]。当代社会正进入利益共享的竞争-合作时代,单纯强调竞争或合作都是不妥的:与对手“你输我赢”的竞争只会破坏社会的发展,最终自己也将是一无所获;合作也不是不考虑自身利益,而去创造一个自己不能把握的社会,也是不明智的。合作过程中不是没有竞争,而是合作中的竞争,既积极合作,又要争取自身的最大合作利益。合作竞争战略强调竞争与合作的并重,强调合作不是不考虑自己利益,其最终的目标仍然是使自己能够在社会竞争中获益。对于游戏参与者来说,最大的机会和最丰厚的利润并非来自于参与游戏,而是来自于改变游戏本身,使游戏向有利于自己的方向发展,这是合作竞争战略的核心。《圣经》中有“天堂与地狱”的故事:在地狱,桌上摆满了美味的食品,但他们总是吃不到,因为上帝给他们的是长长的勺子,始终无法喂进自己的嘴里,所以在地狱的人都是黄皮刮瘦;在天堂,桌上摆满了美味的食品,他们用长勺将食物送进对方的嘴里,所以在天堂的人都红头花色。这个故事给人们得出一个道理:合作就是“天堂”,不合作就是“地狱”。在合作博弈中,赢得一个好的结果,往往不是如何去战胜对手,而是设法引导对手做出对双方都有利的行为,而到达博弈均衡的状态。同时,应该明确的是划分非合作博弈和合作博弈不是从参与人的态度来考虑的,并不是非合作博弈中的参与人就不合作。恰恰相反,非合作博弈要回答的是当无法达成有约束力的合作协议时,参与人之间如何通过理性行为的相互作用达成合作的目的。并且,合作博弈还需运用非合作博弈方法(无限重复博弈、谈判博弈等)来到达合作之目的。
2005年诺贝尔经济学奖之所以授予两位博弈论专家罗伯特·奥曼(RobertJ.Aumann)和托马斯·谢林(ThomasC.Schelling),是因为他们在博弈均衡理论中提出了合作均衡理论——“相关均衡”和“聚点均衡”。
“相关均衡”是罗伯特·奥曼的核心理论之一,即人们根据博弈策略以外的特定相关信号机制进行决策选择实现的均衡。相关均衡在某种意义上是纳什均衡之后的又一个重要的均衡概念,是以博弈策略中统计意义上存在相关性为前提。要达到相关均衡,最为重要的是在信念和信息方面能够有共同接受的东西,才能达成合作联盟。如A、B二人各自独立地将“法国、中国、德国、印度”等四个国家进行两两组合,然后将A、B二人的选择放在一起,看是否是相同的。如相同则说明他们的想法是一样的,反之则然。如何才能寻求到策略的均衡点?可以看到,A、B二人各自的选择方式有三种,如果两者要选择正确,其概率只有11%左右。笔者曾经在多次的培训中做过实验,只要把思维方式、理念确立好了,往往只作一次就能获得成功。即需要着重思考两点:一是对方怎么做,我就怎么做;二是根据属性作策略。对方会怎么做,从理性的角度思考,是因为这样做属性多,对方就会这样思考。整个选择共有三种,如果将“法国——中国,德国——印度”或“法国——印度,中国——德国”组合在一起,其属性只有“一东一西”。而如果将“中国——印度,法国——德国”放在一起,其属性有“一东一西”、相邻国家、发展国家与发展国家。很显然,后者选择的属性要多一些,而这就是此策略的均衡点。而之所以这样选择,是因为他们选择的共同依据——地理常识。而这就是此博弈的一个相关均衡点。在博弈存在多重均衡时,也就是人们有多重选择,但需要协调时,相关均衡理论就是解决策略选择方面协调困难和避免冲突的重要机制之一。
聚点均衡是托马斯·谢林的核心理论之一,即在效率曲线中,博弈者的利益是对立的,没有帕累托改进 (如何一个人的趋利变动都会损害另一个人的利益),这种对立只是一种逻辑上的可能性,在效率曲线中必然存在一点,使得博弈者的利益是一致的[10]。由于导致聚点产生的因素无法用数理模型来表达,所以数理模型分析方法往往忽视“聚点”的分析,而聚点的分析方法是博弈中的精髓之一。聚点均衡强调协调,而协调需要彼此之间的交流,如果交流是认同的,就会产生合作。如两个人在1到100这100个整数中进行选择,A选一个数,B选一个数,如A和B所选的数相同,二者将获得奖励,否则一无所获。在这个策略选择中,均衡点有100个,那么实际会出现哪一个均衡点呢?初看这个选择难度非常之大,用数理进行分析,选中的概率只有万分之一。笔者在做这方面的培训时,引导学员的思路,他们很快会思考到,策略选择会集中在:“1”、“50”、“100”,这三个数。最终,大多数人选择1,因为1是最小数、人位数、起始数和奇数。而学员们能在很短是时间里寻求到均衡点,其最关键的是要有均衡的理念及其方法。在博弈中,博弈各方同时选择一个聚点所构成的纳什均衡就是聚点均衡。聚点对各博弈方都有吸引力,它是由历史、文化、道德、习惯或纯偶然的因素产生。聚点均衡是建立在双方都满意的“聚点”上的均衡,是纳什均衡而且是多重纳什均衡中比较容易被选择的纳什均衡,这种均衡在现实社会中比较普遍。
(本文为2009年度国家社会科学基金项目 “我国政府公共决策利益博弈的路径和机制研究”的阶段性成果,项目号:.09XZZ011;论文作者为项目负责人)
[1]白波.图说博弈论pM].哈尔滨:哈尔滨出版社,2009.6.36.
[2]乔林碧.政府经济学[M].北京:中国国际广播出版社,2002.3.275.
[3]王则柯,李杰.博弈论教程[M].北京:中国人民大学出版社,2010.4.254.
[4]臧传琴.从”经济人”假设到”政府失灵”[J].江汉论坛,2007.2.50.
[5]丁社教.法治博弈分析导论[M].西安:西北工业大学出版社,2007.4.169.
[6]孙恩棣.生活中的博弈[M].北京:京华出版社,2008.1.35.
[7]白波.图说博弈论[M].哈尔滨:哈尔滨出版社,2009.6.15.
[8]何勤华.法治的追求[M].北京:北京大学出版社,2005.5.
[9]董保民等.合作博弈 [M].北京:中国市场出版社,2008.4.6.
[10]赵英军,陈宇峰[M].冲突与合作世界中的博弈新视界.浙江:商业经济与管理,2005.11.11.
作者:重庆行政学院公共管理教研部教授
责任编辑:马 健