竞争与协同的博弈策略

2013-04-29 15:22王亚楠

中外企业家 2013年5期

王亚楠

摘要：社会生活中充满了竞争与协作，各种行为活动都可归结为各类博弈，竞争行为与协作行为也是出于两种不同博弈的策略应对，即竞争博弈与协同博弈。竞争博弈与协同博弈是社会中非常普遍的博弈类型，在博弈目标、博弈收益、博弈关系等方面存在很大区别，了解竞争博弈与协同博弈区别的实质，可提高决策的理性程度，引导竞争向协同转变，在博弈中做出正确的价值选择。

关键词：竞争博弈；协同博弈；策略思考

中图分类号：C931 文献标志码：A 文章编号：1000-8772（2013）12-0073-02

竞争博弈与协同博弈事实上是出于博弈方对博弈本身的分析，以及对对方策略选择的判断，采取的竞争或协同的策略过程。竞争的存在可以推动发展，但也可能会产生冲突，冲突就有可能导致利益受损，一方受损甚至两败俱伤。合作可以共享资源，依靠集体理性合力创造更大的利益，在此过程中也满足自身的利益，互利共赢。竞争博弈与协同博弈之间存在区别和联系，也存在相互转化的潜在条件。

一、博弈策略目标——冲突与合作

冲突是人类灾难的主要源泉，合作是社会繁荣的先决条件。2005年诺贝尔经济学奖授予了两位博弈专家——罗伯特·奥曼和托马斯·谢林，在颁奖时评委会主席讲到：“为什么有些国家、团体和个人可以和平地解决冲突，而一些国家、团体和个人却不断地被冲突困扰呢？”社会科学一直试图解释冲突与合作的基本原因，且寻求其解决的路径，然而累累不及，而博弈论重构人类互动行为的分析研究，给人们一种新的方式方法，许多冲突与合作的问题将得到解决的路径。

竞争博弈与协同博弈出现竞争与合作的原因，与博弈策略的目标紧密相关。竞争博弈起于冲突，博弈策略是为了应对冲突，冲突中各方保持独立性，并思考自身利益最大化并在冲突中取得优势，为保证自己的利益，不惜损害他人利益。协同博弈起于合作，博弈各方存在共同利益，为了共同利益可以建立约束各方行为的契约关系，在这种关系下，各方追求集体利益最大化，间接满足自身利益的最大化。仅从博弈策略目标角度讲，合作肯定是社会普遍承认价值观。从政府管理社会的角度，讲求多元治理，即多主体在形成的合作网络中，共享资源，共同治理社会；从社会自治角度讲，各自治主体在充分沟通，信息和资源共享前提下，实现合作自治；从个体角度讲，取得成功不再是单打独斗，而是团队合作，借助优势整合的力量获取集体利益，并完成自己的目标。所以从合作出发的协同博弈，应该是当今社会的主流博弈。

二、博弈策略收益——零和与变和

博弈各方的博弈活动都围绕着一个中心，就是收益。对收益的追求决定了博弈策略的选择，但博弈结果的收益性往往存在偏差。在现实社会中，其本身就包含了冲突与合作两种截然不同的博弈策略，在博弈过程中并不仅仅存在冲突，同时还包含着潜在的合作因素；同样合作中也包含着潜在的冲突因素。人类的天性是驱利避害的，每个人为了自己的利益而产生的行为结果是一种囚徒困境，囚徒困境之下竞争的整体收益为零和甚至负和，合作的整体收益为正和。

最有说服力的是“公地悲剧”：某一村庄有六个农夫，每个农夫拥有一头重1000磅的牛，在公共草地放牧，即总重量为6000磅（6头牛）。如果公共草地每增加一头牛，则每头牛将减少100磅重量。如农夫A增加第二头牛，总数为7头，每头牛的重量为900磅。农夫A拥有的重量为900×2=1800磅。如其他五位农夫也都增加一头牛，牧场将有12头牛，每头牛重400磅。每个农夫牛总重量却只有2×400=800磅。很显然，如果人们从自身利益出发，肯定选择后者，即出现囚徒困境现象。所以，人类社会竞争冲突，甚至不择手段时有发生，最后从整体收益角度讲是一种零和博弈，甚至出现损失，成为人类灾难的主要源泉。如果人们能够采取合作，在合作中约束自己的行为，最终的收益型将为正和，是一种变和博弈。面对纷繁复杂的社会，传统理论与实践已无法应对。而博弈论中的合作思维、目标取向可以给人们一些启示：在博弈过程中并不仅仅存在冲突，同时还包含着潜在的合作因素；同样合作中也包含着潜在的冲突因素。从某种角度上讲，博弈论就是研究理性决策者之间冲突与合作的理论。

三、博弈策略关系——对立与依赖

博弈过程中各方之间呈现为各种关系，竞争博弈与协同博弈体现出来的便是对立与依赖。竞争博弈起于冲突，冲突之下必然是紧张的对立关系，利益的相互对立，要求通过博弈来争夺有限的资源和利益。收益的大小取决于所采取的博弈策略，所以博弈策略的制定往往维护自身利益，而在一定程度上影响他人的利益获取，这会加剧对立关系。协同博弈起于对共同利益的追求，博弈方会通过合作来争取更大的整体利益，再通过分配来增加自身的收益。合作越成功，他们的收益相应越大，收益越大反过来又促进他们的合作，他们之间是一种相互依赖，合作共赢的关系。

在一个博弈中，对立与依赖是否会相互转化，博弈方相互之间又如何影响这种关系。其实在以上的公地悲剧博弈中，存在两个纳什均衡：你进我退，你退我进。最后纳什均衡会出现在哪一点？从博弈的角度来看，可以思考两点：一是谁使用“强势威慑”。博弈从某种角度上讲，就是“博”谁更有威慑力。假设博弈双方存在竞争冲突，双方都可以采取不合作，或者合作。如果都不合作，利益都受损的可能性很大，而达成合作的可能性很小；如果双方都合作，则冲突爆发的可能较小，而最终合作达成分配协议的可能性很大。在许多情况下，双方是可以协调的。在这个博弈中，假设博弈甲可以先行承诺自己的策略，如博弈乙不合作则自己也不合作。然后博弈乙观察博弈甲的行动而选择自己的策略；二是谁使用“限制行为”。托马斯·谢林在《冲突的策略》中引入一个新理念，认为主动约束自己随意性和主动性反而会增强自我主动性，即通过限制己方的行为来向对方传递明确的信号，让对方了解已方将如何进行选择，以便实现双方的合作。有时“主动限制自己的自由反而会获得更加自由的空间”。在博弈各方中，参与人可以相互告知对方自己将要采取的行动，进而达成均衡。如果参与人自己不能沟通，第三方可以提议—个均衡解，这个均衡使得任何一方都没有理由不去执行。所以，对立和依赖关系不是绝对的，可以根据需要采取策略引导其转变。

四、博弈策略理念——竞争与协同

市场经济条件下，必然存在竞争博弈，但从社会整体利益最大化的角度和避免竞争中资源浪费角度，协同博弈优势不言而喻，竞争博弈向协同博弈的转变符合和谐社会建设的主流价值观。罗伯特·奥曼认为，在“囚徒困境”博弈过程中，即使双方存在短期利益冲突，只要博弈重复进行，就能达到“合作”的均衡解，这一重复博弈的结果称为“无名氏定理”。合作的长期利益大于短期利益时，才会出现协同博弈，相反，则会出现非合作博弈。也就是说，博弈方为了获得合作的长期利益，愿意抵制欺骗的一次性博弈（所获利益）的诱惑。在博弈过程中，人们都为自己寻求利益最大化，其实合作是一种可以创造博弈各方“共赢”、利益最大化的有效的方式方法。一般来说，非合作博弈（强调个体理性）关注的是人们交互的短期关系，合作博奔（强调集体理性）关注的是人们交互的长期关系。而人们的交互方式更多是长期（重复）关系，也即合作关系。2005年诺贝尔评奖委员会在颁奖词提到：“在现实世界，长期关系比短期关系更加容易合作，并且具有效率更高的博弈结果，因此一次性博弈往往有失偏颇。”

2005年诺贝尔评奖委员会提出：“重复博弈加强了我们对合作条件的理解。为什么在参与者越多、互动越不频繁、关系越不牢固、时间越短、信息越不透明的背景下合作越难维持？”罗伯特·奥曼研究表明：在现实生活中，长期合作关系的维系远比一次简单的机遇来得容易。因为，只有重复博弈，人们才会从长计议，也才会避免人们的短期行为，避免追求个体理性最大化。并且这种重复博弈是无限重复博弈。因为，有限重复博弈并不能带来合作。假设我们采取倒退方式：在第N次（倒数第一次），两个人会选择不合作（因为博弈即将结束），从而在第N一1次，两个人也将选择不合作；从而在第N-2次，两个人还是会选择不合作……从而第2次，两个人会选择不合作；从而第1次，两个人选择不合作。那么，可以得出，无论重复博弈多少次，只要是有限的博弈，理论上合作都不可能实现。如果重复博弈是无限的，倒退方式就不起作用，而只能使用顺推方式来选择策略，此时无限博弈才会起作用。

美国著名行为分析专家、科学院院士罗伯特·阿克谢罗德（Axelrod）在1980年做过一次竞赛实验。竞赛实验邀请了经济学、心理学、社会学、政治学和数学等专家14人参加。参与者都设计出自己的策略方案，一起进入计算机进行150次的博弈。博弈的计分：如双方都合作各计2分，双方都不合作各计O分，一方合作另一方不合作，合作计-1，不合作计4分。竞赛最后获胜者是加拿大多伦多心理学家阿纳托·拉帕波特教授。他的策略方式是“先做好人，以牙还牙”，即与对方第一次博弈时选择合作，如果对方上次选择合作则自己本次选择合作，如果对方上次选择不合作，则自己本次选择不合作。该策略试图通过惩罚对方，迫使对方不能偏离合作的轨道。为了证实竞赛实验的结果的非偶然性，1984年阿克谢罗德进行第二次竞赛实验。第二次竞赛收集了62个程序，但拉帕波特的“先做好人，以牙还牙”策略仍然是赢家。竞赛实验说明，在博弈过程中，你应对不合作者给予惩罚，这样试图把对方拉回到合作的轨道。在现实中，你投之以桃，我就报之以李，明确你是一个有恨必雪、有恩必报的人，这是优势的合作策略。为何此有限重复博弈会带来合作？其原因是，正如博弈专家克莱伯斯证明的：即使是有限博弈，只要次数足够多（关系维持足够长），那么人们有动力通过合作行为树立起合作的声誉来获取长期的好处。所以，构筑社会重复博弈关系，倡导协同博弈理念，建立“有恩必报，有恨必雪”的约束机制，促使竞争博弈到协同博弈的转变。