许安拓
编者的话
2012年10月15日晚,瑞典皇家科学院将本年度诺贝尔经济学奖再次授予博弈论的理论研究和实践运用者罗伊德·沙普利与埃尔文·罗斯,使得这一理论学派第六次折桂诺奖。博弈论为何如此受青睐?在其演变进程中,有何创新和发展?这个被学者称为“研究互动决策”的理论,在现实中是如何运作的?以博弈论的视角去观察现实生活中的经济、政治、社会、军事、外交等现象,会有什么不一样的发现?它可以为决策者提供怎样的应对复杂问题和治理危机的方法?博弈论思想及其研究对于实践中诸多“怎么看”和“怎么办”问题的解决不无启发。
博弈论的原理
博弈论又被称为对策论,它本是现代数学的一个新分支,也是运筹学的一个重要组成部分。按照2005年因对博弈论的贡献而获得诺贝尔经济学奖的Robert Aumann教授的说法,博弈论就是研究互动决策的理论。
一般而言,博弈论的基本要素有五个:决策人,就是在博弈中率先作出决策的一方,其往往依据自身的感受、经验和表面状态优先采取一种有方向性的行动,如博弈中先下棋或先出牌的一方;对抗者,在博弈对局中行动滞后的那个人,与决策人要作出基本反面的决定,并且他的动作是滞后的、默认的、被动的;局中人,在一场竞赛或博弈中,每一个有决策权的参与者成为一个局中人,只有两个局中人的博弈称为“两人博弈”,而多于两个局中人的博弈则称为“多人博弈”。策略:一局博弈中,每个局中人都有选择实际可行的完整的行动方案,如果在一个博弈中局中人有有限个策略,则称为“有限博弈”,否则称为“无限博弈”;胜负得失,一局博弈结局时的结果称为得失。每个局中人在一局博弈结束时的胜负得失,不仅与该局中人自身所选择的策略有关,而且与全局中人所取定的一组策略有关。
博弈的类型基本分为四种:合作博弈,研究人们达成合作时如何分配合作得到的收益;非合作博弈,研究人们在利益相互影响的局势中如何选择决策使自己的收益最大,即策略选择问题;完全信息或不完全信息博弈,参与者对所有参与者的策略空间及策略组合下的支付有充分了解称为完全信息,反之,则称为不完全信息博弈。静态博弈和动态博弈,研究外在条件不变或变动时博弈得失。
博弈论思想发展及成果
最早的博弈论思想及专著可以追溯到我国古代的《孙子兵法》,它虽然没有用数学的方法量化分析博弈各方的实力对比,但它已经清楚、全面、多视角地阐述了博弈的基本原理、过程以及可能的结果,其典型案例就是春秋时代的“田忌赛马”。直到1928年冯·诺依曼将其系统化、理论化,宣告了博弈论作为一门科学的正式诞生。1944年,冯·诺依曼和奥斯卡·摩根斯特恩共著的《博弈论与经济行为》又将两人博弈推广到多人博弈结构,并将博弈论系统应用到经济领域。他们第一次提出的标准型、扩展型和合作型博弈模型解的概念和分析方法,奠定了这门学科的理论基础。
合作型博弈在20世纪50年代达到了巅峰期。然而,随着时间推移,其局限性也日渐显露出来:主要是因为其理论和近乎纯数学的研究方法过于抽象,大大地限制了博弈论在现实中的应用范围,在相当长的时间里,博弈论只是少数数学家圈内的游戏,大众对博弈论的研究也知之寥寥,其影响力当然就十分有限了。
直到20世纪50年代初约翰·福布斯·纳什利用不动点定理证明了均衡点的存在,为博弈论的一般化奠定了坚实的基础。纳什的开创性博士论文《n人博弈的均衡点》(1950)、《非合作博弈》(1951),给出了纳什均衡的概念和均衡存在定理。可以说,正是由于“纳什均衡”的出现,才使得博弈论从合作博弈发展到了非合作博弈,并宣告了博弈论经济学应用新时代的开端。
此后,博弈论在塞尔顿、哈桑尼等人的研究和推动下取得了进一步发展。到20世纪70年代,博弈论被纳入到主流经济学的教科书和研究著作之中。目前,博弈论在纳什和沙普利的研究基础上分别向两个不同方向展开:非合作博弈和合作博弈。
非合作博弈强调个体理性,主要研究在信息不对称条件下市场机制如何发挥其效率,纳什均衡就是其中最重要的代表,纳什均衡描绘出博弈中这样的局面:对于每个参与者来说,只要其他人不改变策略,他就无法改善自己的状况。纳什证明了在每个参与者都只有有限项策略选择、并允许混合策略的前提下,纳什均衡一定存在。“纳什均衡”从本质上挑战了传统经济学的根基,他对亚当·斯密的“看不见的手”的原理提出了质疑:即按照斯密的理论,在市场经济中,每一经济人只要从利己的目的出发,最终就可以在全社会达到利他的效果。但是从“纳什均衡”中却引出了“看不见的手”原理的一个悖论:即纳什均衡不一定是帕累托最优,从利己目的出发,结果是损人不利己,既不利己也不利人。这一发现使得纳什均衡理论成为奠定现代主流博弈理论和经济理论的根本基础,正如克瑞普斯在《博弈论和经济建模》(1990)一书的引言中所说:“在过去的一二十年内,经济学在方法论以及语言、概念等方面,经历了一场温和的革命,非合作博弈理论已经成为范式的中心……”这种非合作博弈所得出的数学解即为“纳什均衡”,它主要解决了博弈各方如何合作才能“互不吃亏”的问题,但难以解决如何才能达到彼此共赢的局面。
合作博弈是在强调集体精神和团体理性的基础上,通过合作、联盟或妥协的方法,使得博弈双方的利益都有所增加,或者至少是一方的利益增加,而另一方的利益不受损害,因而整体利益有所增加。妥协(联盟、合作)之所以能够增进妥协双方以及整体利益的关键就在于合作博弈能够产生一种合作剩余。这种剩余就是从这种妥协或联盟关系和方式中产生出来的,且以此为限。至于合作剩余在博弈各方之间如何分配,则取决于博弈各方的力量对比和技巧运用。因此,妥协必须经过博弈各方的讨价还价,达成共识,进行合作。然而妥协博弈后的双方利益又将如何获得?或者说,如何在双方继续获益或至少一方不受损失的条件下延续这种联盟或妥协呢?长期以来,经济学家对求解这种多重理性常常陷入困惑之中并敬而远之。而沙普利的研究成果使得合作博弈在理论和现实运用上取得了重大突破。正是基于此,它与零和博弈相比是一种正和博弈,合作剩余的分配既是妥协的结果,又是达成妥协的条件。这种思想在解决当今国际、国内现实中存在的许多政治、经济、社会矛盾上都有着极强的理论指导意义。
1952年,沙普利在解决诸多理性人的博弈决策中引入了一个“核”的概念,并将其发展为合作博弈的一般利益分配集合一种所有成员均无法提升自身效用的稳定联盟状态。由于“核”这个概念不能给出联盟内成员效用分配的唯一预测,翌年,沙普利进一步在合作博弈框架中加入了一些着眼于“公平”分配合作利益的公理。沙普利首先对“公平”、“合理”等概念给予了严格的公理化描述,然后寻求是否有满足人们想要的那些公理的解。当然,如果对一个解的性质或公理要求太多,则这样的解可能不存在;另一方面,如果这些性质或公理要求得少,则又可能有许多解,即解存在但不唯一。
他证明在这些公理的约束下,存在唯一的效用分配方案,这就是沙普利值。沙普利值是根据各人给联盟带来的增值来分配,在直观上是所有边际贡献的平均值。沙普利值计算方法简单,而且能得到合作博弈的唯一解,使用较为广泛。到目前为止这个解仍然是合作博弈领域内最重要的结果之一。不仅如此,沙普利的工作具有方法论上的重要意义,他的公理化方法使我们可以研究讨论合作博弈中其他各种各样的解。
沙普利本人正是该技术最好的应用者。他与舒比克发表了一篇著名的论文《委员会制度下的权利分配评价方法》,后来称之为沙普利—舒比克权力指数。当时他们将沙普利值引入投票机制,评价了委员会制度的权力分配体系。目前,这一指数已广泛地应用于公司金融领域,反映了股权对公司决策的影响力,能够客观地度量某股东或某些股东对股份制公司的控制力。
传统经济学中,通过价格调整可以实现供需平衡。然而,在一些特殊市场中,价格不能用作配置资源的手段,资源只能以分配或配给方式加以配置。这就为合作博弈提供了广阔的空间,当今世界由于在解决各类资源共享问题上冲突不断,合作博弈以其独特的配置方法解决了一系列资源共享中的匹配难题而在经济学中的地位与日俱增。尤其是在解决具体微观问题的配置方法上旨在寻找稳定解,即保证每一个配对都是稳定的,在匹配市场上没有剩下彼此愿意与对方组对,但却没有被市场允许的一对人,同时,已组对的人对自己的队友应该是满意的。这不仅形成了基于经典博弈的研究范式体系,扩展了传统经济学研究问题的范围,改变了传统经济学的体系和结构,冲击了传统主流经济学的许多观点,还拓展和加强了经济学与其他社会科学、自然科学的联系。尤其在现实运用中更是随处可见。
博弈论的现实运用
博弈论自1994年授予纳什均衡理论以来,至今已有6次获诺贝尔经济学奖。它深刻地改变了经济学项下各子学课的内容和研究方法,同时在经济学领域外的政治学(国内以及国际)、军事战略学、进化生物学以及计算机科学等领域都已成为重要的研究和分析工具。不仅如此,它还与会计学、统计学、社会心理学以及诸如认识论、伦理学等哲学分支有着重要的联系,尤其在局部简单的资源配置实践上常常能达到甚佳的效果。例如,2012年的诺贝尔经济学得主之一—罗斯的“全国住院医生配对程序”就是一个将沙普利的博弈理论应用于医学院毕业生分配到医院的住院实习医师系统的较好的现实案例。他确定了这个系统可以形成“稳定匹配”;他还帮助重新设计了现存的器官捐赠者和接受者之间进行配对的一些制度,极大地优化了资源配置,尽可能拯救了更多的生命。这些案例对当今我国解决一些现实的局部矛盾如初高中学生择校难、制度腐败、工资协商等问题都有积极的理论指导和借鉴意义。
十八大报告中,我党提出的“五位一体”的治国理念涵盖了生态文明建设。我们就可以运用博弈论的基本原理来治理生态污染:当前各地环境污染严重,政府监管乏力,企业为了追求利益的最大化,宁愿以牺牲环境为代价,也不愿主动增加环保设备投资。如果按照传统的经济学理论:所有企业都从利己的目的出发,采取不顾环境的策略,就可进入“纳什均衡”状态。如果一个企业从利他的目的出发,投资治理污染,而其他企业仍然不顾环境污染,那么这个企业的生产成本就会增加,价格就要提高,它的产品就没有竞争力,甚至企业还要破产。这就是一个“看不见的手的有效的完全竞争机制”失败的例证。直到现在,这种遍地污染的局面仍然未见改善。因此,我们可以应用博弈论的基本原理,强化政府监管,加大污染管制,大幅提高污染企业的交易成本,唯此,这些企业才会采取低污染的策略组合。认识到合作博弈的重要性,积极采取治理污染的措施,可获得与高污染同样的利润,但环境将会变得更好。
我们也可以用博弈论来理解当前国际关系中的一些争端。2012年9月11日,日本政府不顾中方多次反对,与所谓的土地所有者签订“购岛”合同,企图用偷梁换柱的方式窃取钓鱼岛,随即钓鱼岛争端恶化成了危机,博弈各方都相继登场。从表面上看,钓鱼岛争端可以简单地视为中日之间的“两人博弈”,但将其置于整个国际大背景下,即呈现出一种有限、动态的非合作博弈,其复杂程度绝非可以用一个模型或是某种算法所能解释清楚的。说它是有限博弈,是指其局中人的策略有限,即无外乎战、和、抗三种状态;说其动态,因为各方的国内国际政治、经济、社会生态都处在不断变动之中,而这些变量的不同走势都会直接影响到岛争的结局;说它非合作,是指各方在博弈中都希望获取自身收益的最大,其策略选择呈现出非合作性;最后是复杂的“多人博弈”,从最少的中日双方,到中日美台四方,再到更大范围内的俄罗斯、欧盟、南亚、中东等诸多的直接或间接利益相关者,他们也都会借此中日岛争涉入局中以博得自身利益的最大化或至少分得由此产生的“汤羹”。在如此复杂多变而且信息又不对称的博弈中只能从博弈的基本理论和思想出发,精算推理出一个大致的结果,绝不可能用静态的模型或是数学的方法得出一个多赢的局面。
日本政府鉴于多次在钓鱼岛问题博弈上将中方以“和为贵”及“睦邻富邻安邻”的和平外交政策为软弱可欺,首先用“购岛”的方法选择了“单方对抗”,它希望通过“试应手”(围棋博弈术语)的方法让中方选择忍辱负重式地“单方合作”,那日本单方收益将大胜,中方大负;没想到日方误判形势,低估了中方捍卫国家领土的决心,随即中方也被迫选择“对抗”的方式以抵减“受骗支付”的损失,中方的选择要让日方意识到在反复博弈中只有选择“合作博弈”的方式才能最终让双方脱离困境。因此,日方必须清醒地认识到,只有从大局出发,承认争议、回到谈判合作的道路上来才是双赢的博弈结局。它也生动地说明了:在非零和博弈中,帕累托最优和纳什均衡是相冲突的。
但是我们也应该看到,博弈论的实际运用需要很多严格的条件限制,而对于复杂系统而言,其约束条件常常难以满足,再加上人为的主观因素和信息的不对称性,如果机械地照搬模型,在现实中可能会适得其反。虽然我们不能将复杂现实情况的博弈完全基于数理模型之上,但其对微观事物的决策动机、博弈参与者变量之间的相互作用及其演变过程的推理分析都有极强的现实运用价值,在这方面与传统经济学研究的方法论、思维范式以及决策统筹的现实运用相比,突破了零和博弈的局限,尤其是在双赢或多赢博弈结果的达成与分析上,更能迎合当今国际、国内经济和社会发展以及战略对抗的潮流。
(作者为财政部财政科学研究所研究员、研究生部教授)