社会协调的行为机理及其实验证据
——兼对杜宁华先生批判的回应之二

2018-06-02 02:01朱富强
上海财经大学学报 2018年3期
关键词:囚徒坦白纳什

朱富强

(中山大学 岭南学院,广东 广州 510275)

一、前言:如何从经济实验认识行为逻辑

经济理论往往难以为具有明显局部性的经验数据或实验数据所证实或证伪,以至传统的证伪主义也逐渐发展为精致的证伪主义。查尔默斯写道:“精致否证主义对科学的说明以及它对科学成长的强调,把关注的焦点从单一理论的价值转向相互竞争的理论的相对价值。精致否证主义所提供的是一种动态的对科学的描述,而不像大多数朴素否证主义者那样提供的是静态的说明。对一个理论,精致否证主义不是问:‘它是否是可否证的?’‘它有多大的可否证度?’以及问:‘它是否已经被否证了?’而是更恰当地问:‘这个新提出来的理论是否是它所挑战的一个理论的可行的替代者?’一般而言,一个新提出的理论如果比它的竞争对手更可否证,尤其是,如果它能预见它的竞争对手尚未触及的一种新的现象,那么,它可以作为一个值得科学家考虑的理论而被接受。”①[澳]查尔默斯:《科学究竟是什么》,鲁旭东译,商务印书馆2007年版,第96页。那么,我们又如何评判一个理论比另一个理论更优或更劣呢?一般地,判断和比较经济理论优劣的根本标准不是它的预测力而是它的解释力,这种解释力从根本上体现为它的内部有效性,②朱富强:《计量结果的基本特性及其实践价值——兼论经济理论的评判标准和发展路向》,《天津师范大学学报》(社会科学版)2014年第2期。这也是笔者与杜宁华先生的共识。

问题是,我们如何评判经济理论的内部有效性?这里就体现了笔者与杜宁华先生的深刻分歧。笔者强调,经济理论的内部有效性与其说是体现在形式逻辑和数理逻辑所赋予的严谨性上,不如说更应体现在真实世界中的行为逻辑上。显然,为了对真实行为以及相应的社会经济现象给出更合理、更有力的解释,经济实验的情境设计也就需要引入更多的现实因素考虑,乃至逐渐接近真实世界。①朱富强:《博弈论专家的行为实验何以印证主流经济学?——实验条件的控制与实验结果的差异性》,《上海财经大学学报》2016年第3期。当然,在任何实验室实验中,我们都无法考虑到真实世界中的所有因素,否则就等于或不如直接观察纷繁芜杂的社会现实;相反,每次实验室实验都只是关注少数因素,但绝不能是每次都只关注同一因素,更不能仅仅设定无关现实的因素。这样,通过一个个实验室实验及其结果,我们就可以更全面地认识真实世界的行为机理,并在此基础上构造出“极高明而道中庸”的理论体系,或者推动经济理论的不断进步和完善。很大程度上,这是众多行为经济学家的工作路向,同时也是我们对杜宁华先生批判的逻辑回应,他更倾向于遵循弗农•史密斯等开辟的实验经济学主流路线,把经济理论内部有效性视为行为逻辑的一致性,进而通过对“无关”因素的控制来检验经济理论和经济思维。②杜宁华:《经济学实验的内部有效性和外部有效性——与朱富强先生商榷》,《学术月刊》2017年第8期。然而,由于被检验的经济理论本身就是建立在这种被控制的环境及其衍生的假设前提之上的结果,这种检验就成为罗德里克所批判的自我确证。

当然,这里又衍生出另一个问题:我们又如何从一个个孤立的实验结论和发现中获得全面的认知?进而揭示真实世界的行为机理和行为逻辑呢?这就涉及萃取法和溯因法的运用以及由此形成的契合思维。如何进行萃取?根本上在于使用“正反合”的综合思维。如何进行溯因?根本上需要借助人的知性思维对大量的经验观察和实验发现进行契合。一般地,溯因法既不像演绎法那样准备提供一个放之四海而皆准的普适理论,而是为了解释而提供一个更为合理的理论;也不像归纳法那样试图从特殊结论推出一般法则,而是从影响中寻求原因以提供解释。相反,我们借助溯因推理来形成假设和新的分析框架,进而为阐释新概念、形成假说和验证假说提供依据,从而通过知识和思维的契合而不断推动经济理论的进步。③贾根良:《西方异端经济学主要流派研究》,中国人民大学出版社2010年版,第63页。

因此,运用萃取法和溯因法以及由此衍生的契合思维,我们就可以摆脱先验逻辑前提和逻辑关系的束缚而深入考察真实世界中的人类行为。一方面,在分析逻辑前提时,契合思维要求充分考虑人性中的本能和亲社会性这两大内容,并把人类行为的基本目的和为此采取的社会化手段结合起来;由此,就可以得到更贴近现实的“为己利他”行为机理:通过“利他”的合作手段来实现“为己”的个人目的。另一方面,在分析逻辑关系时,契合思维要求充分考虑到人们在长期互动中建立起来的习惯、惯例和习俗等非正式制度,并从社会互动中理解人类理性的演进和提升;由此,就可以在通感和移情效应的基础之上深入理解“为己利他”行为机理,认识现实生活中人们对他人和社会利益的关注。④朱富强:《真实世界中的“为己利他”行为机理:内涵及其合理性》,《改革与战略》2010年第8期。

事实上,真实世界的人类行为与标准经济理论之间往往存在巨大的差距,如他们并不是只关心个人利益的经济人,而是具有很强的社会性和正义感,这是形成分工合作以及分工和合作半径都在不断拓展的社会基础。关于这一点,最后通牒博弈、独裁者博弈以及信任博弈等实验都在一定程度上揭示了“差异厌恶”理论。泽尔腾就认为,现实生活中的人们为了达到收益的愿望水平而会寻找一些可取的线索,如序数势力和公平份额等,而公平份额和权重分派的结合就构成了公平标准。①Selten R. Equal division payoff bounds for 3-Person characteristic function experiments. In:Tiets R. (Eds.) Aspiration Levels in Bargaining and Economic Decision Making. Springer Lecture Notes in Economics and Mathematical Systems,No. 213. Berlin:Springer - Verlag. 1982:265-275.新晋诺贝尔经济学奖得主塞勒(Thaler)更早就揭示了消费者内含的公平偏好,在决策时不仅考虑哪些对自己有利,也考虑哪种是公平的行为;②Thaler R H. Toward a positive theory of consumer choice. Journal of Economic Behavior and Organization. 1980,1(March):36-60.而且,人们往往还会个人承担成本来惩罚那些背信行为。③Dawes R M. & Thaler R H. Cooperation. Journal of Economic Perspectives. 1988,2(3):187-197.甚至杜宁华也指出,“双盲”实验中同样发现了利他主义因素。很大程度上,这些经验现象和实验结果都可以用“为己利他”行为机理加以解释。从这个角度上说,“为己利他”行为机理比理性经济人假设提供了更好的博弈思维,更有利于对互动行为进行分析,也更有利于对行为实验结果进行解释,从而为行为经济学提供了更好的分析框架。④朱富强:《行为经济学的微观逻辑基础:基本假设和分析维度》,《社会科学战线》2011年第10期。

有鉴于此,本文主要做两方面的工作:(1)基于“为己利他”行为机理对主要博弈类型作一均衡分析和重新解读;(2)基于一些行为实验数据对“为己利他”行为机理进行检验。这两方面工作将会加深我们对真实的行为机理和行为逻辑的认识,同时表明,“为己利他”行为机理不仅可以解释传统理论能够解释的行为和现象,而且也可以解释传统理论难以解释的行为和现象,进而就有助于推动相关经济理论的发展。同时,本文的分析意味着,“为己利他”行为机理是契合众多行为实验的结论而形成的,这些行为实验都在不同维度上引入了现实因素而不是遵循主流的“双盲”程序,这也可以作为对杜宁华先生批判的回应。

二、“为己利他”行为机理的博弈解释

主流博弈论专家基于最小最大的思路不断精炼纳什均衡,试图在各种复杂的情形中寻找到唯一的均衡,从而在数学意义上建立子博弈完美均衡、序贯均衡、完美贝叶斯均衡、精炼贝叶斯均衡等概念;但是,这些均衡在很大程度上都只是基于形式逻辑的运算,而并没有来自行为实验的充足证据。事实上,任何个体的社会行为都不是完全基于行动功利主义原则,而是深受伦理关系和规则功利主义的制约,从而会有意识地对自己的行为选择加以自我限制。布坎南就指出,“每个博弈者之所以同意约束自己,不是为了自身的利益而对自己的行为进行限制,而是因为只有接受这样的约束,才能确保对另一方主体进行相应的控制。”⑤[美]詹姆斯•M.布坎南:《宪法秩序的经济学与伦理学》,朱泱、毕洪海、李广乾译,商务印书馆2008年版,第236页。很大程度上,认知力、意志力和亲社会性就构成了人类的真正理性,其中,认知力反映出行为者对自身最优目标本身的认知程度,意志力反映出人们为实现最大化目标而对短期诱惑的“克制”能力,而亲社会性则是为追求长远利益而进行社会合作的基础。⑥朱富强:《“经济人”分析范式内含的理性悖论:长远利益、为己利他与行为理性的理解》,《上海财经大学学报》2012年第4期。

正是基于对长期和整体利益的追求,人类能够超越自我而追求社会和谐发展,进而也就衍生出现实生活中普遍存在的“为己利他”行为机理。“为己利他”行为机理强调,个人在进行决策时必须考虑自身行为和策略对其他人的影响以及由此引起的他人行为之反动,从而通过有意识地增进其他人的利益以最终实现自身利益;也即,不能只孤立地考虑一次性行为,而是要将所有行为组合起来考虑,从而追求长期利益的最大化。⑦朱富强:《行为经济学的微观逻辑基础:基本假设和分析维度》,《社会科学战线》2011年第10期。这样,基于“为己利他”行为机理采取行动或策略,那么就会得出与主流博弈论截然不同的结论。为此,这里首先运用“为己利他”行为机理对几类重要博弈类型的均衡解作一新的解释。

例1:存在唯一纯策略纳什均衡的博弈。在图1所示的囚徒博弈中,纯策略的纳什均衡解为(坦白,坦白),这也是主流思维的占优策略均衡。但显然,这个均衡对任何囚徒来说都不是理想的。那么,囚徒们是否存在某种行为机理而在互动中实现更好的均衡结果呢?这就要跳出理性经济人的思维。假设初始状态是(不坦白,不坦白),那么,按照经济人的思维,囚徒A的最佳行为是从不坦白转向坦白,此时他可以获得净收益1;但当博弈状态转向(坦白,不坦白)后,囚徒B的最佳行为也是从不坦白转向坦白,此时他可以获得净收益5。这样,均衡就是(坦白,坦白),这是嵌入行为功利主义的经济人行为之互动结果。显然,主流博弈论在分析策略或行动的选择时每次都以一次性行为的结果为基准,但是,如果能够将两次行动或更多次行动组合起来考虑,那么就会得到完全不同的结果。事实上,如果囚徒A足够理性,那么,他就可以预期到,他从不坦白到坦白的转向会促使囚徒B也发生相应的转向,从而最终会陷入(坦白,坦白)这一更坏的结果;考虑到这些,即使囚徒A有由不坦白向坦白转换的足够动机,他也缺乏转换的充分理由。

显然,如果囚徒们都能够充分认识到自身行为带来的后续影响,从而将策略转换的足够动机和充分理由区别开来,那么,(不坦白,不坦白)的初始状态就不会改变;相反,如果初始状态是(坦白,坦白),那么通过两个阶段的转变就可以达到(不坦白,不坦白)的结果。这也就是“为己利他”行为机理的思路:每个囚徒在进行策略选择时,必须考虑其策略给对方带来的影响,要避免自身行为给对方的伤害,否则对方必然也会改变策略,最终使自己反受其害。也即,当囚徒A试图选择坦白时,就必须料到这种行为将会损害囚徒B的利益,从而也必然会受到囚徒B的报复;为此,囚徒A就会有意识地放弃坦白策略,相应地,B也会基于相同的行为机理,从而就会有效地实现(不坦白,不坦白)均衡。实际上,在现实生活中,那些长期合作的犯罪团伙被抓获后一开始就招供的毕竟只有少数;大量的行为实验也表明,受试者往往能够避免陷入囚徒困境。①Maier-Rigaud,Frank P & Apesteguia Jose. The role of choice in social dilemma experiments. Preprint:Bonn Econ Discussion Papers. 2003,October.而且,“为己利他”行为机理的策略思维也得到理论的证明,M. Smith给出的针锋相对战略演化稳定证明就表明,演化必然导致不确定重复囚徒困境中选择针锋相对的战略。②Smith M. Evolution and the theory of game. Cambridge:Cambridge University. 1982:202.所以,W.Poundstone写道:“在囚徒困境中永远不要第一个选择背叛行为,这是一个博弈论观点。”③Poundstone W. Labyrinths of reason:Paradox,puzzles,and the frailty of knowledge. New York:Doubleday. 1988:245.

例2:存在多个纳什均衡的博弈。在图2所示性别战博弈矩阵中,有两个纯策略纳什均衡(球赛,球赛)、(歌舞,歌舞)和混合策略纳什均衡[(1/5,4/5)(4/5,1/5)],其支付得益分别为(2,4)、(4,2)和(8/5,8/5)。问题是,现实生活中的夫妻会以(1/5,4/5)和(4/5,1/5)的概率随机地选择球赛和歌舞吗?基本上不会。究其原因,他们的利益根本上是一体的,从而不会分开来独自决策;而且,混合策略的均衡收益往往要小于纯策略的均衡收益。同样,现实生活中的夫妻会固定不变地选择看球赛或歌舞吗?一般也不会。究其原因,这种组合的收益分配具有非常强的不公平性,会造成等级现象,从而无法长期延续下去。那么,现实生活中的夫妻更为可能的行为又如何呢?一般地,他们会交叉轮流地参加对方更为偏好的活动,从而每方可以获得3的平均收益,这显然远大于混合策略下的收益8/5。事实上,任何一方希望获得自身的最大利益,在决策时都必然要考虑另一方的利益,要考虑到收益分配的公平性;相应地,在某一方比较特别的日子里,两人往往就会选择他更为偏好的活动。这也就是基于“为己利他”行为机理所形成的制度性安排。进一步地,如果不存在交叉轮流的行为方式,那么,利益紧密联系的成员就会组建一个共同体,共同行动的收益由共同体成员所分享,这又引入了收入再分配的需要。

图1 囚徒博弈

图2 性别之战

例3:没有纯策略纳什均衡的博弈。按照主流博弈理论,图3所示博弈没有纯策略纳什均衡,而只有混合策略纳什均衡:[(15/28,13/28)(15/28,13/28)],其支付得益为(865/28,865/28)。那么,现实生活中,该博弈的均衡果真如此不确定吗?跳出理性经济人思维而采用“为己利他”行为机理,可以很容易地分析和判断博弈均衡。根据“为己利他”行为机理,任何博弈方要想增进自己的收益,首先必须增进对方的收益,而损害他人利益的人也会反受其害,最终结局就是两败俱伤。因此,分析博弈结果就必须剖析各方的收益结构。就博弈方B而言,他的四个可能收益选项是:10、23、40、55。那么,他最可能的收益有多大呢?先看收益55 ,它的取得以博弈方A的收益减少(从55减少为10)为代价,从而必然会引起博弈方A的策略反弹(从D转向R),因而这种收益是不稳定的。再看收益40,有两点:(1)它的取得不会损害反而可以增进博弈方A的收益;(2)在给定博弈方B选择策略D的情况下,博弈方A的最佳选择也是D。因此,这种收益是有保障的,相应的策略也就是可行的。同样,就博弈方A而言,他的四个可能收益选项是:10、23、40、55。显然,博弈方A取得55 这个收益可以增进博弈方B的收益(从23上升到40),从而这一收益是有保障的且稳定可行的。基于上述分析,(55,40)就是基于“为己利他”行为机理的稳定均衡。

这个例子表明,那些在主流博弈论看来没有纯策略均衡的博弈,如果基于“为己利他”行为机理进行分析也存在相对稳定的纯策略均衡,而且,这个纯策略均衡的收益帕累托优于混合策略的纳什均衡。既然如此,主流博弈论为何会得出没有纯策略均衡这一结论呢?关键在于,主流博弈论所依赖的是有限理性或短视理性,它只考虑一次性或小阶段的行为变动带来的收益,而缺乏通盘地考虑整个博弈进程;这样,它就无法将策略改变的足够动机和充分理由区分开来,无法以更长远的眼光审视收益组合(55,40)的稳定性。一般地,人类理性的根本特性就在于它能够从长远利益的角度来审视和选择行为:一个人所考虑的互动进程更长,考虑的利益关系更全面,那么,他的理性程度也越高;①朱富强:《“经济人”分析范式内含的理性悖论:长远利益、为己利他与行为理性的理解》,《上海财经大学学报》2012年第4期。同时,当理性程度越高的两个人相遇时,就越容易实现帕累托增进的稳定均衡。

例4:存在唯一纳什均衡的动态博弈。在图4所示谢林(Shelling)描述的劫匪之抉择博弈中,劫匪绑架人质后感到后悔而想罢手,却又担心人质被放后会报警。显然,按照主流博弈论的思维,人质在释放后的最佳策略是选择报警,因而劫匪的最佳策略是遵循“不为人所负而先负人”的机会主义原则而杀掉人质,从而获得收益组合为(0,–10)的均衡。相反,基于“为己利他”行为机理,人质要获得自己的收益最大化,就必须以同理心考虑到劫匪的要求;反之,劫匪也需要相信人质的承诺,从而就可以实现收益组合(5,3)的均衡。在现实生活中,尤其是在人员流动极其频繁(这导致信任关系很难建立)的情形下,也时有撕票案的报道;但是,杀掉人质的案例毕竟是少数,大多数情形是,劫匪会释放人质,获释的人质也很少去报警。事实上,不仅在电影里经常出现绑票事件,而且一些明星在出道初期都曾受过黑社会组织的胁迫,但最后大多达成了“共赢”结果。

图3 没有纯策略的博弈矩阵

那么,如何解释绝大多数劫匪宁愿冒着人质报警的风险而没有杀害人质呢?要知道,这些劫匪的亲社会性往往都不强,但他们也没有穷凶极恶地大开杀戒,没有因一点小犯行而走上不归路,而是对人质的承诺寄予了相当的信任。同样地,那些人质事后也很少选择报案,也在于他们往往会作这样的推理:劫匪之所以选择释放我,是因为他相信我会坚守承诺;如果我事后不守诺的话,劫匪现在也根本不会释放我。也即,他们体验到了“相忍为福”的箴言,认识到相互信任、相互合作的需要;尤其是,人们往往能够从互动中识别出对方的特征以选择相应的合作策略,这也就是高蒂尔提出的“有约束的最大化”。①Gauthier D. Morals by agreement. Oxford:Oxford University Press. 1986,Ch.2.这种基于相互信任而采取合作的例子确定地展示在蜈蚣博弈中:按照主流博弈论所宣告的那种“不为人所负而先负人”的机会主义原则,任何博弈方一有机会都会中断博弈进程;但是,绝大多数博弈方都不愿这么做,宁愿冒着遭受巨大收益损失的风险。如何解释呢?究其原因,现实生活中人们大多能够考虑到对方的感受和需要,大多能够根据环境和条件的变化而不断地调整策略和行为,那种“一着不慎、满盘皆输”的现象往往只是发生在高度对抗和竞争的情形中。

例5:没有纯策略纳什均衡的动态博弈。在图5所示范•德蒙(V.Damme)提出的性别博弈中,②van Damme E. Stable equilibria and forward induction. Journal of Economic Theory. 1989,48:476–496.博弈的第一阶段是博弈方1单独选择,第二阶段是博弈方1和博弈方2共同选择的性别博弈。其中,性别博弈有两个纯策略纳什博弈均衡(A,L)、(B,R)和混合策略纳什均衡[(3/4,1/4)(1/4,3/4)],其支付得益分别为(9,3)、(3,9)和(9/4,9/4)。那么,在现实生活中究竟会出现哪种均衡呢?显然,主流博弈理论并不能预知确切的均衡结果,而基于“为己利他”行为机理的分析则可以提供更明确的判断。实际上,在该博弈中,博弈方1的收益结构分别是:9、4、3、9/4和0,如果博弈方1为得到9的收益而进行第二阶段博弈并选择A策略,那么就必须确保博弈方2在第二阶段一定会选择L策略;但在没有充分沟通的情况下,这点无法保证,相反,如果博弈方2也追求自身的最大收益9。这样,最终的收益结果就是(0,0)。即使两者都采取随机的混合策略,那么,博弈方1最终获得的收益也只有9/4。显然,理性的个体应该清晰地预测到这一点,因此,博弈方1会在第一阶段博弈开始就选择L策略而中止博弈,从而可以获得4这一次优收益。

当然,这个博弈是个明显的非零和博弈,(3,9)或(9,3)收益组合可实现的共同利益为12,这大于(4,4)收益组合的共同利益8。那么,人类是否就无法获得这种合作收益呢?显然不是。要实现更大的合作利益,关键就在于,参与者之间存在一些沟通和再分配机制。如果收益仅仅由初次的博弈决定,那么结果一般就只能是(4,4);但如果存在收益再分配机制,就有可能实现(9,3)或(3,9)的收益组合。至于再分配后两人的收益结构如何,则决定于两人的地位和相关的社会认知,也即取决于泽尔腾提出的等量分配收益界限理论。基于这一思维,由于博弈方1拥有4这一保留效用,因此,再分配的结果必须使博弈方1获得超过4的收益。从另一个角度上讲,如果出现(9,3)或(3,9)的收益组合,就意味着,其中一方实施了利他主义行为。西蒙认为,要使得这种利他主义行为具有普遍性,社会就应该对净收益剩余进行征税并用来贴补利他行为者。①Simon H A. A mechanism for social selection and successful altruism. Science. 1990,250(December):1665-1668.显然,尽管新古典自由主义者一直对收入再分配制度心存疑义,但是“为己利他”行为机理为收入再分配制度提供了合理化的逻辑基础。

图4 谢林的劫匪抉择博弈

图5 范•德蒙的性别博弈

三、“为己利他”行为机理的实验证据

上面的分析表明,基于“为己利他”行为机理的社会互动更容易导向合作。其实,合作现象不仅是基于“为己利他”行为机理的理论分析之结果,并与其他一些理论相通,而且也为大量的社会经验和行为实验所证实。譬如,Akerlof等人的系列理论文章就表明,公平性可以为“工资为何会高于市场出清水平”以及导致非自愿失业的出现提供可能的解释;②Akerlof G. Labor contracts as partial gift exchange. The Quarterly Journal of Economics. 1982,97:543-569.而且,劳动经济学大量的调查问卷也表明,刚性工资的主要原因就在于雇主往往不愿意削减工资。③Blinder A S. & Choi D H. A Shred of evidence on theories of wage stickiness. The Quarterly Journal of Economics. 1990,105:1003-1016.同样,无论是在经济学领域还是在心理学和政治科学等领域,上千个囚徒博弈的实验文献都发现,人类具有非常稳固的合作倾向。④Kelley H H & Stahelski A J. Social interaction basis of cooperators’ and competitors’ beliefs about others. Journal of Personality and Social Psychology. 1970,16(1):66-91.例如,Bohnet和Frey就发现,在政治领域、企业、家庭等各种情形中,人们往往都是“租金的规避者”,他们不愿意投资那些只能增进自身收益而对其他人却是无生产性的领域。⑤Bohnet I & Frey B S. Rent leaving. Journal of Institutional and Theoretical Economics. 1997,153:711-721.正是基于上述种种原因,行为经济学及其分支——行为博弈论,近十几年来就取得了飞速发展,它应用心理学规律而提出弱化主流经济学的理性假设以及扩展现有经济理论的思维和方法。因此,这里以行为经济学所提供的一些经验和实验的数据来为“为己利他”行为机理的现实性提供检验。

例1:存在纯策略纳什均衡的单边博弈。在图6所示的买卖单边博弈中,(低质量,不购买)是纯策略的纳什均衡解,但是,这显然不是现实中的普遍情形,否则就不会有交易和市场的出现和扩大了。那么,如何解释现实世界中(高质量,购买)均衡的普遍存在呢?事实上,在该博弈中,顾客有一个强力偏好(高质量,

购买),他之所以会选择不购买,主要是为了维护自己的利益而不是攫取更多的利益;相反,厂商之所以选择低质量,目的在于攫取更多的利益,但结果是一无所获。因此,为了获得更高利益,厂商就必须考虑到其行为不能损害顾客的利益,从而选择高质量。显然,这里“为己利他”行为机理就开始发挥作用。而且,如果厂商选择了高质量,那么就会确实地导致(高质量,购买)的帕累托有效结果。在很大程度上,这也是对现实世界中的真实反映。也就是说,在这类博弈中,只要其中一方遵循“为己利他”行为机理,就可以获得合作的结果。

图6 买卖的单边博弈

例2:存在纯策略纳什均衡的双边博弈。在图7所示的战争博弈中,(射击,射击)是纯策略纳什均衡,但真实的战争充满了反例,其中最广为人知的事发生在第一次世界大战期间。1914年12月后英德双方士兵深陷在巨大的堑壕网络中而形成长达3年的阵地战对峙,堑壕的距离有的仅相隔约55米,但不断升级的战争情形并没有出现,相反却出现了一些有意识的默契。例如,每天早餐时间双方士兵都在空中竖起一块木板,当这块木板一竖起枪战便停止了,他们各自开始打水和取给养,而当木板倒下时战争才重新开始;再如,双方官兵还会各自聚集在堑壕前沿举行即兴音乐会,当歌声从一方阵地上飘到对方堑壕时还会引起对方士兵的一片掌声,甚至还会被要求再来一次;特别是,不仅英德官兵唱颂歌、道问候、共度圣诞节,而且休战期间英德双方官兵在“无人地带”进行了多场足球赛。显然,这里“为己利他”行为机理演化成了具体的“自己活也让别人活”真实博弈结果,因为相似的环境使英德两国官兵彼此间产生了同情之心,从而即使对方暴露在射程之内也不会射杀。艾克斯罗德写道:“尽管高级军官尽力想阻止它;尽管有战斗激起的义愤或杀人或者被杀的军事逻辑;尽管上级的命令能够容易地制止任何下属试图直接停战的努力,这个(自己活也让别人活)系统仍然存在和发展着。”①[美]罗伯特•艾克斯罗德:《对策中的制胜之道:合作的演化》,吴坚忠译,上海人民出版社1996年版,第57页。

例3:连续型的囚徒博弈。在图8所示两阶段博弈中,(0,0)是纯策略纳什均衡,但显然,这对双方都不是最佳结果。相反,根据“为己利他”行为机理:博弈方1希望最大化自身收益而不能损害博弈方2的收益,从而会选择C策略;同样,博弈方2希望最大化自身收益而不能损害博弈方1的收益,从而会选择c策略。这样,就可以得到更优的(1,1)均衡。事实上,基于“为己利他”行为机理的这一均衡结果已经为Fehr、Kirchsteiger和Riedl的实验②Fehr E, Kirchsteiger G & Riedl A. Gift exchange and reciprocity in competitive experimental markets. European Economic Review. 1998,42,1-34.以及Clark和Sefton的实验③Clark K & Sefton M. The sequential prisoner’s dilemma: Evidence on reciprocal altruism. Economic Journal. 2001,111:51-68.所证实。为此,Dufwenberg和Kirchsteiger解释说:如果均衡是基于传统博弈论来进行计算的,那么非优化的行为就会被预期。但问题似乎在于,在基于纳什均衡的主流博弈理论中,行为者并没有必然地优化他的均衡路径。因此,要解决这一问题,就需要寻求比传统博弈理论更复杂的理论:一般地,在连续型博弈中,人们在修正自己信念的同时也在修正关于其他博弈方类型的信念,那些受互惠影响的博弈方所关注的路径也与主流博弈论存在显著的不同。

显然,如果博弈方1基于“为己利他”行为机理选择合作方式,那么受互惠的影响,博弈方2也很有可能会选择合作的方式。但是,如果博弈方1选择的行为是非合作的,那么又如何保障博弈方2会选择合作方式呢?而且,由于人类本身的社会性存在,人们往往愿意采取对方针对自身所采取的那种方式;在这种情况下,为了影响博弈方2的行为方式,博弈方1应该一开始就选择合作方式。为此,Dufwenberg和Kirchsteiger提出了一个“连续互惠原理”,用来处理在连续博弈中信念如何改变以及如何影响互惠考虑这一问题。④Dufwenberg M,Kirchsteiger G. A theory of sequential reciprocity. Games and Economic Behavior,2004,47(2):268-298.事实上,这种连续互惠原理也普遍存在于现实社会中,例如,Akerlof和Yellen就发展出一个公平工资努力模型:企业(博弈方1)首先选择了以慷慨或者贪婪的工资支付,然后工人(博弈方2)决定高或者低的努力程度;①Akerlof G. & Yellen J. Fairness and unemployment. American Economic Review. 1988,78:44-49;Akerlof G. & Yellen J. The Fair-wage effort hypothesis and unemployment. Quarterly Journal of Economics. 1990,195:255-284.显然,效率工资理论就表明,企业主往往会选择支付一个高于市场出清的工资,而且工资水平越高,工人的努力程度往往也越大。

图7 战争中的双边博弈

图8 连续型的囚徒博弈

例4:存在外部选择的动态博弈。在图9所示宾默尔命名的Dalek博弈中,第二级真子博弈有两个纯策略纳什博弈均衡B(F)、E(Ⅰ)和混合策略纳什均衡,其支付得益分别为(9,3)、(6,6)和(18/5,10/5)。那么,在现实生活中究竟会出现哪种均衡呢?这里分两种情况:有外部选择和没有外部选择。在没有外部选择的情况下,博弈方Ⅰ的收益结构分别是9、6、18/5和0,博弈方Ⅱ的收益结构分别是6、3、10/5和0。由于博弈方Ⅱ先行动,它就可以获得6的收益,因为博弈方Ⅱ这一收益的获得并没有损害反而增进了博弈方Ⅰ的收益(从0到6)。因此,我们可以有相当的把握相信现实中将会出现均衡Ⅰ,实验的结果也证明了这一点,均衡Ⅰ出现的概率达86%。在存在外部选择的情况下,博弈方Ⅰ的收益结构分别是9、7、6、18/5和0,博弈方Ⅱ的收益结构分别是6、4、3、10/5和0。此时,由于博弈方Ⅰ先行动,它可以获得7的保留收益。那么,它是否可以获得更大的利益呢?事实上,它如果想获得9的收益,那么就将行动的主动权交到了博弈方Ⅱ手里;而上面的分析表明,此后的真子博弈的现实均衡是E(6,6)。因此,我们可以有相当的把握相信现实中将会出现均衡A,实验的结果也证明了这一点,均衡A出现的概率达88%。②这是笔者与英国Exeter大学Dieter教授等共同所做的实验结果。

图9 宾默尔命名的Dalek博弈实验(Ⅰ)

当然,如果在第二级真子博弈中,博弈方Ⅰ先行动,那么,他就有更高的几率获得收益9;在存在外部选择的情况下尤其如此,这一行动表明博弈方Ⅰ将偏好RL行动,而博弈方Ⅱ根据前向归纳推理也会预期到如此,从而提高采取l行动的概率。然而即使如此,由于第二级真子博弈是一个相当于静态博弈的信息不完美动态博弈,因而博弈方Ⅰ的行动也必须考虑博弈方Ⅱ的可能反应;而对博弈方Ⅱ来说,由于3的收益与6的收益比较起来相差较大,因而它很可能偏好于r行动。事实上,博弈方Ⅱ会这样思考:你(博弈方Ⅰ)试图追求9的收益却以牺牲我(博弈方Ⅱ)的利益为代价,这违背了“为己利他”行为机理,我当然不能让你轻易如愿,因而宁愿选择策略r。基于这样的博弈互动,总体上还是出现均衡A和均衡Ⅰ的可能性较大,但均衡B和均衡F的可能性也会有所提高,这也可以从实验数据中得到证实,见图10所示。

图10 宾默尔命名的Dalek博弈实验(Ⅱ)

例5:有限选择项的最后通牒博弈。一定数额的初始收益在提议者和回应者之间分配,提议者有两种可选择分配方案,那么,提议者究竟选择哪种方案能够最大化自身收益呢?显然,这取决于选择方案的支付和这一方案被回应者接受的概率;因此,提议者究竟选择何种分配方案,就与他所面临的两种可选择分配方案的具体情形有关。我们这里以Falk、Fehr和Fischbacher在1999年所做的最后通牒博弈实验来进行分析。其方案是:初始可分配收益总额是10,提议者向回应者提出的分配方案是(8,2),同时,提议者分别面临着其他四种可选择的分配方案:(5,5)、(2,8)、(8,2)和(10,2),实验的目的就是测试在这四种不同情形下,提议者的分配方案被回应者接受的概率。实验的结果是,在面临(5,5)、(2,8)、(8,2)和(10,2)这些可替代的分配方案下,回应者接受提议者(8,2)这一分配方案的概率分别是55.6%、73.3%、82%和91.1%。①Falk A, Fehr E & Fischbacher U. On the nature of fair behavior. Working Paper No. 17. Institute for Empirical Research in Economics,University of Zurich. 1999,August.其具体结果如图11所示。

那么,如何解释上述实验结果呢?这依然可用“为己利他”行为机理进行可信的分析,而“为己利他”行为机理则与泽尔腾提出的等量分配收益界限理论具有相通性。泽尔腾认为,在全体一致性博弈中,内在对称性要求在所有博弈方中平均分配收益,而非联盟机会收益的明显差异则确立了博弈方的势力排序,其中,势力最强者能够预期至少可以得到公平份额,因而公平份额就成了收益预期的上界或下界。②Selten R. Equal division payoff bounds for 3-person characteristic function experiments. In:Tiets R. (Eds.) Aspiration Levels in Bargaining and Economic Decision Making,Springer Lecture Notes in Economics and Mathematical Systems,No. 213. Berlin:Springer - Verlag. 1982,pp. 265-275.就“为己利他”行为机理而言,它具有双重特征:(1)行为者试图通过合作而达到共赢,反映在公平对行为结果的影响;(2)行为者的基本目的又是“为己”的,反映在势力、资源的差异对收益分配的影响。一个明显的证据就是最后通牒博弈和独裁者博弈实验,提议者拥有先发优势,因而他给对方的出价往往只有40%–50%,很少有超过50%的;而且,独裁者博弈中的独裁者比最后通牒博弈中的提议者拥有更大的权势,因而出价也相对更低一些。因此,我们可以基于“为己利他”行为机理对上述实验结果进行解释。

图11 有限选择项的最后通牒博弈实验

首先,就提议者所面临的两种可选择分配方案是(5,5)和(8,2)而言,提议者可能获得的收益是5和8;问题是,如果提议者获得8的收益是以回应者接受2的收益为前提的,这种分配结果对接受者来说显得很不公平,从而就面临着被拒绝的很大可能。正因如此,基于移情的考虑,提议者获得5的收益是更可能的结果。事实上,正如上述实验所显示的,当提议者选择(8,2)这一分配方案时,被接受的可能性仅仅是55.6%,其期望收益是4.4,小于直接选择5所获得的收益。

其次,就提议者所面临的两种可选择分配方案是(2,8)和(8,2)而言,提议者必须在两个都不公平的分配方案中进行选择。显然,如果提议者给对方8的收益,那么回应者就会很乐意接受;相反,如果希望自己获得8的收益就很可能会被回应者拒绝,其关键在于回应者拒绝的概率有多大。其实,尽管目前存在的两种分配方案都显得很不公平,问题是,哪种不公平情形更容易为社会所接受?一般地,尽管无论是提议者还是回应者都不愿意仅仅获得2的收益而给予对方8的收益,但提议者本身具有选择的主动优势;同时,提议者又无法给与回应者更高的份额,除非是一个把他人利益看得比自身利益更重要的纯粹无私者。考虑到这一点,回应者往往更可能接受获得2的收益这一现实。事实上,正如上述实验所显示的,此时回应者接受2收益的可能性是73.3%,比上述情形下的55.6%要高;而且,提议者选择(8,2)分配方案可获得的期望收益是5.8,要远大于直接选择2所获得的收益。

最后,就另两种情形而言。第三种情形实际上也就是提议者只有一种选择,在这种情形下,回应者往往也只有接受;不过,由于分配方案是极不公平的,因而一些热衷于平等的回应者也会选择拒绝,实证结果的18%拒绝率显然又进一步低于上述两种情形。而就第四种情形而言,尽管两种分配方案对回应方来说都显得很不公平,但是,提议者在两个都不公平的方案中选择了较为公平的一个,从而表明了提议者的善意动机;这显示出,提议者努力实施着“为己利他”行为机理,从而被接受的可能性也最高,91.1%的被接受的实验结果显然也证实了这一点。显然,这反映出行为“动机”对他人以及最终结局会产生明显的影响,这一点也符合Andreoni、Brown和Veaterlund的实验结果。①Andreoni J, Brown P M & Vesterlund L. What makes an allocation fair? Some experimental evidence. Games and Economic Behavior. 2002,40:1–24.

例6:多阶段的议价博弈。我们来看Hoffman、McCabe和Smith所做的图12所示实验。两个实验的子博弈完美纳什均衡都是(40,40),因为只要轮到博弈方2行动,它选择底下策略后,(40,40)就是简单的占优策略均衡。相反,在实验一中,如果博弈方2选择上面策略,尽管存在(50,50)更优的对称结果,但博弈方1不会选择(50,50)而结束博弈,而是会迫使博弈方2选择(60,30);同样,在实验二中,如果博弈方2选择上面策略,尽管存在(50,50)更优的对称结果,但博弈方1会直接选择(60,30)而结束博弈,从而造成博弈方2的损失。那么,非合作的(40,40)果真更具现实性吗?事实上,人的行为不是孤立而抽象的,而是与他人的行为有关,如果采取了某些不公平的机会主义行为,很有可能会遭到对方的惩罚。例如,在实验一中,如果博弈方2选择上面策略,而博弈方1不是选择(50,50)而是迫使博弈方2选择(60,30),但博弈方1行为也很可能会遭到博弈者2也不选择(60,30)的惩罚,结果反而遭受更大的损失;基于这种考虑,那么博弈方1更可能会选择合作的(50,50)。即使在实验二中,尽管在博弈方2选择上策略后,(60,30)是博弈方1的占优策略,而且也没有面临惩罚的风险;但是,如果考虑个体本身的社会性,具有关注社会公平的情感,那么,博弈方1的行为也会抵抗住选择(60,30)的诱惑,而很可能会让博弈方2选择(50,50)而结束博弈。这就是“为己利他”行为机理的结果。

图12 多阶段的议价博弈

事实上,实验结果证实了上述“为己利他”行为机理。在实验一中,当博弈方2行动时,有一半的人(26人中的13个)选择了上策略,轮到博弈者1行动时,有77%(13人中的10个)选择了(50,50)而结束博弈;并且,当其中3个博弈方采取迫使博弈方2的行动时,有67%(3人中的2个)接受了这种要挟而选择了(60,30),但33%(另1人)的博弈方2选择了惩罚博弈方1的行动,最后博弈方1只能接受(20,20)的结果。而当另一半人博弈方2选择下策略时,有92%(13人中的12个)的概率实现子博弈完美纳什均衡(40,40),只有一个实验的结果是(15,30)。而且,实验表明,当博弈方2选择上面策略时,可获得的平均期望支付是44.6;而在博弈方2选择上面策略后,博弈方1试图不选择(50,50)而迫使博弈方2选择更有利于博弈方1的(60,30)时,结果它的期望收益只有46.7。同时,以所有人都实现(50,50)这一合作均衡收益为基准,发现所有博弈的平均有效率达85.5%,而子博弈完美纳什均衡的有效率只有80%,这也显示出从合作动机中可以获得更高的净收益。实验二也有类似的结果,当然,由于博弈方1的行动相对不受博弈方2的惩罚,因而博弈方1直接选择(60,30)的概率更高,相应地,博弈方2直接选择底下策略的概率也相对较高。①Hoffmen E,McCabe K A & Smith V L. Behavioral foundations of reciprocity:Experimental economics and evolutionary psychology. Economic Inquiry,XXXVI. July,1998:335-352.

四、结 语

现代主流经济学所假设的经济人是理性而自利的,基于经济人分析框架所推得的逻辑结果往往不是帕累托优境而是囚徒困境,不是互惠合作而是公地悲剧。与此形成鲜明对比的是,大量的经验事实却表明,人类社会在很大程度上往往能够摆脱公地悲剧和囚徒困境而建立起互惠合作的社会秩序,大量存在的公共事物的有效治理就揭示了这一点,不断扩展的市场和分工半径更是明证。同时,越来越多的行为实验结果也表明,受试者往往并不只关注自身的利益,也会考虑其他受试者的利益诉求,考虑利益分配的公平性。事实上,无论是最后通牒实验还是独裁者实验,提议方(独裁者)都会留下接近一半的收益给回应方(或接受者)。那么,现实世界中的个体行为为何与标准博弈理论存在如此的不一致呢?根本原因就在于,处于具体社会关系中的人类个体不仅具有维护自身存在或追求个人利益的本能,也具有关注群体生存和群体利益的亲社会性;人类个体不仅关注个人利益的目标,更关注目标实现的有效手段。②朱富强:《“为己利他”行为机理的行为特性:互惠合作》,《改革与战略》2011年第1期。同时,人类个体并不是完全理性的,无论是在日常生活中还是在行为实验中,人们都不会像主流博弈论所宣称的那样为弄清形式的策略结构而进行复杂的数学运算,进而获得均衡策略的行为选择也就不是基于形式逻辑的运算。例如,子博弈纳什均衡使用了重复多次乃至无限次的后向推理,但实验表明,绝大多数人的重复推理的步数不超过三级;③凯莫勒:《行为博弈:对策略互动的实验研究》,贺京同等译,中国人民大学出版社2006年版。为此,心理语言学家H.克拉克取笑说,对三级或更多级重复推理的掌握“只需一杯上好的雪利酒就可以被忘却”。④Clark H. & Marshall C.R. Definite reference and mutual knowledge. In:Joshi A.K.,Webber B.L.& Sag I.A. (Eds.) Elements of Discourse Understanding. Cambridge:Cambridge University Press. 1981: 10-63.

事实上,通过对行为经济学众多发现的契合,我们就可以提炼出更为真实的“为己利他”行为机理。本文的分析表明,“为己利他”行为机理对诸多博弈类型的均衡结果可以做出更好的解释和预测:不仅可以有效解释大量存在的不同层次的社会合作现象,而且有助于促进社会合作的实现。很大程度上,“为己利他”行为机理也与博弈思维的基本要求更为适应,因为博弈论根本上就是研究互动行为的学问,尤其是研究现实生活中人类互动以及在互动中实现收益最大化的机制。阿克洛夫就指出,“社会互动理论要解释为什么社会决策——诸如教育需求、歧视行为、结婚、离婚和生育子女的决策以及是否犯罪的决定——并不主要是基于个人考虑的简单选择。在社会决策和被微观经济学理论概括为在超市中可获得的水果之间进行选择的那种传统经济决策存在巨大差异”,而且,“将社会性因素纳入理性选择分析之中所产生的行为结果更接近于社会学家的直觉而不是经济学家的知觉”。⑤Akerlof G. Social distance and social decisions. Econometrica. 1997,65 (5):1005-1027.当然,相对于主流博弈论的理性经济人思维而言,“为己利他”行为机理更加适用于对非零和博弈的分析,因为非零和博弈为博弈参与者提供了合作的空间。而且,由于人类社会中的绝大多数互动行为都是非零和博弈的,都存在明显的互利空间,因而这就为基于“为己利他”行为机理来分析现实行为提供了坚实的社会基础。①朱富强:《“为己利他”行为机理的扩展维度:互动频率》,《改革与战略》2011年第2期。

事实上,大量的行为经济学实验都表明,受试者在实验中往往会关注其他人的收益,会关注所有各方的收益之公平问题。例如,当受试者可以选择他们想参与的博弈时,进行合作的概率往往比参与指定类型博弈情形时更高。②Maier-Rigaud,Frank P. & Apesteguia Jose. The role of choice in social dilemma experiments. Preprint:Bonn Econ Discussion Papers. 2003,October.显然,这都反映出真实世界的人类行为与经济人假说之间存在着很大差异,甚至一些行为实验中的受试者受到博弈理论的专门训练,实验结果依旧无法支持主流博弈论专家的预测。③McCabe K A & Smith V L. A comparison of naive and sophisticated subject behavior with game theoretic predictions.Economic Science Laboratory,University of Arizona. 1999.相反,这些实验结果却似乎很好地印证了“为己利他”行为机理的分析。例如,大量的最后通牒博弈实验就表明,提议者的出价大多在40%–50%之间,而低于20%的出价几乎很少被回应者所接受;同样,大量的独裁者博弈实验也表明,独裁者一般都不会全部占有可分配金额,而是会留下20%以上的份额给接受者。而且,如果对提议方的选项进行限制,那么,受试者一般都会选择更为公平的结果,正如双向独裁者博弈中的分配就比单向独裁者博弈中更加公平,这也已经为大量的实验所证实。例如,在诺贝尔经济学奖得主Kahneman和Thaler等人早期所做的独裁者博弈实验中,在面临(18,2)和(10,10)两个可选择分配方案时,76%的提议者都选择更公平的分配方案。④Kahneman D, Knetsch J & Thaler R. Fairness and the assumptions of economics. The Journal of Business. 1986,59:285-300.显然,这些行为实验为以“为己利他”行为机理来重构博弈理论提供了事实基础。同时,“为己利他”行为机理来源于对一系列引入现实因素的行为实验结果的契合和提炼,而不是固守刻意打造与经济人假设相一致环境要求的“双盲”程序,因而本文的研究不仅是对博弈理论以及经济学理论的推进,也是对杜宁华批判的有力回应。

猜你喜欢
囚徒坦白纳什
THE ROLE OF L1 IN L2 LEARNING IN CHINESE MIDDLE SCHOOLS
THE ROLE OF L1 IN L2 LEARNING IN CHINESE MIDDLE SCHOOLS
基于可信度方法在严格优势策略中的算法研究
将错就错
机智的囚徒
中文的魅力,老外理解不了
囚徒
真情告白
被释放的囚徒
爱,纳什博弈人生的真理