陈思诗
(西南政法大学 政治与公共管理学院,重庆 401120)
重复博弈与机制设计:基于红黑博弈的思考与启示
陈思诗
(西南政法大学 政治与公共管理学院,重庆 401120)
红黑博弈体现了单方最大利益与合作最大利益之间的矛盾关系,反映了理性经济人在相互影响、相互制约的条件下如何决策的问题.本文通过对两次红黑博弈过程的分解和剖析,揭示了其中所蕴涵的“双赢”理念以及实现“双赢”的一些技巧,探讨了在重复博弈中理性经济人的策略选择以及在获取利益时应处理好的利益关系,最后总结出设计合理利益兼容机制以推动博弈双方逐步建立机制化、制度化、模式化的稳定合作关系,以此破解博弈困境.
重复博弈;机制设计;红黑博弈
由于人的特殊性和复杂性,不同的教育背景、出生环境、人生阅历、性别、种族、性格等因素,往往使得博弈的结果出现多元化;而在多次博弈中,由于不断地示好与谋略、合作与非合作、试探与勇气等多方面行为选择,使得博弈的结果更加难以预测.不可否认,当多次博弈的次数趋向于无限时,博弈双方会最终采取合作策略以求得双方的互惠共赢.①然而,次数有限的博弈过程却因为不可期待的选择及其相应的结果而更加扣人心弦.本文基于两次红黑博弈实验,通过观察博弈双方的心理活动与策略选择及其导致的结果,以此来丰富博弈理论的相关研究,以期给研究者更多的侧面思考.
重复博弈就是指某些博弈多次 (两次以上,有限次或无限次)重复进行所构成的博弈过程.在重复博弈中每次博弈的条件、规则和内容都是相同的,但由于有一个长期利益的存在,因此各博弈方在当前阶段的博弈中都要考虑到不能引起其它博弈方在后面阶段的对抗、报复或恶性竞争,即不能像在一次性静态博弈中那样毫不顾及其它博弈方的利益.有时,一方做出一种合作的姿态,可能会使其它博弈方在之后的阶段采取合作的态度,从而实现共同的长期利益.
“红黑博弈”源于著名的“囚徒困境”,即两个罪犯同时被捕后,被警方分别关押,在不能互通信息的情况下,他们面临着“两个人都拒不交代、都交代和一个人拒不交代另一个人交代”三种结果,每种结果都将受到不同程度的法律制裁.按着这一博弈原理,人们设计了“红黑博弈”游戏,以模拟“囚徒的困境”.对一次性囚徒困境博弈来说,无论对手的行动可能是什么,最佳策略都是简单地背叛;但是在重复的囚徒困境博弈中,博弈被反复地进行,参与者最佳的策略就依赖于对方可能选取的策略,以及他们怎样对背叛与合作作出反应,因此每一个参与者都有机会去“惩罚”另一个参与者在前一回合中的不合作行为,这时合作可能就会作为均衡的结果出现.罗伯特·艾克斯罗德在其《合作的进化》一书中用实验证明,在重复博弈条件下,一次性囚徒困境下背叛的占优策略②将会被有条件合作的占优策略所取代,换言之,在一次性囚徒困境中选择不合作策略的博弈者,在“重复性囚徒困境”中将会采取合作策略以最大化个人利益,即“有条件合作”策略将是重复性囚徒困境下博弈者的占优策略.
2.1 红黑博弈的规则
红黑博弈游戏规则就是把所有参与人员分为两组,每组民主投票选出一名组长.每组选择出示红牌还是黑牌,一共进行六轮.如果双方都出示红牌,双方都减5分;一方出示黑牌,一方出示红牌,则出示红牌的得5分,出示黑牌的减5分;同时出示黑牌各得5分.第三轮得分乘以两倍,第六轮得分乘以三倍.整个过程中,在每一轮小组投票结束之后由两位通讯员分别公布两个小组的投票结果和得分,期间不允许任何形式的交流沟通,正分之和最大者获胜.对于20名接受过高等教育的人来说,这种博弈游戏及其原理都不陌生,然而当其成为实验中的被试者,角色的迅速转换及引起的心理转变却是大大令人吃惊的.
2.2 红黑博弈的过程
表1 第一局得分情况
由表1关于第一局的得分情况可以看出,在博弈双方没有任何沟通的第1轮中,双方都会从追求利益和回避风险的本能出发而选择出黑牌,于是两组各加5分.第2轮,A组出示红牌,B组出示红牌,双方都选择不合作,于是两组各减5分,此时,情况又回到第一轮的状态,比分归零持平.第3轮,由于比分规则是得分乘以2倍,两组开始明显分化,A组基于赌徒心理出了红牌,而B组基于前两轮与A组的默契,在这一轮中也寄希望于对方能够合作,于是较为保守地出了黑牌,结果大失所望,A组加10分,B组减10分.在接下来的第4轮、第5轮和第6轮中,B组基于之前A组的背信弃义抱着“要死一起死”的心态,坚持连续出红牌;A组为了不让B组得分,在第4轮、第5轮中也都选择了出红牌,而在最后第6轮时,A组对B组仍抱有侥幸心理出了黑牌,若B组成全他们出黑牌,则A组最终就能以正分最大获胜,但事与愿违.至此,第一局游戏结束,A组总分-15分,B组总分-5分,双方均失败告终.
表2 第二局得分情况
由表2关于第二局的得分情况可以看出,经过第一局的博弈之后在第二局中大家更加有默契了.前2轮,双方都选择了合作,都出了黑牌,各加10分.第3轮,在得分翻倍的利益面前,A组希望继续与B组保持合作出了黑牌,而B组由于在第一局中被A组背叛的阴影,这次不再天真并想着扳回一成于是出了红牌,结果A组减10分,B组加10分.第4轮、第5轮,A组受到刺激,开始连续出红,而B组这次在这两轮中都暂时先放弃了自己的利益,很配合地出了黑牌,至此,两组比分已经持平均为10分.在最后的第6轮中,两组也是出乎意料的默契,都同时出了黑牌,两组各加15分.至此,第二局游戏结束,A组总分25分,B组总分25分,完美地实现了互利共赢,收到了皆大欢喜的结果.
2.3 红黑博弈的理性分析
现代社会竞争无处不在,你可以把他当做天使,也可以是魔鬼,例如双红就是魔鬼,双黑就是天使,双红和双黑都是竞争,但存在两种不同的竞争观念,也会导致两种不同的竞争结果.从理性上,大家都接受“双黑”的结果,但从情感上又导致了“双红”的结果选择.在巨大的利益诱惑面前,所有理性经济人都追求个人效益最大化,根本不存在“熟人圈”与“生人圈”的区分.该游戏中原本是朝夕相处、互爱互助的同班同学,随机被分成两组,就已经产生了分裂与对抗,当一个整体被划分成为两个阵营时,对立、信息不对称与利己主义也就随之而来.随着城镇化进程的加快和市场经济的急剧转型,真正如熟人社会③里所建立的稳定“熟人圈”早已沦陷失守,每个人都在追求自身利益最大化,然而是否能够因此促进整个社会的福利增加却是一个值得商榷的问题.解决之道不在于盲目的合作,因为只要没有机制设计能防止谈判达成协议之后违约的重惩,那么协议一套行动一套的做法完全是有可能的.
个人理性与集体理性的冲突,这也是博弈论刚引进中国时许多学者所持有的观点,即个人在作出最符合自己利益的选择后,结果却损害了集体利益.如红黑博弈游戏第一局中B组为了制裁A组的不合作行为,选择报复,最后结果两败俱伤,整体利益损失最大.破解的关键在于设计一种合理的机制,这种机制可以使得个人追求自己利益的同时达成集体利益的最大化,即利益兼容机制.
囚徒困境的理想化前提在现实中并不存在.囚徒困境的前提有三个条件:一是完全知晓规则及其后果;二是理性人的理性选择;三是两者之间互不沟通.现实生活中,这种前提假设是不存在的.而任何一种前提的缺失,都会导致结果走向不可预知,这便加剧了问题的复杂性.例如,红黑博弈中就存在两组从一开始就没有完全理解游戏规则,误认为只要一方比另一方分数高则获胜.而理性人在信息明显不充分的情况下,也无法做出最有利的决策,即使信息完全,也会由于自身理解力和决断力等特质的差异而导致无法做出最优选择.
在这场红黑博弈游戏中有三种人:第一种人,坚决要求出红牌,他们代表了人性深处的好斗、攻击、自私和自我至上.他们的口号是:要么赢得整个世界,要么彻底失去,或者与对手同归于尽!这是非常典型的赌徒心态.或者说,这是狼的行为.第二种人,他们是温和的,包容的,他们希望与竞争者共同把市场做大,达到双赢.他们是理性的,但更多的是理想主义:他们凭什么认为自己的宽容、让步、与人为善,就一定能够得到对方的相同回应呢?他们怎么知道结果就一定能双赢呢?他们的理想是有条件的,他们需要生活在适宜的环境里.或者说,这是羊的行为.第三种人,他们是盲目的,迷惑的,他们缺乏足够的智慧去明辨是非,他们甚至不知道自己应该出什么牌,他们很容易受到诱导,可以说,他们的心智基本是不成熟的,或者,是不负责任的,因此,他们要么随大流,要么不表态,要么干脆放弃.
反思我们在团队之中,有多少时候敢于顶住压力,坚持自己的原则,坚定不移地向目标迈进而不是改变目标呢.因为我们太容易让自己变得灵活,我们的理由是,这个世界是变化的,唯一不变的就是变化本身,因此,我们的目标可以调整,方向可以改变,战略可以重建.我们的理由是,人在江湖,身不由己啊.而有些时候,我们一意孤行,听不进任何反对和批评意见,我们认为这是对的,就矢志不移地去做,最后我们也许成功,也许失败,那我们如何来反思呢?难道仅仅自己说:这是天意,这是三分人事,七分天命?如果真是这样,这些话根本无须我们说出来,因为绝对的真理人人都知道.那么,什么才是我们为与不为的指导原则呢?首先是责任,既然成为团队的领导,就要为这个团队付出一切;其次是智慧,是在责任基础之上的智慧,或者说是在智慧基础之上的责任,有智慧的责任可以避免我们犯方向性的错误.
综上所述,我们知道,在纯粹的博弈论中是不存在道德因素的,而合作环境的营建更有利于推动双方往互利共赢的道路上发展,最终达成帕累托最优.红黑博弈作为一种典型的重复博弈模型则能够建立起一种密集的互动关系并促使博弈策略选择更加趋于合作而不是对抗,从而推动博弈双方逐步建立机制化、制度化、模式化的稳定合作关系.这就要求我们在现实生活中就应该立足长远着眼全局,社会发展到现在他们是相互紧密联系在一起的,是一个系统、一个整体,如果你不把自己的利益放在大局里或大环境里面,最终是没有利益的.美国商界有句名言:“如果你不能战胜对手,那就加入到他们中间去”.毕竟,现代竞争,早已不再是“你死我活”,而是更高层次的竞争与合作.英国首相帕麦斯顿也曾说过:“没有永远的敌人,也没有永远的朋友,只有永恒的利益”,我们都是在竞争与合作中生存,只有在竞争中合作,在合作中竞争,才能收获双赢.因此,为破解博弈困境,我们就应当在承认个人利益合法合理的前提下,通过设计合理利益兼容机制,使我们在追求个人利益的同时也能实现集体利益最大化.
注 释:
①罗伯特·艾克斯罗德在 《合作的进化》一书中写到:在重复博弈条件下,一次性囚徒困境下背叛的占优策略将会为有条件合作的占优策略所取代.
②占优策略是博弈论 (game theory)中的专业术语,所谓的占优策略就是指无论竞争对手如何反应都属于本企业最佳选择的竞争策略.
③熟人社会,费孝通在《乡土中国》中提出的概念,更通俗的讲就是“小圈子”社会,一般是指人与人之间有着一种私人关系,人与人通过这种关系联系起来,构成一张张关系网.
〔1〕罗伯特·艾克斯罗德.合作的进化[M].上海:上海人民出版社,2007.
〔2〕张维迎.博弈论与信息经济学[M].上海:上海三联出版社,1996.
〔3〕曲扬.竞争还是合作?——红黑博弈揭示的商务谈判思维[J].经济问题,2014(2).
〔4〕黄正,唐晓嘉.政治博弈论研究述评[J].重庆理工大学学报(社会科学),2011(1).
〔5〕陈建先.政府管理的博弈理念——合作·均衡·双赢[C].中国行政管理学会2010年会暨“政府管理创新”研讨会论文集,2010.
〔6〕王小锡.经济道德观视阈中的“囚徒困境”博弈论批判[J].江苏社会科学,2009(1).
〔7〕杨懋,祁守成.囚徒困境:从单次博弈到重复博弈[J].商业时代,2009(2).
〔8〕贺继红,娄美珍.基于“红黑博弈”的商务谈判思考[J].商场现代化,2006(16).
F224.32
A
1673-260X(2017)06-0127-03
2017-03-18
西南政法大学2016年度研究生科研创新计划项目(2016XZXS-082)