杨 懋 祁守成
中图分类号:F224.32 文献标识码:A
内容摘要:本文从博弈论中的经典案例“囚徒困境”入手,阐述了单次博弈与重复博弈中的囚徒困境现象。随后论证了囚徒困境在单次博弈与重复博弈中的均衡区别,说明了在重复博弈条件下合作产生的可能性。
关键词:囚徒困境 单次博弈 重复博弈 合作
囚徒困境是博弈论中非零和博弈的代表性的例子,反映个人最佳选择并非团体最佳选择。虽然困境本身只属模型性质,但现实中囚徒困境的例子屡见不鲜。
“囚徒困境”博弈是博弈论中的经典案例。这个故事讲的是两个嫌疑犯A和B,作案后被警察抓住,被分别关在不同的审讯室。警察为了得到所需的口供,告诉每个人:如果两人都不坦白,每人以妨碍公务罪各被判刑三年;如果两人都坦白,各判刑十年;如果两人中一人坦白、另一人不坦白,则坦白的人判刑两年、不坦白的人判刑十二年。在这个博弈中,每个嫌疑犯都有两种可选择的战略:坦白或不坦白。显然每个囚徒的最优战略都是坦白。这是因为假定A选择坦白的话、B最好也选择坦白,因B坦白判刑十年,而不坦白却要判刑十二年;假定A选择不坦白的话,B最好还是选择坦白,因为B坦白的话就判刑二年,而不坦白却要被判刑三年。即是说,不管A坦白或不坦白,B的最优选择都是坦白。反过来,同样地,不管B是坦白还是不坦白,A的最优选择也是坦白。结果,两个人都选择了坦白,各判刑十年。
单次博弈中的“囚徒困境”
经典的“囚徒困境”博弈单次博弈,反映了集体理性和个人理性的矛盾。假定每个参与者(即“囚徒”)都是利己的,即都寻求最大自身利益,而不关心另一参与者的利益。参与者某一策略所得利益,如果在任何情况下都比其他策略要低的话,此策略称为“严格劣势”,理性的参与者绝不会选择。另外,没有任何其他力量干预个人决策,参与者可完全按照自己意愿选择策略。
假设二人均为理性的个人,且只追求自己个人利益,二人到底应该选择哪一项策略,才能将自己个人的刑期缩至最短?由于隔绝监禁,信息不明,二人并不知道对方选择;而即使他们能交谈,还是未必能够尽信对方不会反口。就个人的理性选择而言,检举背叛对方所得刑期,总比不坦白要来得低。试设想困境中两名理性囚徒会如何作出选择:
若对方不坦白、不背叛会让我获释,所以会选择背叛;若对方背叛指控我,我也要指控对方才能得到较低的刑期,所以也是会选择背叛。二人面对的情况一样,所以二人的理性思考都会得出相同的结论-选择背叛。背叛是两种策略之中的支配性策略。因此,这场博弈中唯一可能达到的纳什均衡就是(坦白,坦白)。
这场博弈的纳什均衡,显然不是顾及团体利益的帕累托最优解决方案。以全体利益而言,如果两个参与者都合作保持不坦白,两人都只会被判刑3年,总体利益更高,结果也比两人背叛对方、判刑2年的情况较佳。
假设一方是非理性的,另一方是理性的,即博弈双方均不知道对方是不是理性的,非理性一方(理解为讲义气重信誉的人或担心坦白会受到出狱后的报复),假设他只有一种策略,如果博弈是重复的,在第一阶段,他必然选择不坦白,在以后阶段他将选择同伙前一阶段的选择,即你不坦白我就不坦白,你坦白我就坦白。而另一方是理性的,他不管对方是否理性的,他都将选择坦白。所以这次博弈的均衡是(不坦白,坦白)。
假设双方均为非理性的,那么他们不管同伙如何选择,他们都将选择不坦白,则博弈的均衡是(不坦白,不坦白)。
重复博弈中的“囚徒困境”
重复博弈中的“囚徒困境”,是指相同的博弈者会不断重逢,即不断重复面对相似的囚徒困境的选择条件。重复为博弈产生了新的动力结构。在重复性囚徒困境下,理性博弈者将考虑,如果我拒绝合作,不断背叛,为了减少你的损失你也背叛。通过重复,博弈者可按对手以往选择而决定当前选择。背叛有可能遭到惩罚,合作有可能获得收益。
(一)重复性囚徒困境博弈的理论研究
在“重复性囚徒困境”研究方面,最有成就者当推罗伯特•艾克斯罗德、泰勒、哈丁等人。在其《合作的进化》一书中,艾克斯罗德用实验证明,在重复博弈条件下,一次性囚徒困境下背叛的占优策略将会为有条件合作的占优策略所取代,换言之,在一次性囚徒困境中,选择不合作策略的博弈者,在“重复性囚徒困境”中,将会采取合作策略以最大化个人利益、即“有条件合作”策略将是重复性囚徒困境下博弈者的占优策略。
艾克斯罗德的结论,肯定了纯由利己主义者组成的世界中,建立互惠合作关系的可能性。这一结论对于人类社会的意义在于,即使在缺少政府权威的人群中,人们合作或建立社会秩序也是可能的,因为合作本身符合当事人长远的、根本的利益。合作产生的条件就是:“人们重新相遇的机会足够大”,即“合作是基于互利互惠的基础;而且未来的影响十分重要,它足以保证目前的互利互惠关系的稳定”。
谢林仔细考察了博弈者相互之间的信息沟通程度与博弈结果的相应关系,探讨“协同博弈”(co-ordination games)形成的条件。谢林对非零和模型的研究,表明最大化个人功利的企图并不像在零和博弈中那样等于最小化人的功利。
(二)重复性囚徒困境模型研究
如果重复囚徒困境将被精确地重复N次,已知N是一个常数,那么会产生另一个事实:纳什均衡就是每次都背叛。用归纳法证明:你也可以在最后的回合背叛,既然你的对手将没有机会惩罚你。因此,你们都将在最后的回合背叛。这时,你可以在倒数第二回合中背叛,既然最后一回无论你做什么,你的对手都将背叛。依此类推。为了达到合作的目的,对两个参与者来说未来必须是不确定的。给出一个数据模型。假设囚徒困境的策略矩阵如表1。
我们假设囚徒的支付是阶段博弈支付贴现之和,并假定贴现因子等于1。若双方均为非理性的,那么他们每阶段都会选择不坦白。在不完全信息情况下,假设囚徒1有两种类型,理性的和非理性的,概率分别为1-p和p,假设囚徒2也有两种类型,理性的或非理性的,概率分别为1-q和q,为了叙述方便,用C代表“坦白(背叛)”(Confess),D代表“不坦白(合作)”(Deny)。
首先讨论博弈只重复两次的情况:在t=1阶段,非理性一方会选择D。在t=2阶段,理性囚徒选择C,而理性囚徒在t=1阶段的选择将是非理性囚徒在t=2阶段的选择,如表2。
如果选择X=D,Y=D,
理性囚徒1的期望支付是:-3+[q*(-2)+(1-q)*(-10)]=8q-13;
理性囚徒2的期望支付是:-3+[p*(-2)+(1-p)*(-10)]=8p-13 ......
所以囚徒1和囚徒2对应于X,Y的选择期望支付矩阵为
8q-20≥17q-22且-12≥8q-13由此得出:p≤1/8且q≤2/9再推得:
当q≤1/8时,X=C;当q≥2/9时,X=C。
同理可得:当p≤1/8时,Y=C;当p≥2/9时,Y=C,如表3。
就是说如果理性囚徒1(2)认为囚徒2(1)属于非理性的概率不大于1/8,他将在第一阶段选择坦白,如果不小于2/9,则选择不坦白。
其次讨论理性囚徒认为他的同伙属于非理性的概率在1/8和2/9之间时,他将如何选择。
假设囚徒1和囚徒2都是风险中性者。
当理性囚徒一方认为另一方属于非理性的概率p(q)≥a时,他将在第一阶段选择不坦白。在每个囚徒都没有暴露自己是理性的还是非理性的之前,理性囚徒选择不坦白的概率为1-a,选择坦白的概率为a。若满足:
a*(8q-20)+(1-a)*(-12)≥a*(17q-22)+(1-a)*(8q-13)则 q≤(a+1)/(8+a)。
令a=(a+1)/(8+a),则a=0.14。
所以,当一名理性囚徒认为同伙属于非理性的概率q≥0.14时,他将在第一阶段选择不坦白,在第二阶段选择坦白。重复三次的博弈均衡如表4。
当博弈重复4次的情况如下:
在t=1阶段,类似于前面的讨论,囚徒1和囚徒2都将选择D,那么他们都没有暴露自己是理性的还是非理性的,那么在t=2,3,4阶段的博弈和前面讨论的3次重复博弈的情况是一致的。
∴p, q≥0.14时,重复4次的博弈的均衡,如表5。
当博弈重复n(T=n)次的情况:
类似的,如果p、q≥0.14,理性囚徒将t=1到T-1阶段选择D,在t=T时阶段选择C,非理性囚徒将自始至终选择D。
如果这个博弈是无限期的,那么两个囚徒都将永远选择D,当然对于囚徒博弈来说不可能无限期的进行。
结论
在现实生活中也存在有多种冲突问题的模拟,如核裁军、工资谈判、传染病预防、企业广告投入等,特别是经济活动中,参加对策的各方利益并不是完全截然相反,而是由某种共同的利益联结在一起,形成既有对抗又有合作的复杂局面。比如两家公司组成的卡特尔,在短期内,他们就不会采取欺诈行为,而会共同规定一个价格,为争夺市场的份额此时博弈的双方只要他们相信今后还需要合作就一定会在第一次博弈的基础上达成新的协议,结成行业联盟。但它们就有可能定高价,使整个行业利润最大,此时由于行业的高利润和高发展前景,必然会不断出现新产品,必然会有新的生产者进入市场。由于联盟内部成员之间总是互不信任,暗中互相欺骗,就导致联盟的短命使得该博弈过程不可能无限期的重复进行下去。由于政府的介入,如反不正当竞争和欺诈行为等,使得博弈的双方又重新开始下一轮的博弈。
对一次性囚徒困境博弈来说,无论对手的行动可能是什么,最佳策略是简单地背叛;但是在重复的囚徒困境博弈中,博弈被反复地进行,参与者最佳策略依赖于对手可能的策略,和他们怎样对背叛和合作作出反应。因而每个参与者都有机会去“惩罚”另一个参与者前一回合的不合作行为。这时,合作可能会作为均衡的结果出现。欺骗的动机这时可能被受到惩罚的威胁所克服,从而可能导向一个较好的、合作的结果。作为反复接近无限的数量,纳什均衡趋向于帕累托最优。
参考文献:
1.张维迎.博弈论与信息经济学[M].上海人民出版社,1996
2.高鸿桢.管理运筹学[M].江西人民出版社,1997
3.胡运权,郭耀煌.运筹学教程[M].清华大学出版社,1998