略论博弈论中囚徒困境的人性因素

2004-04-29 12:41李立群
市场周刊 2004年8期
关键词:坦白囚徒交代

李立群

摘 要:博弈论是西方经济学中的一种重要理论,对现代经济理论的发展作出了重要贡献,囚徒困境是博弈论中的一个经典案例,人们经常运用囚徒困境理论来分析一些问题。本文主要从其人性角度谈一些自己的想法。

关键词:博弈论囚徒困境启示

囚徒困境是博弈论中的一个经典案例,也是目前学界注意力的焦点所在。不少人将囚徒困境理论用来解释我们生活中的各种现象,例如出版界屡禁不绝的盗版现象 、在高等教育考试中尤其是高考和四级考试中的诚信 ,以及国际时政问题的观察和分析。确实,运用囚徒困境理论来分析一些问题时,在切入点、视角方面有令人耳目一新之感,但需要指出的是,目前我们对囚徒困境理论的理解至少还忽略了一点,那就是这一理论中所蕴含的人性因素――人性本恶基本价值判断。

一、囚徒困境的基础是人性本恶

所谓“囚徒困境”,实际上指是经济学上的一种原理。其内容大同小异,大致是说有两个人共同犯罪,被警方抓获并分别关押,但警方并没有掌握确凿的证据。这时两个囚徒就面临着三种选择:一、两个人都拒不交代,将无罪释放;二、都交代罪行,并揭发同伙,各判10年;三、一个人拒不交代,另一个人坦白并揭发同伙,坦白者判刑5年,拒不交代者判刑20年。

对其中一个囚徒甲来讲,如果选择拒不交代,要么被判无罪,这个结果的前提是同伙B也不交代;要么被判20年,前提是B坦白了;如果选择了坦白,要么被判10年,前提是同伙B也坦白;要么被判5年,前提是B拒不交代。囚徒乙的选择结果也一样。这样看来,囚徒的选择事实上是一种赌博,赌同伙不交代风险太高,而自己交代则风险最低。因此一般来讲,两个囚徒都会选择坦白,这也正是警方所要达到的目的。

纯经济学家往往会指出,囚徒困境悖论是一个非零和游戏,囚徒甲、乙都是理性的,他们所关心的是自己会被判多少年,至于对方被判多少则不在自己的考虑范围之内,由此,理性的囚徒甲、乙所做出的选择最后看来却是不合理性的。所谓“纯利已动机的个人,也会因追求哪怕是合理的自利而对整体造成危害” ,这正好与亚当·斯密的名言——“他(指经济人)自己的利益,往往使他能够比在真正出于本意的情况下,更有效地促进社会的利益” ——恰恰相反。也就是说,囚徒困境理论反映了看起来很合理的个人行为与合作所得的利益间的矛盾,在一个个体看起来有利的策略却可能带来整体的不利,因为,在一个不知道其他的参赛者做什么的情况下,每一个个体参与者都期望获得自身的最大利益,而不考虑别人的利益即是一个理性的“利己主义者”。

理性个体人的决定,结果却导致了非理性的集体选择。如果从人性的角度对这一现象加以剖析,就会发现人性本恶的倾向。

首先,我们先假设甲囚徒是善的,就会出现两种结果:1、甲坚持不坦白,也不供出对方,乙也如是,这样两人都释放,皆大欢喜。2、甲坚持不坦白,但乙坦白交代,这样甲判20年乙判5年;这也没什么,反正本来就有罪,应该坐牢的。

其次,再假设甲囚徒是恶的,也会出现两种结果:1、甲坦白,供出对方,乙却没有坦白,这样甲判5年、乙判20年。这里暂不考虑良心因素。2、甲坦白,供出对方,乙也坦白,供出对方,这样双方都判10年;反正有罪,坐牢就坐牢吧。

这里的不同之处在于,囚徒甲从善的角度出发,分别得到的两种结果可以说是最好的(释放)、最差的(判20年),而从恶的角度出发,分别得到的两种结果则处于中间(分别是判5年、10年)。两相比较,无论是囚徒甲还是乙,最不能接受的结果就是最差的那一种,即自己不坦白,对方却交代。更为关键的是,如果甲选择了善,乙或者释放、或者判5年;如果甲选择了恶,乙或者判20年、或者判10年,只要选善,对方的“下场”就会比自己超出一筹。显然,只有选恶,对方才不会有比自己好的遭遇,在这种判断下,甲、乙两个囚徒都选择恶式做法的可能性也就难免更大了。

二、对人性本恶的承认和限制

但事实上,把两个囚徒选择恶的做法看成是必然还不尽确切。因为上述囚徒困境理论实际上还有一个假设基础,即囚徒甲、乙之间并不熟悉了解,只有在这种前提下,囚徒甲、乙才会做出让警察满意、即互相坦白的选择来。而在现实生活,更多的情况则是两个囚徒彼此有所了解,这时又会出现什么的结果呢?

可以肯定的认为,这时两个熟悉的囚徒首先要考虑的是判断对方的选择,即囚徒甲首先要考虑囚徒乙选择交代、坦白的可能性各为多少,然后才会根据这一判断作出自己的判断。如果囚徒甲很信任对方,知道乙的为人素来义气为先,出了事自己扛,那么囚徒甲肯定会毫不犹豫地选择A不交代;反之,如果囚徒甲知道乙肯定靠不住,他也会毫不犹豫选择B坦白;只有第三种情况才是一种赌博,即囚徒甲不知道囚徒乙的为人,也就不知道囚徒乙会做出什么样的选择,当囚徒甲觉得这场赌博风险太大、不愿意进行这场赌博即选择C时,就会趋向于选择坦白。

也就是说,囚徒的选择还要加上一个因素,即双方是否互相信任的前提。

这样看来,囚徒困境理论中必需要考虑的一个因素就是给对方的“诚信度”打多少分。也就是说,在两个囚徒(范围可以推而广之)互为了解的前提下,选择非A即B,只有互相不了解的情况下,才有可能出现选择C,这种可能性很小,同样是出于对另一方的不了解,选择B是一条起码的退路。因此,在一定程度甚至可以说,囚徒困境理论中的选择C实际上仅仅是一个摆设,只是为了逼迫对方去走选择C这条道路,在现实生活中出现的可能性是极小的。

这也是为什么继囚徒困境理论后,一报还一报策略(TIT FOR TAT)最终取胜的原因所在 。1984年,美国密西根大学一位叫做罗伯特·爱克斯罗德的教授组织了一场计算机竞赛,任何参加者都扮演囚徒困境案例中一个囚犯的角色,然后他们的程序会被成双成对地融入不同的组合。分好组以后,然后参与者就开始玩囚徒困境的游戏,重复多次地玩这个游戏,最后在这个游戏中,竞赛的桂冠属于其中最简单的策略:多伦多大学心理学家阿纳托·拉帕波特提交上来的一报还一报策略。

简单来说,一报还一报的思路总是以合作开局,从此以后就采取以其人之道还治其人之身的策略,它永远不先背叛对方,即永远不先采取供出对方的选择,但一旦对方在前一次合作中选择了坦白,那么这个程序在接下来的游戏中肯定选择供出对方。应该说,这一原则是胡萝卜加大棒,融宽容和强硬于一体,同时这个程序所奉行的原则也是极为简单明了的。正是这样一样策略,获得了最终胜利。很显然,一报还一报策略就建立在了解对方的基础之上,在首次交手后即有了对方的“诚信”记录,以后,或者以血还血、以牙报牙;或者投桃报李、互致善意,一报还一报策略的选择就完全在人们的意料之中了。

由此可见,与其说囚徒困境理论证明了个体的理性导致集体的非理性这一现象,毋如说个体的缺乏沟通导致了集体的非理性来得更为确切。而一报还一报策略的高明之处则在于,表面上看并不限制对方选择善或是恶的自由,但却以一种明确的、以其人之道还治其人之身的方式告诉对方:不要选择恶,否则自己将饮下自酿的恶之酒,从而在实质上给对方上了一道紧箍咒。

三、囚徒困境理论的启示

众所周知,人性本恶是西方文化的基本判断之一,这一点和中国传统文化完全不同。例如按照基督教《圣经》的说法,亚当与夏娃偷食了智慧之果,因而被上帝赶出了伊甸园,带着罪恶来到了人世间,这就是原罪说,将其理解为人性本恶并无不妥之处。而中国自孟子开始,将人性本善的大旗高高举起,“人性之善也,犹水之就下也,人无有不善,水无有不下” 。人性到底是善、是恶这涉及到哲学上的论争,因超出本文讨论范围暂且不论。这里需要指出的是,一报还一报策略的立足点则是承认对方有选择恶的权利,至少是承认了人性有本恶的一面,但同时确立了一报还一报的游戏规则,迫使人性朝着善的方向努力。也就是说,一报还一报策略的出发点是人性本恶,但最终归宿、或者说努力方向却是人性本善。

如此看来,囚徒困境案例背后隐藏的居然是关于人性的基本价值判断。笔者以为,完整的囚徒困境理论应该将一报还一报策略也涵括在内,这样才形成一个整体,给人们的启示也可以略作修改如下:

个体的理性行为确实可以导致集体的非理性结果,但这只是短时期的,从长远看,只要辅以合适的制度——在囚徒困境理论中体现为一报还一报策略,那么个体的理性行为终导致集体的理性行为。其中,合理和有效的制度的设立和实施就成为了重中之重。

那么,什么样的制度才是合理而有效的呢?首先应简单而明确,要让别人产生误解的可能性被降低到了最小范围。其次,制定新制度时应承认人性本恶,但努力的方向是人性本善,即承认一个人有选择恶的可能和权利,但却以巧妙地方式让个性自觉地朝着善的方向靠拢。这又可以两种方式表达出来:其一,规定选择恶的后果是以血还血,这是以一种强硬的方式规范个性必需向着善的方向努力,也可以说是一根大棒;其二勾勒出一幅一旦选择善后出现的彼此得利的圆满局面(在囚徒困境中表现为双方获释),这是以一种施惠的方式诱使个性心甘情愿地朝着善的方向努力,也可以说是一个胡萝卜,这种方式也即所谓的胡萝卜加大棒法。

四、结语

上面,笔者通过对囚徒困境案例和一报还一报策略作出了简要分析,并着重指出了其中包含的人性本恶这一属于西方传统的价值判断对决择结果的影响。需要强调的是,我们在讨论囚徒困境理论时,往往会自觉不自觉地忽略这一基本价值判断,这不利于我们对囚徒困境理论讨论的深入。此外,囚徒困境理论同样也揭示了什么样的制度才是一项合理有效的制度,这对于我们目前正处于当务之急的制度建设应该说也不无禆益。

猜你喜欢
坦白囚徒交代
博弈论—囚徒困境模型浅析
机智的囚徒
中文的魅力,老外理解不了
囚徒
真情告白
论坦白的处遇
海盗的囚徒
论男性出轨者的囚徒困境
交代
交代