重复博弈现象分析

2016-10-11 13:27段俞戎

科技视界 2016年24期

段俞戎

【摘要】囚徒困境这一现象在日常决策中越来越常见，这是一种博弈心理的体现，同时，为减弱囚徒困境的影响，在很多情况下人们采用重复博弈这一方法。为了确切证明博弈这种现象的真实存在并分析其发生机制，实验选取山东师范大学24名学生进行相关实例的测验，并对数据进行比较分析，得出结论：重复博弈中人们确实更倾向于选择合作策略，但是在高收益面前，人们也有可能会选择背叛。

【关键词】囚徒困境；博弈；风险与收益

0 引言

决策中的博弈论与博弈心理在当今时代越来越受到重视，对其的研究也有利于深入了解人们的决策心理并理解人们某些行为背后的实际意义。博弈是指在一定的游戏规则约束下，基于直接相互作用的环境条件，各参与人依靠所掌握的信息，选择各自策略（行动），以实现利益最大化和风险成本最小化并权衡不同决策主体之间决策的的过程。简单说就是人与人之间为了谋取利益而竞争。在博弈论中，以“囚徒困境”博弈模型最为著名。该模型讲述了一个警察与小偷的故事。两个嫌疑犯作案后被警察抓住，分别关在不同的屋子里接受审讯。警察知道两人有罪，但缺乏足够的证据。警察告诉每个人：如果两人都抵赖，各判刑一年；如果两人都坦白，各判八年；如果两人中一个坦白而另一个抵赖，坦白的放出去，抵赖的判十年。于是，每个囚徒都面临两种选择：坦白或抵赖。然而，不管同伙选择什么，每个囚徒的最优选择是坦白：如果同伙抵赖、自己坦白的话放出去，抵赖的话判一年，坦白比不坦白好；如果同伙坦白、自己坦白的话判八年，比起抵赖的判十年，坦白还是比抵赖的好。根据上述描述，我们可以知道两人同时选择抵赖对于共同利益来说是最好的。而在多项研究中都表明，很少有人会选择抵赖而与对方达成合作并得到最优效果。这就是囚徒困境的存在，为了自己的利益达到最大化，大多数人会选择背叛而非合作。囚徒的两难境地确实抓住了自己效益最大化、不信任和需要相互防范背叛这种真实的一面。

重复博弈是指同样结构的博弈重复多次，其中的每次博弈称为阶段博弈。以囚徒困境为例，如果囚徒的罪行较轻，每次判刑都不是很严重，那么两个囚徒在刑满释放之后再作案，作案之后再判刑，释放之后在作案，如此周而复始，他们之间进行的就是重复博弈，其中每次作案和判刑是阶段博弈（周厚虎，2008）。在重复的囚徒困境中，博弈被反复地进行。因而每个参与者都有机会去“惩罚”另一个参与者前一回合的不合作行为。这时，合作可能会作为均衡的结果出现。欺骗的动机这时可能被惩罚的威胁所克服，从而可能导向一个较好的、合作的结果。因此，可以抵消单次囚徒困境的影响。

根据以上叙述，本次研究旨在验证博弈论中囚徒困境的存在并分析其发生的心理机制并提出两个假设。研究假设：重复博弈可以抵消单次囚徒困境的影响使人们的行为趋向合作并得到最优的共赢结果。

1 方法

1.1 被试

24名山东师范大学心理学院2013级卓心本的学生，男生2名，占8.33%；女生22名，占91.67%。平均年龄21岁（SD=0.68），智力正常，心理状况良好，双耳听力正常。

1.2 实验仪器与材料

问题情境：两两一组，共红、蓝两种颜色可以选择，同时选红色两队各积3分，同时选蓝色则各扣3分，当颜色选择不一致时，选红色的扣6分，而选蓝色的积6分。

实验记录纸

1.3 实验设计

将24人分为4个小组（A、B、C、D），每小组6人，AB为对抗组，CD为对抗组。采用重复博弈，共进行8次结构相同的博弈，每四次结束后两小组可选择进行讨论或者不进行讨论。之后的2次博弈将奖励与惩罚分数翻倍。

1.4 实验程序

首先将24名被试分为4个小组（A、B、C、D），每小组6人，AB为对抗组，CD为对抗组。其次，告知被试指导语：你们小组可以选取红、蓝其中一种颜色，当两组同时选红色时两队各积3分，同时选蓝色则各扣3分，当颜色选择不一致时，选红色的扣6分，而选蓝色的积6分，请小组讨论后决定。再次，进行重复实验8次，每阶段实验结束后公布得分结果，每四次组间可选择讨论。然后，告知被试最后两次实验奖励与惩罚分数翻倍，按上述程序进行实验。最后，宣布实验结束，公布最终实验结果，得分为0分以上判定为赢。

2 结果

根据得分统计汇总表（表2）可以看出，A组得分最高，为+9分；其次是B组与D组，为-3分；最后是C组，为-15分。而在四组之中，只有A组的成绩为正，另外三组成绩均为负值。AB对抗组获胜的是A组，CD对抗组获胜的是D组，四组中间获胜的是A组。

由图1可以看出，第1轮，两组的决策结果对A组优于B组，从第2轮开始，A、B两组的选择趋于纳什平衡，在第4轮，两组没有进行交流，得分也未出现变化，一直到第8轮打破这种平衡，两组得分均趋向于不利方向。A、B两组除最开始一次外，得分情况趋近一致，均为背叛1—合作6—背叛3。

由图2可以看出，C、D两组第1轮的决策结果对两组均不利，第3轮两组决策结果对D组优于C组，第4轮趋于纳什平衡，两组选择交流过后，第5轮仍处于平衡状态，在第6轮时打破，决策结果利于C组，第七轮又达到平衡，第8轮决策结果利于D组，第9轮开始，两组的决策结果均趋向于不利方向。C、D两组选择相差较大，得分情况一直处于起伏不定的状态。

根据得分汇总表整理绘制折线图如下：

3 讨论

根据整个实验程序的设计，组间有讨论机会，每次成绩进行公布，我认为此次实验为重复博弈的一个实验。重复博弈是指同样结构的博弈重复多次，在重复的囚徒困境中，博弈被反复地进行。因而每个参与者都有机会去“惩罚”另一个参与者前一回合的不合作行为，使对方失分。这时，合作可能会作为均衡的结果出现。欺骗的动机这时可能被惩罚的威胁所克服，从而可能导向一个较好的、合作的结果。因此，可以抵消单次囚徒困境的影响。在此次实验中就有所体现，实验不是只进行一次，而是连续进行多次，中间还有两个组之间的讨论时间，也就是说，一次结果之后你可以知道对方组是否背叛了你（与小组讨论不一致），因此，在下一次中你就可以对他给予惩罚，而由于这种方式，使得每个组不管是碍于面子还是为了赢，最终的选择可能都是合作，以达到双赢的局面。同时，Wedekind C（1998）的研究也证明重复多次的选择通常会导致更多的合作。

由表2可以看出，在本次实验中，虽然没有很明显的体现出博弈达成双赢的局面，但重复博弈仍起到了一定的作用，与假设大致相符。这种现象在AB、CD组中均有体现，前4次博弈中，第一次博弈时，A组为了自己的利益，同时又不信任B组，未选择合作策略，而其发现B组选择了合作策略，因为惧怕之后B组的报复（背叛），又想继续得分，于是在之后的三次中均选择合作，这就是重复博弈优势的体现，因为害怕对方的惩罚，又发现对方第二次、第三次均未背叛自己（选蓝色），因此，双方形成共赢的局面。中间讨论时间，两组拒绝交流，但因为有之前形成的“契约”在，而且双方均担心过早背叛会收到对方惩罚，影响之后的分数，所以双方后四次博弈中，第一次仍然选择了合作，这时双方发现对方都没有选择背叛，因此不用担心来自对方惩罚，达到双赢，于是在之后的两次博弈中也选择了合作，但在第八次，两组都想获得更高的利益，同时A组也为惩罚之前B组的背叛信号（拒绝交流），均选择了背叛。第二次中间讨论时间两组也并未进行讨论。最后两次在发现上一次对方背叛之后，均不约而同的选择了惩罚对方，继续背叛，使得双方最后两次全为负分，得到“双输”的结果。

前4次博弈中，前两次C、D均未选择双赢，一直是负分，而第三次中C组改变策略，选择合作，虽然在第三次中D组仍然选择背叛，但其看到了C组想要合作的内心，又惧怕被C组惩罚，为了继续得分，于是第四次双方均选择了合作。经过中间交流，双方达成共赢的想法，并且D组承诺说要让C组一次。所以下一轮开始时，双方都选择了红色，都未背叛，在第六次时，C组为了补偿，选择了背叛得到高分，接下来双方都因为害怕对方对于自己背叛的惩罚，信守承诺，没有背叛，双方达成共赢，但在第八次，D组想获得更高的利益赶超之前得分较高的A组，于是选择了背叛。第二次中间讨论时间两组并未进行谈判。由于D组之前的背叛，使得C组要对D组进行惩罚，而D组想继续获得高分，因此双方都选择背叛，使得双方最后两次全为负分，得到“双输”的结果。

尽管重复博弈确实能够通过惩罚对方而使双方由于对利益的追求以及“面子”问题不敢轻易选择背叛，但是上述实验结果最终表明“双输”，也情有可原。首先，对于A与B、C与D两组来说，对手并不只是对方，还有其他两组，就像之前D组所描述的那样，为了在四个组中间争先，为了超过得分较高的A组，自然要选择背叛而获取更高的利益；其次，在这种四组之间容易形成对比的情况下，竞争是非常强烈的，大家都不甘心屈居人后。孙昕怡等人（2009）的研究表明，成人平均合作率随合作指数的升高而升高，但始终处于几率水平之下，表现出竞争倾向。成人本来就对竞争比合作更为敏感，更愿意通过竞争的方式赢过他人。而且博弈论预测：当囚徒困境博弈是有限重复时，理性的玩家在每一回合中仍会背叛。所以说，尽管重复博弈对于双赢局面起到了一定作用，但作用仍然有限。

4 结论

在博弈当中，人们为了自己的利益往往会选择背叛策略，而重复博弈确实能够改变人的行为，让其更倾向于选择合作策略，在全球化的今天，为了社会不断发展，多方合作越来越受到人们的重视，通过重复博弈而达到合作双赢的效果是非常好的解决途径。

[责任编辑：田吉捷]