从有限重复博弈实验展示人的行为可导致多样性结局

2016-05-30 11:13黄文棣

中国集体经济 2016年21期

黄文棣

摘要：为了验证博弈理论对人类行为的解释度，文章以传统的囚徒困局为基础，改编出有限重复博弈的实验，旨在找出理论对实际人的行为的可预测性。实验以高中学生为局中人其中分为普通生组和领袖生组，毎组各自进行有限重复博弈游戏。结果显示纳什均衡未能充分达到，原因由于局中人的行为往往因为博弈的复习性、背景、教育、训练、知识水平和经验所影响，而未能作出最理性的决定。

关键词：囚徒困局；有限重复博弈

一、引论

为了探讨博弈理论用于现实的解释力，笔者安排了一场游戏给不同学历背景的学生博弈，本文详细阐释该博弈游戏的设计、理论基础和结果分析。

游戏以经典的囚徒困境为基础，笔者参考了Osborne（2004）双寡头垄断的合作和背叛环境，设计出一个有限重覆囚徒困境博弈的环境供学生进行分组比赛，模拟商业竞争的情况，并且要求他们向盈利最大化的方向思考。在笔者的角度，就是验证一下博弈结果是否符合书中所示。结果出人意料，并不完全符合书中所指，值得深思。

为了进行比较，笔者把这个实验试做了两次，一次给普通中学生玩，另一次给领袖生玩。领袖生和普通生的区别在于领袖生积极参与活动，有上进心，富团队精神，学习态度绩极，经常参与活动，在身心方面都得到均衡发展；而普通生组是随机招募，没有特定的组织背景，学习态度也欠积极，也不爱参加有益的活动。这个实验的目的就是分别让两班不同学习经验的人进行重覆囚徒困境的游戏，验证一下现实会否依从理论所推论的进行。

下文将把这个实验的方法和结果详细阐释及讨论。

二、实验设计

改编Osborne （2004）双寡头垄断的合作和背叛环境，以下列出其盈利剖面。

局中人：A 组及B组学生

胜负规则：1. 使最终盈利比对手多；盈利不能为负数，否则不分胜负；

2. 盈利越多所获得的分数越高（追求最大盈利）；

3. 能击败对手的将有额外分数。

行动：以高价或低价发售产品

重覆博弈回合次数：10个回合

纳什均衡：原本根据书中所指，有限重覆博弈的纳什均衡是任何回合都是（低价，低价），如果就这样给学生玩，这就太消极了，所以这个实验带有附加的规则，就是最后盈利不能是负数（可以为0，经济学上的均衡情况），否则当作输，这个规则加强了现实性，因没有商业希望盈利是负数的，而且提高学生思考的积极性，所以这个实验的纳什均衡跟书中有点不同，表1利用”冷酷触发策略” 配合后退归纳法推出各回合的纳什均衡。

因为在第10回合不合作不用受到下一回合惩罚，而且可以较高盈利取胜，所以第10回合的纳什均衡是（低价，低价），由于累绩盈利不能为负数否则当输论，所以各局中人以第十回合累积盈利最少為0的结局进行后退归纳法，倒推出在第三回合中如果不合作便不论如何也获得最少是0的盈利，这个推论引用自（施锡铨， 2000），说明在有限重复博弈中有可能导致在均衡结局中出现一次非均衡结局的博弈。以上策略也可防止对方在中途不合作导致自己输掉。这个实验理论上会将双方的盈利偏离了最大化的方向。

三、结果及讨论

实验一结果：普通中学生为局中人。

实验一的局中人是素质比较低的学生，两组局中人的回报都是负回报，亦即是不能获得任何分数，这令人非常气馁，原先认为以游戏的方式引导他们竞争，以该科目的实际分数作为奖励，应该可以诱发他们主动思考和作出正面的行为，就算他们不用任何数学辨法分析出最优的行动，也不至于一开始B组就摆出一副完全不合作，而且必定是两败具伤的态势，直接点说就是损人不利己，是这个博弈的最差结局。

有限重覆博弈，毎一回合所作出的行动是由历史行动所影响，B组一开始就选择以不合作的态度去玩，似乎是他们从一开始就不相信A组会合作，那为什么会这样的呢？笔者没有问学生们为何那样，因为答案都未必是真。以笔者的推断，那可能是他们根据A组的日常生活行为比较自私而导致B组不相信他们，又或者A组是成绩比较好的一组，两败具伤对B组有利，因为这样可以控制A组的盈利。无论如何，这个结局的出发点是自私和两败具伤，负面的态度令这个博弈在一开始便偏离了盈利最大化的目的，是自己不好也不想人家好的态度。

实验二结果：领袖生为局中人。

然而，实验二的局中人是素质比较高的学生，他们从小已接受纪律训练，自我要求高，热爱思考和重视道德，这样的素质，能冲破第三回合不合作的预测，使双方的盈利皆有机会在0之上。这个耐性一直持续至第六个回合，实在是令人安慰的。由此可以想像他们身处的道德世界是正面的，思考也较成熟，懂得以大局为重，以自己及别人的角度思考。但从另一个角度看他们，是训练有素但未有战争经验的士兵，他们的世界太美好，未曾经历人性的险恶。

实验二的转变点（不均衡结局）是第七回合，C组出卖了D组，导致往后的博弈变为（低价，低价）的纳什均衡。显然，C组比D组更有野心，C组的背叛行为非但没有受罚，反而使他们胜出。从好的方面看，他们有商业头脑；从坏的角度看，他们的不合作较迟使出，技术上未够炉火纯清。

游戏完结后，D组同声表示自己品格比较好一点，原先他们的策略是在第八局中不合作的，结果别人比他们早了一步。通过这游戏，他们学会了防人之心不可无的处世之道，再问他们下次再玩这个游戏会如何，他们都说早一点不合作比较好。

四、结论

笔者的原意本是一个小型的博弈游戏，岂料普通中学生组的表现着实令人失望。于是笔者便决定跟其他人再玩一次，结果就由一个小博弈变成验证博弈论的实验。

两个实验的结果偏离了理论所预测的结果，可以分两方面解释：

1.局中人的思考复杂性。局中人只是高中生，没有受过严格经济学或数学训

练，而且之前也没接触过这种游戏，不懂其思考方法，可见知识是重要的。

2.局中人生活的背景。亦即是局中人对对手的历史行为的认识程度，实验一

和实验二两班局中人身处的背景不同，行为偏好也不同，普通生就是因为对游戏态度不积极，结果两败具伤，极其负面，不能以理性为前题预测和解释他们的行为。因此，透过教育改善人的积极性是需要的，这样可减少一点社会成本。

这个实验证明了良好的教育能塑造出正面的道德行为，至少他们的出发点是正面的。这个社会上需要设定多些机制保障正面的行为，否则当人学会了有限重覆博弈致胜策略后，惩罚好人将会成为主流，人们将只顾自己的利益而破坏了社会的整体盈利。然而，在现实商业中，也不一定需要以盈利较高胜出游戏，所以，正如施锡铨（2000）所指，在重复有限博弈中可通过谈判协商来加强双方合作的意欲，使双方达致能使盈利最大化的纳什均衡。

参考文献：

[1]Osborne， M.J. Introduction to Game Theory. Ch.2.2.2.2004.

[2]施锡铨.博弈论[M].上海财经大学出版社，2000.

（作者单位：上海财经大学香港教学点）