完全理性到有限理性：博弈论理性基础的变更

2015-10-08 13:19朱雅敏魏永波

科技视界 2015年27期

朱雅敏　魏永波

【摘要】“博弈参与人是完全理性的”，这是古典博弈论的基本假设，是博弈论发展的理性基础。但是这个假设却产生出一系列博弈困境和悖论。这促使古典博弈理论理性基础的修正-有限理性下的博弈理论诞生。完全理性和有限理性，是划分古典博弈论和现代博弈论的分水岭。

【关键词】博弈；完全理性；有限理性

0 引言

博弈论是1980年代以来经济学中发展最迅速和影响最大的分支学科。在短短的20年时间里，博弈论从一种不为一般经济学家知晓的应用数学理论，一跃变成主流经济学最核心的内容，成为很多经济学家的基本分析工具和共同语言。但是，博弈论在获得巨大成功的同时，也逐渐暴露出它所隐含的一些问题，其中对博弈论的发展威胁最大最严重的问题是它的理性基础，即古典博弈论假设“博弈参与人是完全理性的”。

1 “完全理性”的困境

“博弈参与人是完全理性的”，这是博弈论的公设，然而理性人假设却导致了诸多博弈困境，这些困境主要体现为：

“完全理性”假设：

1）个体理性与集体理性的冲突

一个熟知的博弈困境是囚徒博弈。有一天，一位富翁在家中被杀，财物被盗，警察在此案的侦破过程中抓到了两个犯罪嫌疑人，甲和乙，并从他们的住处搜出了被害人家中丢失的财物，但是他们都否认曾杀过人，辩称是先发现富翁被杀，然后只是顺手牵羊偷了点东西。于是警方将两个人隔离，分别关在不同的房间进行审讯，由警察和他们两个人单独谈话。警察说：“由于你们的偷盗罪已有确凿的证据所以可以判你们一年的刑期。但是，我可以和你们做个交易。如果你单独坦白杀人的罪行，我只判你半年的刑期，但是，你的同伴要被判十年。如果你拒不坦白，而你的同伙坦白，那么你将被判十年的刑期，而他只判半年的刑期。但是，如果你们两个人都坦白交代，那么，你们都将判五年的刑期。”

众所周知，这个经典博弈案例的结果是双方从个人利益最大化出发，都选择坦白，都判五年的刑期。

与囚徒困境类似的案例还有“公共地悲剧”，囚徒困境与公共地悲剧所反映的是个体的理性行为产生的集体的不合理性行为，体现了个体理性与集体理性的冲突。

2）过程理性与结果理性之间的冲突

有这样一个动态博弈——A、B两个人分100元钱。规则规定：A提出方案，B对之进行表决。如果B对A提出的方案表示同意的话，A、B就按照A提出的方案进行分配，如果B不同意A的方案，那么A和B均将一无所有。这是一个完全且完美信息动态博弈（dynamic game with perfect and complete information）。让我们分析这个过程。

A提出方案时，他知道B是理性人。B的行为是可被A预测的。A将提出这么一个方案：A和B的所得比例为99.99：0.01，即给B留1分钱，而将其余99元9角9分留给自己。此时B面临“同意”和“不同意”的选择：如果B“同意”，B所得为1分钱；如果B“不同意”，他将一无所得。理性的B将选择“同意”——这个选择是A所能够预测的。

因此在“最后通牒博弈”中，理性的B只能得到1分钱！而A正是根据B的理性的选择而使自己利益最大。当然这不是实际情况，有博弈论专家对这个问题进行实验研究（在经济学中实验研究已成时尚，2002年诺贝尔经济学奖获得者卡尔曼是实验经济学研究的先驱）。根据宾谟（K Binmore），“实验结果呈现多样化，但是参与人A提出的方案很可能在50：50附近；而对参与人B而言，如果其分配的数额不少于三分之一，他将趋向于接受。”

现在，我们假定B具有某种程度的非理性。他会向A发出威胁“如果你不给我足够的份额，我将不同意。”A知道B确实不是完全理性的人。A想，如果不给B足够数额的钱，B将不同意。因此，在提出分配方案时，A会考虑B的非理性的程度。一个极端的情况是，如果A是理性人，而B极端非理性，那么一个可能的分配方案比例将是0.01：99.99。即A得到1分钱，B得到99.99元！

这个例子中，我们看到，人的理性程度与其所得是呈反比关系的。在博弈论中理性人是努力使自己的收益最大的人，而在最后通牒博弈中，越理性的人得到的利益越低。

理性人假设导致如此多的困境，而这些困境好多与实际相违背。博弈论想要作为一门科学发展下去，除了能够用它的理论解释现实世界中的问题，还要能够对个人或团体作出正确决策有理论指导。而单纯的假设“博弈参与人是理性的”，显然不能够做到这一点。

2 完全理性的修正——有限理性下的博弈分析

20世纪80年代以后，实验博弈和演化博弈进入博弈论，实验博弈论用实验研究策略行为的一般原理，而演化博弈则将达尔文的生物进化论引入博弈论，它假定参与人是有限理性的，由此与此前的假定人是完全理性的古典博弈论形成区别。

有限理性的概念最初是阿罗提出的，他认为有限理性就是人的行为“既是有意识的理性，但这种理性又是有限的”。而“有限理性”概念的主要提倡者是诺贝尔经济学奖得主西蒙（Simon）。西蒙认为有限理性的理论是“考虑限制决策者信息处理能力的约束的理论”。

有限理性博弈分析的关键是确定博弈主体学习和策略调整的模式，或者说机制。由于有限博弈主体理性层次的多样性，使得博弈主体的学习和策略调整的方式和速度相差甚远，要对有限理性博弈做出有效的分析预测，必须发展适合分析博弈主体的学习和策略调整过程，适合分析这种学习和动态调整过程中的稳定性，必须用不同的机制来模拟博弈主体的策略调整过程。

目前，采用较多的两种分析机制：一种是理性层次较高、学习能力较快的群体，其分析机制是“最优反应动态”；而对于理性层次较低、学习能力较差的行为主体，相应的分析机制是“复制动态过程”。事实上，不仅不同博弈的博弈主体的理性和学习能力有差异，需要多种动态机制来模拟，甚至同一个博弈中的不同博弈主体在理性方面也会有较大差异，同样需要不同的动态机制来描述和分析。所以，生物进化中生物性状和行为特征动态变化过程的“复制动态”，在有限理性博弈分析中正是模拟有限理性博弈主体学习和调整策略过程最主要的动态机制之一，而生物进化理论所具有的在动态调整过程中恢复或者达到的稳健性均衡——“进化稳定策略”，恰是有限理性博弈分析中最核心的均衡概念。

正因为上述有限理性博弈分析与生物进化理论的这种关系，所以这种博弈分析理论也称为“进化博弈论”或“经济学中的进化博弈论”。下面分析这个鹰（H）—鸽（D）进化博弈模型。在一个生态环境中的一群动物，可以采用两种策略一鹰策略和鸽策略，围绕着有限的生存资源进行博弈。其中的鸽策略（D）是指比较温顺，面对强敌就逃跑的策略，而鹰策略（H）是指比较强硬，碰到对手就一直与对方战斗，直至对方逃跑，或自己受伤的策略。V代表双方争夺的利益，C是争夺中失败一方的损失。

这个博弈模型的得益矩阵表示如表1：

可以看出，如果双方都采用鹰策略，那么双方获胜和失败的概率都是1/2，因此各自的期望利益都是V—C/2；如果一方采取鹰策略，另一方采取鸽策略，则采取鹰策略的一方获得全部的V，采取鸽策略方得0；如果双方都采用鸽策略，那么双方能够分享利益或各有一半机会获得利益但没有损失，因此各有V/2单位得益。

设战略分布已知，即集体内采取鹰策略的比率为P，采取鸽策略的比率为1-P，则采取鹰策略的个体的期望收益为：EU（H）=p（V-C）/2+（1-p）V；采取鸽策略的个体的期望收益为：EU（D）=p（1-p）V/2。

当V>C时，无论P为多少，EU（H）>EU（D），因而鹰策略为支配策略，所有个体均会采取鹰策略。这也是惟一的一个纳什均衡，但它不是帕累托最优的均衡，类似于囚徒困境。

当v

（1）当PEU（D），采取鹰策略者将获得更高收益，采取鹰策略的个体数目将会增加；

（2）当P>P﹡时，EUH

这里，P﹡为稳定地采取鹰策略的个体占总体的比例，可以证明P﹡=V/C。所以，当我们从最佳响应动力的角度出发，社会中的策略分布无论从哪一点出发，采取鹰策略的个体比率最终都将收敛到P﹡上来，从这个意义上说，P﹡具有进化稳定性。

上述进化博弈分析方法，可用来分析由有限理性博弈主体组成的群体成员的策略筛选、演进，特别是各个策略在群体成员采用频率、比例意义上的动态稳定性；研究有限理性的博弈主体长期通过学习和模仿调整策略最终会达到的策略频数意义上的均衡及其效率意义；在长期意义上或者对已经延续了相当长时期的问题，也可用于对相关问题的预测。这种进化博弈分析对完全理性博弈分析的纳什均衡也有一种检验和筛选作用。进化稳定策略是纳什均衡的一个精炼概念，进化稳定策略必然对应完全理性博弈中的纳什均衡，包括纯策略纳什均衡和混合策略纳什均衡，但完全理性博弈的纳什均衡在进化博弈中并不一定是进化稳定策略。更重要的是，虽然完全理性是唯一的，但有限理性却有多种情况和层次。对学习速度较快的小群体有限理性博弈主体的动态策略调整，描述他们的进化博弈过程的有效动态机制主要是“最优反应动态”。而在最优反应动态中还存在各博弈主体究竟是对哪个范围的其他博弈主体的策略进行反应，是对其他博弈主体的前期策略进行反应还是对过去的平均策略进行反应等的区别。事实上，进化博弈的动态策略调整机制是很多的，究竟采用哪种应该根据对具体问题中博弈主体的理性和行为方式的判断而定。

3 结论

由于对理性的假设，博弈论的发展受到了影响，引来了诸多的博弈论困境。于是有限理性应运而生，通过对目前有限理性的发展和现状的分析说明，我们可以看出它的出现给博弈论的发展带来了曙光。“有限理性”的博弈主体往往不能或不会采取完全理性条件下的最优策略。博弈主体间的策略往往是通过学习调整的结果，而不是一次性选择的结果，并且即使达到了均衡也可能再次偏离。能够更大程度的反应现实社会人类的文化传承性对于人类做决策的影响。

【参考文献】

[1]潘天群.博弈论中理性人假设的困境[J].经济学家，2003（4）：99-104.

[2]肯·宾默尔.博弈论教程[M].谢识予，等译.上海：格致出版社，上海三联书店，上海人民出版社，2010.

[3]谢识予.有限理性条件下的进化博弈理论[J].上海：上海财经大学学报，2001，3（5）：3-9.

[责任编辑：刘展]