俞建 贾文生
摘要:本文简要介绍了经济学中的博弈论革命、Simon的有限理性理论以及有限理性研究中的博弈论模型,指出了对于建立在完全理性假设上的模型分析结果,大多数情况下仍然是合理的和可以接受的。作为应用,本文还介绍了最优化问题的逼近定理。
关键词:博弈论;有限理性;逼近定理;最优化
中圖分类号:O225;F019.1文献标识码:A文章编号:1000-5099(2021)02-0034-07
一、 经济学中的博弈论革命
1944年,von Neumann 等出版了名著《博弈论与经济行为》[1],宣告了博弈论的诞生。他们指出:“博弈论是建立经济行为理论的最恰当的方法”“经济和社会问题可以从这个角度得到最好的解释”[1]。他们重点研究了矩阵博弈和合作博弈。
矩阵博弈是零和博弈,这种零和思维模式有很大的局限性,尤其是在当今世界。1950年,年轻的 Nash 突破了von Neumann等的零和思维,将矩阵博弈推广到了一般来说是非零和的n人非合作有限博弈。
以n=2的双矩阵博弈为例:博弈有两个局中人Ⅰ和Ⅱ,局中人Ⅰ的纯策略集合A={a1,…,am},Ⅱ的纯策略集合B={b1,…,bn}。如果局中人Ⅰ选择ai,Ⅱ选择bj,则局中人Ⅰ获得支付cij,Ⅱ获得支付dij。如果i=1,…,m,j=1,…,n,都有cij+dij=0,这就是零和,矩阵博弈;否则就是非零和,双矩阵博弈,因为所有{cij}和{dij}分别构成两个矩阵。如果对某些i和j有cij>0,dij>0,则局中人Ⅰ选择ai,Ⅱ选择bj,这就是双赢。
每个局中人都是理性的,都希望自己能获得最大的利益,因此都努力不让对手猜出自己将采取的策略,他们可以用随机方法来选择自己的策略。通过引进所谓混合策略的概念,Nash证明了:存在局中人Ⅰ的混合策略x*和Ⅱ的混合策略y*,双方能够达到平衡;谁也不能通过单独改变自己的策略而使自己获得更大的利益[2]。(x*,y*)称为双矩阵博弈的Nash平衡。
关于局中人的利益,用他获得的支付来表示,不仅包括收入,也包括风险、休闲、名声以及社会责任等,每个局中人都有自己独立的价值体系,它可以是利己的,也可以是利他或部分利他的,这一点很重要。
“天下熙熙,皆为利来;天下攘攘,皆为利往。”2000多年以前我国伟大的史学家和文学家司马迁在《史记》中的名言,今天读起来仍然感受到其思想之深刻。试问当今世界离开了对利益冲突与合作的分析,我们又如何能够研究经济乃至于整个社会的天下大事呢?
数学在经济中的应用,是与经济学中最基础也是最核心的利益最大化原则密切相关的:如果在模型中决策者只是一个,那就应用种种最优化方法;如果在模型中决策者不止一个,每个决策者都追求利益的最大化,且他们的利益是互相关联的(在很多情况下是互有冲突的),那只有达到平衡,这就是博弈论的思想,博弈论正是研究这种利益冲突与合作的运筹学的一个重要分支。应当说,相比最优化方法,博弈论更具普遍性,因为它是更加接近实际的你中有我且我中有你的行为互动的决策科学,它与当今世界经济和社会发展的全球化潮流是一致的。当然,博弈论与最优化方法并不是对立的,很多博弈的平衡点,也还是要通过最优化方法来求得,例如,矩阵博弈的平衡点,就可以用线性规划的算法来求得。
1954年,正是在von Neumann和Nash工作的鼓舞下,Arrow和Debreu合作,应用广义博弈平衡点的存在性定理证明了一般经济均衡的存在性定理[3],产生了巨大的影响,他们也分别获得了1972和1983年的诺贝尔经济学奖。66年过去了,这些年来经济全球化深入发展,科学技术突飞猛进,生产规模扩大,垄断势力增强,随着这种竞争的日益加剧以及各种利益冲突与合作的持续展开,博弈论的思想和方法已逐渐成为理解和分析经济问题的工具和语言,这就是经济学中的博弈论革命。
西尔维娅·娜萨在其序言中指出:“1987年,新版的大型经济百科全书《新帕尔格雷夫经济学大辞典》问世,编写者指出那场横扫经济学的博弈论革命‘很显然完全是由von Neumann和Nash的数学原理所引发,别人的任何贡献都不能与他们相比。”[4]
1994年,授予Harsanyi、Nash和Selten三人诺贝尔经济学奖,瑞典皇家科学院的“新闻公告”中指出:“von Neumann等的不朽研究《博弈论与经济行为》奠定了经济学中运用博弈论基础。在50年后的今天,博弈论已成为一种经济问题分析的主导工具。特别的,非合作博弈(即排除了有约束力合同的博弈论分支)对经济研究有着巨大影响。该理论的主要内容是平衡概念,这一概念被用来预测策略互动的结果。”[5]在这以后,又有6次(分别是1996、2001、2005、2007、2012和2014年)诺贝尔经济学奖授予从事博弈论研究与应用的学者,除去2012年的获奖工作,诺贝尔经济学奖中的博弈论工作都属于非合作博弈。
非合作博弈论与合作博弈论,它们之间的关系如何?
非合作博弈论不允许局中人结盟,也不允许局中人之间对支付进行再分配,强调的是策略和平衡(注意到非合作博弈并不意味着局中人总是拒绝与其他局中人合作,受自身利益的驱使,局中人也能在一些情况下表现合作的行为);合作博弈论则允许局中人结盟,也允许局中人之间对支付进行再分配,强调的是结盟和分配。合作博弈论强调结盟,这就需要局中人之间在博弈开始之前进行谈判,包括如何协调各自的策略以及如何进行再分配,达成一个具有强制力的协议。谈判是要以实力为基础的,谈判达成的协议往往是不稳定的,这难道不是当今世界的现实吗?正如国际著名博弈论学者Dixit在名著《策略博弈》中指出的那样:“现实中绝大多数博弈并没有充足的实施联合行为协议的外部强制力,因此本书以非合作博弈为主要分析对象。”[6]总之,在这场经济学的博弈论革命中,非合作博弈论处于基础和核心的地位,而合作博弈论有时可以起到必不可少的补充作用。
二、 Simon的有限理性理论
无论是von Neumann的矩阵博弈,Nash的n人非合作有限博弈,还是Arrow-Debreu数理经济学中的一般均衡模型,其基础都建立在决策者完全理性的假设之上,即每个决策者都能够在一定的约束条件下做出对自己最为有利的选择,这就是上节提及的经济学中的利益最大化原则。
1955年,Simon對完全理性的假设进行了深刻的质疑和批判:“在关于理性的论述方面,社会科学深受着‘精神分裂症之苦。在一个极端,经济学家给经济人赋以一种全智全能的荒谬理性。这种经济人有一个完整而内在一致的偏好体系,使其总能够在他所面临的备选方案当中作出抉择;他总是完全了解有哪些备选的替代方案;他为择优而进行的计算,不受任何复杂性的限制;……他具有很大的智慧和美学魅力;但同具有血肉之躯的人的真实行为(或可能的行为),看不出有多大关系。”[7]
Simon提出了有限理性理论,而其核心是满意原则,就是使决策者感到满意的原则。他认为问题本身是近似的,其求解方法也是近似的,只能寻求某种近似的、但已经是足够好的,可以使决策者满意的方案或策略。
Simon曾因他的杰出贡献在1978年获得诺贝尔经济学奖,他也是诺贝尔经济学奖获得者中唯一的一名管理科学家。 此外,他还在1975年获得计算机科学的图灵奖,1988年获得运筹学和管理科学的von Neumann奖,并曾获得心理学以及人工智能的终生荣誉奖等。
究竟什么是有限理性? Simon在《新帕尔格雷夫经济学大辞典》中的“有限理性”的条目中指出:“‘有限理性一词,系指那种把决策者在认知方面的局限性(包括知识和计算能力两方面的局限性)考虑在内的理性选择”[8]。对此定义,学术界争论较多,国际著名博弈论学者Kreps指出:“迄今为止,文献记载了许多有限理性的定义,就某种意义而言,他们彼此之间相互矛盾,我个人认为,Simon的定义最为恰当,即有限理性行为是指主观上期望合理,但客观上受到限制的行为。这就是说,某些人主观上期望达到某些目标,但是他们追求这些目标的方式反映出他们自身认识能力的局限性与计算能力的局限性。”[9]
按照Simon的论述[8],有限理性理论“只能建立在心理学研究的基础之上”,这一点很重要。
满意原则当然有他的合理性,但是什么是满意?究竟能否应用一些心理学理论,用实验数据对原有模型的系统性偏差进行种种修正,并据此替代利益最大化原则,从而为博弈论和经济学建立起严格和漂亮的新体系呢?在学术界是有很多争论的,客观地说,这些年来有进展,但进展不是很大,至少还有很长的路要走。
Simon在《新帕尔格雷夫经济学大辞典》中的“满意化”的条目中指出:“决策者选择出一个备选方案达到一定的标准或超过之,……,叫作满意。”[8]“满意者如何确定达到满意定义的准则水平?心理学设置了愿望水平机制:如果很容易找出达到准则水平的替代,标准就逐渐提高,如果找了半天还未找出满意的替代,标准便逐步降低。”“运筹学与管理科学的多数最优化模型可以被看作有用的满意化模型。”这样的论述显然是不能令人满意的。国际著名博弈论学者Binmore指出:“Simon曾引入满意概念开辟了有限理性下的经济理论研究,但是从那时到现在,这个领域的进展一直暧昧不明。”[10]
这些年来,以心理学为基础的行为心理学兴起,2002年诺贝尔经济学奖获得者、行为经济学的倡导者Kahneman指出:“行为经济学理论总的来说保留了理性人模型中的基本结构,同时添加了一些有关认知局限性的假设,设置这些假设是为了解释一些具体的非正常情况,……,行为人一般是理性的。”[11]2017诺贝尔经济学奖获得者,对行为经济学的发展作出突出贡献的Thaler指出:“许多经济学家继续使用理性假设,因为他们认为没有更好的替代。”[12]
我国著名经济学家林毅夫指出:“不管在什么社会里,人都是理性的,所谓理性指的是一个决策者在做决策时,在他可做的选择中,总会选择他认为是最好的选择。”“理性的决策者所要最大化的目标可以各式各样,可以收益最大化,可以选择风险规避,可以选择内心的满足,也可以选择社会责任等。”[13]
作者认为:大多数决策者总是理性的,在大多数情况下总是追求自身利益最大化的,这一点必须肯定。另一方面,每个决策者都有自己独立的价值体系,自身利益并不限于收入,他不必是利己的,可以是利他或部分利他的,这一点也必须肯定。我们应当思考这样的问题:在博弈论与经济学模型中考虑有限理性作用,究竟会对建立在完全理性假设之上的模型分析结果产生怎样的影响或冲击呢?如果回答是基本正面的,即一般来说不会产生较大的影响或冲击,那么对于建立在完全理性假设之上的模型分析结果,大多数情况下仍然是合理的和可以接受的。
三、有限理性研究的博弈论模型
以下介绍有限理性研究的博弈论模型。
2001年,Anderlini和Canning用博弈论的语言建立了有限理性研究的抽象模型M[14],这是一类带有抽象理性函数的一般博弈(general games)。模型M的建立是很有创新性的,但是其假设条件太强,很多重要的博弈论与经济学模型都无法满足。俞建等作者[15-20]对此模型进行了必要的改造,将Anderlini等作者的假设条件大大减弱[14],不仅扩大了模型的应用范围,还得到了一系列新的相当深刻的定理。
总结以上的说明,可以这样说,当λ∈Q时,虽然博弈λn是近似的(λn→λ),求解方法也是近似的(εn→0),但可以用有限理性得到的εn-平衡点集E(λn,εn)来近似代替E(λ)。这表明在Baire分类的意义上或者在非线性分析和拓扑学的意义上,有限理性的引入一般不会对完全理性假设之上的模型分析结果产生较大的影响和冲击。在大多数的情况下,可以用有限理性来逼近完全理性。这是一个很有理论意义的结果,也是对上节中Simon质疑和批判的一个回应。
四、最优化问题与逼近定理
Montet C、Serra D等作者指出:“决策论也可被认为是一种两人博弈,只不过其中一方是一个虚拟的参与者—自然。”[21]由此,可以将最优化等决策问题看作为决策者与虚拟的决策者“自然”之间的博弈问题:当决策者是完全理性时,他就得到最优解,而当决策者是有限理性时,他就得到ε-最优解。一个最优化算法,往往是通过迭代,通过f在A上的εn-最优解的一个序列(εn→0)来逼近f在A上的最优解;或者更一般地,往往是通过迭代,通过fn(满足fn→f)在An(满足An→A)上的εn-最优解的一个序列(εn→0)来逼近f在A上的最优解。推而广之,数学中的各种迭代算法或者说逐次逼近算法,往往都是通过有限理性来逼近完全理性。
以下给出两个最优化问题的逼近定理,具体证明可见俞建的《有限理性与博弈论中平衡点集的稳定性》及俞建、贾文生的《有限理性研究的博弈论模型》[19-20],当然假设条件还可减弱。