怎样理解博弈论①

2019-06-24 12:37沃尔夫冈施波恩
哲学分析 2019年3期
关键词:露西博弈论效用

[德]沃尔夫冈·施波恩/文

陈伟/译

一、对现状的不满

博弈论和决策论具有同质性。或者从它们具有相似的主题内容、基本概念和方法来说,人们至少可以有这样的期待。并且,通过首先考察这些理论的标准解释能证明这个期待是合理的:决策论研究的是孤立的单独个体的理性行为;博弈论关涉的是多人相互依赖性决策的理性问题。因此,博弈论是一种更具有包容性的理论;而决策论是特殊情形,是一个人的博弈,或者用一种不太恰当的说法,是对自然的博弈。

然而,经过更仔细的考察,博弈论的标准解释及其与决策论的关系就显得不尽如人意。当然,决策论也被各种问题所笼罩;但相较而言,我认为博弈论又被三个相互关联的问题弄得大伤元气:说严重点,它混淆了适用于它的理性概念,对其主体(局中人)的假定非常不清楚,并因此导致它所使用的决策规则含混不清。或者,用有些自相矛盾的话来说:(从博弈论来看)决策论是博弈论的特殊化;但是,(从决策论来看)如今表达的博弈论不再是决策论的一般化。不如说,由此可预料的是,博弈论应被视作决策论的特殊化。

这就是我的不满。我将在接下来的各节中具体阐述这一点,并解释我认为应该采纳的补救办法。

读者也许会怀疑这些异议将会使博弈论导向更为高深莫测的领域,诸如三人或更多人的博弈或具有特征函数形式的博弈,于是可能会自动地放弃这些异议。但是,相反的是,这些异议处理的是那些看似清晰并且基础稳定的两人零和博弈。为求简明,我将只处理标准形式的博弈。①泽尔腾所展示的标准形式问题与我的考虑无关,因而这也适用于他改进过的观念。参见R.Selten,“Reexamination of the Perfectness Concept for Equilibrium Points in Extensive Games”, International Journal of Game Theory, Vol. 4, No.1, 1975, pp.25—55。

读者也许还会怀疑这是为贝叶斯式博弈论所作的一个辩护,并且我也确实是从一个纯粹的贝叶斯式立场进行的论证。然而,“贝叶斯式博弈论”的标签已经和约翰·C.海萨尼(John C.Harsanyi)的工作有极为显著的联系。在我看来,后者在精神上依然是博弈论的而非决策论的,因此,基于类似的理由,它和标准解释一样是可批评的。这样一来,这里就存在一种区别,我们不得不在最后一节来讨论这一点。

总之,我不是宣称这里提出的立场及其论证将会是全新的(尽管有些手法会是全新的)。只是那些在同样精神指导下的对博弈论的早期攻击,显然不能使已被接受的理论不再成立,并使博弈论走上一条根基更为稳固的道路。正是这种情况,导致我作出另外的一种尝试。

二、怎样理解博弈论

在证实这种不满之前,不妨先勾勒一下这种不满所依据的基本确信(basic conviction)。这个基本确信是一种正统的贝叶斯式确信。

根据这种确信,人们有目标和愿望,他们希望这个世界如此这般;他们有信念(belief),相信这个世界会如此这般;并且,如果合理的话,他们会根据自己的信念来行动,以便最大程度地促进他们的愿望的实现。为追求确定性,决策论用量化决策模型来使之公式化。在这样一种模型中,一个人的决策情境被公式化,这个人被假定为具有数字上的主观效用和概率;于是,理性行动(rational action)就被定义为一种最大预期效用的行动。并且,作为一种规范性理论,决策论建议理性行动。而作为一种经验理论,决策论假定了理性行动;众所周知,这就具有强烈的理想化色彩,最多只有近似的有效性。不过,这种模型宣称在原则上适用于一切的人类行动。[这个宣称并不像它看起来的那样有力,因为它没有扩展到所有的人类行为。我们必须看到,行动(action)是一个比行为(behaviour)更加狭窄的概念;并且,即使撇开其中的循环味道,我们也不能合理地说,行动只是决策论可适用的行为。①关于这个行动理论的主题,举例来说,可参见P. M. Churchland, “The Logical Character of Action-Explanations”,Philosophical Review, Vol. 79, No. 2, 1970, pp.214—236。]

在这里,并非真的有必要走进决策论公式化的具体细节。但是,让我们假设,为求精确,公式化运用了众所周知的萨维奇(L. J. Savage)方式。在这种方式中,概率是对一组可能世界状态的定义,效用是指可能的结果,每一个结果仅仅由一个世界状态和一个行动来决定,然后标准形式的两人博弈中所出现的常见效用矩阵就随之产生。对我们的讨论而言,这是最合适的公式化。②尽管它不是唯一的,甚至在我看来不是最好的。参见W. Spohn, Grundlagen der Entscheidungstheorie,Kronberg/ Ts.: Scriptor, 1978, Ch. 2。

顺便说一句,努力使量化模型成为某种派生物,是更为审慎的情况,不太是常见的情况。萨维奇方式将理性行动定义为根据理性偏好选择最优先之物的行动。如果偏好能满足一些相当明显的条件,诸如传递性等等,那么它就是理性的;然后,令人惊奇的是,这可以证明似乎是理性行动最大化了预期效用。但是,这个“似乎”如同说物体穿越空间是似乎它们有体积、似乎它们遵从牛顿第二定律等等一样,是不合适的。不,根据牛顿力学,物体那样移动的方式是因为它们有如此这般的体积,有如此这般的外力加诸其上,等等。并且,根据决策论,人们之所以那样行动,是因为他们有如此这般强烈的愿望,他们有如此这般坚定的信念,等等。可以肯定的是,这个问题后面潜藏着大量的微妙之处,科学哲学家对此依然有分歧。但是,毫无疑问的是,如同在物理学和其他任何领域中表达的“似乎”一样,科学哲学家眼中的操作主义已经过时了。③例如,参见 W. Stegmüller, Probleme und Resultate der Wissenschaftstheorie und Analytischen Philosophie, Band Ⅱ,Theorie und Erfahrung, Halbband, Heidelberg: Springer, 1970, Ch.Ⅲ -Ⅴ, 以 及 W. Stegmüller, Probleme und Resultate der Wissenschaftstheorie und Analytischen Philosophie, Band Ⅱ, Theorie und Erfahrung, Halbband, Berlin,Heidelberg: Springer, 1973, Ch. Ⅷ;或者 H. Putnam, Mind, Language, and Reality, Philosophical Papers, Vol. 2,Cambridge: University Press, 1975, Ch. 11, 12 and 22。因此,人们应把量化决策模型作为基础。(这也许会改变所有支持“似乎”理论的、具有独创性的可度量化定理的地位,但丝毫没有降低它们的价 值。)

现在来看相互依赖性决策的博弈式情景,那么,上述决策情景的任何一般刻画有什么被撤销吗?不,没有任何东西。对我们而言,其他人及其行为仅仅与其他事物一样都是外部世界的组成部分,尽管他们肯定相当复杂,也常常非常珍贵。从形式上讲,这意味着在任何局中人的决策模型中,其他局中人的可能行动仅仅是可能世界状态的组成部分。我们可以进一步将这些可能行动(在萨维奇的技术意义上①参见 L. J. Savage, The Foundations of Statistics, New York: Wiley ﹠ Sons, 1954, sect. 5.5。)看作一个微观世界的组成部分,并使这一模型缩小到这一微观世界——实际上,这同将一个扩展形式的博弈归约到其标准形式一样。因而,简化模型包含有这种标准形式的效用矩阵。并且,完善它的唯一正确的方式是为其可能世界状态,即为其他局中人的行动,增加局中人的主观概率。毕竟,要做的理性事情总是要使预期效用最大化;这才是理性行动。

事实上,更为常见的情况是,基本上不存在博弈式情景。在我们的众多日常事务中,我们对待他人就像他们都是有规律的并且可靠的行为自动机一样,对于他们,我们有着非常明确的预期而不用多想;他们就像是交通或天气状况那样被包括在我们的决策问题之内。(这个有点儿冷酷无情的说辞不过是无害的“专业性畸变”;幸运的是,我们确实能够对一些人有更多的兴趣。)

但是,如果这一点被接受,那么还剩下什么是博弈论的独特领域?当我们将外部世界的其他人严肃地当作个人来对待时,当我们放弃仅仅观察他们的行为并着手将他们理论化时,并且尤其当我们发现决策论大约是关于他们的正确理论时,当我们努力计算出他们可能的目标和信念是什么时,假定他们理性地行动,那么博弈论就开始了。然而,需要注意的是,在这一论述中,博弈论并不包含决策论,而只不过是决策论的一种具体化。博弈论是关于具体决策者的决策论,也就是说,那些决策者把其他人算入他们的决策情景,并根据决策理论对之进行理论化。②同样,对一个在策略上思考和行动的人而言,一种恰当而统一的观点是把关于他或她自己未来行动的理论决策进行理论化。参见 W. Spohn, Grundlagen der Entscheidungstheorie, Kronberg/ Ts.: Scriptor, 1978, Ch. 4。

所有这些可能听起来都非常熟悉。这正是正统的贝叶斯定理关于博弈论的主张,基本上就是海萨尼在20多年前反复告诉我们的东西。但奇怪的是,所有人——那些标准的博弈理论家和像海萨尼这样的贝叶斯主义者(参见最后一节)——似乎都违背了那个纯粹的原理,都在把博弈论推向它的结果的过程中退缩了。

然而,这种过失是有其原因的。因为如果并非不可能的话,要在纯粹的贝叶斯定理内证明每个人所持有观念的正当性,即证明均衡点是两人零和博弈或通常的非合作博弈的解决方法(参见第四节),看起来是困难的。这样一来,我们必须仔细看一下在不背叛这个迄今为止的概略性原理的条件下用它能具体做些什么。但是,让我先从这个贝叶斯主义视角来审视标准博弈论对两人零和博弈的理论推理。

三、怎样没有理解博弈论

有鉴于此,我们应该简要概括一下现有的推理。我希望每个人都同意卢斯、雷法①R. D. Luce ﹠ H. Raiffa, Games and Decisions, New York: Wiley ﹠ Sons, 1957, Ch.4.和冯·诺依曼、摩根斯坦②J. von Neumann ﹠ O. Morgenstern, Theory of Games and Economic Behavior, Princeton: University Press, 1944,Ch. Ⅲ.不仅是代表人物,而且还对这个推理提供了最彻底、最令人信服的叙述,以便于我可以在他们的基础上进行概述。这个概述包含四个部分。

(一) 标准理论

第一部分(与所有标准形式的博弈相关):赋予博弈以标准形式。非常含糊地说,博弈论的基本问题就是以某种方式为每个局中人找到对他而言哪个选择是一个好选择。然而,这是一个过于模糊的问题,它需要具体说明。因此,让我们先假定,每个局中人是理性的,要么在宽泛的意义上(根据他的效用函数)尽可能地努力摆脱博弈,要么在更为严格的意义上,“在既有两种选择的情况下,他将总是选择他所偏好的,也就是那个效用更大的选项”③R. D. Luce ﹠ H. Raiffa, Games and Decisions, New York: Wiley ﹠ Sons, 1957, p.55.。并且,让我们接下来假定,每个局中人对标准形式的博弈都了如指掌,也就是说,他知道每个局中人的可能选择(策略),也知道每个局中人所有可能策略组合结果的效用(通常而言,关于博弈的机会步骤,这些就是已经预期到的效用)。

如果没有第一个假定,博弈论就根本不可能运作。一般理论怎么可能是关于非理性行动的呢?并且,第二种假定也是必要的;否则博弈理论家所处理的问题就可能是错误的,也就是说,那个问题不同于博弈理论家在主观上所认识到的局中人的问题。然而,如果有这些假设,我们就有希望使我们的问题具体到足以是可解决的。因此,让我们试着来解决它。

第二部分(与所有标准形式的非合作博弈相关):一个首要的考虑可使我们有比较大的进展。这个考虑是,如果博弈论应当具有至少潜在的公共性——正如它无疑应该是这样的——那么它就能够区分仅仅作为局中人理性选择的均衡策略。(可以肯定的是,到目前为止,我只是在讨论纯粹策略;混合策略要到第四部分才会提出。)或者,更确切地说:博弈论是要为每个局中人找到哪个选择对他而言是更为理性的选择。如果能做到这点,那么每个局中人也能像博弈理论家一样,知道哪些选择对其他局中人而言是理性的选择(因为根据上面的第二个假定,每个局中人是使用和博弈理论家一样的方式看待博弈情景的);并且,因为每个局中人被假定为是理性地行动,这个假定对任何局中人而言就一定不能成为一个理由,让他背离对他而言依据这个理论是理性的东西;于是,只有均衡点才是理性的策略组合,并且,只有均衡策略即导向某个这样点的策略才是理性的选择。

众所周知,这个考量能发生变化。有些博弈在纯粹策略中没有均衡点,而有些有很多,在这些情形中其成功依然是不完备的。但是,对于纯粹策略中具有均衡点的两人零和博弈来说,这是关键所在,因为在这种博弈中的均衡点被证明在本质上是独一无二的。①参见 R. D. Luce ﹠ H. Raiffa, Games and Decisions, New York: Wiley ﹠ Sons, 1957, sect. 4.5。这样一来,在这个具体情形中,我们就已解决基本的博弈理论问题。

第三部分(仅与纯粹策略中具有均衡点的两人零和博弈相关):在这种具体情形中,还存在另一个有说服力的考量,它具有相同的影响。可称这两个局中人为查理和露西。查理也许会根据直觉作如下推理:“露西这个理性的家伙,想尽可能地努力摆脱博弈。这与我的利益相抵触。所以,我最好看看从我的每个选项中我最少能得到多少,然后努力使这个数量尽可能地大,也就是,正如我听到有人表述的那样,我最好最大化我的安全等级。如果这是合理的,那么理性的露西将做相同的事情,也就是说,最大化她的安全等级。哦,但是我的安全等级最大值是对她的安全等级最大值的最大抵触,因此,我应该更加坚持我的选择 。”

或者,用冯·诺依曼的话来说:考虑查理的弱函数博弈和强函数博弈。在弱函数博弈中,查理必须首先做出选择,然后露西在已知他作了什么的情况下,再进行选择。在强函数博弈中,正好倒过来。显然,在弱函数博弈中,查理最多和在实际博弈中的处境一样好;而在强函数博弈中,他至少和在实际博弈中的处境一样好。并且,同样显然的是,在弱函数博弈中,对他而言唯一可做的理性事情就是最大化他的安全等级;而在强函数博弈中,唯一可做的理性事情就是选择那个最能抗衡露西的安全等级最大值(假使她已经很理性地作出这一选择)的选项。但是,这两种情形得出相同的策略组合,并且对查理而言是相同的效用。这样一来,对于处在弱函数与强函数博弈“之间的”实际博弈而言,恰恰只有这一点是理性的。

总结一下:从第一部分中的假定开始,我们已经给出了两个完全独立的推理。每个推理都单独地在所考虑到的具体情形中展开,并且两者被证实可以得到相同的结果。还会有什么更好的理由呢?

第四部分(与所有的两人零和博弈相关):现在,冯·诺依曼告诉我们,如果我们愿意允许一些小把戏,即允许每个局中人把他的纯粹策略混合起来,那么我们就能够把整个理论推广到所有的两人零和博弈。进一步的论证被虚构出来,用来给那些对这种小把戏感到不自在的人以最后的推力,比如说,秘密论证、对重复博弈的考虑或者大量反复的论证。②参见 Ibid., p.75。但是,我们不需要在这里对这个附加的支持作详细的阐述,因为如果没有主要的推理这就都是无用的。并且,这个可以独自成立。事实上,任何局中人都能自由地选择一种混合策略;这样一来,混合策略就在各种被考虑的选项之中,关于它们的上述推理和关于纯粹策略的推理一样有力。因此,这就是混合策略、最大最小值和均衡点是如何发现彼此并能一直愉快相处的原因。

不幸的是,这一理论并不像它听起来的那样好。有必要作一番评论,批判的不是这个理论的结论,而是得到那些结论的方法。

(二) 评论

对第一部分的评论:人们可能会认为,第一部分的理性和知识假设过于限制博弈论的运用。但是,实际上,它们不过是要么不太有力要么不够清楚。假设局中人是理性的真的就足够了吗?看起来,当然还要假设每个局中人都相信其他局中人是理性的。这在这个理论的第二部分中尤为清楚,在那里,我们非常松散地区分了博弈理论家假设一个局中人对其他局中人作出的假设和博弈理论家本人对其他局中人作出的假设。但是,这样一来,大概还应该假定每个局中人都相信其他局中人也认为他们的同伴是理性的。在这一点上,有人可能会倾向于一个激进的步骤,也就是,爬上迭代的相互理性假设的无穷阶梯,就像有些人在意义理论中在一个类似情形下所做的那样。①例如,参见 D. K. Lewi, Convention. A Philosophical Study, Cambridge, Mass.: University Press, 1969;以及S. R. Schiffer, Meaning, Oxford: University Press, 1972。也就是说,(在西菲尔的技术意义上②S. R. Schiffer, Meaning, p. 30f, or D. K. Lewi, Convention. A Philosophical Study, p. 56; 也参见本文第四节。)博弈理论家可能会假设,在局中人之间,局中人的理性是相互的或者是常识。当然,所有这些都同样适用于第二个假设,即该理论第一部分中的知识假设。因此,博弈理论家应该假设什么呢?人们觉得,关于局中人作多少假设确实是有不同影响的;但是,很难看出来这在被接受的理论中有怎样的体现。

还存在另一个模糊性。在理性假设中所使用的“理性的”确切含义是什么?从卢斯和雷法援引而来的解释没有多大帮助,因为偏好或效用仅仅指的是策略组合;在标准博弈论中,不存在仅仅针对单个局中人的选择的偏好次序甚或效用函数。因此,在“理性的”更有效用的意义上,一方会愿意截然地规定另一方。然而,按此推断,这一问题是错误的。按此推断,标准博弈论认为,在保证后面会精确起来的前提下,在初始的假设和解释中它更偏好或不能避免“理性的”含混。但在当下,这只是说“理性的”是有意的模糊,这就没有什么实质进展。

这个问题的难点在于:标准博弈论确实在任何地方都没有以一种严格的方式从初始假设开始推理;它们被排他性地使用在看似成立的论证之中。这里的态度似乎已经是,最初直观的根据被用来为一系列严格的理论化作准备,人们就不需要掂量这个准备中的每个词。这样一来,在直观阶段一些细微的区别就已经模糊不清,没有给艰难的理论化任何机会来消除这种不严谨。从贝叶斯定理的角度来看,这是迈向不可靠根基的第一个决定性滑坡。

对第二部分的评论:我们已经提到过,为使局中人具有与博弈理论家一样的方式来看待博弈情境,比第一部分中更强的关于局中人的假设就是必要的,于是第二部分有这一假设也是必要的。但是,还有另一个不足之处,这在纯粹策略中具有一个均衡点的两人零和博弈的情形中尤为明显。在这种情形中,第二部分得出的结论是,每个局中人只能理性地选择他的均衡策略。但是,这个结论下得太早;能够得出的只是:如果博弈理论家成功地区分出一个理性的选择,那么这一定是均衡策略。然而,并不保证以上的“如果”句是真的。也许博弈理论家的问题是他能够仅仅部分地缩小理性选择的范围,而不是将其缩小到一个。更一般地说:第二部分所表明的是,博弈理论家并不能在均衡策略之外建立某个理性的选择集合;但是,根据其他的理由仍然表明,一个选择只有在均衡策略之中才能肯定地被确立是理性的。第三部分也许准备了这样的理由,因此,让我们转向第三部 分。

对第三部分的评论:人们对最大最小化决策规则已经有很多论述,并且我们知道了所有实质上赞成或反对的观点。我觉得,目前的讨论状态有一点儿顺利。似乎通常可接受的是,最大最小化不能作为一个基本的决策规则被普遍应用;它在许多情景中造成了荒谬的结果。不过,在某些类型的情景,尤其在两人零和博弈中,而且对不确定性条件下的决策而言,在统计学的决策理论中,以及新近在罗尔斯的初始状态①参见 J. Rawls, A Theory of Justice, Cambridge, Mass.: Harvard University Press, 1971, sect. 26。中,最大最小化都被认为是一个可讨论的、还不错的甚至是可信的决策规则。

然而,从理论的角度来看,这种事态是完全不能让人满意的。从这个角度来看,没有办法很简单地做到,为不同类型的情景找到直观上可信的决策规则,以通过某种系统的论证来支持直观判断,并且就此终止。不,如果不同的决策规则确实被不同类型的情景所接受,那么人们就想知道一些主导的或统一的原则,以解释或至少准确地描述在哪些条件下哪些决策规则在哪些情景中是适当的;或者,更好的是,人们愿意有一些基本的决策规则,其他的规则可以从它们推导出来。但是,在试图回答关于博弈论的这一要求时,我们很明显直接陷入了在第一部分就发现的那种晦涩之中。

诚然,我在这里所做的一切是诉诸理论意识。但是,我想通过接下来的论证使这个诉诸更为迫切。

这需要利用萨维奇的微观世界理论。关于这个主题的理论重要性,我认为没有被充分认识到。这个主题与对世界的描述相关,相似的决策情景可能是基于不同的世界。在这里,一个世界——宽泛讲而不需要真的深入技术细节——是所有项目(item)的集合,这些项目应当在决策情景的描述中被明确地考虑到。萨维奇的评论是,现在似乎没有一种好的方式来指明哪个是正确世界,并以之作为给定决策情景描述的基础。从表面来看,将每个实际相关的项目放入一个世界之中,似乎是合情合理的,但通常这会产生很多难以处理的宏观世界。因此,不是要寻找正确的世界,而是我们应该努力发现何时两个依据不同世界的描述可以被说成是相同的。为此,萨维奇找到一个方法,可以将依据宏观世界的描述还原为依据微观世界的描述,并且可以保证这两个世界相等。还原方法的实质特征是,它如何能将效用归因于包含在微观世界描述中的可能结果。萨维奇采取以下方式:从宏观世界描述的观点来看,如果有确定概率pi,通过它,一个不甚详细的微观世界的结果,比如c,塑造出千变万化的、更为详细的宏观世界结果ci,它具有确定效用ui;那么,微观世界描述中的效用c应当是期望值∑piui。①关于所有的详细说明,参见 L. J. Savage, The Foundations of Statistics, New York: Wiley ﹠ Sons, 1954, sect.5.5;以及 W. Spohn, Grundlagen der Entscheidungstheorie, Kronberg/ Ts.: Scriptor, 1978, sect. 2.3 and 3.6。

有人也许会想出另外一些还原方法(尽管我认为这没有必要);但目前对我们重要的是,不管选择什么样的还原方法,一定要与所采用的决策规则相容。这意味着,当决策规则被应用于宏观世界描述时,必须导致和决策规则被应用于还原的微观世界描述时相同的决策(实际上,是可选项中相同的偏好次序)。②由于萨维奇的决策规则是使预期效用最大化,他的还原方法和预期效用同样起作用也就无足为奇了。参见 L. J. Savage, The Foundations of Statistics, 1954。事实上,单说还原方法与决策规则相容是有一点儿误导的。不如说,还原方法是被选定的基本东西,然后决策规则作为纯粹的特例随之而来。决策规则除了影响将最大描述还原为最小描述之外没有其他作用,最小描述明确考虑的仅仅是决策者的可选项,而不涉及其他任何东西。

接下来要考察的是,作为最大最小化决策规则的自然推广,还原方法事实上是一种不切实际的方法。根据这种方法,微观世界结果的效用会是它所形成的宏观世界结果效用的最小值;并且,不需要证明这将导致各种荒谬的和直观上不可接受的结果。实际上,没有人甚至是最大最小化策略的追随者都不曾严肃地考虑过这种还原方法。也就是说,最大最小化被认为只对决策情景的微观世界描述可合理应用,这是已经由形成预期效用的萨维奇的还原方法得到的结论。或更简洁地说,最大最小化的东西总是(关于某个宏观世界描述的)预期效用。这在博弈论中尤其明显,其标准形式的效用就是派生自扩展形式的预期效用。

因此,最大最小化决策规则所出现的理论混乱要比它看起来的意义更为深远。首先,这种混乱表现在各种决策规则似乎适合于不存在任何统一原则的各种决策情景。但现在,当决策规则被看作还原方法的特例时,我们在单独决策情景中就有了混乱,因为对最大最小化预期效用实际上在一个决策情景中应用了两个不同的还原方法。于是,就有一个迫切的问题:哪种还原方法精确适合于决策情景中的哪些项目?又是为什么?为什么首先采用预期效用还原然后再考虑最小效用还原?为什么不是反过来?等等。(这有不同影响,这两种方法不是可交换的。)所有这些都非常难办,我们应尽最大努力避免这种混乱。

结语:冯·诺依曼的第三种说法,即“中间性”论证,比查理的直观推理更具有严格性。但并非如此。在弱函数博弈中,查理知道露西将知道他要做的,在强函数博弈中他将知道露西要做的并且也知道露西知道这些,等等。在真实的博弈情境中他并不知道这些,也就是说,他比在弱函数博弈和强函数博弈中的处境都更不利(然而,这也意味着按照预期效用他也许会比在其他两种博弈中的处境更有利)。在这方面,真实的博弈并非处于弱函数博弈和强函数博弈之间,并且似乎没机会导致“中间性”论证的正确性(正如麦克伦南也论证的那样①E. F. McClennen, “Some Formal Problems with the von Neumann and Morgenstern Theory of Two-Person Zero-Sum Games, Ⅰ: The Direct Proof”, Theory and Decision, Vol. 7, No.1—2, 1976, pp.1—28.)。

对第四部分的评论:这部分公认的理论在我看来依然有最清晰的症状,有些地方一定有问题。莫名其妙的是,这些小小的错误都会使我们彻底迷失方向。混合策略不可能简单地就是那个理性的或最佳的选择。我认为,这无须再争论;像切诺夫②H. Chernoff, “Rational Selection of Decision Functions”, Econometrica, Vol. 22, No. 4, 1954, pp.422—443.的那种牵强推理的无效性,只能由标准理论(的其他部分)已深深占据人心这一事实来解释。让我来只是重复一下那个推理的简版:它从以下假设开始,局中人在他们的可选项中有某种偏好排序。尽管博弈论并没有建立这种排序,正如上面所提到的那样,但否定其可能性或者只在博弈情景中才讲得通确实会是一个奇怪的断言。现在,两个可比较选项的混合明显不比它们两个好。并且,如果排序不应该是完全的或相关的,如果应该有两个不可比选项,那么它们的混合就与它们两个中的每一个都不具有可比性。因此,一种混合在任何情况下都不比组成混合的成分更有效,也就没有必要考虑把混合策略作为局中人的选项。

实际上,是否任何人都已经真的主张把混合均衡策略作为那个理性选择,这是不清楚的,因为存在下面这个固有的相反论证,这个论证是众所周知的。如果一个局中人坚信他的对手使用他的混合均衡策略,那么所有的混合在他自己的均衡策略中的纯粹策略(以及所有的它们的其他混合)就会有相同的最大预期效用。也就是说,如果其中一个局中人相信博弈论,另一个人就不需要这样并被证明忽视混合策略;如果其中一个局中人不相信博弈论,那么无论如何博弈论马上就会中止。海萨尼在他的文章③J. C. Harsanyi, “Games with Randomly Disturbed Payoffs: A New Rationale for Mixed-Strategy Equilibrium Points”, International Journal of Game Theory, Vol.2, No.1, 1973, pp.1—23.中也担心混合策略中均衡点的这种不稳定性(它表明,即使第二部分无可争议,也不可能顺利延续到第四部分),我们稍后回到那里。

在这里,通常附加的论证毫无用处。秘密论证,即随机化有利于对付聪明的对手①例如,参见 R. D. Luce ﹠ H. Raiffa, Games and Decisions, New York: Wiley ﹠ Sons, 1957, p.75。,是不切实际的。因为正如(标准形式)博弈情景所通常描述的那样,局中人在他们作出选择之前不可能知道或发现其他对手的做法,除非他们有通心术或相似的特异功能。他们也许多少对其他人有明显的信念,但根据通常的描述,在目前情况下未发现的选择过程不可能成为证据的一部分。多少带有争论性地讲:博弈论中的有趣之处并不是害怕知识的出现,而是害怕知识所缺乏的确定性。

无论是出于解释性理由还是证明性理由,在教科书中常常可以找到另一条线索。这条线索是,想象一个被玩了很多次或无数次的博弈。可是,如果它被当成人们在玩构建自原初博弈的超级博弈,这条线索就无任何进步,只是因为我们在原初博弈中所有的理论麻烦会再次出现在超级博弈中。但即使我们假定在统计上无法使用的(在适当之处中显示的)原初博弈纯粹策略的随机序列在超级博弈中是(当然是)一个合理的选择,并且会有一个理论上无可争议的正当理由,我们仍没有获得成功。当原初博弈只使用一次时,从那里到理性的东西之间并没有严格的推理。②在这里,也许值得注意的是,根据长期考虑来解释个案概率的尝试也被证明是得不到结果的;参见I. Hacking, Logic of Statistical Inference, Cambridge: University Press, 1965, Ch.4。

秘密论证在这种反复博弈的语境中更能讲得通,因为早期博弈中的随机化可能在后期博弈中变得无法计算。但所有这些都忽视了这一点。这些考虑的可信性和实际价值是无可争辩的。然而这一点就其本身而言,并没有使它有助于基础导向的理论化。并且,作为局中人可能选择的混合策略就因上述理由而被放心地忽略 掉。

四、怎样理解博弈论(续)

我们可以通过严格坚守决策论的立场来避开所有这些麻烦。那我们将不得不为局中人详细地说明完全决策模型,这就促使我们要清晰地陈述所有我们关于局中人的假设,尤其是认知假设,并从它们出发,依据最大预期效用规则而不是貌似可信的推理来严格地得出理性的选择。因此,理论的第一部分应尽可能地精确。第二部分尽管以其弱化的方式在评论中提到,但它依然有效。第三部分的混乱将会立即澄清。并且,我们将不会有采用混合策略的任何想法。

那非常好,但积极的贝叶斯理论看起来又怎样呢?它没有陷入新的麻烦吗?让我们看看。我们首先应该介绍一些术语。在这一节中,理性的(rational)就是恰恰指最大预期效用而不是其他任何东西;这很重要。一个人坚信p,就意味着其关于p的主观概率是1。关于两个人1和2,我们用递归方式定义:如果人i(i=1,2)坚信p,那么其对p有一阶信念;如果人i坚信人j(j≠i)对p有n阶信念,那么其对p有n+l阶信念;当且仅当p为真并且两个人对p的信念一直到n阶,p是这两个人之间的n阶共同知识(尽管严格来讲,需要的不是他们所具有的知识,而只是真的信念)。

现在让我们转向最简单的情形,看看纯粹策略中只有一个均衡点的标准形式的两人零和博弈,在那里查理(横向选择者)和露西(纵向选择者)是我们的两个对手。公认理论的第一部分和对它的评论都建议通过假设以下一点开始分析:查理和露西的理性和他们由博弈矩阵得来的效用都是还须在它们之间详加说明的某阶共同知识。如果是n阶,我们可称这个假设为RUMn。RUM是不是已经解决了这些博弈?不幸的是,没有。RUM所做的是,排除那些从一开始或以这种方式消除一些可选项后仍占严格支配地位的可选项。例如,下面的博弈是通过RUM5来解决(当然,它应用 RUM4,…,RUM1):

因为RUM1,露西坚信查理永远不会做a4;因为RUM2,查理坚信露西坚信这些并因此永远不会做b4;同样,a3被RUM3排除,b3被RUM4排除(这解决了查理的问题),最后a2被RUM5排除(这也解决了露西的问题)。

一般化:如果RUMs能有效排除局中人的一个选项之外的所有其他可选项,那么剩下的那个选项只能是他的均衡策略。不幸的是,RUM在其中有效的博弈是有具体特征的。例如,所有的RUM在以下类型的博弈中无能为力:

在这里,RUM1没有排除任何东西,因此没有RUM能解决问题。

贝叶斯立场存在潜在困难。根据标准理论,第一部分的有点儿模糊的假设似乎以非常可信的方式证明了对所有两人零和博弈的均衡或极大极小策略的正当性。现在,在一种决策理论的精确化(exactification)之下,这些假设浓缩为RUMs;但RUMs不够有力,只能否定极为特殊的个例。对非贝叶斯主义者而言这也解决了问题,即使贝叶斯主义者在这一点上有所动摇。但在我看来,由于上面提到的理由,任何对决策理论道路的背离都会成为理论上的灾难。因此,正如均衡策略看来并且广泛被认为合理的那样,这个工作只能是通过一些似乎合理的假设加强RUM,均衡策略也许可从这些假设来证明是理性的。我认为,我打算陈述的假设是与标准博弈论的精神最为接近的假设;事实上,它将是微不足道的改写以至于你会失望:

根据RUM,我们的第二个事例的麻烦是,查理和露西关于他人行动的认知状态根本不受限制,他或她的每一个可选项相对于认知状态都是最优的。因此,我们应当引进一些关于这些认知状态的限制。做到这一点的一个方法是,加强从RUMn到RUEn,即以下假设是他们之间的n阶共同知识:不仅是查理和露西的理性及其效用,而且包括他们关于他人行动的认知状态。

更正式一些来讲,这实际上是下面的定理,它们实际上适用于所有标准形式的两人博弈。用A1表示查理的一组可选项,用A2表示露西的一组可选项,我们来考虑以下命题:

(1) 查理是有理性的 。

(1′) 露西是有理性的。

(2) 他的 A1×A2的效用函数是 U1。

(2′) 她的 A1×A2的效用函数是 U2(不必然是 U1)。

(3) 他的A2的主观概率函数是P1。

(3′) 她的 A1的主观概率函数是 P2。

(4′)—(9′)是把(4)—(9)中查理和露西的角色互换。

(10) 查理的混合策略s1=P2和露西的混合策略s2=P1都是均衡的。

(11) 他选择最反对s2=P1的纯粹策略。

(11′) 她选择最反对 s1=P2的纯粹策略。

那么,(从只是论及一个人的意义上讲)我们有以下“个人内心的”定理:(1)—(9)蕴涵(10)和(11);以及“人际的”定理:(1)—(6)和(1′)—(6′)蕴涵(10)( 11)和(11′)。

这个证明几乎不应该表述如下:让BiA(ii=1,2)是所有纯粹策略的集合,根据Ui,这些纯粹策略最反对S(jj≠i)的。用M(Bi)表示Bi中所有策略混合的集合。那么当然,M(Bi)中的每一个混合策略都最反对Sj。现在,(3)—(6)蕴涵s2M(B2)。同理,从(6)—(9)或(3′)—(6′)得出 s1M(B1)。因此,s1和 s2是均衡的;最后,(1)和(1′)分别蕴含(11)和(11′)。

我得赶紧补充的是,我们刚刚把混合策略仅仅作为一种形式手段来使用(当然,它们还是非常有用的);在这里,P1仅仅被认为是查理所具有的东西,S2不是露西所具有的,尽管它们可能在形式上等同。让我也补充一下,这些“定理”也许可非常容易地推广到所有标准形式的n人博弈。①实际上,我对我们的琐碎“定理”有点儿惭愧。我希望提出一些更为有益的东西;而事实上,有很多也许更弱也许更貌似真实的假设试图取代RUE。然而,我没有发现和RUE同样有效的假设。但毕竟,数学上的新奇不是我这里的目标。

对于陈述这些定理,我的理由是,我认为它们的形式应当是博弈论定理的范式。它们通过完全决策模型刻画局中人,在完全决策模型中,他的愿望和信念都是按需要的详细程度来刻画;并且,他们坚持把最大预期效用作为唯一的决策规则。因此,它们是严格的贝叶斯定理,并且正因如此,它们符合由先前部分中的批判产生的全部要求。

我认为,它们不应该为它们的结论(11)和(11′)而受责备,尽管这个结论对纯粹策略中没有均衡点的博弈而言是不完全确定的。标准博弈论对于纯粹策略同样没有详细说明,并且已经清楚的是,在贝叶斯式解释之内我们无法根据混合策略得出更具体的结果。因此,这么多非确定性是不可避免的,并且在这方面没有理由失 望。

但是,可能你会因它们的前提而责备它们,尽管你肯定认为前提符合标准博弈论的精神。提及“个人内心的”定理,前提(1) (2) (4) (5) (7)和(8)都是RUM2的部分,不管如何这是博弈论中所承认的;(3) (6)和(9)也与假设其假设的公共性这个一般趋势相一致,尤其,博弈论归咎于局中人的是,它们说明了担心对方太透 明。

然而,有人反驳说,把(3) (6) 和(9)作为前提——尽管理性的局中人是真的——根本不符合博弈论的精神,而不如说是博弈论的一种讽刺,因为通过表明S1和S2分别是查理和露西要做的理性事情,从而断然假定博弈论所要建立或努力建立的东西(由于所假设的理性共同知识,从而蕴含(3) (6)和(9))。现在我要重申的是,像(3) (6)和(9)这样的事物在标准博弈论中根本不是严格地建立的,而我们再一次来到这里。这里的障碍在哪里?我认为,即使人们同意到目前为止我所说的,依然肯定存在这样一种感觉,即我没有完全公正地对待标准博弈论。事实是,当对标准理论的显明目标即建立理性行动进行表面判断时,就清楚地表明标准理论意在更多我们还未把握到的东西,贝叶斯式重述就会导致一种浅薄。但让我们目前遵从这一残酷的事实;当我们随后从一个更抽象的水平来理解它时,我们就会看得更加清楚。

另一种指责可能是,(3)( 6)和(9)是比其他假设更加难以置信的假设(尽管这与先前的指责即(3)( 6)和(9)是假定而非证明的相反)。下面是三个相关的评论 :

第一,所有(1)到(9)当然都是理想化的。但是,根本没有理由解释为什么(3)( 6)和(9)应该是比其他假设都更加严重的理想化。因此,这不可能是这个指责所指向的观点(一般而言的悬而未决的理想化本质不是我们需要讨论的主题)。

第二,通常很难说(5)还是(6),或(8)还是(9)是我们定理的更加关键的假设,因为在关于他人的信念或愿望是否更容易可知这个问题上,似乎不可能有任何一般的、实质的断言;我认为,这个问题不需要争论。

第三个要提的事情是,说与RUM相对立的RUE的盈余包含在局中人的认知状态的共同知识中是欠妥当的,因为一些这样的东西常常已经包含在RUM中。也就是说,如果博弈有机会变化,那么局中人关于这些变化的认知状态就通过RUM而众所周知,因为那时RUM需要预期效用被众所周知。

尽管有这些辩护性评论,(6)和(9)依然看起来比(5)和(8)更有问题——至少在两人博弈的通常例子中(这不可能通过说这些例子有偏见就可以不管)。这会被下面的考虑所支持。

首先,假设局中人相互知道关于机会变化的认知状况,这似乎在许多(尽管不是在所有)情景中都是无伤大雅的——例如像掷骰子的机会变化,而且,当关于机会变化的主观概率不是很容易被当作反映那种机会变化的客观概率的知识时,即使当问题中的机会变化没有客观概率时,也是如此。例如,机会变化也许是史努比是否正在找红男爵,然后我们可以想象查理作如下推理:“史努比昨天就开始寻找了,通常这要花费他几天时间。因此,非常可能,比如说90%的可能性,他仍然在寻找。现在,因为露西和我一起发现他昨天登上了他的双翼飞机,我知道她知道史努比是从昨天开始的,她也知道我知道史努比是从昨天开始的。更重要的是,她对他的了解和我对他的了解几乎一样多,并且她知道我有多了解他;因此,她会准确地猜到我关于史努比的概率,并且她本人会有相同的概率。”每当这样的考虑适宜时,就可以貌似合理地假定至少局中人关于机会变化的信念这样的二阶共同知识。①让我顺便指出,(1) (2) (4) (5) (7)和(8)是不如RUM2有力的查理RUM的一半,(1)到(9)是不如RUE2有力的查理RUE的一半。我认为,这是可以令人满意的,因为似乎我们攀登的RUM或RUE的等级越高,我们就更加奇怪地丧失自我。

同样地,共同的效用知识常常看起来没问题。因此,想象一下查理和露西在玩相匹配的赌注;那么就有了查理为这个博弈建立(2) (5)和(8)的另外一个简单的推理:“我下了不到四分之一,我想赢。所以,我的效用坚守不变。现在,露西非常了解人性,特别是我的人性。人人都追逐金钱,毕竟我也不例外。所以,她将知道我的偏好。但是,她也没什么不同,她已经充分证明了这一点。所以,她的效用应该与我的相对立。”

与这两个推理相反,让我们看看对于(3) (6)和(9)是否存在相似的推理。查理也许会作如下阐述:“露西的各种可选项的概率是怎样的?为了找到答案,我应该审查我关于她的证据。”——暂停一下——“好吧,不管我的证据是什么,我已把它与她知道的收集在一起;没什么特殊的或神秘的东西。因此,(a)她大概知道我有关于她的哪些证据。但是,(b)她也因此将正确地猜到我的概率;毕竟,我们思考的方式并无不同。同样,她将可能想到我正确地猜到她对我的概率。”——暂停一下——“看看,按照RUM(确切地说是RUM3)发展下去,(c)我的概率一定是Pl,她的是P2(假设这是唯一的均衡点)。因此,(d)她也认为我会有P1。那不是很聪明吗?”

不,和先前两个推理相比,它有点儿可疑。与史努比的情形相反,关于露西的证据依然不清楚。然而,真正糟糕的事情是,到(d)的推理有些弄巧成拙。因为,(a)是(b)的根据,但(b)导向(c)然后到(d)却没有提及任何证据;因此,(a)变得根本不具有操作性,而这就使(b)丧失了它的根据。

使查理的第三个推理站得住脚的明显方式似乎是,明确陈述一些查理貌似具有的证据和直接引起他拥有愿望P1的证据;他到(d)的推理就行得通了。(需要注意的是,正如他的推理所表明的那样,查理拥有P1不是因为P1是可与露西所知道的他的概率相一致的唯一概率函数。相反,他有P1是由于他拥有的证据,然后P1被附加——尽管不是偶然——证明是非常一致的。)

然而,就像第六节中的讨论使我们恰好得出相同的结论一样,我会稍后更详细地解释。因此,目前我们不得不承认,我们对(3) (6)和(9)依然缺乏根据,这就像对(2) (5)和(8)那样自然,并因此对允许(3) (6)和(9)作为额外前提的两个指责仍然没有得到充分的回答。

五、真正的议题:行动理性和认知理性

迄今为止,我们已经介绍并比较了标准理论和决策理论,我希望我已经解释清楚在我看来的贝叶斯理论的确切优点之所在,以及为什么它们在那里存在。但是,我也正好发现贝叶斯理论的一些尚待处理的问题,为了使它们牢靠,似乎看起来我们不得不返回到公认的理论。因此,让我从一个更深一点儿的层次上再次阐释整个理论,即通过考察作为不同观点的基础的理性观念。首先让我从标准理论入手。

事实上,在标准博弈论背后似乎并没有一个非常明确的理性观念。至少在20世纪五六十年代,另一个发展理性概念的方式在决策论和博弈论及相关领域中非常受欢迎。第一条规则,源自对任何宏伟画卷的敏感式怀疑,是不以任何综合性、而是以不考虑后果的理性观念来对主题作出的预先判断。更精确地说,正如罗尔斯称作的那样①J. Rawls, A Theory of Justice, Cambridge, Mass.: Harvard University Press, 1971, pp.48ff.,一种审慎的步进式推理(step-by-step reasoning)应该导向一种直观而系统的论证的反思性均衡。因此,有人从一些直观上非常令人信服的假设出发,展示他们的演绎结果,详细检查这些结果是否在直观上不合理,最终抛弃最弱的假设,努力增添新的假设,以相同的方式核实他们,区分基本的和派生的假设,等等。通过这种方式,诸如偏好传递性原则和确凿性原则等大量的基本原则(以及一些次基本原则,像那些作出修改以适应更具体情景的极大极小变化)就出现了,然后它们会非常自信地声称能刻画理性。虽然这些原则从没有认为应该详细讨论理性概念,但它们被证明是十分有力的。的确,对处于确定性和风险性之下的决策而言,这种方式取得了完全成功;对处于不确定性之下的决策而言,尽管不是全体同意,但结果是可阐明的;并且,至少较为简单的博弈情景得到了满意的解决。

我希望这不是一个对实际过程过于扭曲的描述,在我看来,它的唯一缺点是看起来有点缺乏概念的清晰性;到底是什么推向一种反思性均衡,这并不完全透明。这在博弈论中尤感压力,但至少我尝试在后续中进行论证。

为了更清楚些,我认为,我们必须对关于理性的两三个相当明显的事实进行考察。首先,我们必须严格区分行动理性、信念理性以及可能的愿望理性,并分别讨论它 们。

让我们首先考虑行动理性,它是决策论和博弈论的公开主题。这里重要的事情是,无论一个人的行动是不是理性的,它只能由那个人相关的主观愿望和信念决定。这从日常经验看是显而易见的;无论何时我们偶然遇到看起来不理性的行动,当这个行动者或其他很熟悉他的人,向我们解释他这样行动的原因时,我们可能就会放弃我们的判断。并且,这从反复指出这一事实的哲学作品看也是显而易见的。②例如,参见C. G. Hempel, “Rational Action”, Proceedings and Addresses of the American Philosophical Association,Vol.35, Yellow Springs, Ohio: The Antioch Press, 1962, pp.5—23,或者P. M. Churchland, “The Logical Character of Action-Explanations”, Philosophical Review, Vol.79, No.2, 1970, pp.214—236,以及其他关于理性解释和行动解释的文献。现在,只有当一个行动与本身就理性的信念和愿望理性地关联起来时,我们才能称这个行动是理性的。但是,这只不过是个术语问题。在两个方面之间存在一定的关系,一方面是行动,另一方面是信念和愿望,而无论信念和愿望可能是什么。无论何时一个行动把这种关系带给既定的信念和愿望,更可取的做法并且也是我的做法,就是把这个行动称作是理性的。哪个行动在这个意义上恰好是理性的,通常是权衡每一给定的信念和愿望在原则上相关的结果。当然,这很模糊;但把它弄清楚却是一个明确的任务,并且,考察信念理性和愿望的理性是一项与众不同的工作(这还不是我们的主题)。

对我们而言,这个考察有两个结果。一个是,当处理行动理性时,我们确实应该考虑概率的主观主义解释。因为独立于一个人的主观信念时,对行动理性就没有多少可以说的。从这个观点看,不确定性条件下的决策和标准理论中所描述的博弈情境一样,只不过似乎是证据不足的问题。但是,如果一个人的信念被明确地考虑,那我们就不得不使这些信念概念化;并且,微弱地说,概率衡量是一个这样概念化的好方式。我认为,这在哲学中并未提及,但奇怪的是,它似乎依然需要在博弈理论家和经济学家中强调。

事实上,在所有标准博弈论中都阐述过对主观概率的反感。在机会变化的观念和处理中这是显而易见的,它说明一个事实,其他人的行动并不是作为局中人的概率来考虑的,在对待局中人的整个认知构成时就像对待非亲生子女一样可以找到一般表述。毫无疑问,标准博弈论通过精彩的替代克服缺少不受欢迎的主观概率,但我认为同样清楚的是,这种转变是标准理论中不连贯阐述的主要原因。并且,它使前面勾勒的达至理性的“反思性均衡”方法变得更为含 混。

第二个结果是,如果我们愿意在数学模型中捕捉行动理性,我们就几乎自动地导向决策论。因为反映衡量主观信念和愿望的最自然的方法是以某种量化的方式将它们概念化;当然,对这样一种量化的概念化而言,实践上无可匹敌的候选项就是概率测度和效用函数;因此,最大预期效用的贝叶斯规则是衡量过程及其产出的最为貌似合理并在数学上最为简单的模型。当然,这个考量独自不可能建立起决策论;但是,由于坚实的“反思性均衡”基础已经尽一切力量支持这个数学模型,这就可能使之简单 些。

现在重要的是,这个模型给了我们一个关于行动的完全解释,这个行动相对于给定的信念和愿望而言是理性的。这就是说,任何在可比较的概念化范围之内起作用的其他解释,要么是由决策论的解释引起,要么是与决策论的解释相抵触。(严格来讲,这不是很对;根据决策论,也许存在纽带;而在这些情形中,也仅仅在这些情形中,可能有另外的解释不是由决策论引起但可与决策论相比较。)

所有这些的结果是:我们也许是在为公认的主观信念和愿望的概念化而争吵。但是,如果我们不争吵,那么当运用小于完全的决策模型时,我们就无法完全公正地对待行动理性;当运用完全决策模型时,我们就有了完整刻画行动理性所需要的一切。因此,也从总的角度来看,像理性行动处于争论之中的其他每个地方一样,在博弈论中我们没有好的选择,只有保持一个严格的决策论过程。

现在最后一次提出这个猜测,博弈论对刚才讨论到的弱意义上的行动理性不太感兴趣,它感兴趣的是建立在理性信念以及可能理性愿望基础之上的强意义上的行动理性。然而,愿望理性是一个非常模糊的主题。根据理性愿望是否可能通过理性信念从其他愿望推断出来,存在一个并非完全不清楚的愿望观念,它相对于其他给定的愿望是理性的愿望。但是,是否也存在一些绝对地判断愿望理性的方法——这是一个开放式问题,使人想起沉重的道德问题,是否有客观价值这样的东西。在这种情景下,聪明的话就不要去假定绝对的理性愿望,当然这也是所有决策理论家和博弈理论家通过把偏好和效用函数作为主观上的既定项所做的事情。因此,我们只讨论认知理性,这也是最终我们要谈的。

六、真正的议题(续)

首先,我应该简要提及一个熟悉的观点(为了接下来别再想它),即行动理性的决策论解释已经假定一个形式的认知理性最小值,也就是说,主观概率像数学概率那样运作。但这总是被认为是理所应当的;当然,我们现在要考虑一个超越这点的实质属 性。

实际上,标准博弈论确实和认知理性相关而不仅仅和行动理性相关,这一说法并不非常清楚。至少,在标准参考资料(像冯·诺依曼、摩根斯坦①J. von Neumann ﹠ O. Morgenstern, Theory of Games and Economic Behavior.或卢斯、雷法②R. D. Luce ﹠ H. Raiffa, Games and Decisions.)中我无法为此找到好的证据;也许还要不得不处理用以解释理性的有点儿统一的“反思性均衡”方法。但是,来自第四节末尾的印象,即我们的贝叶斯理论并未完全公正地对待标准理论,也指出了这一忧虑。当我们看到海萨尼所写的从他的贝叶斯式方法到博弈论的东西时,议题就变得更加清楚。例如,他说:

在博弈情景中定义理性行为的基本困难是这样一个事实:通常每个局中人的策略都将依赖于他对其他局中人的策略的预期。如果我们能假定他的预期是给定的,那么他的策略选择问题就会变成一个普通的最大值问题:基于其他局中人将会根据他的既定预期来行动的假设,他可以简单地选择一个收益最大化的策略。但关键是,博弈论不可能把局中人关于彼此行为的预期看作是给定的;不如说,对博弈论而言,最重要的一个问题恰恰是决定哪些预期是聪明的局中人对于其他聪明局中人的行为能理性地存有的。这可以被称作相互“理性预期”问题。③J. C. Harsanyi, “Bargaining and Conflict Situations in the Light of a New Approach to Game Theory”, The American Economic Review, Vol. 55, No. 1/2, 1965, pp.447—457.

为解决这一问题,海萨尼不仅提出“狭义上的理性行为假设”,而且提出“理性预期假设”④J. C. Harsanyi, “A General Theory of Rational Behavior in Game Situations”, Econometrica, Vol.34, No.3,1966, pp.613—634.;然后他非常明确地表明这些假设意味着:

影响局中人的交易行为的仅有变量是:

(1) 与每个局中人的选择结果相关的回报;以及

(2) 每个局中人分派给被其他局中人接受或拒绝的不同结果的主观概率。

在这些变量中,只有那些在(1)中被提及的是独立的变量,而(2)中的变量本身都是由(1)中的变量来决定。①J. C. Harsanyi, “A General Theory of Rational Behavior in Game Situations”, Econometrica, Vol.34, No.3,1966, p.621.

这上一个断言对海萨尼的方法以及对标准博弈论都是至关重要的。但是,我认为它基本上就是错的。(事实上,如果我不这么认为,我可能就容忍了这篇文章。)然而,我不可能严格地论证这个问题,因为为此我必须表明,对认知理性的每个原则而言,人们也许可以貌似有理地心存想法,认为它不是从(1)导向(2),还因为,考虑到一些基本原则的例外情况,人们并不一致同意这些理应心存的原则。认知理性的阐释比行动理性少得多。不用奇怪,它是在其完整的哲学概论中由来已久但仍然尖锐的归纳问题。但是,我将努力讲通为什么我认为海萨尼的断言是错的。让我们从回顾一些关于认知理性的事实开始。

首先,很明显人们无法完全说信念是理性的或不是理性的。只有与一个人拥有的证据相关时,这个人的信念才能被说成是理性的。这种关系的一部分在演绎逻辑中被详加阐明;无论从证据演绎地推出什么东西,它在理性上都应当是可信的。归纳逻辑和统计学也(两者都是较有争议的)试图澄清这种关系。这里已经变得明显的是,某些认知状态的理性也依赖于先验的认知状态,也就是说,应从先验认知状态理性的评价问题中区分出理性信念变化问题——先验认知状态是如何理性地根据新证据改变的?——这是更加困难的问题。实际上,认知理性依然非常复杂;比如,它肯定还依赖于表达信念的语言。但是,如此深奥复杂的问题对我们的讨论而言是无关的。②我认为,这暗示一个琐细但相关的评论,即必须严格区分理性信念和真实信念。尽管可能大多数理性信念是真实的,但现今大多数真理不能只是被非理性地相信(因为我们的证据是如此不足),并且许多理性信念是错误的(因为我们的证据经常具有误导性)。这不是说理性信念和真实信念不会相互关联,而是说这种关联的本质是一个深入而开放的哲学问题。参见C. S. Peirce, Collected Papers, Vol.Ⅰ — Ⅳ, edited by C.Hartshorne ﹠ P. Weiss, Cambridge, Mass.: Harvard University Press, 1960, Vol. Ⅴ, §§ 384—385 ﹠ 405—408,或者H. Putnam, Meaning and the Moral Sciences, London: Routledge ﹠ Kegan Paul, 1978, pp.121—140。现在,博弈理论家假设他的局中人具有许多真实信念,例如,如果他认为局中人知道机会变动的客观概率,或者如果他假设一定的RUM(根据RUMn,所有通过RUMn输入到露西的二阶信念都为真);关键在于,只要他这样做,他就引入一个真正的全新假设,这个假设无法单靠局中人的认知假设来解释。似乎对我而言,标准理论在这一点上并不总是非常清晰;例如,当仅仅假设关于理性的一阶信念时(参见我们的标准理论第一部分),(错误的)观念也许就会是,更高阶的信念通过所假设的理性以某种方式塌陷。

现在回到海萨尼的断言,让我们再设想一下查理和露西已投入到某个标准形式的零和博弈之中,并假定某个RUM(这里的“R”依然只是代表行动理性)。让我们假设这仍然解决不了博弈问题(也就是说,这个博弈像我们在第四节中的第二个例子)。现在,我们附加假设查理在认知上是理性的。这有什么帮助呢?我认为,毫无帮助。我们在第四部分中已经看到,通过演绎逻辑RUM并没有蕴涵任何东西能够缩小查理对露西的可能概率范围。并且我知道,没有貌似可信的归纳原则能在这方面做得更好。当我们假设露西在认知上是理性的时候,这同样成立。但因此,它对查理相信露西在认知上是理性的也没有任何帮助。还有很多诸如此类的东西。这样一来,即使我们附加假设认知理性是查理和露西之间的某阶共同知识,我们也不能由此得出他们具有博弈论使他们具有的主观概率。并且,这与海萨尼的主张相抵触:他以为我们能得出这一结论。也就是说,我们希望的效用和所有理性(以及所有这些的共同知识)将共同决定主观概率。当然,当查理和露西承认其他或更多的证据而不仅仅是RUM时,这个推理根本没有排除认知理性的假设可能非常有效。

但是,我们不是批评海萨尼的断言,而是应该最好看看他是如何支持它的。然而,在他的文章中①J. C. Harsanyi, “A General Theory of Rational Behavior in Game Situations”, pp.613—634.,从我所引用的他的断言来看,我没有发现这样的支持。在文章中,他的理性假设的确非常明显地蕴涵局中人的行动只依赖(1)和(2);但他对他的更强的论断没有作出进一步的论述。不幸的是,用来解释其所勾勒的计划②Ibid.的其他文章同样如此。③关于这些文章,参见下面两篇文章的参考文献:J. C. Harsanyi, “Bargaining and Conflict Situations in the Light of a New Approach to Game Theory”, The American Economic Review, Vol.55, No.1/2, 1965, pp.447—457; J. C. Harsanyi, “A General Theory of Rational Behavior in Game Situations”。

也许我们的兴趣可以由他最近和莱因哈德·泽尔腾(Reinhard Selten)共同发展的理论来回答,这个理论对解决n人非合作博弈提出了一个全新的两阶段程序④参见J. C. Harsanyi, “The Tracing Procedure: A Bayesian Approach to Defining a Solution for n-Persons Noncooperative Games”, International Journal of Game Theory, Vol.4, No.2, 1975, pp.61—94,以及J. C. Harsanyi, “A Solution Concept for n-Persons Noncooperative Games”, International Journal of Game Theory, Vol. 5, No.4, 1976, pp.211—225.:

首先,一个先验主观概率分布pi被分派给每个局中人i的纯粹策略,这意味着代表其他局中人对局中人i的可能策略选择的最初预期。那么,被称作追踪程序的数学程序就被用来定义这些基于先验分布pi之上的解决办法。追踪程序意味着为求解过程提供一种数学表达,通过理性局中人设法协调他们的策略计划和他们的预期,并使他们趋于一个作为博弈解决方法的特定均衡点。⑤J. C. Harsanyi, “A Solution Concept for n-Persons Noncooperative Games”, International Journal of Game Theory, Vol.5, No.4, 1976, p.211.

这种——在它的具体细节上相当复杂的——方法本该有一个较长的讨论。但是,指出为什么它似乎也没有减少我们的麻烦就足够了。如果我们把这种方法应用到两人零和博弈中,那么只有它的第二步即追踪程序是相关的(因为它促使每个先验概率分布连到相同的均衡点,即到唯一存在的均衡点)。现在,我们考虑只有一个局中人的情形;假设查理对露西的选择集合拥有先验分布,但不是一个均衡分布。为什么查理应该改变这些先验概率?根据一些新证据和几乎不与理性信念变化的任何一般原则相关的追踪程序,这种改变似乎并无必要。为什么不坚持也许更为熟悉的先验概率呢?(尽管它们会表明查理不认为露西知道它们——但他为什么应该这样想呢?)海萨尼对沉溺于追踪程序给出的唯一理由就是这种先验分布不是均衡分布,而根据我们的标准理论第二部分中重述的理由,只有均衡点才能是非合作博弈的理性解决方案。①参见J. C. Harsanyi, “The Tracing Procedure: A Bayesian Approach to Defining a Solution for n-Persons Noncooperative Games”, pp.61—94。因此,他认为理所应当的东西,对我们而言依然是需要澄清的东 西。

让我们依然来看看海萨尼②J. C. Harsanyi, “Games with Randomly Disturbed Payoffs: A New Rationale for Mixed-Strategy Equilibrium Points”, International Journal of Game Theory, Vol.2, No.1, 1973, pp.1—23.,在那里他非常接近我们的想法,即努力克服混合策略中均衡点的明显不稳定性,这种不稳定性在我们对标准理论第四部分的评论中曾批判性地提到过。为此,他提出下面的模型:给出标准形式中的一个非合作n人博弈,即“原初博弈”,A1,…,An是n人的选择集合,Vl,…,Vn是他们对A1×…×An的效用函数。海萨尼现在认为,某个稍微不同的博弈即“干扰性博弈”可能更真实地描述了真正的博弈情景,在那里每个局中人i的真正效用并非固定地由Vi给出,而是围绕Vi给出的值有一个小范围的波动,这是由于“在其主观和客观条件中(例如在其情绪、品位、资源、社会情境等等之中)有微小的随机波动”③Ibid.。支配这些波动的概率法则可能对不同的局中人是不同的,但每个局中人都被假定知道所有这些分布。然而,每个局中人在进行选择时仅仅知道他自己的波动效用具体是怎样的。因此,在标准形式的干扰性博弈中,局中人i的一个可能的纯粹策略是一个函数,它能告诉他,对真正效用函数的每一个可能版本而言,从Ai中选择哪一个行动。于是,局中人关于标准形式干扰性博弈的效用函数立即可从以上描述推断出 来。

现在,海萨尼能够基本证明:干扰性博弈有至少一个均衡点;干扰性博弈的每个均衡点都在纯粹策略中;如果局中人在干扰性博弈的均衡中选择纯粹策略,那么根据效用性的概率法则,这些选择会降到近似处于均衡的原初博弈中的混合策略;并且,这个近似值越接近,围绕Vi的波动幅度就越小。这就解决了稳定性问题,因为在干扰性博弈中均衡因在纯粹策略中而稳定;并且因为在干扰性博弈中选择一个纯粹策略就意味着在原初博弈中选择了一个随机策略;更重要的是,这里出现的随机性是因为效用的波动,不必由局中人有意执行。

看起来,似乎这个模型能够为我们的“定理”中的认知假设(3) (6)和(9)提供长期寻找的正当性证明。但是,它这样做要以什么为代价呢?它有其他强的假设来替代。波动效用的观念使人想起瑟斯顿(L. L. Thurstone)把心理学变量看作随机变量的方法。①参见L. L. Thurstone, “The Prediction of Choice”, Psychometrika, Vol. 10, No. 4, 1945, pp.237—253。这种方法是对数学心理学的一个重大贡献,但大体上,这种方法的一个公认的严重困难是确定这些随机变量的分布。②参见 D. Laming, Mathematical Psychology, London: Academic Press, 1973, Ch. 2。因此,在一定意义上,海萨尼要求我们的局中人最好成为瑟斯顿式的心理学家,而不是能干的科学家。但是,人们并不需要把效用的波动解释为效用的客观概率不确定性;人们可以把这些波动的概率法则解释为表达局中人对彼此的主观不确定性。然而,接下来非常神秘的是,为什么关于局中人i的效用的不确定性对所有其他局中人而言有着完全相同的形式。现在,上面的异议并不适用于两人博弈(因为只有一个其他局中人)。但是,即使再解释也无济于事,因为干扰性博弈的效用函数被假定为那里的每个局中人都知道;这就要求对原初博弈中其他局中人的效用而言,每个局中人都知道每个人的概率分布。因此,不管如何解释,人们很难对海萨尼的模型③J. C. Harsanyi, “Games with Randomly Disturbed Payoffs: A New Rationale for Mixed-Strategy Equilibrium Points”, pp.1—23.的假设感到满意。除此之外,我们还理所当然地认为,只有在纯粹策略下具有均衡点的博弈中,均衡行为才是理性的。

我们不得不绝望于为(3) (6)和(9)寻找某种正当性证明吗?如果我们在我所称的海萨尼断言界定的领域内寻找,即只是在即将到来的博弈情景中寻找,那我认为我们确实不得不绝望。事实上,这一部分现在恰恰使我们导向第四节末尾的困境之中。并且,出口就隐藏在那里:我们没必要将局中人的认知理性起作用的证据限制在即将到来的博弈情境。毕竟,我们也要为假设(4) (5) (7)和(8)寻找某些支持或证据,它们也是认知假设(通过假设查理相信某些东西)。这里非常清楚的是,一个局中人对于他的同伴是理性的并且具有如此这般的效用的信念无法在给定的博弈情境中独自得到证明;不如说它只能通过长期而丰富的人类经验来获得(细节并不清楚)。因此,这也许是对(3) (6)和(9)而言合适的证据领域;特别是一个局中人可能已经处在博弈情境中很多很多次了,他由此可能已经形成我们期望他所拥有的信念。实际上,布朗已经通过虚构的博弈提出这个想法④G. W. Brown, “Iterative Solution of Games by Fictitious Play”, in Activity Analysis of Production and Allocation,edited by T. C. Koopmans, New York: Wiley ﹠ Sons, 1951, pp.374—376.,它与接近两人零和博弈的均衡点的迭代过程有关,这也被称作布朗—罗宾逊过程。⑤因为罗宾逊已经证明布朗的想法是可行的。参见J. Robinson, “An Iterative Method of Solving a Game”,Annals of Mathematics, Second Series, Vol.54, No.2, 1951, pp.296—301;亦 参 见 R. D. Luce ﹠ H. Raiffa,Games and Decisions, New York: Wiley ﹠ Sons, 1957, pp.422ff。让我们把这个过程修改成一个关于查理和露西的简单理论。

假设查理和露西开展某个标准形式零和博弈,他们的选择集合和效用函数分别由A1和A2、U1=U和U2=—U给定。他们博弈不是一次,而是很多次,甚至可能是无限多次。但是,他们头脑简单,并不认为这种情景是一个超级博弈,甚至想不到其他人是理性的并且有如此这般的效用。在每一次博弈中,他们仅仅使他们的预期效用最大化,而预期效用是由他们对他人行动的效用函数和当下的主观概率决定的。尽管如此,他们仍在依据过去的经验调整他们的概率,他们在认知上是理性的。

然而,我们不想如此严格以至于假设双方都符合所谓的直接规则①例如,参见 R. Carnap, The Continuum of Inductive Methods, Chicago: University Press, 1952, § 14。,即在n次博弈后他们在n+1次博弈中对其他人行动的概率与在前n次博弈中他人行动的相对频率是相同的;通过假设这一点,我们恰恰能复制原初的布朗—罗宾逊过程。为把正在讨论的过程和建立认知理性原则联系起来,我们想要更自由些。

首先,我们假设他们遵循条件化规则,就是说某人对事件C在某一时间点t′的概率Pt′(c)应等于他在某一更早时间点t对C的条件概率Pt(C/E),其中E是他在t和t′之间收集到的经验。这是理性信念变化的最基本规则。②直接规则和条件化规则不相容,也就是说,通常没有优先概率来衡量是哪个条件化产生了直接规则所决定的后验概率。实际上,这是拒斥直接规则最强有力的理论根据。参见R. Carnap, The Continuum of Inductive Methods, § 14。举例来说,对查理而言,这意味着经过n次博弈之后,在第n+1次博弈中他对露西的行动的概率是他关于这些被她在前n次中所作所为条件化的行动的先验概率。

其次,为保留直接规则的优点,我们假设他们满足所谓的收敛公理或赖欣巴哈公理。举例来说,这就是说对查理而言,他在第n+1次博弈中对露西的行动的概率和前n次博弈中这些行动的相对频率之间的不同之处,无论它们是什么,都收敛到零(对于n→∞)。这样一来,有人可能会说赖欣巴哈公理保证了最后经验会比先验观念更占优势;它因此通常被看作认知理性的一个最低要求。③参见 W. Stegmüller, Probleme und Resultate der Wissenschaftstheorie und Analytischen Philosophie, Band Ⅳ, Personelle und Statistische Wahrscheinlichkeit, Berlin, Heidelberg: Springer, 1973, pp.502ff。有人可能发现这会引起异议:赖欣巴哈公理表达了主观概率的极限性质但没有依此说出关于它们的实际形式。然而,这里有概率的“实际”性质,众所周知,最为著名的对称性就隐含赖欣巴哈公理。参见R. Carnap ﹠ R. C. Jeffrey, (eds), Studies in Inductive Logic and Probability, Vol.Ⅰ, Berkeley: University of California Press, 1971, parts 4 and 5。

现在,如果查理和露西有这么多认知理性和行动理性,如果原初博弈恰好有一个均衡点包括查理的(混合的或纯粹的)策略S1和露西的策略S2,那么我们有:对每个a∈A1,查理在所描述的博弈过程中选择a的相对频率收敛于a在S1中出现的概率。这同样适用于露西。由此,查理也倾向于发展关于露西的适当信念(3),反之对露西也是同样。④所有这些都容易被证明;罗宾逊关于布朗—罗宾逊过程的证明只不过拓展了我们稍微自由化的版本。如果应该有超过一个的均衡点,那么一个更加复杂但相当令人满意的命题就是真的。参见J. Robinson, “An Iterative Method of Solving a Game”, pp.296—301。然而,与布朗—罗宾逊过程相反的是,这里关于收敛比率没什么可说,因为赖欣巴哈公理关于收敛比率没有假设任何东西。因此,在给定的具体情形中,这个理论满足了我们在前面讨论中产生的所有要求。

再重复一遍,我关于这个(数学上简单明了的)布朗—罗宾逊过程的自由化版本中的观点,不是要提醒我们像布朗—罗宾逊观点的直观吸引力这样的东西;那是多余的。相反,如果我们想要为(3)( 6)和(9)这样的认知前提找到合理的理论根据,就必须要讲一些这样的理论;而如果这些前提是无懈可击的,反过来,它们就必定包含在博弈论的理论化之中。之所以是这样,因为只有这些关于博弈学习过程的理论才能够提供一种把认知上理性的局中人导向(3)( 6)和(9)等信念证据的理论解释——正如我论证过的那样,这种证据不可能在给定的博弈情境中独自发现。

有人可能反对说,有很多方式可以达到信念(3)( 6)和(9)——最简单的方式是一个顾问式博弈理论家(也许通过叙述第三节的标准理论)告诉局中人要做什么和信什么,并且局中人也相信他。当然,这是可能并且经常走的一条路。但这对博弈理论家没有丝毫帮助:首先,他不想要将他的理论限制在受他启发的人们上;其次,它肯定根本没有任何关于他和局中人之间交际的交流理论,即没有关于这种达到信念(3)( 6)和(9)的方法的理论。

另一方面,必须承认的是,博弈学习过程理论的前景还未成形。布朗—罗宾逊过程及其自由化是良好的典范,但它几乎没有扩展到两人零和博弈之外的范围。①参见J. Rosenmüller, “Über Periodizitätseigenschaften spieltheoretischer Lernprozesse”, Zeitschrift für Wahrscheinlichkeitstheorie, Vol.17, No.4, 1971, pp.259—308。不过,布朗—罗宾逊过程的假设却相当差;在那里我们的查理和露西甚至没有被当作真正的博弈论主体来看待,因为根据这些假设,他们每个人都必须把他人看作某种不规则的骰子,它以这面或那面朝上落地的倾向必须被发现。因此,自然的观点是通过把查理和露西看作博弈论主体,即通过让他们知道其他人的效用并让他们对其他人的认知状态进行理论化,来丰富博弈学习过程的假设。无论这样的假设是否会在更一般的博弈而非仅仅两人零和博弈中使博弈学习过程得到想要的结果,这都是一个非常开放的问 题。

总而言之,没有更为具体的结果,但至少一般的寓意可从前面的讨论中得出。严格区分行动理性和认知理性。如果你关心的是行动理性,那么就为你的对象设计完全决策模型,并通过预期效用最大化规则来确定理性行动;如果仅仅这些不能使你满意,如果你要寻找一些对写入决策模型的认知假设的解释,那就尽可能根本地并且尽可能广泛可接受地严格坚持认知理性的一些规则。否则,就会有理论上和根基上混乱的危险。②衷心感谢莱因哈德·泽尔腾教授的鼓励和合理的怀疑态度,感谢乌尔里克·哈斯和安德雷斯·科莫林的促成和安排,感谢克拉拉·塞内卡对我的英文的核对,感谢《理论与决策》的全体成员,因为它向我表明这篇文章对一些人而言可能是值得一读的。

猜你喜欢
露西博弈论效用
有苦难言
呼和浩特市中心城区低效用地潜力分析
中医特色护理技术在老年高血压患者中的应用效用观察
基于博弈论的GRA-TOPSIS辐射源威胁评估方法
高等院校对我国残疾人冰雪运动发展的效用研究
无知之幕与博弈:从“黄灯规则”看博弈论的一种实践方案
博弈论视角下的建筑工程外包道德风险
《不一样的爸爸》
评博弈论在反垄断中的应用
自由小议(其三)