不完全信息博弈的逻辑分析

2010-09-20 03:40贺寿南

周口师范学院学报 2010年4期

关键词：局中人行动者博弈论

贺寿南

(衡阳师范学院人文社会科学系,湖南衡阳421008)

不完全信息博弈的逻辑分析

贺寿南

(衡阳师范学院人文社会科学系,湖南衡阳421008)

在不完全信息静态博弈中,参与人选择的依据就是在给定自己的类型以及其他参与人的类型与策略选择之间关系的条件下,使得自己的期望收益最大化。而在不完全信息动态博弈中,参与人根据他所观察到的其他参与人的实际行动,来修正自己的初步判断,并根据这种不断变化的判断,选择自己的策略。

不完全信息;博弈;归纳推理;逻辑基础

在当今博弈论的研究前沿,逻辑的基础地位和作用日益突出。20世纪80年代和90年代,关于共同知识、动态博弈的逆向归纳法、逻辑全知悖论、贝叶斯均衡的形式化、概率分配的可加性等问题的讨论成为博弈论的热门话题,相关的论文不断出现在博弈论、逻辑学、经济学、人工智能等学科的刊物上。经典的博弈是建立在完全信息基础之上的,但是在现实中,决策者往往很难做到对自己及竞争对手信息的完全掌握。不完全信息博弈论作为一门发展中的学科,其理论体系远未成熟,其逻辑基础更有待于充实。因此,系统地研究不完全信息博弈的归纳概率逻辑基础,形式化、公理化地刻画知识、信念和认知推理,用逻辑的有效性、恰当性分析“均衡”“解”等概念,是博弈论理论发展的内在要求,也是逻辑学所应当应对的一个课题[1]。

不完全信息博弈指参与者对策略空间及策略组合下的支付没有完全的了解,至少有一个参与者不能确切知道其他参与者的支付函数,也就是说参与者的得益函数不是公共知识[2]。不完全信息博弈中的“不完全信息”,指博弈的策略空间及支付函数不是参与人的公共知识。作为不完全信息博弈的分析工具,不完全信息博弈论的主要任务是刻画博弈主体知识信念的概然性、推理的不确定性和博弈均衡的随机性。由于博弈参与人的得益函数不是公共知识,参与者不能确切知道其他参与者的支付函数,即使博弈中存在唯一的纳什均衡,这个均衡也不会是公共知识,而且这样的均衡不可能在一次博弈中达到,而必须通过多次博弈才能达到。在这样的过程中,博弈参与人是如何确定自己的策略呢?他只能根据自己的经验和归纳学习别人以往的策略,从而决定自己的策略,参与人所运用的推理方法就是归纳推理。这种不完全信息博弈按照博弈各方是否同时决策,可分为不完全信息静态博弈和不完全信息动态博弈两种。相应地,归纳推理也分为不完全信息静态博弈中的归纳推理和不完全信息动态博弈中的归纳推理两种。下面笔者对这两种推理作具体的逻辑分析。

一、不完全信息静态博弈中的概率归纳推理

不完全信息博弈论同归纳概率逻辑有着密切的联系。不完全信息博弈论的归纳概率逻辑基础问题是博弈论专家首先提出来的。在不完全信息博弈论发展初期,就借用了决策论中以概率逻辑为基础的期望效用论和贝叶斯方法;在其“公理化”刻画知识信念的概然性和不确定性的过程中,利用了归纳逻辑语义分析中的状态空间和信息结构。如Aumann在对不完全信息博弈的主体认知推理的“公理化”刻画中构造了信息结构,提出了共同知识和信念概念[3]。Halpern提出了知识和信念逻辑的形式系统和语义模型,并且针对“共同知识”“共同信念”进行了语形和语义两方面的刻画[4-5]。我们通过海萨尼转换①所有参与人的真实类型是给定的,其他参与人仍然不知道某一参与人的真实类型,但是知道可能出现的类型的概率分布。只要知道某一参与人的不同类型的概率分布,就可将不确定条件下的选择转换为风险条件下的选择。这种转换称之为“海萨尼转换”。,即通过假定其他参与人知道某一参与人的所属类型的概率分布,计算博弈的贝叶斯纳什均衡解。下面以企业市场进入为例来说明。

假定某市场原来为完全垄断市场,只有一家企业A(以下简称A)提供产品和服务。现在企业B (以下简称B)考虑是否进入。当然,A不会坐视B进入而无动于衷。B也清楚地知道,是否能够进入,完全取决于A为阻止其进入所花费的成本大小。对A而言,他所花费的成本高低与其收益大小有关。假定该市场进入博弈的收益矩阵如图1所示。

表1 市场进入博弈的收益矩阵

在这个博弈中,B面临的是不确定性条件下的选择问题。B不知道原垄断者A究竟是属于阻止成本低还是阻止成本高,但他知道A只能有这两种成本方式(选择)以及相应选择的概率分布,所以说这是一个不完全信息博弈问题。又因为双方的行动有先后顺序,但是后行动者B并不知道先行动者A所采取的行动,只能通过所掌握的有限信息进行归纳,从而预测出对方可能会采取何种策略,因此它也是一个静态博弈。对于这类博弈的均衡,海萨尼(J. C.Harsany)作了系统的分析,提出一种研究不完全信息博弈均衡的方法。若A属于高阻止成本的概率为p,则A属于低阻止成本的概率就为(1-p)。如果A的阻止成本高,A将默许B进入市场;如果A的阻止成本低,A将阻止B进入。在以上两种情况下,B的收益分别为30、-10。所以,B选择进入的期望收益为30 p+(-10)×(1-p);选择不进入的期望收益为0。显然,只要B选择进入的期望收益大于不进入的期望收益,B就应该选择进入,否则,B选择不进入。也就是说,B的选择取决于30 p +(-10)×(1-p)是否大于0,即只要A高阻止成本的概率大于25%时,B选择进入得到的期望收益大于选择不进入的期望收益。此时,B选择进入是其最优策略。而这时的贝叶斯纳什均衡为:B选择进入,高成本原垄断者A选择默许,而低成本原垄断A选择阻止。

从上述分析可以看出,按照海萨尼的方法,所有参与人的真实类型都是给定的。其他参与人虽然不清楚某一参与人的真实类型,但知道这些可能出现的类型的分布概率,而且这种概率是公共知识。用上例来说,公共知识不仅意味着B知道A高阻止成本与低阻止成本的分布概率,而且意味着A也清楚B知道这一概率。通过海萨尼转换,不完全信息博弈变成了完全但不完美信息博弈。这里的不完美信息,就是指其他参与人只知道某一参与人某些方面类型的分布概率,而不知道该参与人在这些方面的真实类型。在上述转换的基础上,海萨尼提出了贝叶斯纳什均衡。对此,可以作如下解释:在不完全信息静态博弈中,参与人同时行动,没有机会观察到别人的选择。给定其他参与人的策略选择,每个参与人的最优策略依赖于自己的类型。由于每个参与人仅知道其他参与人有关类型的分布概率,而不知道其真实类型,因而,他不可能知道其他参与人实际上会选择什么策略。但是,他能够正确地预测到其他参与人的选择与其各自的有关类型之间的关系。因此,该参与人的决策目标就是:在给定自己的类型,以及给定其他参与人的类型与策略选择之间关系的条件下,使得自己的期望效用最大化。贝叶斯纳什均衡是一种类型依赖型策略组合。在给定自己的类型和其他参与人类型的分布概率的条件下,这种策略组合使得每个参与人的期望效用达到了最大化。

二、不完全信息动态博弈中的归纳推理

在不完全信息动态博弈中,虽然后行动者只能观测到先行动者的行动,不能观测到先行动者的类型,但由于对方的行动是类型依存的,双方的行动都传递着(或显示出)有关自己类型的某种信息,后行动者可以通过观察先行动者所选择的行动来推断其类型或修正对其类型的先验信念,进而选择自己的最优策略。而先行动者预测到自己的行动将被对手所观察和利用,就会设法传递对自己最有利的信息,避免传递对自己不利的信息。这就反映出不完全信息动态博弈的特征:当一方对另一方的行动作出反应时,他可以从对手的行动中推断出有关信息。如军事对抗,敌对双方都尽量隐蔽自己的意图,秘密地调动部队,以期给对手以突入其来的一击。指挥员必须在对手情况不明了的情况下制定作战计划,这一决策过程是一种典型的不完全信息动态博弈。这种推断过程采取了贝叶斯修正的形式,即根据假设的均衡策略和观察到的行动修正有关行动者特征或行动的信息。进行贝叶斯修正应该使用“逆向归纳法”。由于一般无法精确地知道对手的状态,所以,计算中带有不确定性。

假设有一个连锁店,称为局中人A,在10个市镇具有分店,在每个市镇存在一个潜在竞争者,即存在一个商人可能会在当地建立同样类型的第二个商店。假设第k个市镇的潜在竞争者被称为局中人Mk,因此这一博弈有11个局中人:连锁店,即局中人A和他的10个潜在竞争者,即局中人Mk,k=1, 2,…,10。除了这10个局中人以外,连锁店没有任何其他竞争者。对局中人Mk来说,他必须决定:是在他的市镇中建立第二个商店,还是以其他方式来使用他的自有资本。如果他选择后者,他就不再是局中人A的潜在竞争者。如果第二个商店在市镇k建立起来,则局中人A必须对市镇k的两种价格策略进行选择。他的反应可以是“合作”或者“攻击”。合作反应会导致局中人A和Mk在市镇k都有较高利润,但如果局中人Mk不建立第二个商店,则局中人A在市镇k的利润会更高。如果局中人A采取攻击反应时,则局中人Mk不建立第二个商店,他的利润会更好。其收益矩阵如表2。

表2 局中人A和局中人Mk的收益矩阵

在这个博弈中,局中人A和局中人Mk(k=1, 2,…,m)在连贯阶段序列1,2,…,m之上进行。在阶段k开始时,局中人Mk必须在“进入”和“退出”之间进行选择(决策“进入”意味着局中人Mk建立起第二个商店),局中人Mk的决策会马上被所有局中人知晓。如果局中人Mk的决策是“退出”,则在阶段k中不再进行决策。如果他的选择是“进入”,则局中人A必须在“合作”和“攻击”之间进行选择,这一决策也会马上为所有局中人知晓。因此,对于k=1, 2,…,m-1,阶段k+1根据同样规则开始和进行。博弈在阶段m后结束。

在该博弈中,由于后行动者局中人A只能观测到先行动者局中人Mk的行动,但可以通过观察先行动者局中人Mk所选择的行动来推断其类型或修正对其类型的先验信念,进而选择自己的最优策略。而先行动者局中人Mk预测到自己的行动将被对手所观察和利用,就会设法传递对自己最有利的信息,避免传递对自己不利的信息。所以该博弈是不完全信息动态博弈。那么,这一博弈中,局中人是如何进行归纳推理的呢?

如果在阶段10中局中人M10选择了“进入”,若局中人A的反应是“合作”时会使他得到支付为2,但若其反应为“攻击”,则相应支付为0,所以局中人A此时的最优选择是“合作”反应。长远考虑在其中不起作用,因为在阶段10之后博弈结束。这说明,对于局中人M10来说最好是选择“进入”。显然,阶段10中的策略形势和局中人在阶段1,2,…,9中的决策无关。阶段9中的决策对阶段10中的策略形势没有影响。如果局中人M9选择“进入”,则“合作”反应对局中人A来说是最优的;“攻击”反应将不会阻止局中人M10。显然可以由此归纳得到结论,每个局中人k应选择“进入”,而每次局中人A应使用“合作”反应。博弈剩余部分的策略形势与是否知道阶段k前的决策无关。如果已经知道在k+1,…,10阶段的局中人Mk+1,…,M10会选择“进入”,而局中人A会总是选择“合作”选项,则会得到在阶段k中选择“进入”也将导致“合作”反应。如果这一博弈以这种方法进行,则局中人Mk(k=1,2,…,10)各自得到的支付为2,而局中人A得到的支付总和为20。

由此可以看出:逆向归纳法是动态博弈的常用推理方式,也是达成动态博弈均衡的有效方法。通过逆向归纳法求出的纳什均衡是一个策略组合的序列,其中每一个策略组合对应一个具体的博弈阶段[6]。

三、结语

通过以上分析,可以看出:在不完全信息静态博弈中,参与人的行动同时发生,没有先后顺序,因此,没有任何参与人能够有机会观察其他参与人的选择。在给定其他参与人的策略条件下,每个参与人的最优策略依赖于自己的类型。每个参与人虽然不知道其他参与人实际选择什么策略,但是,只要知道其他参与人有关类型的概率分布,他就能够正确地预测其他参与人的选择与其各自的有关类型之间的关系。因此,该参与人选择的依据就是在给定自己的类型,以及其他参与人的类型与策略选择之间关系的条件下,使得自己的期望收益最大化。而在不完全信息动态博弈中,某一参与人根据其他参与人的不同类型及其所属类型的概率分布,建立自己的初步判断。当博弈开始后,该参与人就可以根据他所观察到的其他参与人的实际行动,来修正自己的初步判断。并根据这种不断变化的判断,选择自己的策略。

不完全信息博弈论不仅是完全信息博弈论在理论上的推广,也是博弈论面向实际和应用的发展。在人类社会和自然界出现的博弈现象中,主体只拥有不完全的相关信息是普遍的情形,知识信念的概然性、理智有限性和推理不确定性是主体认知状况的常态。正是由于认识到这种普遍性,博弈论的重心才发生了从完全信息分析向不完全信息分析的转移。不完全信息博弈论在处理信息不完全性、知识信念概论性和推理不确定性时,不是把它们当做完全性和确定性的偏离,而是当做分析的基本预设。在不完全信息博弈论中,博弈主体是有限理性的“贝叶斯型主体”,知识信念是状态空间上的概率分配,推理形式主要是归纳概率推理和缺省推理。通过这种处理,不完全信息博弈论中形成了以贝叶斯均衡为核心的分析框架,其分析能力和应用范围都得到了较大的增强和拓宽。不完全信息博弈论的发展,不仅催生了信息经济学等新的经济学分支,而且使博弈论超越经济学范围进入政治学、法学、社会学、伦理学、生物学等领域,对这些学科的分析方法、研究范式产生了深刻的影响。

[1]任晓明.新编归纳逻辑导论:机遇决策与博弈的逻辑[M].郑州:河南人民出版社,2009:216.

[2]贺寿南.博弈视野中的逻辑推理问题[J].科学技术与辩证法,2004(5):52.

[3]Aumann R J.Agreeing to disagree[J].Annals of Statistics,1976:1236-1239.

[4]Halpern J Y,Moses Y.Towards a theo ry of know ledge and ignorance:p reliminary report[M]//Logic and models of concurrent systems.New Yo rk:Sp ringer-Verlag New Yo rk,Inc,1985:459-476.

[5]Halpern J Y,Moses Y.A guide to completeness and comp lexity formodal logicsof know ledge and belief[J].A rtificial Intelligence,1992(3):319-379.

[6]张晓云.博弈逻辑及其应用研究[D].南京:南京大学, 2008:42-43.

Abstract:In incomp lete info rmation static game,the participation choose tactics that make their ow n expected revenue maximization on the condition that given itsow n type and relationship between typesof other participants and strategy selection.In incomp lete information dynamic game,the participants correct their initial judgments in accordance with real actions of other participants that he observed and choose their ow n strategy in the basisof this changing.

Key words:incomp lete info rmation;game;inductive;logical basis

Logical analysis of incomplete info rmation game

HE Shounan
(Department of Humanities and Social Science,Hengyang Normal University,Hengyang 421008,China)

B812 文献标志码:A 文章编号:1671-9476(2010)04-0104-04

2010-04-21;

2010-05-10

国家社科基金项目“经济逻辑研究”(06BZX050);衡阳师范学院科学基金项目“博弈逻辑中的归纳推理研究”(09B03)。

贺寿南(1970-),男,湖南双峰人,讲师,博士,南京大学现代逻辑与逻辑应用研究所兼职研究员,研究方向为决策逻辑、归纳逻辑。