(黄山学院数学与统计学院 安徽 黄山 245041)
警方逮捕两名嫌疑犯A、B,可以用某电影中的黎叔与小叶代替,警察没有证据指控二人。他们每一个人都被单独囚禁,并单独进行审讯,即双方无法互通信息。警方向这两名嫌疑犯交代量刑原则:坦白从宽,抗拒从严。具体如下:
1、如果两人都坦白,则每人各判刑5年;
2、如果一方坦白,一方不坦白,则坦白的一方将被释放,不坦白的将被判10年;
3、如果两人都不坦白,警方由于证据不足,只能对二人短期关押,各判1年。
如下图的支付矩阵:
囚徒A(黎叔)囚徒B(小叶)坦白抵赖坦白(-5,-5)(0,-10)抵赖(-10,0)(-1,-1)
这两个囚犯的博弈过程如下:先考虑黎叔的选择。黎叔要决定自己的选择,他必须要先考虑小叶的选择,即黎叔是在考虑了小叶的选择的前提下来决定自己的选择。那么,黎叔一定是这样考虑的:
如果小叶选择坦白,我如果也选择坦白,被判5年,如果我选择抵赖,被判10年。于是我选择坦白。(因为5<10)
如果小叶选择抵赖,我如果选择坦白,立马释放,如果我选择抵赖,被判1年。于是我选择坦白。(因为0<1)
得出结论:无论小叶选择坦白还是抵赖,我都选择坦白。
同理,在分析小叶的选择时,我们也会得到类似结论。但当我们仔细分析,不难发现,如果两个人都选择抵赖(即合作),则可以获得最好的结局(即只判1年)。但是由于他们之间不能互通信息,所以每一方都担心由于对方坦白而自己抵赖时自己所遭受到的重判(即对方释放,自己抵赖被判10年)。在这种情况下,每个人都会从自己的利益考虑,最后的选择都是坦白。
这就是博弈论中的重要的数学模型——完全信息静态博弈模型。
完全信息静态博弈是指各博弈方同时决策,且所有博弈方对各方得益都了解的博弈。属于非合作博弈最基本的类型。基于以上考虑,黎叔和小叶都会选择坦白,达到一个稳定解,但是这个解却不是整体的最优解。
通过对囚徒困境的分析,我们得出这样一个结论:无论小叶选择坦白还是抵赖,黎叔都会选择坦白。于是,我们说坦白策略是他的占优策略,类似的分析对于小叶也是适用的,所以坦白策略也是小叶的占优策略。
因此,我们给出占优策略的定义:无论其他参与者采取什么策略,某参与者的唯一的最优策略就是他的占优策略。在我们的分析例子中,(坦白,坦白)这一对策略组合下的博弈状态,就是一种均衡状态。一般地说,由博弈中的参与者的占优策略组合构成的均衡就是占优策略纳什均衡。
我们可以在支付矩阵中用划横线的方法来寻找占优策略纳什均衡。具体做法如下:当小叶选择坦白时,黎叔会选择坦白,则在报酬-5下划一横线,当小叶选择抵赖时,黎叔仍会选择坦白,则在报酬0下划一横线。小叶选法同理。最后,矩阵图中的唯一两个数字都被划上横线的那一格报酬组合(-5,-5)所对应的(坦白,坦白)的策略组合就是该博弈的占优策略纳什均衡。
黎叔和小叶都是理性人作出的选择都是理性对自己收益最大的,最终整体的的结果却没有达到最优,这个问题值得我们去思考。
自私自利的人类可能因为自己的聪明而降低包括自身在内的所有人的福利水平,个人的理性导致集体的非理性,非合作的自利行为导致两败俱伤。
以生活中实例对这一现象加以说明和理解:
1、父母为什么热衷于给孩子报暑期班,暑期班广告铺天盖地,只此一句不要让孩子输在起跑线上,就让家长对商家的套路毫无抵抗,这里就蕴含了囚徒困境原理,辅导班广告正是通过囚徒困境将家长捆绑在一起。
2、每年暑期高考之后各大名校争抢状元,纳什均衡最大悲剧就在于北大和清华都意识到抢状元毫无意义,即使他们都认同不抢状元才是最好的结果但是这样的结果却达不到,因为双方不得不采取对自己最有利的策略:抢状元。
类似生活中的现象比比皆是:上网购物、夫妻吵架、各大商家企业价格战、军备竞赛等。
若在囚徒困境模型中,增加双方选择坦白策略的成本:各判5年增加到各判15年,当庭释放增加到判5年,则支付矩阵如下:
黎叔小叶坦白抵赖坦白(-15,-15)(-5,-10)抵赖(-10,-5)(-1,-1)
如果小叶选择坦白,黎叔如果也选择坦白,被判15年,如果选择抵赖,被判10年。于是黎叔选择抵赖。(因为10<15)
如果小叶选择抵赖,黎叔如果选择坦白,被判5年,如果选择抵赖,被判1年。于是黎叔选择抵赖。(因为1<5)
得出结论:无论小叶选择坦白还是抵赖,黎叔都选择抵赖。
同理,小叶也会得到相同的结论,这样小叶和黎叔的最终选择都变成了抵赖策略,达到了整体最优,避免了公地悲剧的发生。
若双方可以相互沟通达成协议,直接选择最优策略,那么也会达到共赢。