试论“囚徒困境”与法律规则的构建

2014-09-18 05:30聂佳龙

淮北师范大学学报(哲学社会科学版) 2014年4期

聂佳龙

（江西科技师范大学理工学院，江西南昌 330100）

美国著名法学家弗里德曼教授在其所著的《经济学语境下的法律规则》一书中指出：“构建有效率的法律规则在很大程度上是要摆脱囚徒困境”[1]。当前我国有不少的法律规则是无效率已是不争的事实。既然构建有效率的法律规则就是要摆脱囚徒困境，那么如何摆脱囚徒困境从而使得我国的法律规则更加有效率便是我们必须思考的问题。基于此，本文拟将从“囚徒困境”角度对法律规制的构建略作探讨。

一、“囚徒困境”的描述及其对法律规则构建的启示

博弈论中最著名的博弈模型是美国经济学纳什的导师图克构造的“囚徒困境”模型。该模型的内容是这样的：甲乙两人是同案犯，律师分别在会见时告诉他们其有足够的把握使他们获2年的刑罚，但是如果他们都坦白的话，每人各判刑5年；如果他们中间有一人坦白的话，坦白者只判刑1年，而他的同伴却会判刑7年。支付矩阵如下（图1）：

图1

从上面的支付矩阵看，甲乙两人都选择不坦白是最好的策略组合。但在信息不相通的语境下，甲乙两人在做出最终的策略选择之前必须考虑这样存在的风险：如果自己选择不坦白，而另一方选择坦白，自己会获得最高的7年刑罚。以乙为例，在做出策略选择之前一定会这样分析：如果甲选择坦白，自己选择坦白会判刑5年，选择不坦白会判刑7年，坦白（因为7大于5）无疑是最占优的策略；如果甲选择不坦白，自己不坦白会判刑2年，选坦白会判刑1年，坦白（因为2大于1）同样是最占优的策略。于是，无论甲选择何种策略，乙都会选择坦白。同样，对甲进行分析也会得出无论乙是否坦白，选择坦白是最好的策略选择的结论。据此分析可以得出，不论对方做出何种策略选择，坦白都是最优的策略选择。换言之，（坦白，坦白）是必然会出现的而且是实质占优的策略组合，从而引致出于个人理性选择的结局不如合作策略选择的结局的出现。

从上述“囚徒困境”模型的描述中不难知道，甲与乙之所以都会选择坦白的策略原因有二：其一，人的只考虑自己利益的自私动机，即甲与乙都是从实现自身利益最大化来选择策略；其二，信息的不完全，即甲与乙只知道自己的策略选择信息而不知道对方的策略选择信息。

美国经济学家奥尔森教授指出，“有时当每个个体只考虑自己的利益的时候，会自动出现一种集体的理性结果”与“有时第一条定律不起作用，不管每个个体多么明智地追寻自我利益，都不会自动出现一种社会的理性结果”[2]是所有社会科学的两条定律。囚徒困境无疑是第二条定律的具体展现。如果每个个体都放弃只考虑自我利益的自私动机，囚徒困境必然不会出现。于是，按照想当然的逻辑，摆脱囚徒困境的方法不外乎是限制甚至是消除人的只考虑自己利益的自私动机与信息完全。

然而，历史无数次表明了人的只考虑自己利益的自私动机是人类社会与文明进步的原动力，因为“人们为之奋斗的一切，都同他们的利益有关”[3]。于是，“真正的问题不在于人类是否由自私的动机所左右，而在于要找到一套制度，从而使人们能够根据自己的选择和决定其普遍行为的动机，尽可能为满足他人的需要贡献力量。”[4]由此，构建的法律规则不是通过限制与消除人的只考虑自己利益的自私动机达致摆脱囚徒困境的目的，而是促使在尊重人的只考虑自己利益的自私动机的基础上实现集体理性。尊重人的只考虑自己利益的自私动机实质上就是将法律规则中“人的模式”预设为经济人。这是因为“每一个进入法律关系的当事人都有其不同的动机和愿望，他们依据自己的偏好和最有利于自己的方式进行活动，他们是理性的、追求个人效用最大化的‘经济人’”[5]。

如果能够互通信息，甲与乙必然会通过协商达成共同选择不坦白策略的共识。从支付矩阵中可以知道，甲与乙共同选择不坦白策略，不仅实现了各自的利益最大化，还自动出现了集体的理性。由此可推之，信息是否完全以及完全程度如何决定着能否摆脱囚徒困境以及在大多程度上摆脱囚徒困境。于是，构建的法律规则要能够揭示出人们按其行动的收益信息，并能促使人们认真考虑这些信息。

经济学研究表明，囚徒困境所反映的是个体的理性选择导致集体的非理性行动，对其摆脱就是实现个体的理性选择引致出集体理性的结果，即出现如亚当·斯密所言的——即使个人“所追求的仅仅是自己的安全或私利。但是，在他这样做的时候，有一只看不见的手在引导着他去帮助实现另外一种目标，尽管该目标并非是他的本意。追逐个人利益的结果，是他经常地增进社会的利益，其效果要比他真的想要增进社会的利益更好”[6]——局面。既然构建有效的法律规则必须摆脱囚徒困境，那么如何实现个体的理性选择能够引致出集体理性的结果必然成为我们必须正视的问题。根据前面的分析，将法律规则中“人的模式”预设为经济人以及信息完全是摆脱囚徒困境从而实现所构建的法律规则是有效的方法。至于如何具体实现，本文在第二、三部分分别加以进行分析。

二、经济人与法律规则的构建

遍览古今世界各国法律的内容，可以说法律在社会中实现的逻辑是每个个人依照法律的规定与他人缔结、形成法律关系，进而其行为接受法律的规范调整。但想要与他人缔结、形成法律关系以及缔结、形成何种形式的法律关系的前提条件是具备法律上的资格。此种资格在法律上有不同的称谓和表述，在私法上称之为“行为能力”，在公法上称之为“公民能力”“责任能力”。无论是私法上的“行为能力”，还是公法上的“公民能力”与“责任能力”都是法律综合对行为人的年龄、智力状况等因素所做的估定。进行较为细致的推敲，不难发现此种估定实质上暗含了缔结、形成法律关系的行为人是“理性人”的假定，这是因为理性人能够依据成本—收益的原则优化选择实现最大化动机，而优化选择与行为人的年龄与智力状况紧密相关。

理性人作为一个科学范畴与“经济人”假定有着莫大的关联。因为“在对经济行为者的许多不同描绘中，经济人的称号通常加给那些在工具主义意义是理性的人的”，而经济人是各种约束的限制下，追求目标函数最大化的理性人。[7]与其他的人的模式①通过具体的法律制度的考察，我们可以将法律原理中预设的“人的模式”分为六类：一、个人；二、中人；三、恶人；四、经济人；五、社会人；六、生态人。相比，“在对不同制度的评价中，‘经济人’是对人类行为的一种独特而恰当的漫画式描述，这不是因为它在经验上正确，而是因为它在分析上是恰当的。”[8]于是，经济人假定不仅适用于经济学，而且还适用于其他的社会科学尤其是法学。

从经济人的内涵中不难看出，经济人假定突出了与肯定了人是一种利己的动物。利己性是人之本性意味着人类的一切行为（无论是追求财富最大化的行为还是追求非财富最大化的行为）蕴含了追求效用的最大化。“效用最大化的实现过程是人的基本偏好（basic tastes）的满足。基本偏好决定了偏好类型（preference patterns），偏好类型相对稳定，并不因人因时或因地而异。”[9]所谓的偏好，简言之就是爱好或喜爱的意思。新制度经济学研究表明，法律是影响人们为其偏好所支付成本的一种但不是唯一的重要变量。也就是说，法律可以通过影响人们为其偏好所支付的成本来引致法律所期待的偏好类型之出现。法律所期待的偏好类型之出现基础是法律规则满足了激励相容约束，申言之，“一项有效的法律规则，必须满足激励相容约束——也就是说，法律的可实施性必须以个人追求效用最大化为前提，法律只能‘诱导’而不能‘强制’个人行为。比如说，当一项法律规定对行为X实施惩罚时，当且仅当在该法律下X不构成个人的最优选择时，这项法律才是有效的。如果在该法律下选择X仍然是个人的最优行动，这项法律就是无效的。”[10]

法律的首要任务是造就一定的社会秩序。而法律要想造就一定的社会秩序就必须对人们形成有效的激励。由于“制度——尤其是附属于它们的惩罚——能使人们作出既有承诺能得到切实履行的可靠约定”[11]，于是“法律对个人行为的激励是通过惩罚的力度和范围来达到的”[10]。但法律施加于个人的惩罚并不无边界的，最强有力的惩罚也就是死刑。如果最强有力的惩罚无法实现对个人行为起到激励作用，那么从逻辑上讲实现法律实现激励的目的只能是扩大惩罚的范围：将行为主体之外的为其所珍视的事物纳入行为主体的效用函数之中。需要指出一点，因为行为主体所珍视的事物因为行为主体所珍视程度的强弱而导致它们在行为主体的效用函数中的权数大小不一。因此，扩大惩罚范围必须以实现法律激励目的为限。

随着人类文明程度的不断提高，尤其是人权观念的深入，越来越多的国家认识到附属于法律制度中的强有力惩罚唯一的目的不是惩罚违法主体。也就是说，尽管某种意义上，对行为主体施加强有力的惩罚能够对个人起到激励作用，但当前人们普遍反对用强有力的惩罚这种极端的方法来治理人类。在人们反对用强有力这种极端的方法来治理的社会语境下，所构建的法律尤其是刑法要想获得对主体施加死刑或者施加强有力的惩罚所得到的激励，方法只能是将更多的为行为主体所珍视的事物纳入到其效用函数之中。一般而言，为行为主体所珍视的事物主要是财富、声誉、感情、资格等。但当今法律禁止株连。于是组合罚金罚款、剥夺已获得的荣誉以及建立违法犯罪记录与暂时或永久剥夺某种资格所构建的法律规则才能实现法律的激励目的。

由于法律只是影响人们为其偏好所支付成本的一种重要变量，法律要想对人们形成激励作用必须构成一个所有的人认为遵守法律是最好策略的纳什均衡。在当今法治时代，约束人们行为的社会规则主要是法律。但这并不意味着人们必然地将其行为置于法律规则的约束之中。从逻辑上说，当所欲求的利益同法律相抵触时，可以选择的路径有三：遵守法律、触犯法律与潜入法律之中。无疑触犯法律与潜入法律之中是法律无激励作用的曲折反射。因此，无论是通过惩罚的力度还是惩罚的范围所构建的法律规则必须构成一个促使人们有积极性遵守法律的纳什均衡。

总而言之，将法律规则中“人的模式”预设为经济人要求所构建的法律规则：1）通过惩罚力度与惩罚范围对人们形成激励作用，当惩罚无法实现对个人行为起到激励作用时必须扩大惩罚的范围，即组合罚金罚款、剥夺已获得的荣誉以及建立违法犯罪记录与暂时或永久剥夺某种资格；2）构成一个促使人们有积极性遵守法律的纳什均衡。当满足前述条件，便能“选择出那些由个体理性引导出群体理性（而不是相反结果）的法律规则”[12]。集体理性被引导出来，也就意味着所构建的法律规则摆脱了囚徒困境。

三、信息完全与法律规则的构建

尽管“人们并非把法律视为解决冲突的最好办法，实际上只是因为缺乏其他解决手段才导致了法律的增长”[13]，但人们始终是主要选择法律来解纷。不但如此，与无法律状态相比，人们更愿用法律来规范约束其行为。这是因为人们可以依据法律规则的规定以及他人行为具有相对不变性而决定自己如何行为。从经济学的角度来看，行为者是依据其所掌握的一定数量信息来决定自己行为的。由此可以易言之，人们之所以愿意将其行为置于法律的管束是因为法律具有积极的信息功能，它可以使得人们能够应付各种复杂的情势以及减少进行复杂决策行为所进行的各种计算。

美国著名科学家维纳指出，在现代社会，每个人“要有效地生活就要有足够的信息”，因为“信息这个名称的内容就是我们对外界进行调节并使我们的调节为外界所了解时而与外界交换来的东西”[14]。如果法律所内含的信息不完全，势必会引致他人行为不具有相对不变性，进而影响人们有效地生活。换言之，法律对人们的行为不具有激励或者说是有激励但相对较弱。因此，确定人们行为方向与范围的信息结构是法律对人们的行为激励之前提。

在当今，所有制定的法律都是公之于众的。也就是说，法律所包含的信息为所有人所知悉。于是，从这一意义上说对于人们而言不存在信息不完全的问题。但从各个个体所能掌握的与自己相关的信息方面来看，我们会发现不同的个体缺乏信息的程度还是不一样的，即有些人比其他人掌握更多的相关信息。此种情况，在经济学中称之为“信息不对称”。因此，法律所内含的信息不完全体现为信息的不对称。

信息的不对称会导致人们的行为带有一定的“盲目”性。为了说明这一点，我们可以用将前述的囚徒困境博弈模型做这样的改变：律师在会见甲时告诉他，如果他们之间是乙选择了坦白，他选择不坦白会判不低于1年且不高于7年的刑罚。支付矩阵如下（图2）：

图2

依照博弈论理论，凡是博弈均有均衡。我们用θ代表甲的坦白概率，γ代表乙坦白的概率。给定 γ，甲选择坦白(θ=1)和不坦白(θ=0)的期望收益分别是：

但对于乙而言，无论甲是否坦白其都会选择坦白。由此，便导致了这样一个局面：甲是做出坦白的策略还是不坦白的策略受制于对乙的策略选择，而乙的则不会受制于甲的策略选择。于是，甲如何行为便具有一定的盲动性，因为甲要做出自己的策略选择首先要知悉乙的策略选择信息。推及到现实社会，在信息不对称的情况下，诸如甲样的人们很难获得诸如乙样的人们行动选择信息，从而行为必然具有盲动性。也就是说，诸如甲样的人们无法通过他人行为的相对不变性而来确定自己该如何行为。

人们的行为具有盲动性意味着法律对人们没有激励。“法律作为一种激励，应当提高获得个体信息的能力。”[10]但由于行为后果是多个人行为共同作用的结果且每个人的行为对行为后果的影响又同他人行为有关，从而导致获得个体信息具有困难。之所以困难是因为该行为具有团队生产的特征，用美国经济学家阿尔奇安与德姆塞兹的话说便是：“由于每个人对他个人的实际替代率（生产中）而不是真实的总的（即社会的）比率作出反应，并且只要其他人检测是否松懈方面有成本，通过使他承担真实成本迫使他进行彻底的再调整，对其他人来说就并不值得。”[15]逻辑上，使个人的实际替代率接近甚至是等于真实的替代率方法是个体化的竞争与设立专职的监督者。但个体化的竞争并不能完全实现使个人的实际替代率接近甚至是等于真实的替代率方法，于是方法只能是设立专职的监督者。

依照阿尔奇安与德姆塞兹的理解，监督者不仅具有剩余索取权，还赋其改变团队的个体成员资格和行为的权利。用张维迎教授等人的话说，此种监督实际上是“基于行为的连带责任”。回顾历史，不难发现，法律制度和市场一样都是生产和交换的产物，都是资源配置机制。而“任何资源配置机制，要为社会所接受，都必须解决好两类任务：一是不管资源如何使用，必须充分揭示资源收益的信息；二是必须能促使人们认真考虑这些信息。”[16]因此，“基于行为的连带责任”，所构建的法律规则必须包含立法者与适用法律者之间的连带责任与为某一法律规则所影响团队的成员的连带责任这两方面的内容。

实现立法者与适用法律者之间的连带责任可以建立立法损害赔偿制度。“立法机构的保证才是真正可怕的危险，而且在很多年后仍会如此。”[17]理论上说，国家为了保障公共服务事业的组织和运行所采取的措施，“当这种措施给国家中的其他利益增加了额外负担的时候，国家就必须动用财政资金来加以补偿。国家因立法职能而承担的责任只是一种一般性制度中的一项具体因素。”[18]

实现为某一法律规则所影响团队的成员的连带责任可以建立对团队成员实施集体的激励或者惩罚的规则。该规则这样规定：当实际的产出大于或等于帕累托最优努力下的团队产出，每个人或处于强势地位的团队成员才能分享帕累托最优努力下的团队产出，否则全体成员接受惩罚或者处于强势地位的团队成员接受高于实际惩罚的多倍惩罚。

如果将上述中的“律师”视为立法者，因为立法损害赔偿制度存在则其势必不会让乙掌握的信息比甲还要多。又因为存在对团队成员实施集体的激励或者惩罚的规则，甲和乙必然会想方设法地提高其获取个体信息的能力。个体信息能力提高意味着甲与乙能够知悉彼此的策略选择信息，从而两人都选择不坦白是必然的。推及到现实社会亦是如此。

囚徒困境博弈是一种典型的非合作博弈，“关于非合作博弈的研究表面上是描述合作的规律，更深的目标是寻找合作之路”[19]。社会秩序是在人们相互合作之中实现的，但人们的合作大多是一定制度尤其是法律制度下进行的。于是，所构建的法律制度如果无法摆脱囚徒困境，则无法引导人们进行有效地合作，社会秩序也就无从造就。如果仍由此种现状发展，最后我们只会得到一个法律更多而秩序更少以及法律成为社会不可承受之重的社会。因此，构建法律规则时必须从经济人与信息完全这两方面进行综合性的考量。

[1][美]大卫·D·弗里德曼．经济学语境下的法律规则[M]．杨欣欣,译.北京：法律出版社，2004：107．

[2]苏长和．全球公共问题与国际合作：一种制度的分析[M]. 上海：上海人民出版社，2002：2．

[3]马克思恩格斯全集:第1卷[M].北京：人民出版社，1995：187．

[4][英]哈耶克.个人主义与经济秩序[M].邓正来，译.北京：北京经济学院出版社，1989：13．

[5]冯玉军,赵小宁．法律经济分析的理论前提[J]．天水师范学院学报，2001（3）：29—31．

[6]转引自[美]保罗·萨缪尔森，威廉·诺德豪斯.经济学[M].萧琛，等，译.十七版.北京：人民邮电出版社，2007：23．

[7][英]伊特韦尔，等.新帕尔格雷夫经济学大辞典：第2卷[M].陈岱孙，等，译.北京：经济科学出版社，1996：57-58．

[8][澳]布伦南，[美]布坎南. 规则的理由[M]. 冯克利，等，译.北京：中国社会科学出版社，2004：61．

[9][美]加里·S·贝克尔.人类行为的经济分析·译者的话[M].王业宇，等，译.上海：格致出版社，上海三联出版社，上海人民出版社，2008：6．

[10]张维迎，邓峰.信息、激励与连带责任——对中国古代连坐、保甲制度的法和经济学解释[J].中国社会科学，2003（3）：99-112．

[11][德]柯武刚，史漫飞.制度经济学——社会秩序与公共政策[M].韩朝华，译.北京：商务印书馆，2000：111．

[12][美]大卫·D·弗里德曼.经济学语境下的法律规则[M].杨欣欣，译. 北京：法律出版社，2004：107．

[13][美]布莱克.社会学视野中的司法[M].郭星华，等，译.北京：法律出版社，2002：85．

[14][美]N·维纳.人有人的用处[M].陈步，译.北京：商务印书馆，1978：9．

[15][美]阿尔曼·阿尔奇安，哈罗德·德姆塞兹.生产、信息成本与经济组织[M].盛洪.现代制度经济学：上册（第二版）.北京：中国发展出版社，2009：130．

[16][美]哈德罗·德姆塞茨.所有权、控制与企业——论经济活动的组织[M].段毅才，等，译.北京：经济科学出版社，1999：43．

[17]David·Mayer.The constitutional Thought of Thomas Jefferson[M].University Press of Virginia，1994：257．

[18][法]莱昂·狄冀.公法的变迁——法律与国家[M].郑弋，冷静，译.沈阳：辽海出版社，春风文艺出版社，1999：192．

[19]赵汀阳.博弈问题的哲学分析[J].读书，2003（2）：76-85．