城市群府际环境治理合作的博弈态势

2019-05-22 08:12王玉明

南都学坛 2019年3期

王玉明

(广东行政学院行政学教研部，广东广州 510053)

博弈论研究的是理性决策主体之间直接相互作用时，如何进行决策选择及决策均衡的问题[1]。城市群府际环境治理中既有竞争也有合作，是一个相关参与者博弈的过程。利用博弈论研究政府间的竞争合作关系具有很强的解释力。本文通过对府际环境治理中的博弈态势进行分析，以论证府际环境治理中的合作模式、合作条件和变量。博弈方是指博弈分析中的决策主体，本文泛称中央政府和作为城市群成员的地方政府。从某种意义上说，地方政府负责人是府际环境治理中的实际博弈方。另外，还有污染企业也是重要的博弈方。在城市群府际环境治理中，参与博弈各方的利益诉求不同、实力和地位不同、地理区位不同、话语权不同，以及所掌握的信息不同等，每个参与者的行为决策或策略具有很大的选择空间。在城市群府际环境治理中，中央政府强调城市群生态文明建设增长，实现国家利益最大化。地方政府主要目标是区域性和辖区内的生态环境保护和可持续发展，实现地区和辖区利益最大化。不论哪种类型博弈的结果都是趋于均衡，即所有博弈者达成一种最佳策略或行动的组合，如纳什均衡注1951年纳什(J.Nash)提出博弈中的均衡概念，这种均衡往往就是各个博弈方参与博弈后所获得的相对稳定的博弈结果，而且如果这种结果为多数博弈方所接受，即具备一定的稳定性，这种稳定性的结果，称之为“纳什均衡”(Nash Equilibrium)。。纳什均衡状态就是一种博弈者单独改变决策谁就要蒙受损失的情形，没有一方愿意打破这种状态。

城市群府际环境治理是一个相关利益主体之间的博弈过程，这种博弈主要体现为中央政府与地方政府之间、地方政府之间、政府与污染企业之间的博弈。博弈可分为合作博弈和非合作博弈、单次博弈和重复博弈、动态博弈和静态博弈等形式。合作博弈讨论的是各博弈主体在何种约束条件下进行结盟，而非合作博弈探讨的是各博弈主体如何为各自利益最大化而开展讨价还价[2]。合作博弈和非合作博弈的区别在于参与博弈各方之间有没有一个具有约束力的协议，如果有，就是合作博弈，如果没有，就是非合作博弈[3]。从博弈论上讲，合作性的集体行动主要有保证型博弈、讨价还价博弈，合作博弈中各方进行信息交流或达成具有约束力的契约，各方的利益都有所增加，或者至少是一方利益增加，另一方利益也不受损。非合作博弈不存在有约束力的协议，博弈者都以自身收益最大化为出发点选择策略，如典型的囚徒困境博弈。城市群府际环境治理中也存在合作博弈和非合作博弈。美国学者安妮特·斯坦尼克在《大都市治理：冲突、竞争与合作》一书中分析了大都市合作的四种典型博弈——囚徒困境博弈、重复的囚徒困境博弈、讨价还价博弈、保证型博弈[4]31-43。本文借鉴这四种博弈模型探讨城市群府际环境治理中博弈态势，进而解释政府间合作的可能性及其相关条件。

一、单次囚徒困境博弈及破解之策

博弈论所涉及的一个最典型的模型就是“囚徒困境博弈”模型，也就是单次囚徒困境博弈。单次囚徒困境博弈是用来研究府际间关系最常用的分析模型，它的解释力主要是其支付结构(收益矩阵)抓住了政府间关系所固有的竞争属性。囚徒困境最早是由美国数学家艾伯特·培克(Albert tucker)于1950年提出来的，它讲的是A与B两个共同盗窃犯罪嫌疑人作案后被警察抓获，分别被隔开审讯。A与B都面临着“坦白”还是“抵赖”两个选择，而每个人行为选择的结果又取决于另一人的行为选择。如果两个人都坦白，那么每人判刑8年；如果两个人都抵赖，因为没有足够证据，判刑1年；如果其中一方坦白，另一方抵赖，坦白的一方当场释放，抵赖的一方判刑10年。对于每个囚徒来说，这四个结果按对自己有利的排序依次是：自己坦白对方抵赖—双方都抵赖—双方都坦白—自己抵赖对方坦白。囚徒困境的收益矩阵如图1所示。

囚徒B囚徒AB1(坦白)B2(抵赖)A1(坦白)(-8,-8)∗∗(0,-10)A2(抵赖)(-10,0)(-1,-1)

图1单次囚徒困境型博弈

A在进行决策时，他会发现如果B选择“抵赖”，则自己的最优选择就是“坦白”；而如果B选择“坦白”，则自己的最优选择也将是“坦白”，承担8年刑期，相对于选择“抵赖”而获刑10年相对较短。因此，作为任何一个理性的嫌犯来说，无论对方的选择“坦白”还是“抵赖”，自己的最优选择都是“坦白”。这样一来，最后的结果就是A与B都选择“坦白”，各判刑8年，收益矩阵中的“(-8，-8)**”就是囚徒困境模型的纳什均衡解(用星号标出，文中其他收益矩阵也一样)。实际上，即使两个囚徒事先订立了攻守同盟，他们也会有背叛同盟的可能。因为每个囚徒都追求个体利益最大化，都希望对方抵赖，自己坦白获释。在上述收益矩阵中，对博弈方而言，“坦白”策略都是在考虑自身利益最大化基础上的最佳策略。这是典型的单次囚徒困境博弈，是一个典型的个体理性导致的集体非理性的完全不合作博弈[5]。

城市群府际环境治理中也面临着这种囚徒困境的难题。假定有两个地方政府：地方政府A和地方政府B，每个地方政府都有合作和背叛两种行动策略(见图2)。

地方政府B地方政府AB1(合作)B2(背叛)A1(合作)(A1,B1)(A1,B2)A2(背叛)(A2,B1)(A2,B2)∗∗

图2地方政府间单次囚徒困境型博弈

当双方都选择合作时，处于一个双方都有收益的均衡解(A1，B1)；但因各个地方政府都要有理性经济人属性，希望选择背叛或“搭便车”以使自己的利益最大化，都寄希望于其他地方政府选择合作，而自己尽量少地付出或不付出。但如果地方政府A选择背叛，而地方政府B选择合作，那么结果为(A2，B1)；如果地方政府B与地方政府A一样也选择背叛，故而最终的均衡解是(A2，B2)。在这种状态下，地方政府的利益表现或行动决策的结果，最终导致的是一个纳什均衡，但是这个纳什均衡不是帕累托最优境界，而是博弈结果最差的一种(A2，B2)。如果所有的地方政府都选择合作，任何一方的获益都将比背叛这样的情况要好。然而，相互合作的结果不是纳什均衡，因为如果地方政府A选择合作，地方政府B能够通过背叛而使他境况更优，最坏的结果也能保持原有的收益不变，反之亦然。对每位博弈地方政府而言，选择背叛策略将使之至少不会落到只有支付治理成本而无收益的境地，这是一种完全不合作博弈。就城市群环境治理来说，如果一个地方政府选择背叛策略或“搭便车”，那么它不要投入或者境况更佳。每个地方政府都做同样的算计，所以每个地方政府最后都选择背叛策略或“搭便车”。特别是政府间双方因信息不对称而无法准确判断对方的行为策略条件下，各自最优的策略选择必然是不合作，即收益组合(A2，B2)。

单次囚徒困境博弈是一个典型的非合作博弈，即该模型中各方采取的以背叛为主导的行为决策。这种博弈模型取决于几个基本假设：一是静态性博弈；二是博弈者之间没有交流，不能从重复博弈中进行学习；三是没有制裁或外部强制；四是博弈者的对称性，偏好一致。因而这种博弈模型在解决博弈者偏好分歧、地位不对称和博弈稳定性等方面的解释能力非常有限。该模型的静态性没有考虑到重复博弈或者随时间推移而出现变化的影响，而这些将影响政府间合作的可能性。如果出现重复博弈和博弈方之间可以面对面地沟通，博弈态势就会改变。在府际博弈中，博弈者有同样的发展偏好和平等的政治权力，这种假设是很难存在的。

虽然单次囚徒博弈会出现最差的均衡结果，但并不意味着合作障碍是不可能克服的，因为博弈双方的决策选择是互相依赖的，所以在囚徒困境模式中存在着合作的空间和可能性。克服非合作的囚徒困境的关键问题在于，如何使个体理性与集体理性统一起来。安妮特·斯坦尼克提出通过三种方法得以解决，每种方法都导致了一种新的博弈模式：第一，改变支付结构，导致了保证博弈；第二，引入重复博弈，导致了重复的囚徒困境博弈；第三，在讨价还价博弈中，加入了博弈者偏好和政治权力的变化[4]36。这三种博弈模型后文会详细分析。除了这三种方法外，针对囚徒博弈的局限，需要突出强调以下对策。(1)引入选择性激励。奥尔森认为，克服集体行动困境的办法，需要特权势力的存在，或者是通过制度设计提供有选择性的激励[6]41。选择性激励既可以是积极的，也可以是消极的，就是说，它们既可以通过惩罚那些没有承担集团行动成本的人来进行强调，或者也可以通过奖励那些为集体利益出力的人来进行诱导[6]42。选择性激励是一套鼓励合作，促进个体行为与集体利益相一致的赏罚分明的制度。这个制度设计通过凌驾于双方之上的第三方来实现，双方必须遵循第三方的规则，如果有人违反了承诺或规定必须进行惩罚，迫使双方向着集体理性方向选择行动策略。(2)制度规范硬约束。具有强制性约束力的制度规范是克服囚徒困境的一个重要途径。博弈内生理论指明制度既是博弈规则，也是博弈均衡[7]。均衡的制度和法律才是符合各方利益的规范，均衡制度为府际环境治理中的囚徒困境的解决提供了规范和新思路[8]。在城市群环境治理中，破解囚徒困境需要加强制度规范建设，如相关法律规范、环境合作协议、合作规约等。经验也证明，如果没有相应的法律规范，府际间合作就会充满不确定因素，合作成本和风险一定会提高。府际合作所要遵循的制度还包含合作契约、绩效考评制度、责任追究制度等。这些制度规范在主体间的合作过程中，起到约束合作行为、协调利益关系、预防合作风险的功能。(3)克服信息不对称。信息在博弈中具备非常重要的地位，博弈方掌握的信息直接影响决策的选择，信息不对称增加了合作的难度，博弈方不清楚对方的策略，会产生不信任危机。囚徒困境博弈状态下存在信息沟通障碍，倘若囚徒之间有信息的沟通，双方很有可能会攻守同盟，双方会选择抵赖。在城市群府际环境治理中，加强环境合作信息沟通，建立环境信息共享系统尤其必要。

二、重复囚徒困境博弈及其格局优化

重复囚徒困境博弈是指固定的博弈者会不断重逢,不断重复相同或相似的选择条件的博弈，实质上是同一个博弈反复进行所构成的博弈过程。囚徒困境是一次性博弈，基于个体利益最大化，囚徒往往选择坦白，如果是多次博弈，就可能会在各成员之间产生合作，如果博弈是无限次的，考虑到长远利益，选择持续合作才是明智的。罗伯特·艾克斯罗德在其《合作的进化》一书中用实验证明，如果博弈一方采用背叛策略，则另一方在下一局立即采用相同的策略，如果博弈一方开始采取合作策略，另一方会马上效法。这种“一报还一报”或“针锋相对”的多次重复博弈就会促进相互间的合作。罗伯特·艾克斯罗德的结论肯定了突破单次囚徒困境，建立互惠合作关系的可能性[9]。弗里德曼也提供了一个严格的证明:如果博弈者比较重视自己未来的收益，那么合作就能够在不定次的重复囚徒困境中自我实现[10]。在重复囚徒困境博弈中,有条件的合作策略将是理性经济人的最优选择，因为每个博弈者都有机会去惩罚前一回合的不合作行为，理性博弈者会认识到，如果自己选择背叛，在下一轮博弈中会遭到其他博弈者的报复，选择合作是明智之举。由于未来收益或长期利益的存在，如果博弈者一方有任何合作的可能性，那么另一方将使用包括合作在内的行动策略来改善他的总收益。因此,当博弈重逢的次数足够多的情况下,合作可能会作为均衡的结果出现。当重复博弈的次数接近无限的数量，纳什均衡趋向于帕累托最优。城市群环境治理中政府间的博弈是长期的、多次的和动态的，即存在重复囚徒困境博弈态势，这就为克服单次博弈的囚徒困境提供了一定可能性。

假设以单次囚徒困境为原博弈G，如果G重复进行T次，那么G(T)就表示重复进行T次的有限重复博弈。用逆推法来分析有限次重复博弈的过程，研究发现，如果阶段博弈G有唯一的纳什均衡，则对任意有限的T，重复博弈G(T)有唯一的子博弈完美纳什均衡，即G的纳什均衡结果在每一个阶段重复进行。博弈者若明确知道合作到了最后一轮，以后不会再有重复博弈，那么，最后一轮的博弈和单次囚徒困境博弈就没有区别，博弈者的欺骗和违约行为不可能被报复，结果最后一轮每个博弈者的占优策略就是不合作。逆推到前一期，每个博弈者都推知以后将不合作，所以也不会合作。因此，在有限次重复博弈中，囚徒困境博弈的纳什均衡是参与者的不合作。由此可见，影响重复博弈均衡结果的主要因素是博弈的重复次数。本文假设按单次囚徒困境模型重复博弈两次，第一阶段和第二阶段的收益矩阵分别如图3、图4。根据以上分析，第一阶段的纳什均衡为(坦白，坦白)即(-8，-8)。

囚徒B囚徒AB1(坦白)B2(抵赖)A1(坦白)(-8,-8)∗∗(0,-10)A2(抵赖)(-10,0)(-1,-1)

图3第一阶段囚徒困境型博弈

第二阶段，即将最后阶段的收益(-8)添加到第一阶段的矩阵中，发现第二阶段的纳什均衡为(坦白，坦白)，即(-16，-16)。两次重复囚徒困境博弈的均衡组合都是选择(坦白，坦白)，即在有限次重复博弈G(T)中，如果原博弈G存在唯一的纯策略纳什均衡组合，则重复博弈的唯一的子博弈完美纳什均衡解为各博弈方在每阶段都采取了原博弈纳什均衡策略。这意味着在原博弈具有唯一均衡的有限次重复博弈中，由于完全理性的博弈方具有“共同知识”的分析推理能力，因此在从最后阶段开始的逆推过程中，仍然无法摆脱囚徒困境。罗伯特·艾克斯罗德的实验结果表明，当博弈重复无限次时的情形，假定两个囚徒A和B的贴现因子为相同的常数δ，当δ充分大时，合作均衡结果每阶段都为(抵赖，抵赖)，将是一个子博弈精炼均衡。

囚徒B囚徒AB1(坦白)B2(抵赖)A1(坦白)(-16,-16)∗∗(-8,-18)A2(抵赖)(-18,-8)(-9,-9)

图4第二阶段囚徒困境博弈

重复囚徒困境博弈建立在以下假设基础上，一是相同的参与者重复博弈；二是存在交流的可能性；三是对称的博弈者，即博弈者在偏好、地位、信息获得、资源配置等方面基本上是平等的。重复囚徒困境博弈的最突出特征是将未来收益对参与者的影响考虑进去，抛弃了静态假设，开启了合作的可能性。如果我们相信城市间的某种竞争水平比以协议为基础的保证博弈收益更适当，那么重复的囚徒困境博弈框架将是一个更准确的方法。这种博弈能够提供完整的信息、允许从某次博弈中受益而在另一次博弈中付出更多、包含有防止博弈者随时间推移而出现的地位或偏好的变化的保护措施。重复的囚徒困境博弈的最大局限仍然是关于博弈者完全一样的假设，包括他们有相同的贴现率[4]43。相比单次囚徒困境博弈，重复囚徒困境博弈包含更多政府间合作和政策的特性，但该模型仍然很难把博弈者的多样性和博弈者地位随时间推移的变动性概括进去。现实中，对等博弈只是在少数情形下才存在，政府间的地位和实力存在差异，即使合作的潜在总收益很大，收益分配冲突也会阻止这种合作。

重复的囚徒困境博弈存在多种均衡状态，博弈合作是一种可能的纳什均衡，这种纳什均衡的可能性受诸多因素的影响。理查德·C.菲沃克认为，在重复博弈过程中，几个参数影响最优策略选择以及合作的水平，主要是博弈终结点的不确定性、博弈者的贴现率，以及收益的相对规模能够导致在最初几轮上的合作，以及强制实施的可信的内外制裁也能够发挥作用以保持合作策略。其中当前条件对博弈者影响越大，贴现率越高，博弈者越希望从当前博弈轮次中获得最大可能的收益。当前收益对博弈者越重要，就越可能选择背叛策略。因为对于博弈者来说，较低但确定的收益比未来较高却有风险的收益更有价值[4]38。阿克塞尔罗德认为，合作的基础不是真正的信任，而是关系的持续性。他提出合作博弈存在以下基本条件：一是个体有足够大的机会相遇，并使双方相互作用更持久和使相互作用更频繁；二是回报原则，互惠是交换关系的基本原则，每次让渡都包含着获得相应回报的预期；三是建立合作的规范，防止其他不太合作的侵入，合作就能够产生、成长并保持稳定[11]。结合以上论述，本文将重复囚徒困境博弈格局优化的途径概括为以下几个方面。(1)导向长远利益。在重复博弈环境下，理性的参与者能够为了未来的长久利益而支持当前不利的政策主张。参与者可能不急于获取眼前的利益，而是着眼于在未来获取更大的累积性收益。对博弈轮数的期望值影响到博弈者的决定，博弈者越是认为博弈行将结束，越是看重当前的收益。应用该模型于城市群府际环境治理的分析需要测定博弈本身以决定其参数值(收益和贴现率)，评估这些参数在现实世界中的价值排列即可测定城市间合作的可能性。这种方法的主要困难在于多个纳什均衡，又有体系中必须要解决的精确的参数估计[4]39。需要强调的是，博弈者合作的前提是合作的未来收益高于背叛的收益，让博弈者看到合作的未来收益会比当前选择背叛的收益更大。假如短期诱惑过大或者缺乏足够耐心，违约行为就会发生。保护城市群生态环境是区域发展的长远利益、整体利益和共同利益，政府要摒弃短视的发展模式，协调经济发展与环境保护的关系，处理好短期利益与长远利益、局部利益与整体利益、个体利益与共同利益的关系，将发展目标导向长远和未来。(2)持续性互动。重复的囚徒困境博弈突出特征是博弈者试图在依靠多次反复的互动使自己的收益最大化。博弈理论对于平行组织之间合作问题最常提供的对策，就是长期的互动。这种长期交往使部门间与政府间得以建立名声以增进互信，进而建立相互间对于合作事宜的互动模式与心理上的互相期望。城市群府际环境合作的成效不仅包括短时期内的直接影响，具有持续性是合作成功的更为重要的标志。城市群各成员城市处于一个生态共同体之中，环境污染治理和生态文明建设需要长期行动，政府间需要持续性的长期合作[12]。为此，在城市群区域建立一种制度化的商谈会晤机制，即程序性的会商机制。程序性的会商其实质是一种基于交往理性的主体间关系，只有在这种主体间基础上才能形成有效的规则或长效机制[13]。通过制度化的程序化的商谈会晤，加强相互之间的政策学习、交流经验和共享知识。(3)建立声誉机制。单次囚徒困境博弈之所以会出现互不诚信的结果,最主要的原因在于双方是“一锤子买卖”,博弈双方都从各自的眼前利益出发,选择不守信和欺骗，声誉机制就无法形成。在重复囚徒困境博弈中，要维持声誉，强调对失信的惩罚，加大失信的成本,否则就等于纵容背叛，从而迫使其行为趋向诚信。这种惩罚可能会促使每个参与者都在第一回合选择合作，或在几个回合之后采取合作。同时，博弈者的失信或背叛信息能及时被观察到，并且该信息能够快速准确地传播出去，如果失信或背叛不能被人观察到，当事人就可能不讲信誉，一般来说，信息观察越滞后，信誉的建立就越难[14]。因而声誉机制的建立还要解决重复博弈中所需的信息不对称问题。

三、讨价还价博弈及其共识基础

讨价还价博弈模型避免了烦琐的公理假设和数学定义，具有较好的适用性。该模型考虑到了博弈者实力和地位的不同，考虑到了博弈者不对称的偏好，考虑到了重复博弈和随时间推移而出现的变化性，考虑到了风险规避和时间偏好的重要性。该模型不仅包括决定制度性合作能否发生的因素，还包括决定合作协议条款的因素，所以它是最具弹性的一种模型[4]39。城市群府际环境合作是利益协调的动态博弈过程，是中央政府与地方政府之间、地方政府之间不断协商或讨价还价的过程，需要在协商一致的基础上达成合作共识和利益协调。城市群府际环境治理的合作收益就像一块蛋糕，需要合理分配，环境治理的成本需要合理分摊，以讨价还价博弈模型分析城市间利益协调的过程有较强针对性和应用性。府际合作收益分配是一个复杂的谈判过程，几个城市间通过讨价还价最后达成协议，可能导致实力或地位较强的城市接受当前的较少收益，并遵守其他城市所提出的公平观念，以寻求在未来更好合作。因为未来的互动可能降低违反当前协议的可能性[15]88-95。

讨价还价博弈关键是建立博弈方之间的共识基础。(1)外部选择权。外部选择权是指如果谈判破裂，博弈者能够得到的东西，往往是指现状的价值，这些价值暗示了每个博弈者对合作协议的需要。在政府间的合作谈判过程中，每个政府都将要求从协议中获取的价值不能少于其外部选择权的收益，或者不少于单独行动的收益。每个政府从合作协议中获取的收益至少要与没有协议时一样多，如果这个条件不能达到，很难实现合作。如果政府间的外部选择获得的总和收益比合作收益分配的收益大得多，那么很难达成环境合作协议。一旦每个博弈者都收到了其外部选择的价值，共同收益的剩余将会按博弈者风险规避和时间偏好的相对价值来分配。这种分配偏爱更有可能遭受风险的以及未来贴现率较低的博弈者[16]。外部选择权的大小实质上反映机会成本大小，机会成本是指博弈者能找到相似或相同成交条件的可能性，如清洁水源的替代性、产业发展对水源的依赖度等。如果机会成本小，意味着外部选择权小，达成协议的可能性就大。(2)未来贴现率。在讨价还价博弈模型中，贴现因子表示讨价还价的时间成本，也是博弈者耐心程度的反映。对未来贴现率[注]贴现因子在数值上可以理解为贴现率，就是1个份额经过一段时间后所等同的现在份额。这个贴现因子是由参与者的“耐心”程度所决定的。由于贴现因子的作用，参与者在本期所得的份额X和下期所得同样份额的X在价值上是不相等的，下期的X经过贴现只能等于本期的δx，要小于本期的X。很高的政府来说，只有当前能够实现的交易才是有价值的，谈判中处在一个较弱的位置。若时间对某个政府越重要，那么其贴现因子就越小，在讨价还价中就越处于不利位置。或者说，风险厌恶度小的博弈者，其贴现因子较大，在讨价还价中处于较有利的地位，同时引发谈判破裂的可能性也较大；风险厌恶度大的博弈者，其贴现因子较小，在讨价还价中处于较被动不利的地位，但引发谈判破裂的可能性也较小。如果双方都是风险接受者并有低贴现率，引发谈判破裂的可能性也较大，因为双方都以一个高要求开始且在谈判过程中没有明显地作出调整[15]。如污染河流的上下游政府关于生态补偿的谈判就面临这种情形，下游政府的未来贴现率高，带来的损失比上游政府要大，治理河流污染比上游政府要紧迫，所以谈判中处于较弱位置。(3)磋商谈判的规范性。城市群府际环境治理中，政府的讨价还价能力对合作影响很大，由于政府间基础条件的差异，各自的行动策略也不尽相同，从环境合作中获取的收益也不同。那些讨价还价能力占优势的博弈者从协议当中收益较多，而不占优势的则收获较少。一般来看，城市群中核心城市往往从城市共同体中分到更大利益，一般城市收益则相对越少，这导致一般城市在区域合作中更愿采取“搭便车”策略[16]。小城市倾向于选择等待策略，倾向于跟随并参与环境合作，等待核心城市或中央政府启动合作。因此，规范讨价还价的过程，维护弱势方的利益是解决博弈方非合作的关键。为此，建立城市群环境问题磋商机制，通过政府间的有效磋商，协调彼此的利益诉求和政策立场，最终达成区域共同认可的合作协议。磋商机制实际上是一种公共对话机制，公共对话可以促进博弈方进行自我反思，消除彼此之间的认识差距、利益冲突和利益张力，增加共享性思维[17]。政府通过正式或非正式的方式进行公共对话与磋商，加强沟通，在一定游戏规则下达成合约。磋商谈判机制的建立，应当注意参与主体的平等性和代表性，城市群环境治理在哪些方面、在哪里进行合作，如何进行合作，地方政府都应该享有同等的发言权和表决权，因此，建立一种使各地方政府都有机会表达不同意见的正式程序，如建立联席会议、听证会，通过调解、均衡，形成以国家利益为主，反映地方利益的协议或规则[18]。(4)合作协议的公平性。讨价还价博弈的一个重要特征是以协议为基础。在讨价还价博弈中，对双方最不利的结果是谈判的失败，合作成功需要依赖的分配协议，达成什么样的协议是个复杂的讨价还价和谈判的过程，这里面关键是存在收益分配和成本分摊问题，以及如何保证弱势方政府的话语权、发展权，确定环境合作协议的公平公正和顺利实施。在磋商谈判中，应当重视参与方意见表达，确保协商的广泛性、公正性和持续性，通过协商、谈判，建立起互惠合作的关系，明确协议方之间的利益获得和责任承担方式。

四、保证型博弈及其维持条件

保证型博弈是一种静态博弈，博弈者之间存在可能的交流，博弈者之间偏好是完全聚合的，合作会增加收益，并存在几种纳什均衡状态。保证型博弈的决策结构可用以图5来表述。

城市B城市AB1(合作)B2(不合作)A1(合作)(5,5)∗∗(1,3)A2(不合作)(3,1)(2,2)∗∗

图5保证型博弈

图5是典型的保证型博弈格局图。假设A和B两个毗邻城市都面临着比较严峻的跨界环境污染问题，每个城市都有实施合作或不合作两种决策选择。在这种博弈中，双方都不存在自己的主导决策选择(合作或不合作)，博弈中各自的决策随对方的决策而定。假设预期收益的最大值是5，最小值是1。A和B城市如果分别单独地去治理，则获得的收益各为2；两个城市如果合作治理，则各自的收益可达到最大值5；如果一个城市实施环境治理，而另一个城市不实施，则实施的城市获得收益为3，不实施的城市收益为最小值1。可见，保证型博弈存在两种纳什均衡：一是合作治理即均衡A1B1(5，5)；二是各自单独治理即均衡A2B2(2，2)。博弈中只要地方政府A选择第一种决策A1(合作)，地方政府B也就选择同样的决策B1(合作)，反之亦然。那么博弈中平衡的结果就会是A1B1，地方政府A与B都能实现各自最大的收益5，这是理想的帕累托最优均衡。如果地方政府A与B同时选择自己的第二种决策A2B2时，表面上看，地方政府A在选择第二种决策A2(不合作)时，其收益是3，而地方政府B的收益为1，同样道理，地方政府B选择第二种决策B2(不合作)时，其收益是3，而地方政府A的收益为1。而事实上由于各方在决策上存在相互依赖性，因此，当地方政府A与B同时选择第二种决策时，它们的收益结果正好会成为另一个纳什均衡解，这种纳什均衡结果对两者来说都是次优或者是最差的[4]37。

从图5可以看出，如果一方选择合作的话，每个博弈者将更愿意合作，如果都选择合作的话将有一个清晰的帕累托最优结果，这是一种纳什均衡。如果一方选择不合作，每个博弈者将选择不合作策略，这种结果与囚徒困境博弈相同。在这种博弈中，博弈双方采用第一种决策(合作)无疑就是一种最优的决策选择，因为欺骗与背叛的收益总量是要小于合作的收益。所有参与者都希望达到一种相互合作的纳什均衡状态——如果城市A知道城市B会选择合作策略，那么它将没有动机去选择背叛策略，而且选择合作策略将使收益最大。相反，如果城市A知道城市B将选择背叛策略，那么它将选择背叛策略。这样的收益小于都选择合作策略，但却大于自己选择合作策略而另一方选择背叛策略的情况[4]36。保证型合作博弈的核心特征是会出现帕累托最优的博弈结果。在保证型博弈中，收益结构被改变，因此背叛不再是优势策略。尽管相互背叛在保证型博弈中也能构成一个纳什均衡解，但并非最优的决策选择。面对保证型合作博弈中两个纳什均衡，最终的策略选择是由两个支付结构的收益大小来判断，合作的收益比不合作要大得多。在这种情况下，选择合作的纳什均衡比不合作的纳什均衡具有帕累托优势。另外，在保证型合作中，博弈方处于基本平等和相互依赖的地位，是一种对称的静态博弈。在保证型博弈中，集体利益与个体利益是相容性的，个体理性与集体理性并不突出，个体利益与公共利益间并不存在严重的背离状况[19]。在城市群府际环境治理中，由于区域生态环境的整体性，环境问题的跨界性和关联性，环境治理的复杂性和紧迫性，环境合作治理将是理性选择，随着生态文明建设和生态城市群建设的推进，城市群环境治理中的政府合作也存在保证型博弈的态势。通过地方政府间资源整合和利益共享促成城市群共同利益的增长，从而达到帕累托最优。在帕累托最优均衡解中，各控制变量的总体边际收益等于其总体边际成本，不仅对单个城市的利益来说是最优的，而且对整个城市群来说也是帕累托最优的。当然，保证型博弈确实增加了合作的机会，但城市群政府间的实力、地位存在较大差异，博弈者的偏好仍然是变化的。因而，该模型的应用将受到一定限制。

保证型博弈中存在完全合作的可能性。完全合作是指最大化总体福利的充分合作，在完全合作状态下，如果存在相应的权威机构，拥有必要的信息和权力来化解不合作的阻力，那么这个解是可以得到的。保证型合作博弈需要一定条件才能维持。(1)充分的信息交流。这种博弈往往容易受到信息不完全的影响，陷入集体行动的困境。面对博弈中有两种纳什均衡，如果博弈者必须同时决策且不能交流，那么不能确定每个博弈者都会选择合作。如果博弈者能够交流，那么博弈的合作承诺不是一个问题。因此，信息的沟通与交流是关键性的合作条件。在组织关系中，沟通是合作的基本前提，沟通可以拓宽信息渠道，可以更好表达意愿和要求，及时了解其他参与者的行为选择。良好的信息沟通，能够促进协调，有效地减少和缓和冲突，增进信任。因此，建立有效的沟通交流机制和信息交流平台，拓宽政府间的信息沟通渠道；建立城市群环境信息通报制度，定期通报环境政策、环境污染现状、监测数据和防治的重点工作；建立环境信息公开制度，降低信息交流成本，保证信息能够及时、准确地在区域之间传递并得到利用；建立政府间定期磋商机制；建立区域环境动态信息数据库，以便及时有效地了解城市群环境变化状态及趋势。(2)必要的制度约束。对城市群府际环境治理来说，关键问题在于如何使博弈双方的合作承诺与合作行为处于相互保证的状态。保证博弈符合于偏好完全聚合的情况，当公共物品的属性决定着囚徒困境结构的时候，政策建议往往是使之转变为保证博弈，其方式是通过制裁来降低背叛的收益或者通过激励来提高合作的收益[4]39。城市群环境治理过程中，治理合作需要必要的制度基础。环境合作开展中的很多内容都需要相应的规则和制度予以明确的规定及限制，同时，还需要常设性的权威机构对地方政府合作进行监督和管理[20]。埃莉诺·奥斯特罗姆认为，对于如何实现公共池塘资源占用者之间的合作，需要解决“新制度的供给问题”“可信承诺问题”“相互监督问题”[21]。城市政府之间的环境合作，如果没有严格的制度予以监督约束，那么很难保证合作协议和合作行动的执行实施。

五、结语

城市群环境治理是一个多元主体参与，既有竞争也有合作的博弈过程。其中府际环境治理中存在囚徒困境博弈、重复的囚徒困境博弈、讨价还价博弈、保证型博弈等典型的博弈态式或模式，这四种态式反映了城市群环境治理中政府关系的基本状态，反映政府环境合作需要的条件基础和影响变量。在四种博弈中，囚徒困境博弈是一种典型的非合作博弈，保证型博弈是一种典型的完全合作博弈，重复的囚徒困境博弈和讨价还价博弈是有条件的合作博弈。每种博弈具有自己的特征、形成条件和收益结构。在城市群环境治理中，这四种博弈在不同城市群、不同政府间、不同时期都可能出现。我们需要弄清每种博弈的基础条件和形成逻辑，弄清每种博弈的基本特征和主要局限。针对单次囚徒困境博弈，通过引入选择性激励、制度规范硬约束、克服信息不对称等措施来破解囚徒困境；针对重复囚徒困境博弈，通过导向长远利益、持续性互动、建立声誉机制来优化博弈格局；针对讨价还价博弈，通过明确外部选择权、未来贴现率，规范磋商谈判，保证合作协议的公平性来达到博弈均衡；针对保证型博弈，通过充分的信息交流、必要的制度约束来维持博弈秩序。