侦查讯问的博弈模型构建与优势策略

2022-05-16 08:23张若枫

北京警察学院学报 2022年1期

张若枫

（中国人民公安大学，北京 100038）

“博弈”的英文原意是“游戏”（game），指丰富多彩的对抗性游戏。博弈论研究的是如何在“策略互动”的局势中寻找到局中人的最佳行为方式，使其获得最大收益。[1]侦查人员应当是一名“理性的”博弈参与者，在讯问过程中的每一步行动，都从犯罪嫌疑人的实际利益出发，分析其在目前所处的情境下有哪些策略可以选择，这些策略的后果将带给他多少效用，并据此推测和影响讯问对象将会做出的选择。博弈论可以提供一种理性的、科学的讯问方法，如果在实践中加以推广，便可以和其他讯问策略一样起到提高讯问效率、减少非法讯问的作用。

一、侦查讯问中的博弈规则解构

博弈规则（rule）是对博弈如何进行所做的完整定义，它包括三个关键点：行为、时间与信息。[2]笔者认为，博弈规则相比其他要素（博弈参与者、博弈结局与博弈效用）具有更强的动态性和影响力，明确其投射在侦查讯问活动中的特殊规定性是建模分析前的必要准备，即厘清参与人有什么样的行动可供选择，其行动顺序如何，以及每个参与人行动时所依据的信息。

（一）侦查讯问中各博弈参与人的行动集及效用结果

侦查讯问中的博弈参与人（侦查人员与嫌疑人）都是可以独立做出决定的实体，在讯问中的某一时刻，他们有两个以上的行动可供选择，所有这些选择就构成了一个行动集（action set），即全部行动的集合。

对于侦查人员而言，其行动集可能包含的元素有：各种合法讯问手段、进行非法讯问、收集有关证据、放弃讯问，甚至包括与嫌疑人“合作”。我国刑事诉讼法对于侦查人员的这些选择做出了严格规范和限制。比如，对讯问人员的人数、时间、地点、程序等的规定，这些规定加大了讯问人员采取违规行为可能产生的不利后果。一般而言，侦查人员的博弈结果无非是获得口供与未获得口供。在获得口供的结果下，侦查人员成功完成任务，并给结案、移送起诉提供了重要证据，其所得效用=口供的价值-为了获取口供而付出的侦查、讯问成本。在未获得口供的结果下，侦查人员的所得效用=0-侦查讯问成本-其他相关损失（如社会评价降低等）。因此有的侦查人员选择永续付出侦查成本，希望最终能获得口供以抵消自己的损失；有的侦查人员选择尽早的不作为，为的是把损失控制在一定范围内；还有少部分的侦查人员选择与嫌疑人勾结，用个人私利的扩大来平衡自己在工作中的损失。

对于嫌疑人而言，其行动集当中包含的元素主要有供认和抵赖。供认是基于如实供述意愿下的陈述，包括自认和自白；抵赖是为了逃避罪责而做出的非真实供述，包括否认、谎供、沉默等。相应的，嫌疑人采取上述行动产生的博弈结果可能有：“供认—被从轻处罚”“抵赖—被处罚”“抵赖—被释放”。我国尚未赋予嫌疑人沉默权，嫌疑人任何形式的“抵赖”行动都是不被法律认可的。此外，“坦白从宽，抗拒从严”的刑事政策和认罪认罚从宽制度也承诺，如果嫌疑人供认罪行，其获得的效用将大于抵赖。这些都是推动嫌疑人选择供述的“激励”。但是，仍有很多嫌疑人选择“抵赖”，这是因为他们认为在侦查人员获取的证据并不确实、充分的情况下，他的“抵赖”可能被侦查人员误判为一种正当的“无罪辩解”，或者案件可能由于口供的缺失而不了了之，自己由此得以释放，免于刑罚处罚。这种“抵赖—被释放”的结局当然能够为其带来最大化的效用。但是，一旦在没有口供的情况下定案，嫌疑人的效用将会从最大值跌至谷底，他将因抵赖行为而承担更加不利的后果，这是嫌疑人选择抵赖需要承担的风险。

各个参与人的行动相互结合就构成了行动组合（action profile），如果侦查人员在行动集当中选择了合法讯问，嫌疑人选择了供认，那么这个行动组合就是（合法讯问，供认）——这也是对于侦查人员而言最理想的博弈结果。但是讯问实践远非如此简单，参与人的各个行动之间往往相互依存、复杂曲折、连续发生，这样，讯问中的行动组合就可能存在无限多个。

（二）侦查讯问中各博弈参与人的行动顺序

博弈有静态与动态之分，静态博弈的特点是参与者一次性的同时采取行动，或者虽有先后，但他们在行动时并不知道其他参与人采取的行动。比如，嫌疑人之间在不知道同伙所选行动的条件下做出决策，这可以被视为没有先后顺序的静态博弈。而博弈往往是多轮、反复、渐进的。在每次交锋之后，各参与人所掌握的信息状态都会有所变化，他们将会根据这些新掌握的信息调整各自的行动、做出下一步的选择。在侦查讯问中，侦查人员与嫌疑人之间动态博弈的行动顺序可以抽象为以下几步：

①侦查人员首先责令嫌疑人就案件进行陈述。

②嫌疑人按照事先计划的利益最大化方案进行应对。

③侦查人员根据嫌疑人的陈述，寻找、揭露其中的矛盾，对其进行进一步讯问。

④嫌疑人根据侦查人员的问题，推测其对案件的侦查进度，根据自身利益最大化原则，重新调整自己的防御体系，做出回应。

⑤侦查人员根据嫌疑人的新反应，调整讯问方案，返回步骤③。

讯问实践中的情况是复杂的，嫌疑人抵赖手段和侦查人员讯问方法的多样性可能会打破二者的行动顺序。一般状态下，讯问中的行动顺序就是双方交替行动、螺旋式的动态进行的。

（三）侦查讯问中的博弈信息

博弈信息是参与者关于博弈中各种变量值的“知识”。在博弈信息中有一类被称为“公共信息”——这类信息是每个参与人都知道的，而且每个参与人都知道其他参与人都是知道的。在讯问中，公共信息主要包括理性和法律规定。“理性”是指博弈的参与人都知道彼此是理性的，即嫌疑人的最大利益是逃避或减轻刑罚，侦查人员所追求的是千方百计获取口供。“法律规定”是指国家公开宣布的、普及率较高的规定，如对于罪与非罪的界定等。

然而，在博弈中能够改变参与人收益的只有私人信息，即只有部分参与人知道或根本无人知晓的信息。如果参与人对某个变量值的“知识”是确切的，那么他便拥有完美信息，反之则称为不完美信息。例如，对于作案工具的藏匿地点这个变量，如果侦查人员明确的知道具体地点在哪儿，那么他在这个方面的信息就是完美的，如果他对此毫无头绪或者在几个地点之间进行猜测，那么他拥有的就是不完美信息。博弈中大量存在的是不完美信息，各参与人都会试图让自己的信息完美化，由此得以在博弈中占据更大的优势。

在每个博弈人的心中都有一个行动指南，它详细列出了通往目标的每一步可能出现的情况及在这些情况下应该采取的行动。具体而言，侦查人员在每一次讯问前都需要考虑嫌疑人对于侦查进度的了解程度、他会有哪些可能的反应，这些反应会给其带来怎样的效用。相对应的，嫌疑人面对讯问做出反应前也在推测侦查人员对案件的侦查进度、可能采取的讯问方法及其后果。

二、侦查讯问中的博弈形态及相关模型

构建侦查讯问的博弈模型，能够简洁直观地展现讯问中的各类博弈行为的实质。为此，有学者引用“囚徒困境”的经典模型，构建了共犯和对合犯之间的博弈模型[3]；有学者基于辩诉交易的视角推导出侦查机关与被讯问人之间的静态博弈支付矩阵[4]；另有学者提出了犯罪嫌疑人与法律道德之间的博弈情形[5]。可见先前研究成果主要集中在静态博弈行为的建模上，而笔者将“静态”视为“动态”的片段，试图完整呈现侦查人员与犯罪嫌疑人之间依次轮流行动的动态博弈过程。

（一）静态策略式博弈

侦查人员与嫌疑人之间的整个博弈过程一般是多轮的、动态的，但如果单独对其中某一次交锋进行研究的话，它又可以被看成是静态的。博弈论中，通常使用策略式的建模方法描述多个参与人同时、一次性的决策问题，也有学者把它称之为“规范式”或“战略式”博弈。

在讯问博弈中，理性的嫌疑人总是会选择抵赖，但是，在实践中，嫌疑人抵赖到底的情况并不多见，“坦白从宽，抗拒从严”的刑事政策及其配套的法律制度就是重要原因之一，它使嫌疑人愿意为自己的现实利益走一步保守的棋——以供述换取较轻的刑罚。同时，这也促使侦查人员选择“承诺从宽”，理性的侦查人员不会无谓地扩大讯问成本，这也体现了侦查效率与刑罚之间在适度范围内进行互换的法理原意。

如表1支付矩阵所示，如果嫌疑人要求只有给自己从宽量刑才能供述，侦查人员同意给予从宽，则可以得到口供，获利为10，同时嫌疑人获得从宽，效用为-5；侦查人员不同意给予从宽，双方效用都降到最低值：嫌疑人未获得从宽，效用为-10，侦查人员得不到口供效用为0。因此“只要嫌疑人要求，就给予从宽”是侦查人员的优势行动。如果嫌疑人没有要求从宽而供述，不论侦查人员是否预备给予从宽，结果都是嫌疑人没有获得从宽，效用为-10；侦查人员获得了口供，获利为10。由此可见嫌疑人从宽的要求“不提白不提”，“要求供述从宽”是嫌疑人的优势行动。所以（要求供述从宽，从宽）就成为了这个博弈的纳什均衡行动组合（在矩阵中用下划线标注出来）。这种“讨价还价”的现象在讯问中其实并不罕见，嫌疑人提出供述的条件，如果在法律允许的范围内，侦查人员的最佳行动就是给予满足，这样的行动组合就可以带来纳什均衡，双方的得利也都能达到最优。

表1 侦查人员与嫌疑人的博弈支付矩阵

（二）动态展开式博弈

在整个讯问过程中，侦查人员与嫌疑人之间的决策往往有先有后，交替进行，如果采用之前的矩阵表示法，就难以体现博弈的顺序和各时点的行动及其效用，所以在研究中通常采用“博弈树”来演绎此类动态博弈。在博弈树中，各个结点代表参与人必须做出行动时的位置，初始结点是博弈的开始，用空心圆点表示，其他结点用实心圆点表示；每个箭头代表参与者可以选择的行动，这是博弈树的分支；数字向量代表博弈的结束和各参与者的收益。这种描述方法被称为“展开式”或“扩展式”。

笔者将侦查人员与嫌疑人在讯问中的对决回合加以抽象，得到以下模型（如图1所示）。在这个模型中，“犯”代表嫌疑人，“警”代表侦查人员，数字向量中的第一个数字代表嫌疑人的收益，第二个数字代表侦查人员的收益。博弈是从嫌疑人采取行动开始的，对于侦查人员而言，最大效用为10，即嫌疑人一开始就自愿供述了罪行，案件顺利了结，侦查人员几乎没有付出成本就完成了任务；而此时嫌疑人也会因供述态度好而受到从轻处罚，所得为-5。但是，大多数嫌疑人在讯问刚开始时都会为了逃避刑罚而选择抵赖，如果这时侦查人员选择不作为，案件不了了之，那么他工作失利，所得为-5，而嫌疑人却将因此被释放，得到了最大收益10。侦查人员如果选择继续侦查，那么将会导致两种可能：一是通过侦查获取了定案的充分证据，这时嫌疑人再选择抵赖，就会因“抗拒从严”政策而被从重判刑，所得效用为-10，如果嫌疑人转而供述了罪行，将会获得-8。侦查人员在这种情况下无论如何都会成功结案，所得为正，但是由于其付出了一定的侦查成本，所以收益由10降到了8。第二种可能是，侦查人员没能获取充分证据而放弃了继续侦查，嫌疑人便会无罪释放，所得为8，侦查人员之前的侦查投入付之东流，所得为-8。在讯问中还有一类较常见的现象，即翻供。事实上，翻供可以被看成嫌疑人再次选择了抵赖，结果又陷入了侦查人员是选择不作为还是选择继续侦查的循环。

图1 侦查人员与嫌疑人的动态博弈模型

由这个动态模型图可以看出，当嫌疑人选择供述时，侦查人员应尽快固定证据并结案，以免嫌疑人翻供，这是侦查成本最小化的选择。而面对嫌疑人的抵赖，侦查人员不会轻言放弃，因为只有成功侦破案件才能为其带来正收益，而且，随着侦查工作的深入，侦查人员就越发不倾向于放弃，因为他们不愿承受之前投入转换为纯负收益的得不偿失。相应的，犯罪嫌疑人也明白侦查人员肯定不会善罢甘休，原则上讲，只要侦查投入足够大，就能够收集到充分的证据，因此与其承担接受从严处罚的巨大风险，不如尽早地用供述折抵应受的刑罚。

三、讯问博弈中侦查人员的优势策略

（一）调整嫌疑人在可选策略下的利益结构

博弈支付矩阵中的数字代表着参与人在所选策略下将获得的利益，获利的大小很有可能改变均衡解的位置，主导整个博弈的结局。因此，侦查人员应当从嫌疑人的利益着眼，将其供述和抵赖两种策略下的支付函数向着有利于讯问进行的方向调整。

1.优化嫌疑人对各种策略现实收益的评价

在讯问中，嫌疑人最关心的还是所判刑罚的轻重。侦查人员不是法官，无法决定量刑大小，但是法律也赋予了其一定的控制力，主要体现在自首、立功等刑事政策等。这些法律、政策规定得以在讯问中充分发挥作用的关键在于其可信性，嫌疑人只有相信侦查人员所宣讲的规则，才能真正调整自己的利益分配格局。甚至有学者提出，侦查人员和犯罪嫌疑人之间的信任危机是将导致博弈论运用受限[5]，为了解决这个问题，一方面，侦查人员要在法定范围内给出承诺或威胁，否则会损害侦查人员的权威，强化嫌疑人背离供述策略的动机；另一方面，法律和政策的可信性可以依靠执行反馈机制来证明，政策如约兑现的真实案例会形成一种潜在的“口碑效应”，最终影响本案嫌疑人对此抱有的信任程度，因此，侦查人员应从长远利益出发，努力促成各项承诺或威胁的兑现。

2.优化嫌疑人对各种策略心理收益的评价

传统经济学认为“理性人”是现实的、自私的，把为了江湖义气而拒绝供述等“感情用事”的行为归于不理性，但是人与人之间的情感、在某个群体中的地位、以及实现自己的“理想”也可以作为一种行为动机。这种特殊的动力机制是通过某种需要缺失所带给自身的不平衡感而驱动人采取某种活动的。嫌疑人如果不肯供述团伙的作案信息，可能是因为他需要通过这种“宁死不屈”来维持自己对于所在团伙的情感平衡，出卖朋友反而会造成不安。这种心理上的平衡与不平衡，与刑期多少等现实利益一样，都是嫌疑人的“得与失”，同样可以成为其效用的一部分，笔者称其为“心理支付函数”。为此，侦查人员应采取相应的对策，削弱嫌疑人对各种亚文化情感的心理预期，同时唤醒被其忽视淡漠的主流道德情感，比如揭露黑幕、夸大团伙内部矛盾；又如，共同回忆嫌疑人早年的事迹和荣誉、例举与其情况相似的例子，必要时可动用家庭和社会的力量进行规劝，等等。

除了情感因素，采取供述或抵赖的“心理支付函数”还取决于说谎带来的焦虑以及供述产生的尊严贬低。国外的理论实践就此提出了一些具体的操作方法，如侦查人员说出自己对嫌疑人实施该犯罪行为的原因的推测，从而为嫌疑人提供一个可以在道德上为自己开脱的理由；又如侦查人员通过加强与嫌疑人的目光交流，从而强化嫌疑人的心理压力以及想要摆脱这种局面的渴望，等等[6]。

3.引导嫌疑人在优化后的利益结构下进行理性推理

上述这些宣讲法律政策和实施心理策略的对策仅可以从“实体”上优化嫌疑人对供述和抵赖两种策略的利益评价，侦查人员还需要在“流程”上推动嫌疑人在这种优化了的利益结构下，进行理性推理。建构推理时，侦查人员可以建议嫌疑人跳出自己的处境，以旁观者的眼光审视自己，并把可选策略作为单独的情形分别进行分析：如果选择供述将会得到什么；如果选择抵赖将会得到什么。这样，更有助于嫌疑人进行客观分析，做出理性决策。

（二）增大嫌疑人对于定案概率的估计

理性的嫌疑人在决策前会缜密地分析侦查人员在没有口供的情况下是否能够定案，即其他证据是否已掌握的确实、充分。有学者把嫌疑人对于证据的认识概率引入博弈，即假定其确信证据已经充分的可能性为A%，认为只有当“供述的效用*A%-抵赖的效用*（1-A%）＞0①”时，嫌疑人才会选择供述[7]；还有的学者认为，只有当“对坦白从宽政策的信赖度*被从宽处理的获利+定罪证据可获得性*被从重处罚的损失-(1-定案证据可获得性)*被释放的获利＞0②”时，嫌疑人就会选择招认[8]（②式中“定罪证据可获得性”即为①中的A%）。这是有一定道理的，但是很多研究都证明，人是“厌恶损失”的。嫌疑人在面临可能被判处刑罚这种重大损失进行决策时，不一定会保持严格的理性，即①式和②式中左边的部分即使等于零或小于零，嫌疑人也很有可能选择供述。所以，笔者认为引入概率未必能得出模型的精确解，但是，嫌疑人对于定案概率的估计值确能影响其决策：估计值越大，对供述的倾向性越强。从这一点着眼，侦查人员可以采取以下对策：

其一，加大取证投入，掌握优势信息。取证确实会增大侦查人员的成本投入，不如直接依靠口供完善其他证据所得的效率高，但是，理性的侦查人员必须承认，取证成本的投入必然提高讯问效率，尤其是在嫌疑人侥幸心理较强、讯问陷入僵局的情况下，把工作重心向收集其他证据上转移无疑是上策。一个极端的情况就是，如果侦查人员对证据的掌握程度达到可以“零口供定案”的标准，那么其在讯问中的优势地位则是绝对的：只需要将证据一一出示，造成泰山压卵之势，促使获取嫌疑人供述如探囊取物一般。

其二，充分发挥证据对讯问的作用，减少博弈成本。侦查人员的博弈智慧主要体现在其如何能使证据效用最大化，即以较少的证据获得最多最真实的口供。为了提高证据使用的效率，侦查人员要隐藏证据“底牌”，多用双关语、含蓄词汇、反衬语、反话正说、体态语等，暗示嫌疑人，精选使用证据的时机[9]，捕捉嫌疑人说辞与证据矛盾的内容，揭穿其谎言。

其三，制造“证据已经确实充分”的错觉。即便在证据欠缺的情况下，侦查人员同样可以通过情境、语言等方面的策略，使嫌疑人形成“铁证如山”的判断，从而做出供述。比如，侦查人员经过周密部署，安排数辆警车开道、多家媒体云集，“大排场”地将嫌疑人押解到讯问地点，讯问过程中侦查人员沉着坚定，同时进行全程录音录像。在这样的情境下，嫌疑人将很可能因此感到罪证确凿，而迅速做出供述的决定。

（三）准确判断、控制讯问中的纳什均衡点

纳什均衡是一种非合作博弈的解，在纳什均衡的策略组合下，任何参与人单独改变策略都会遭受损失，因此是一种相对稳定的状态，博弈的目的即是为了达到纳什均衡。讯问中的纳什均衡点落在嫌疑人选择供述的结局上，既有其必然性，又有产生的规律性。侦查人员应当相信，有效的对策和持续的投入终将获得嫌疑人的供述，对于纳什均衡点应本着尊重其规律、静候其出现的态度。但与此同时，纳什均衡点的出现又有一定的“可控性”，侦查人员应当充分发挥主观能动性，进行捕捉和控制。

首先，敏锐观察嫌疑人在讯问中的细微变化。处于“临界状态”的嫌疑人必定在心理上进行着异常激烈的斗争，并通过相应的外部表现显露出来，如呼吸急促、肌肉抽动、额头冒汗、吞咽唾液、语音低而颤等，这些都是纳什均衡点出现前的典型征兆，如果侦查人员捕捉到了这些细节，那么说明嫌疑人的心理防线已经接近崩溃边缘，稍微加大攻势便可获得“均衡”。

其次，运用已有证据和逻辑推导，寻找嫌疑人“辩解”中的矛盾点。揭露嫌疑人的谎言是打击其拒绝供述心理的有效方法之一，谎言被揭穿的一刻也就是嫌疑人形成供述“临界状态”之时。揭露谎言要从寻找嫌疑人口供中的矛盾点入手，常见的有口供前后的矛盾、口供与其他证据的矛盾，以及口供与客观事实的矛盾。[10]

再次，选择突破口，设计纳什均衡方案。前面两种方法是被动的发现、寻找纳什均衡出现的迹象和条件，而设计均衡方案则是主动出击，创造条件“刺激”嫌疑人，逼迫其陷入临界状态。制定均衡方案的关键是选择突破口，即能够深深触动嫌疑人，使其由此放弃抵赖的事物，可以是嫌疑人最担心的事实和情节，也可以是其最放心、认为最保险的事实和情节，甚至可以是对其有特殊意义的一个日期，等等。

诚然，实践中的讯问活动复杂多变，博弈论难免存在局限性。比如，博弈论的前提是，要求参与者们专门为己、唯利是图，还要求其精打细算、永不出错，始终保持清晰的头脑，这显然是很难达到的。而且，讯问是一门艺术，依靠的是侦查人员丰富的经验和敏锐的直觉，单靠循规蹈矩地应用博弈论的操作规范无法达到讯问的最高境界。由此可见，博弈论并非万能宝典，博弈对策与其他讯问策略、方法一样，只是获取口供的众多路径之一。