唐丰鹤
近年来,人工智能参与司法审判是司法改革的重点方向之一,相关话题也成为学术热点。大多数研究总结了目前我国人工智能在司法审判中的应用现状,展望了进一步深化人工智能司法应用的愿景,并就一些难题提出了可能的解决方案,尝试性地探索了人工智能司法应用的极限。①相关研究可以参见潘庸鲁:《人工智能介入司法领域的价值与定位》,《探索与争鸣》2017 年第10 期,第101—106页;周尚君、伍茜:《人工智能司法决策的可能与限度》,《华东政法大学学报》2019 年第1 期,第53—66 页;高鲁嘉:《人工智能时代我国司法智慧化的机遇、挑战及发展路径》,《山东大学学报(社会科学版)》2019年第3期,第115—123页;马长山:《司法人工智能的重塑效应及其限度》,《法学研究》2020 年第4 期,第23—40 页;彭中礼:《司法人工智能中的价值判断》,《四川大学学报(哲学社会科学版)》2021年第1期,第160—172页;等等。这些研究形成的主流观点认为:一方面,虽然面临不少难题,但人工智能技术在司法领域将大有可为;另一方面,人工智能的司法运用有其限度,无法取代人类法官,因此,人工智能与人类法官将长期并存,各展所长。但比较可惜的是,现有研究到此戛然而止,留下一连串疑问:人工智能与人类法官将如何共存?各自的长处如何界定?如何实现两者的协同效应?对于这些问题,目前还缺少探索和尝试。本文尝试以当事人公正感为标准,衡量司法人工智能和人类法官的各自优势,在此基础上探讨两者如何协力的问题。这样做的理由是,公正感是当事人服判的最重要的心理指标,特别是对于输掉官司的当事人更是如此,而实现“胜负皆服”,一直是司法审判最崇高的理想之一,因为“胜负皆服”与案结事了、维护社会稳定的司法宗旨具有内在的关联和高度的相关性。围绕当事人公正感这一标准,我们可以对司法人工智能和人类法官各自的长处进行科学的评价,并根据人工智能在满足当事人公正感方面的优势,构建人工智能司法应用的具体场景,同时,根据人工智能在满足当事人公正感方面的不足,构建人类法官的司法着力点,从而描绘出司法人工智能与人类法官互补的图景。
对当事人公正感而言,首要的影响因素可能是案件结果。或者基于自己对法律的理解,或者基于自己以往的诉讼经历,或者基于对类似案件的了解,人们会对案件结果形成一种心理预期。如果最后判决的结果达到自己的预期或落差较小,就会感觉判决是公正的,反之则产生不公正感,这种对案件结果的关注属于实体公正的范畴。由于实体公正很大程度上取决于主体对审判结果的预期,而决定这种预期的又有很多不确定因素,所以,指望司法审判去满足当事人的诉讼预期是不切实际的。再者说,诉讼两造如果一方对结果满意,往往意味着另一方对结果是不满意的。实际上,由于主体预期往往期望过高,双方都不满意的情况也是经常出现的,所以,在诉讼这种特殊情境中,通过诉诸实体公正来满足当事人的公正感在多数情况下是不现实的。
与实体公正相对的是程序公正的概念。研究表明,实体公正与程序公正的关系在于,在实体结果相对有利的情况下,人们对程序公正并不太在意,但是在实体结果不如人意或不尽如人意的情况下,程序公正就扮演着至关重要的角色。比如说,认知心理学的研究表明,在公共政策制定过程中,程序公正和结果宜人性(outcome favorability)存在着显著的交互作用:当结果有利时,人们不关心程序是否公正;当结果不利时,程序公正可以显著加强人们对结果的接受。①Joel Brockner,Batia M.Wiesenfeld,“An Integrative Framework for Explaining Reactions to Decisions:Interactive Effects of Outcomes and Procedures”,in Psychological Bulletin,1996,Vol.120,No.2,pp.189-208;Wu Xuan-Na,Wang Er-Ping,“Outcome Favorability as A Boundary Condition to Voice Effect on People's Reactions to Public Policymaking”,in Journal of Applied Social Psychology,2013,Vol.43,pp.329-337.在司法领域,也有类似的发现:“感觉司法程序是正义的败诉方比感觉司法程序是不正义的败诉方对结果要满意;相比较地,程序是否正义则没有明显导致胜诉方在满意度方面的差异。”②苏新建:《主观程序正义对司法的意义》,《政法论坛》2014年第4期,第130页。这一结果也启示我们,在司法过程中,在实体结果很难令双方都满意的情况下,更多地关注程序公正才能达到理想的审判境界——令当事人双方胜负皆服。
然而,让情况变得复杂的是,到底哪些因素决定着人们对于程序公正的感受呢?对此,蒂波特(Thibaut)和沃克(Walker)认为控制感非常重要,“程序公正有很多其他因素,但程序公正的关键是控制权的分配”③John Thibaut,Laurens Walker,Procedural Justice:A Psychological Analysis,Hillsdale,NJ:Lawrence Erlbaum Associates,1975,p.2.。不过,蒂波特和沃克所谓的控制感更多指向结果控制而不是过程控制。④泰勒指出:“在他们最初提到的关于程序正义的控制理论中,蒂波特和沃克强调的是关于控制的工具主义的观点。他们认为争议各方关注的是处理的结果,因此也就会努力通过控制证据的提交来实现对结果的直接或者间接控制。”泰勒:《人们为什么遵守法律》,黄永译,北京:中国法制出版社,2015年,第234页。李文赛(Gerald S.Leventhal)则提出了影响深远的程序正义的六项检验标准或规则:(1)一致性规则(consistency rule)。一致性即对所有人一视同仁,程序面前人人平等,同时一致性还要求程序前后一致,不要朝令夕改。(2)消除偏见的规则(bias-suppression rule)。偏见既包括一般的成见和偏见,比如对有色人种带有偏见等,也包括决定者在其中有个人利益。消除偏见实际上要求中立性。(3)准确性规则(accuracy rule)。程序的决定者必须能够获得作为决定基础的相关信息,信息的获取必须是充分和准确的。(4)可矫正性规则(correctability rule)。可矫正性是指当事人有机会使不公正或者不准确的决定得到纠正或者修改,比如存在上诉或复议机制。(5)代表性规则(representativeness rule)。所谓代表性是指在裁决做出的各个阶段,与案件有利害关系的当事人都能够在一定程度上控制做出决定的过程和决定的结果。(6)伦理性规则(ethicality rule)。伦理性规则指的是决定做出的过程在多大程度上符合公正和伦理的一般标准,即程序要求不能与人们一般的伦理标准相冲突,比如在刑事案件侦查过程中不能运用刑讯逼供手段。①Gerald S.Leventhal,“What Should Be Done with Equity Theory?New Approaches to the Study of Fairness in Social Relationships”,in Social Exchange:Advances in Theory and Research,edited by Kenneth J.Gergen,Martin S.Greenberg &Richard H.Willis,New York:Plenum Press,1980,pp.40-46.在李文赛研究的基础上,泰勒(Tom R.Tyler)提出了程序正义的权威标准,包括:(1)代表性。和李文赛一样,泰勒的代表性实际指的是蒂波特和沃克所说的控制性,只不过泰勒强调的是过程控制而不是结果控制,过程控制很大程度上指当事人有机会提出自己的看法和证据,所以也可以叫参与或表达。(2)一致性。一致性是指当事人所受的对待以及他们所获得的处理结果与别人大致相同,即同案同判。(3)中立性。包括法律当局的动机是否尽力保持公正、是否诚信、是否存在偏见等指标。(4)裁决的质量。对应的是李文赛的准确性规则,即裁决是否建立在全面而准确的信息的基础上。(5)可矫正性。同李文赛一样,指上诉或复议机制等矫正机会。(6)伦理性。在泰勒这里,指礼貌地对待当事人和尊重当事人的权利。②参见泰勒:《人们为什么遵守法律》,黄永译,第207—208、241—243页。
在程序公正之外,影响公正感的另一个维度也值得注意,这就是组织心理学里所谓的互动公正(interactional justice)维度。比斯(Bies)和莫格(Moag)最早将互动公正单列出来,认为它与程序公正和结果公正是并列关系,按照他们的研究结果,互动公正包括四项原则:(1)实事求是原则,即决策者要诚实、公正、不能欺诈;(2)合理解释原则,即对决策提供合理的解释;(3)尊重原则,即尊重他人;(4)礼貌原则,即礼貌地对待他人。③Robert J.Bies,J.F.Moag,“Interactional Justice:Communication Criteria of Fairness”,in Research on Negotiations in Organizations(Vol.1),edited by R.J.Lewicki,B.H.Sheppard &M.H.Bazerman,Greenwich,CT:JAI Press,1986,pp.43-55.在比斯等人研究的基础上,格林伯格(Greenberg)将互动公正进一步解释为包括人际公正和信息公正两种类型,前者是指程序互动中给予对方礼貌和尊重,后者是指程序互动中向对方传递应有的信息,并作出必要的解释。④J.Greenberg,“The Social Side of Fairness:Interpersonal and Informational Classes of Organizational Justice”,in Justice in The Workplace:Approaching Fairness in Human Resource Management,edited by R.Cropanzano,Hillsdale,NJ:Lawrence Erlbaum,1993,pp.79-103.对照互动公正和程序公正的相关说法可以发现,程序公正的心理学研究已经注意到了人际互动的公正性问题,并将其纳入程序公正中加以考虑。比如泰勒的伦理性原则就是典型的互动公正维度,而泰勒的中立性原则实际上也吸收了互动公正的看法,不过,对于那些对程序做严格理解的人来说,类似泰勒的处理也许并不合适,因为除非把整个事件过程都理解为程序,否则有些互动公正的问题是处在程序之外的,并且,即使把整个事件过程都理解为程序,类似合理解释这样的原则在泰勒的理论中也没有被提及。
综合上述程序正义心理学、组织公正心理学的相关研究成果,可以认为,当事人公正感的影响因素主要包括:(1)决策结果;(2)决策程序的公正性;(3)人际互动的公正性。其中,决策结果虽然重要,却可能不适合用来评价司法决策,这是由于司法决策多数时候是一场零和游戏,法官很难给到令双方都满意的结果。因此,司法公正感主要应该关注程序公正和互动公正。按照泰勒等人的研究成果,程序公正和互动公正的评价标准包括一致性、中立性、准确性、可矫正性、控制感、尊重感、合理解释等。其中,对于可矫正性原则,由于不管是人类法官的决策,还是人工智能的决策,又或者人工智能辅助人类法官的决策,在程序设计上都毫无疑问地要求满足可矫正性原则。因此,在审查人工智能审判与人类法官审判带给当事人公正感的差异时,可矫正性原则就不需要被考虑在内。这样一排除下来,司法公正感的影响因素就只剩下一致性、中立性、准确性、控制感、尊重感、合理解释六项。
人工智能-人类二元决策的公正感知研究主要探讨了人工智能与人类作为决策主体时,个体的公正感知差异。①蒋路远、曹李梅、秦昕等:《人工智能决策的公平感知》,《心理科学进展》2022年第5期,第881页。来自心理科学的实验研究表明,一方面,人工智能与人类在满足个体的公正感方面各擅胜场,其中,人工智能因为在中立性、一致性方面表现较人类出色而让当事人感觉较为公正;另一方面,又因为在准确性、控制感、尊重感和合理解释方面表现不如人类而让当事人感觉较不公正。
1.一致性
一致性意味着程序将以相同的方式被适用于所有人。在这一点上,人工智能相比人类具有明显的优势。实际上,人工智能是基于算法运作的,决定算法结果的主要是输入的数据和运算的逻辑。在人工智能具有可解释性的大前提下,②可解释的人工智能(Explainable Artificial Intelligence)是人工智能发展的方向,相关研究可以参见刘艳红:《人工智能的可解释性与AI的法律责任问题研究》,《法制与社会发展》2022年第1期,第78—91页。运算逻辑大致上是恒定的、可解释的,所以,在输入数据相同的情况下,得到的结果也必定是稳定的、一致的。相比之下,人类决策虽然也追求一致性,但是由于人类决策受到诸多因素的影响,其中诸如情感、直觉、启发式思考以及变幻莫测的外部环境,这些因素本身都是不可预测、难以解释的,所以人类的决策在一致性方面逊色于人工智能几乎是必然的。这一点也得到了有力的证据支持,程序正义心理学和组织正义心理学的许多研究都已表明,相比人类决策,人工智能或算法系统具有更高水平的一致性。比如说,在阿奇科兹(Acikgoz)等人的一项研究中,研究人员发现人工智能管理的面试在一致性维度上得分高于人工面试,虽然在其他维度上人工智能的表现不如人意。③Yalcin Acikgoz,Kristl H.Davison,Maira Compagnone,Matt Laske,“Justice Perceptions of Artificial Intelligence in Selection”,in International Journal of Selection and Assessment,2020,Vol.28,Issue 4,pp.399-416.一致性一直被认为是影响公正感的一项核心指标,这是因为,渴望得到他人的尊重、与他人(特别是强者)保持平等是人性深处的渴求,而获得尊重和平等的主要方式,就是得到他人的一致对待。也正是因此,一致性与公正感之间存在着显著的正相关关系,更高的一致性往往会带来更高的公正感。而相比人类决策,人工智能决策具有更高的一致性,因而也会带来更高的公正感。比如说,郎格(Langer)等人的研究发现,在面试过程中,求职者认为算法筛选相比人类面试具有更高的一致性,因而会产生更加公正的感觉。④Markus Langer,Cornelius J.König,Maria Papathanasiou,“Highly Automated Job Interviews:Acceptance Under the Influence of Stakes”, in International Journal of Selection and Assessment,2019,Vol.27,Issue 3,pp.217-234;Markus Langer,Cornelius J.König,Diana Ruth-Pelipez Sanchez,Sören Samadi,“Highly Automated Interviews:Applicant Reactions and The Organizational Context”,in Journal of Managerial Psychology,2020,Vol.35,Issue 4,pp.301-314.
2.中立性
中立性是指在当事人之间保持不偏不倚的立场,不因个人偏见和个人利益而偏向于其中一方,其中个人偏见又可以分为一般偏见和情感偏向。首先,就一般偏见而言,关于人工智能和自动决策认知的社会科学理论指出,平均而言,人们更喜欢机器的判断或建议而不是人类,因为人们倾向于认为机器是中立的。①Theo Araujo,Natali Helberger,Sanne Kruikemeier,Claes H.de Vreese,“In AI We Trust?Perceptions About Automated Decision-Making by Artificial Intelligence”,in AI &Society,2020,Vol.35,pp.611-623;Jennifer M.Logg,Julia A.Minson,Don A.Moore,“Algorithm Appreciation:People Prefer Algorithmic to Human Judgment”,in Organizational Behavior and Human Decision Processes,2019,Vol.151,pp.90-103;S.Shyam Sundar,“The MAIN Model:A Heuristic Approach to Understanding Technology Effects on Credibility”,in Digital Media,Youth,And Credibility,edited by M.J.Metzger and A.J.Flanagin,Cambridge:MIT Press,2008,pp.73-100;S.Shyam Sundar,C.Nass,“Source Orientation in Human-Computer Interaction:Programmer,Networker,or Independent Social Actor”,in Communication Research,2000,Vol.27,No.6,pp.683-703.比如说,米勒(Miller)和凯泽(Keiser)的街头实验表明,黑人公民在遇到白人警察执法时,即黑人觉得自己在执法机构中缺乏消极代表(passive representation)时,他们会认为闯红灯摄像机会比警察更加公平,也更加倾向于选择摄像机自动执法,其中主要原因就是黑人公民认为白人警察不是完全中立的。②Susan M.Miller,Lael R.Keiser,“ Representative Bureaucracy and Attitudes Toward Automated Decision Making”,in Journal of Public Administration Research and Theory,2021,Vol.31,Issue 1,pp.150-165.其次,就情感偏向而言,虽然情感与公正感之间的关系是复杂的,一方面,人们认为缺乏情感会导致不公平,在海尔伯格(Helberger)等人的研究中,有被试指出:“人类的决策更公平,因为人类有情感。情感对于决策至关重要,人不应该丢失同情心。如果计算机或某种形式的人工智能,如机器人,取代了法官,那么,判决将会非常无情,我们的社会也将变成没有人性的无情社会。”不过,也有被试指出,“计算机才是最公平的,因为没有感情在作祟”③Natali Helberger,Theo Araujo,Claes H.de Vreese, “Who Is the Fairest of Them All?Public Attitudes and Expectations Regarding Automated Decision-Making”,in Computer Law &Security Review,2020,Vol.39,p.8.。在该研究所收集的585个明确的回答中,21.9%的人认为人工智能因缺乏情感而更公平,9.4%的人表示人类会更公平,因为他们有情感。尽管存在不同的观点,但是海尔伯格等人的研究表明,与人类决策相比,包括人工智能在内的自动化决策(ADM)被认为更加公正,而这种公正感的一个关键来源是“算法系统的客观性和据称对人为操纵的免疫力”④Natali Helberger,Theo Araujo,Claes H.de Vreese, “Who Is the Fairest of Them All?Public Attitudes and Expectations Regarding Automated Decision-Making”,in Computer Law &Security Review,2020,Vol.39,p.11.。最后,对于决策是否存在个人偏见和个人利益而言,一个最根本的防范和监督机制是程序的透明性。如果程序具有足够的透明性,哪怕决策者在其中偷偷植入了个人偏见或输入了个人利益,也难保不会被发现。而对于程序的透明性,尽管人们倾向于认为,人类的决策是透明的,而算法是不透明的,但是克莱恩伯格(Kleinberg)等人的研究表明,在法律歧视问题上,情况刚好是相反的,算法可以让我们清晰地追踪到决策时所依赖的元素和动机。因此,相比人类决策,算法其实提供了更好的机会来发现歧视。⑤Jon Kleinberg,Jens Ludwig,Sendhil Mullainathan,Cass R.Sunstein,“Discrimination in The Age of Algorithms”,in Journal of Legal Analysis,2018,Vol.10,pp.113-174.
1.准确性
社会是复杂的,决策需要全面考虑具体的情境,但是人工智能技术不可能完全呈现复杂的案件情境和社会情境,而只能提取一些重要因素进行考量,信息的片面性意味着信息是不准确的,进一步地,决策建立在不准确信息的基础上,又会导致裁决质量低下和当事人公正感降低。纽曼(Newman)等人的研究表明,虽然算法可以消除人类决策中的某些偏见,但那些被评估的人可能会认为这个过程是简化的,导致他们认为某些重要信息或背景情况没有被考虑在内,这降低了他们的公正感。⑥David T.Newman,Nathanael J.Fast,Derek J.Harmon,“When Eliminating Bias Isn’t Fair:Algorithmic Reductionism and Procedural Justice in Human Resource Decisions”,in Organizational Behavior and Human Decision Processes,2020,Vol.160,pp.149-167.尼亚特加勒(Nagtegaal)对109 名荷兰公职人员和126 名英国公职人员进行的两项调查实验表明,当算法针对复杂性较低的实践作出决定时,当事人的公正感会增加,而对复杂性较高的实践,相比算法自动决策,人类介入决策会让当事人觉得更公正。①Rosanna Nagtegaal,“The Impact of Using Algorithms for Managerial Decisions on Public Employees’ Procedural Justice”,in Government Information Quarterly,2021,Vol.38,Issue 1,pp.1-10.
2.控制感
控制感即表达意见的渠道和机会,也就是李文赛和泰勒等人所说的代表性。朗格等人的研究发现,在面试程序中,与视频会议面试相比,高度自动化面试会让被试减少控制感,这种缺乏控制的感觉在自动化的高风险面试中更为明显。高度自动化面试过程被认为缺乏互动,信息交换不够,高度自动化面试过程和自动化的决策过程让被试担心无法发挥其个人影响力,而在一般的视频的情况下,申请人可以通过讨好、微笑、点头等方式来影响面试官及其决策。②Markus Langer,Cornelius J.König,Maria Papathanasiou,“Highly Automated Job Interviews:Acceptance Under the Influence of Stakes”, in International Journal of Selection and Assessment,2019,Vol.27,Issue 3,pp.217-234.
3.尊重感
程序正义要求良好、有效的交涉,从程序正义中分化出来的互动正义要求人们受到礼遇和尊重。③Yalcin Acikgoz,Kristl H.Davison,Maira Compagnone,Matt Laske,“Justice Perceptions of Artificial Intelligence in Selection”,in International Journal of Selection and Assessment,2020,Vol.28,Issue 4,pp.399-416.但是人工智能作为冷冰冰的机器,总是按照既定的算法来决策,与当事人互动不够。互动性不足的结果,就是当事人觉得自己没有得到足够的尊严和尊重。西蒙斯(Simmons)指出,算法在刑事司法系统中的使用引发了正当性忧虑,如果当事人仅仅被警察或法官告知,他们被决定逮捕或保释,仅仅是因为计算机的决定,那这些受决定影响的当事人会因为缺乏互动而产生低水平的人际尊重感。④Ric Simmons,“Big Data,Machine Judges,and the Legitimacy of the Criminal Justice System”,in UC Davis L.Rev.,2018,Vol.52,pp.1067-1118.王(A.J.Wang)的研究结果也表明,人工智能司法决策因为缺乏对当事人的尊重,所以被认为没有人类法官公正。⑤See A.J.Wang,“Procedural Justice and Risk-Assessment Algorithms”,available at SSRN:https://ssrn.com/abstract=3170136.
4.合理解释
人工智能在信息全面性方面的表现已经很糟糕,在对决策作出合理解释方面,也因为互动性方面的天然不足而表现糟糕。诺布尔(Noble)等人的研究发现,适当构建的人工智能在效率、一致性等方面表现出色,但是,当涉及程序和人际正义的其他维度时,人们并不信任算法,在AI 面试过程中,人工智能与接受面试者双向沟通不畅,AI 提问的适当性(propriety of questions)存在问题,几乎无法作出有效回应。⑥Sean M.Noble,Lori L.Foster,S.Bartholomew Craig,“The Procedural and Interpersonal Justice of Automated Application and Resume Screening”,in International Journal of Selection and Assessment,2021,Vol.29,Issue 2,pp.139-153.
可以看到,在满足当事人公正感方面,人工智能与人类各有千秋,并且两者之间还具有很强的互补性,人类的弱点恰是人工智能的长处,人工智能的弱点也恰好是人类的长处。职是之故,一个很自然的想法是让两者结合,各自扬长避短,实现一加一大于二的效果。
上述实验研究成果显示,相较于人类,人工智能在中立性、一致性方面表现出色,因此,可以合理利用人工智能在这两方面的优势来提升当事人的公正感。
中立性意味着没有个人偏见、情感偏向和个人利益涉入其中,中立性其实就是无偏向性的意思,而无偏向性,恰恰就意味着公正(impartiality)——这正是司法最根本的追求。人工智能可以利用自己在中立性方面的优势,实现司法决策的去偏私化。
1.利用人工智能纠正人类法官的认知偏差
认知与社会心理学的研究表明,人类思维中存在一些根深蒂固的认知偏差,比如易得性启发(availability heuristics)、代表性启发(representativeness heuristics)、锚定效应(anchoring effect)、确认偏差(confirmation bias)、后见之明偏差(hindsight bias)、自我中心偏差(egocentric bias)、框架效应(framing effect)、刻板印象(stereotype)等,这些偏差系统性地存在于人类的认知过程中。在司法过程中,这些偏差自然也不会凭空消失,实际上,上述8 种认知偏差,恰恰就是司法过程中最常见的偏差类型。①See Adebola Olaborede,Lirieka Meintjes-Van Der Walt,“Cognitive Bias Affecting Decision-Making in the Legal Process”,in OBITER,2020,Vol.41,No.4,pp.806-830.而作为根深蒂固的思考程式,即使人们充分认识到这些偏差的危害后果,也难以有效地改正,比如如果刻板印象是由于性别不平等、区域发展不均衡引起的,那就需要通过改变性别不平等、区域发展不均衡来改变刻板印象,②参见迈尔斯:《社会心理学纲要》(第6版),侯玉波、廖江群等译,北京:人民邮电出版社,2014年,第280页。而这是很难的,甚至不可能做到。再比如后见之明偏差,心理学家也是想尽各种办法都无法有效纠正。③See Kim A.Kamint,Jeffrey J.Rachlinskil,“Ex Post ≠ Ex Ante:Determining Liability in Hindsight”,in Law and Human Behavior,1995,Vol.19,No.1,pp.89-104.但正是在这里,人工智能的优势得以显现。在当下,所谓的算法本质上是一些决策模型,这些决策模型赋予一些影响因子以不同的权重,由此形成模型并进行决策,比如COMPAS系统即是如此,COMPAS基于各种犯罪学理论,比如犯罪一般理论、紧张理论、日常活动理论、社会混乱/亚文化理论、控制/约束理论、犯罪机会理论等,把每一种犯罪学理论所揭示的重要因素当作因子,由此通过科学模型对犯罪人的风险进行评估。④参见张振声:《犯罪人风险行为评估技术新进展——COMPAS系统评介》,《辽宁公安司法管理干部学院学报》2022年第3期,第5—6页。按照这种决策模型,只要其赖以建立的理论本身没有内置偏差,那么,其决策就不受常见的认知偏差的影响。不过,需要警惕的是,如果决策模型自身内置偏差,那么,决策也就不可能保持科学和中立,针对COMPAS 系统的主要争议正在于此。调查机构发现,它据以决策的一些因素涉及种族歧视。另外,当人工智能片面追求与人类决策的一致性并通过机器学习来达到这一点时,中立性风险也就更大了。因为人类的决策本身就可能自带偏差,机器学习追求决策与人类一致,那也就表明这种偏差也必须被学习进去,这样,人工智能相比人类在中立性方面的优势就不存在了,这也是为什么当COMPAS系统引入深度学习功能时,又引发争议的原因。⑤参见张振声:《犯罪人风险行为评估技术新进展——COMPAS系统评介》,《辽宁公安司法管理干部学院学报》2022年第3期,第6页。人工智能发展的一个误区就是太追求与人类决策保持一致,而不是发挥自己的独特优势,不过,这些也许只是人工智能发展道路上不可避免的试错行为。我们相信,在心理学家、法律工作者、人工智能技术开发人员的共同努力下,可以开发出不带认知偏差的算法系统,或者能够有效摈弃这些认知偏差的机器学习系统。
2.利用人工智能纠正人类法官的情感偏向
在司法过程中,法官作为一个常人,当然也有七情六欲,也会有情感的表达与释放。来自“情感与法律”的交叉学科研究已有充分的证据表明,法官的情感将会影响司法决策,不同的情感造成的影响并不一样,比如说,愤怒增加了指责和惩罚他人有害行为的倾向,同情则会导致受到同情的一方获得更好的判决结果。①参见唐丰鹤:《司法决策过程中的情感效应》,《交大法学》2020年第3期,第60—63页。需要说明的是,法官正常的情感表达和释放,以及随之而产生的对司法判断和决策的影响,其实是有益的。比如说,法官审理一个类似“唐山打人事件”的案子,对于歹徒的无理打人行为产生“义愤填膺”的感觉是健康心灵的一种自然反应,正是“义愤”这种道德情感激发了法官伸张正义的道德动机,并作出了正确的司法决策,正义由此实现。在这种情况下,不“义愤填膺”,反而是心灵不健康的一种表现,此即鲁迅所批判的“麻木”。然而,也并不是法官所有的情感表达都是正面的,在法庭上,不能接受的是法官带进司法过程的案件无关情感、错误情感,以及法官的一些病态情感。②参见唐丰鹤:《司法过程中的法感情——基于心理学情绪理论的分析》,《四川大学学报(哲学社会科学版)》2021年第5期,第190—191页;唐丰鹤:《法庭上的情感及其规制》,《司法智库》2021年第2卷,厦门:厦门大学出版社,2022年,第53—74页。案件无关情感即法官从其他地方带来的情感,比如法官因为早餐没有吃好而心情不佳,由此影响到当事人的权益无论如何是说不过去的。人的情感常常有事实支持,比如甲乙约会,乙无故爽约而甲生气,这种生气便是有理由的,也就是努斯鲍姆(Martha Nussbaum)所说的“正确情感”;错误情感即基于错误事实的情感,比如甲乙约会,甲因记错时间扑了个空而迁怒于乙,这种情感便是没道理的,即努斯鲍姆所说的“错误情感”③Martha Nussbaum,The Therapy of Desire:Theory and Practice in Hellenistic Ethics,Princeton:Princeton University Press,1994,pp.80-81.,法官基于错误情感而作出有影响力的判断和决策,也是不能被接受的。最后是病态情感,病态情感是由于心理不健康而产生的情感,比如反社会人格者日常仇视社会,这种情感当然也不能被接受。只是这些情感虽然很容易证明不应当被接受,但是实践中却很难避免,人的情感状态是不稳定的,法官也不能例外,比如法官可能也无法很好地区分与案件有关的情感及无关的情感并屏蔽后者,法官也可能不能冷静地区分建立在错误事实之上的情感与建立在正确事实之上的情感,至于病态情感,更是亲历者自身无法认识和克服的。
相比人类法官,人工智能的一个优势就是它的机器属性,这在当事人看来,意味着它是缺少情感甚至是没有情感的,因为情感一般情况下意味着偏向,缺少情感或没有情感,也就意味着没有偏向,而没有偏向,一般情况也意味着会更加公正。这里值得讨论的是,人工智能不仅没有案件无关情感、错误情感,以及法官的一些病态情感,甚至也没有在人类看来正常的、正确的情感。没有前者,毫无疑问是一件好事,因为这些情感偏向从任何角度看都是不公正的根源,在人类法官无法有效改正情感偏向的情况下,人工智能决策提供了一个绝佳的解决方案;但是没有后者,可能意味着人工智能无法有效地决策,毕竟一些正常的、正确的情感不仅意味着人类法官进行了正确的评估,而且还构成了他伸张正义的道德动机。在此,在承认情感与理性评估具有一致性并且构成道德动机的情况下,情感,哪怕是正常情感,对于司法人工智能来说,都并不是必不可少的,只要人工智能能够对事实进行正确地评估,机器情感就是不必要的。也就是说,机器情感可能对于一些提供情感服务和需要情感反应的人工智能,比如提供养老、陪伴、交流之类服务的人工智能是必需的,对于旨在提供中立性的司法服务来说,则并非如此。当然,如果人工智能的情感学习是未来趋势的话,具有正常情感的人工智能也不是坏事,但是切记机器学习时必须阻断案件无关情感、错误情感以及病态情感。
3.利用人工智能限制人类法官的利益倾向
司法审判过程中,常见的法官利益倾向包括党派利益倾向、性别利益倾向、身份利益倾向。党派利益倾向指的是法官基于自己的党派属性或利益进行司法决策,这一点在美国的司法过程中很常见。美国法官常常基于自己的党派倾向投票,由此产生了预测美国法院司法决策的所谓“态度模型”(attitudinal model)。①关于态度模型可以参见Segal &Spaeth,The Supreme Court and the Attitudinal ModelRevisited,New York:Cambridge University Press,2002.性别利益倾向指的是法官基于自己的性别属性进行司法决策,比如说,在有关女性主义议题的案件中,女性法官投赞成票的概率要比男性法官更高。②See Christina L.Boyd,Lee Epstein,Andrew D.Martin,“Untangling the Causal Effects of Sex on Judging”,in American Journal of Political Science,2010,Vol.54,No.2,p.390.身份利益倾向指的是法官基于自己所属的群体利益进行司法决策,比如法官可能属于白人、黑人,特定民族、特定社群的一员,因此会基于这些特定的身份属性作出司法决策。
由于司法回避制度只能屏蔽法官的个人利益倾向,却拿这一类的群体利益倾向没有办法,因此,就需要创制其他屏蔽机制,而司法人工智能似乎为这一难题的解决带来了曙光。司法人工智能在设计其决策模型时,就可以有意识地排除一些常见的利益倾向。比如说,对于上述法官的党派利益倾向、性别利益倾向、身份利益倾向等,可以通过实证研究揭示出诸如党派利益、性别利益、身份利益等因素影响司法决策的具体权重。然后,在对司法决策的算法模型进行设计时,对这些影响因素进行去权重化处理,或者通过事后检验的方式,对司法决策的算法模型进行不断优化,直到无法检验到明显的利益倾向偏差为止。这些方法都可以得到一个相对来说比较中立的结果,从而避免决策者简单地按照自己的党派属性、性别属性、身份属性来做出攸关他人利益的司法决策的问题。
司法审判中的一致性包括案件定性的一致和定量的一致,前者指对事实的法律定性要一致,同样的行为不能有的判有罪有的判无罪,也不能有的判盗窃有的判抢劫,后者指对事实的处罚要一致,同样的行为、同样的情节不能有的判无期有的判有期,也不能有的判3 年有的判10 年。由于人工智能在决策一致性方面的出色表现,可以考虑运用人工智能提升案件定性一致性水平和定量一致性水平。
1.合理运用人工智能提升案件定性一致性水平
法律适用的一致性首先表现为案件定性的一致性,通常所说的“同案同判”或“类案类判”的司法要求即主要指此而言。“同案同判”或“类案类判”本是司法活动的一项最低要求,在英美法里,通过“识别”“比较”等先例技术来实现“类案类判”,取得了不错的效果。而在大陆法系国家中,虽然所有法官依据的都是同样的法律条文,但是由于法官对法律的理解不同,由此导致了“同案异判”现象。四川省高级人民法院、四川大学联合课题组指出:“事实相同的案件在不同法院甚至同一个法院的不同法官中可能出现大相径庭的判决,由此导致的裁判不统一现象严重损害了法律权威,成为当代中国司法实践亟待解决的重要问题。”③四川省高级人民法院、四川大学联合课题组:《中国特色案例指导制度的发展与完善》,《中国法学》2013年第3期,第35页。为了解决这一实践难题,我国司法审判主管部门其实早就通过制定统一的司法解释、召开审判业务会议、进行内部指导等措施来对相关案件进行协同,近年来作出的制度努力又包括了“指导性案例制度”“类案检索制度”等。考虑到传统的司法解释路径在统一法律适用上效果不能满足期望,而“指导性案例制度”虽然名义上比较靠近先例制度,实际上却更近似某种类型的司法解释,“指导性案例制度”其实是统一司法解释思路的延续,其统一法律适用的效果是可以预见的。在这种情况下,我们理应对囊括更多判例,其中也包括指导性案例的“类案检索制度”寄予厚望。对于“类案检索”,最高人民法院于2017 年印发《最高人民法院司法责任制实施意见(试行)》,其中提出:“承办法官在审理案件时,均应依托办案平台、档案系统、中国裁判文书网、法信、智审等,对本院已审结或正在审理的类案和关联案件进行全面检索,制作类案与关联案件检索报告。”④参见《最高人民法院司法责任制实施意见(试行)》第39条规定。[法宝引证码]CLI.3.300188随后又于2018 年上线了“类案智能推送系统”,向办案法官推送类案辅助判决。在地方上,各种类案推送系统也如雨后春笋一般涌现,比如北京、安徽、贵州、重庆、浙江、江苏等地法院都研发启用了类似的类案智能推送系统。①比如贵州省高院的“类案裁判标准数据库”、重庆市法院的“民事类案智能专审系统”、苏州市中院的“案件裁判智能研判系统”、浙江金华市中级人民法院的“类案大数据分析平台”、北京互联网法院的“知识地图”系统,等等。不过,由于目前对类案的收集和标记工作还不完善,人工智能对类案的筛选和推送还不够精确,在实践中大量不准确的推送造成法官负担增加的现象,对此,还应从类案的“标签化”、人工智能的深度学习等方面入手,充分挖掘人工智能类案推送系统的潜力,真正实现高效推送、精准推送。
2.合理运用人工智能提升案件定量一致性水平
法律适用的一致性还表现为案件定量的一致性。在实践中,有些定性相同的案件,在具体定量上却差异甚大,比如白建军对1107 个案件实证分析发现,在案情相同的情况下,我国法院的判决存在着地区差异,同一地区则存在着法院之间的差异,同一法院也存在着个体之间的差异。②参见白建军:《同案同判的宪政意义及其实证研究》,《中国法学》2003年第3期,第133—142页。司法体系为了控制案件定量上的不一致、不统一现象,也发展出了一些制度来应对,比较有名的如美国司法系统采用的刑事案件《量刑指南》,结合具体情况对法官量刑进行指导。我国也有类似的《量刑指南》,2021年6月,最高人民法院、最高人民检察院发布了《关于常见犯罪的量刑指导意见(试行)》,规定了复合模式的调节程式和“比例固定”的调节幅度模式,对法院量刑进行规范。③参见文姬:《基准刑调节方法实证研究》,《法学》2020年第2期,第172—192页。虽然这些制度已经显示出了立竿见影的良好效果,但是仍然落后于社会对法院定量一致性的期望,特别是行政与民商事案件,因为缺乏国家层面的统一定量标准,造成法官的自由裁量权过大,为人情说项、司法腐败留下了空间,也影响着民众对司法的公正感。但是这个问题并不是无解的,特别是在人工智能的助力下更是如此。通过对定量影响因素进行标注,并赋予不同的权重,得到海量司法案例大数据的投喂后,人工智能完全有能力对案件定量提供较为一致的标准,从而摆脱案件定性一致、定量却差别悬殊的状态。
如前所述,相较于人工智能,人类在准确性、控制感、尊重感和合理解释方面表现出色,因此,可以合理利用人类法官在这些方面的优势来提升当事人的公正感。
人工智能决策为人所诟病的一点是,它按照某种算法规则来运行,而算法只会考虑那些特定的因素,除此之外的其他因素概不考虑,这被认为是“无情”和“片面”的。对当事人来讲,出于某种“自我中心”意识或“自我中心偏差”④自我中心偏差是司法过程中常见而又极其顽固的一种偏差,参见Daniel S.Medwed,“The Good Fight:The Egocentric Bias,The Aversion to Cognitive Dissonance,and American Criminal Law”,in Journal of Law and Policy,2013,Vol.22,No.1,pp.135-145;Ian Weinstein,“Don’t Believe Everything You Think:Cognitive Bias in Legal Decision Making”,in Clinical Law Review,2003,Vol.9,pp.783-834.,他们总是认为自己是特殊的,自己的行为是有理由的,法律试图将他的行为归入某种“通例”,但是当事人则倾向于认为自己这样是“情有可原”甚至是“迫不得已”的,将其归入某种“通例”是不合适甚至是不公平的。如果法律能够设身处地地考虑他的处境和事件的前因后果,下结论时能够考虑更多的因素,可能对他来说会更公平。诸如此类的思维方式是人之常情,很多案件中也能发现类似的表述。这样,当事人对于全面性的强烈需求与人工智能对于片面性的执着之间就产生了一种不可调和的矛盾。要解决这一矛盾,除了寄希望于未来高级人工智能的深度学习能力外,在现阶段将人工智能定位于司法辅助工具的前提下,就需要人类法官的介入,人类法官可以从下述方面入手来回应当事人对于全面性的需求:(1)通过与当事人面对面的沟通,听取他们对于案件的看法和对自己行为的辩解,提取其中具有法律意义的因素,帮助人工智能辅助决策系统获得更为全面的决策信息,从而作出更加准确的决策。(2)对于当事人表达的在情理之中却没有法律依据的诉求,法官可以根据自己的自由裁量权,对这些诉求作出回应。(3)如果法官认为当事人提出的诉求无法得到法律的回应,也无法得到情理的支持,法官可以对当事人说明理由。总之,相比冷冰冰的机器,人类法官具有“共情”优势,人类法官可以设身处地地考虑当事人所处的情境,对他的行为抱以同情的理解,并全面考虑他的诉请和理由,作出更加符合案件情况的决策。
程序正义的心理学研究表明,控制感是影响当事人公正感的关键因素,而在当事人看来,人工智能只是冷冰冰的机器,按照既定的算法决策,自己无论说什么、做什么似乎都不能影响到它,这就必然导致一种控制无力感。在人工智能介入司法审判的前提下,要提升当事人的公正感,必须对审判程序进行合理的改造。由于控制感包括过程控制和结果控制,所以改造的方向有两个:一是可以提升当事人对司法审判的过程控制。这里所谓的过程控制,主要是指当事人有机会表达自己的意见,即发出声音。研究表明,相比纠问制程序,人们对对抗制程序的公平评分更高,究其原因,“关键的心理因素导致对对抗制程序更高的公平性评分,因为这类程序赋予当事人更多的‘过程控制’,也就是更多的表达其意见、展示其证据的机会”①艾伦·林德、汤姆·泰勒:《程序正义的社会心理学》,冯健鹏译,北京:法律出版社,2017年,第28页。。在人工智能介入司法审判的前提下,人类法官应该尽可能允许当事人就案件事实和法律问题进行充分的表达,总结提炼其表达的核心观点和要素。如果认为这些要素是影响案件定性或定量的相关因素,应该将其输入人工智能辅助决策系统中。二是可以提升当事人对司法审判的结果控制。当事人对司法审判的结果控制是指当事人合理合法的意见必须被听取,相关要素进入人工智能辅助决策系统后,必须切实对结果产生影响。这里有两个问题必须注意:其一,提升当事人对司法审判的结果控制,并不是说司法审判一定要产生对当事人有利的结果,虽然有利的结果能够强化当事人的公正感,但是司法决策作为一种零和游戏,同时对双方有利是难以做到的,有人胜诉就有人败诉,通过结果宜人性来满足双方当事人的公正感是行不通的。其二,算法产出的结果必须在总体上是公平公正的。福尔杰(Folger)的系列研究表明,当某个程序允许一定程度的表达,表达也能起到有限的作用,但是最终结果整体上仍然显著不公正的话,参与者对程序的公正感受特别糟糕,甚至比那些完全不允许表达的程序感受更糟糕,福尔杰将此一现象称为程序的“挫败效应”(frustration effects)②Robert Folger,“Distributive and Procedural Justice:Combined Impact of ‘Voice’ and Improvement on Experienced Inequity”,in Journal of Personality and Social Psychology,1977,Vol.35,No.2,pp.108-119;Robert Folger,David Rosenfield,Janet Grove,Louise Corkran,“Effects of ‘Voice’ and Peer Opinions on Responses to Inequity”,in Journal of Personality and Social Psychology,1979,Vol.37,No.12,pp.2253-2261.。“挫败效应”的出现,可能是因为该程序允许有限的表达和对结果有限的调整,给了参与者以希望,产生了某种心理预期,在看到最终结果仍然不公正时,这种心理预期被打破了,因而“恼羞成怒”,对程序的公正感受很糟糕。无论如何,程序的“挫败效应”表明,当程序“徒有其表”,实际上不起作用时,人们对程序正义产生了厌恶感。在实际生活中,人们对一些听证、选举程序信任度不高,懒得参与,就是这种“挫败效应”的一个表现。③参见冯健鹏:《主观程序正义研究及其启示》,《环球法律评论》2018年第6期,第117—131页。程序的“挫败效应”也启示我们,在提升当事人对司法审判的过程控制的同时,必须保证决策结果的公正性,否则,表达甚至会起反作用。
互动公正研究指出人际交互中的礼貌、尊重感、尊严感是当事人公正感的重要来源,人类法官可以发挥其在尊重感方面的优势。比如庭审中要给予当事人必要的礼貌和充分的尊重。一些优秀法官虽然没有专门学过心理学知识,但是他们在职业实践中,凭着直觉和经验,已经发现了礼貌和尊重对于司法审判的意义。如全国模范法官黄学军在接受记者采访时说:“尊重可以让当事人感受到法官的真诚,对解决问题有不可低估的帮助,是使当事人服判的一个重要因素。”①中共中央宣传部宣传教育局、最高人民法院政治部、中共广东省委宣传部、广东省高级人民法院编:《人民的好法官黄学军》,北京:人民法院出版社,2007年,第146页。如何让当事人感受到尊重呢?在庭审这样特定的情境中,一个大多数法官都不愿去做而又行之有效的方法是耐心地倾听。在这方面,黄学军同样无师自通,她以特别有耐心著称,在一次赡养纠纷的庭审中,七十多岁的陈老伯就同一个事实翻来覆去地说,黄学军却没有打断他,更没有粗暴地呵斥他,凭着耐心与尊重,她成功让反目的父子重归于好。②中共中央宣传部宣传教育局、最高人民法院政治部、中共广东省委宣传部、广东省高级人民法院编:《人民的好法官黄学军》,第168页。同样的做法也出现在全国优秀法官宋鱼水身上,她的庭审风格也是特别有耐心,一次有位老作家因为稿酬问题状告出版社,作家不懂法言法语,在法庭上车轱辘话来回说,所有人都烦了,只有宋鱼水耐心倾听,庭审进行了3 个多小时,直到老作家无话可说,最后,老作家突然改变主意同意了宋鱼水提出的调解方案,他态度转变的契机就在于宋鱼水对他展示的尊重:“‘宋法官,矛盾发生以后,你是第一个完完整整听完我讲话的人。’老作家诚恳地说,‘你对我的尊重让我信任你,你说怎么办就怎么办。’”③中央宣传部新闻局、中央先进性教育活动办公室宣传组、最高人民法院新闻办编:《宋鱼水:新型法官》,北京:学习出版社,2005年,第130页。
按照组织心理学的研究成果,合理解释和回应是影响当事人公正感的一项重要指标,这也构成了人类法官发力的方向之一。众所周知,人与人之间的对话不仅依赖于语义,还依赖于语用。在日常生活中,人与人之间的对话只有一部分(甚至是很小的一部分)是通过语义来传达的,而更多是通过语气、语调、手势、表情、眼神来传达的。对于主要通过语义学习获取信息的人工智能来说,它要明白人们之间即时对话的全部内容是非常困难的,由于语用知识的缺乏,它可能只能理解人们对话信息的一部分,在缺乏信息的情况下,人工智能可能无法明白当事人的准确意思,甚至完全弄反对话的真正意思,在这种情况下,司法人工智能就无法很好地回应当事人的观点和疑问,也影响到了当事人对公正的感知。而在面对面地交谈中理解他人,对他人的观点和问题作出适当的回应,恰恰是人类法官的优势所在。相比于司法人工智能,在面对面的交流和对话中,人类法官对当事人观点、提问的理解能力和回应能力都会更好。不过,也不是所有人类法官在合理解释上都做得一样好,有些法官明显做得更好,这一点宋鱼水法官的做法值得效仿。她经常不厌其烦地向不理解判决的当事人及其律师释法说理,耐心解答他们提出的各种困惑和问题,比如在一件融资租赁纠纷中,当事人不能理解她的判决理由,“经过她十几次的分析、讲解,最终解开了他们心中的疑惑”④中央宣传部新闻局、中央先进性教育活动办公室宣传组、最高人民法院新闻办编:《宋鱼水:新型法官》,第47页。,做到了胜败皆服。
总之,人工智能与人类法官两者各擅胜场,前者在客观性方面更加擅长,后者在人性化方面更加优胜。司法人工智能的发展不是要走跟人类法官同质化的道路,而是要与人类法官错位竞争。人类法官则可以将司法场域中一些需要高度客观性、中立性、一致性的工作交给司法人工智能,而致力于发挥自己在灵活性、回应性、人性化方面的特长。
在人工智能审判出现后,从司法供给的角度看,出现了人工智能审判和人类法官审判两种产品供给,但是从司法需求的角度来看,人类自始至终对司法的需求只有一个,即获得公正,而来自公正感的实证研究能够最有力地证明,目前的人工智能审判无法独自满足人类对司法的需求,人类的公正感只有人类法官才可能满足。不过,人工智能审判在满足公正感方面也有自己的独到之处,甚至可以补足人类法官的短板。因此,即使人工智能不能取代人类法官,也可以成为人类法官的有力助手。在这种情况下,我们就应该更多地考虑司法人工智能与人类法官如何互补或搭配的问题。在当事人公正感这一标准的指引下,本文描绘了一个明确的图景,简单来说,就是人工智能可以发挥其在中立性、一致性方面的优势来提升当事人的公正感,而人类法官可以发挥其在准确性、控制感、尊重感、合理解释方面的优势来提升当事人的公正感。人工智能与人类法官,两者优势互补,应各展所长,一起致力于当事人公正感的提升。换言之,我们的目标是在一个科学的结构中,同时发挥人类法官与人工智能的优势,服务于公正司法的光荣事业,而对于人工智能和人类法官的具体搭配场景以及相应的审判结构构造,则是未来需要进一步研究的问题。