王晓飞
(华东政法大学,上海 200042)
建设智慧法院,实现审判体系和审判能力智能化是我国当前司法体制改革的取向之一。2016年7 月,中共中央办公厅、国务院办公厅发布的《国家信息化发展战略纲要》提出“智慧法院的建设是国家信息化发展战略的重要组成部分”。2017年7月,国务院发布的《新一代人工智能发展规划》进一步细化了智慧法院建设的具体内容,提出“建设集审判、人员、数据应用、司法公开和动态监控于一体的智慧法庭数据平台,促进人工智能在证据收集、案例分析、法律文件阅读与分析中的应用,实现法院审判体系和审判能力智能化”。
在此背景下,法律实务工作者对人工智能与司法工作的衔接报以高昂的热情和巨大的投入,法律人工智能的研究成果被逐步投入实际应用中。目前,人工智能在司法领域的应用已不再局限于利用庭审语音识别、图文识别与文字录入技术,它不仅将司法人员从繁琐的事务性工作中解脱出来,而且逐步延伸至立案、逮捕、侦查终结、审查起诉、审判等多个办案阶段。其中,人工智能辅助裁判系统因更能凸显技术对司法决策的介入而备受关注。如上海高院研发的“刑事案件智能辅助办案系统”,其应用软件涵盖了证据标准、证据规则指引、证据校验、社会危险性评估在内的24项功能,在推动实现审判能力智能化方面被寄予厚望。笔者认为,司法裁判关乎人权保障,确保司法裁判公正是法治国家建设的重要一环。在将人工智能技术应用于司法裁判领域之初,我们就应当对其中存在的风险保持高度警惕,对人工智能技术介入司法决策进行必要的冷思考,尊重司法裁判的基本规律,避免陷入技术至上主义的怪圈。
在人工智能辅助裁判系统的推广过程中,美国威斯康星州诉艾瑞克·卢米斯一案曾引发广泛的社会争议。被告卢米斯因涉嫌一起枪杀案被控五项罪名。根据《联邦刑事诉讼规则》第32 条的规定,威斯康星州惩教署为卢米斯制作了判刑前调查报告,“以说明被告的个人背景,包括犯罪记录、经济状况以及可能影响被告行为、对其量刑和矫正有意义的任何情形”[1]。本案中,惩教署制作的判刑前调查报告包括一份由Nortpointe 公司专利软件生成的COMPAS犯罪风险评估。这份评估报告是软件根据被告的访谈记录和司法部门提供的信息自动生成的,被当时美国联邦法院和多个州法院所采用。但基于对Nortpointe 公司相关商业秘密的保护,该公司只负责出具评估结果,并不负有对犯罪风险评估过程进行详细说明的义务。依据评估报告,本案检察官认为卢米斯具有高度的暴力风险、再犯风险和预审风险,而法官在量刑判决中也部分引用了卢米斯的评估结果,并判处卢米斯六年监禁。
被告卢米斯及其代理律师对COMPAS评估报告背后的算法提出了质疑,认为评估报告是不公正的,法院依据该报告作出裁判的行为侵犯了卢米斯基于准确信息获得公正判决的权利。面对卢米斯的质疑,初审法院驳回了卢米斯提交的定罪后缓解动议,但其理由却令人难以信服。法院给出的解释是,法院详细制定了COMPAS 评估报告的提交及使用程序,规定提交评估报告时必须随同附上书面警示说明书①,说明评估结果的适当性风险,以确保法官在合理的范围内考虑评估结果。与此同时,法官还详细阐明除评估结果以外的其他裁判理由,即评估结果并非是对卢米斯量刑的唯一依据。
1.评估报告对法官自由心证的负面影响
尽管初审法院的解释看似是对COMPAS评估报告的工具准确性持谨慎怀疑态度,但就法官是如何权衡评估报告的适当性风险与科学性证成,以及不当的评估结果是否会对法官自由心证的形成产生不可逆转的负面影响,初审法院未能有所解答,这也是当时本案量刑为人诟病的主要原因。虽然法院声称犯罪风险评估结果对法庭量刑只起到辅助作用,但评估结果很可能诱使法官“先入为主”,错误地按照智能系统的思路将某一个案归入系统所筛选出的类案之中,从而影响法官的客观判断,即心理学上所称的锚定效应②。评估报告对自由心证形成的影响是潜移默化的,法官根本无从察觉。即使随同提交的书面警示说明书能够提示法官评估结果具有一定风险,但这种提示却不足以引起法官足够的重视。一方面,由于行业壁垒,法官缺乏对此类评估工具的适当性风险进行评估的能力;另一方面,基于法院内部的办案压力,法官也倾向于接受人工智能技术为司法裁判带来的便利与革新。
2.评估报告的证据资格问题
法官应当以可证的事实作为定罪量刑的依据。如果要将COMPAS 评估报告作为证据使用,必须先解决其作为法定证据的资格问题。“任何证据,要转化为法院据以认定案件事实的根据,都必须具备证明力和证据能力的双重证据资格。证明力是指证据所具有的能够证明某一事实是否存在的能力,亦即证据的真实性和相关性问题。证据能力是指证据能够进入审判程序的资格和条件,亦即证据的合法性问题。”[2]COMPAS 软件通过将司法部门提供的本案信息与数据库进行比对,生成了基于司法大数据的评估报告。对于评估报告能否作为司法裁判的证据使用,目前大多数学者持否定观点,原因在于没有法律依据。主流观点认为,“大数据分析更多的应该是在事实认定中提供框架背景知识”[3],或者“仅限于在民事诉讼中将大数据分析作为证据使用”[4]。然而,部分学者认为评估报告仅用于“提供框架背景知识”的观点本身也存在歧义,背景知识并非法律专业术语,法律对其内涵和外延未能有所定义。对于背景知识是否包含免证事实,以及评估结果与免证事实之间是否具有相当性,这些问题在法学理论中尚属未明状态,任意提出不明确的概念反而可能混淆评估报告的使用范围。笔者认为,在评估报告的真实性、关联性和合法性问题未能予以解决之前,盲目将其作为证据使用无异于破坏现有的证据体系。实践中,法官应谨慎采纳智能系统生成的社会危险性评估结果,否则将有违证据裁判原则。
“同案不同判”是当前司法审判中最为突出的问题。究其成因,主要是因为司法人员主观能动性的差异。不同法官对法律规范的理解、对同类案件事实的认定以及对自由裁量权的把握均存在个体差异,这导致了同类案件结果上的不同。与此相对,人工智能辅助裁判系统对于解决“同案不同判”的问题具有天然优势。人们认为,基于算法和数据库的智能系统是相对公平的,因为此时决定结论的是代码,而非肤色。由于智能系统不受人类感情的羁绊,能够较好地排除非法律因素的干扰,故其对减少司法任意性、促进司法公正具有重要意义。那么在法律人工智能广泛应用的今天,笔者认为我们必须仔细考虑以下问题:一是法律上的公平能否被译成算法,即能否让机器代替人类对法律问题进行判断;二是被算法化的公平是否具有准确性,即是否存在算法歧视;三是被算法化的公平是否具有透明性,即算法黑箱问题。
回答这一问题的关键在于解决机器认知问题。使机器具备辨识个案的能力,是将人工智能应用到司法裁判中首先面临的难题。“让计算机瞬间算出十位数的乘法非常简单,但要让其辨识一个案件是民事案件还是刑事案件却非常困难,因为决定人机差异的不是思考的速度,而是思考的质量。”[5]同时,人工智能辅助裁判系统的设计还带有高度的法律形式主义色彩。法律形式主义强调,“法律推理应当依据客观事实、明确的规则和逻辑去解决一切为法律所要求的具体行为。假如法律能如此运作,那么无论谁作裁决,法律推理都会导向同样的裁决”[6]。这种法律推理观念是极为机械、狭隘的,它忽视了法官主观能动性对法律推理活动的影响。且当场景或外部条件发生变化,上述这种闭合式的规则体系并不能保证恒为正确,很可能被外来因素所推翻,而这些外来因素则成为法官自由心证和行使自由裁量权的依据。毕竟司法是一项在特定领域内的技术性任务,让计算机程序去理解人类语言,并作出认知和推理是具有挑战性的。此外,法律推理的过程是极为复杂的,这体现在法律规则本身包含许多定义不严密、含义开放的概念。尽管立法者已竭力避免,但由于法律的滞后性等固有限制,上述现象不可能被完全规避。加之知识的更迭对原有单一法律规则的冲击,必定使法律推理过程成为一个不断认知的过程,如评判事实、条文解读、类比推理以及辩证思考等。然而人工智能系统在识别、理解、权衡法律规范与案件事实等方面均存在着技术障碍。
被算法化的公平是否具有准确性,关键在于能否杜绝算法歧视。目前国外相关实证研究已经表明,人工智能风险评估软件赖以运行的算法和数据,可能被设计者预先设置了“歧视与偏见”,这些歧视与偏见多与性别、种族、收入相关。这意味着风险评估结果的不适当性可能不是偶然的,甚至是公然的。美国非营利组织ProPublica 的一项研究发现,前文卢米斯案中使用的COMPAS 算法系统性地歧视了黑人,黑人的再犯风险接近白人的两倍。然而研究人员在跟踪调查7000 多名犯罪人后发现,被预测为未来会犯暴力犯罪的人中,实际上仅有20%的犯罪人后来确实再次实施暴力犯罪。规则本身是人为制定的,当人工智能系统的设计者将既定规则编写成算法时,其主观影响几乎是不可避免的。但这一点系统的使用者并不知晓,并且无从审查。如果系统的设计者不能将现有的法律规则和道德规范如实地编写成算法,人工智能辅助裁判系统如何能够实现统一量刑标准的功能,以确保司法公正?如果算法歧视客观存在,那么人工智能辅助裁判系统不仅不能发挥其应有的作用,甚至还会强化原本已经存在的裁判不公。然而系统的设计者往往也难以意识到其在编写程序时带有歧视性的选择,这使得我们更加难以识别算法歧视并评估其所带来的负面影响。
人们对人工智能辅助裁判系统的期望不止于实现简单的数据输入、特征匹配、逻辑推理的过程,而是希望其能够深度学习这一人工智能的前沿领域的技能。深度学习是指计算机在算法运行过程中通过自动学习不断完善既有算法,生成更为高级的认知结果。但由于程序代码的不透明和不公开,在输入的数据和输出的结果之间,存在着我们无法洞悉的算法黑箱。算法黑箱不仅意味着我们无法观察结果形成的过程,还意味着即使技术人员向我们解释,普通人也无从理解,这与法院司法公开的应然要求相违背。传统司法实践中,法官在作出裁判的同时会在文书中进行充分的说理论证,并向社会公开裁判文书。然而人工智能辅助裁判系统输出的成果只是结论,并不包括得出这一结论所依据的材料和理由。面对卢米斯的质疑,初审法院几乎无法向其解释算法结论的公平性和合理性,因为法官自己本身就是一个外行。此外,算法黑箱的存在还进一步加强了算法歧视和程序错误的隐匿性,这使得人工智能的公平性更加难以得到保障。因此,算法黑箱成为了目前解决人工智能辅助裁判系统公平性及透明性问题的最大难题。
数据是系统运行的基础,再优秀的算法也依赖于海量的数据为其提供支持。当今社会大数据爆炸式的增长,为人工智能的发展提供了契机。但如何从海量的数据中精准地捕获有效数据,是各类人工智能研发所面临的共同难题。参与上海刑事案件智能辅助办案系统研发的科大讯飞产品部经理金泽蒙表示:“人工智能最重要的三个环节,是专家经验、模型算法和海量数据。人工智能的主流算法模型是深度神经网络模型,这个模型的优势在于可以对学习过的知识进行联想学习,但是训练这个模型需要大量数据。”[7]因此,问题关键在于我们能否为人工智能系统模拟法官断案提供必要的司法数据。司法数据的获取关乎人工智能辅助裁判系统的成败,笔者认为应分为以下三点展开讨论:一是数据的质量问题,二是数据的完整性问题,三是数据的来源问题。
在人工智能辅助裁判系统的研发过程中,我们应足够重视引入数据的质量。数据犹如算法运行的参照物,其质量的优劣将直接影响模型算法的构建,关系到智能裁判结果的正确与否。上海高院研发的刑事案件智能辅助办案系统,细分了7 类18 个具体罪名分别建立证据模型,模型建立的依据除了既有法律规范外还包括大量的裁判文书,这里的数据质量问题集中体现在裁判文书说理论证方面的良莠不齐。例如,部分裁判文书缺少对心证形成过程和理由的论述,或者对裁判理由的阐述过于简单和概括,缺乏针对性,无法真实反映案件裁判所依据的既定规则和审判经验等。这不仅加大了研发者对关键词进行人工标注的难度,还将影响智能系统对案件裁判规则的提炼与自主学习。因此,在导入数据库时必须先对司法数据进行必要的统计、分析和清洗,以确保司法数据的质量。
理想的司法数据库必须是高质且完整的,不完整的数据库必然无法精确地模拟司法裁判的过程。然而法官决狱断刑不仅依靠专业知识,其情感、信仰等主观因素亦发挥着重要作用,但是这些往往难以被数据化或算法化。人工智能虽然模拟了人的智性,却无法模拟人的心性。因此,人工智能辅助裁判系统将因技术的客观限制而具有“先天缺陷”,也即司法数据的不完整性或将是必然的。例如,对于刑事证明标准的判断,“综合全案证据,对所认定事实已排除合理怀疑”是在主客观统一的基础上对法官内心确信程度的要求,是“在原来客观化的证明标准中注入了一种带有主观性的证明要求”[8]。再如,尽管部分涉及证据能力的判断可以被设计成算法,但绝大多数涉及证明力的判断依然是一种主观判断。这种主观判断与人类经验相关,这些背景知识和经验可能根本不能被提取,也就无法形成数据供人工智能系统检索学习。同时,随着时间的推移空间的转变,人类经验也会随之不断变化增加,因此,我们几乎不可能将所有司法裁判所必须的经验以数据的形式录入系统。此外,我们还应警惕人工智能系统对经验的运用问题,“经验是危险的,运用于司法时必须经过识别和评价”[9]。但是人工智能却无法实现这种识别和评价,因为识别和评价本身又需要运用到人类经验和价值观,这将陷入一个无解的循环。
目前理论界对司法数据来源问题的争议,主要集中在能否以人工智能辅助裁判系统自动生成的数据作为司法数据的来源之一。如前所述,人工智能拥有自主学习的能力,系统会通过算法的运行积累经验,并将这些自动生成的经验吸收进算法中,以实现智能的升级。笔者并不认同这样的做法,原因在于算法黑箱的存在使我们无法保证系统自动生成的数据是真实且有效的。人工智能辅助裁判系统中涉及裁量性判断的核心数据,应当以法官办案过程中产生的数据为基础,并坚决杜绝以系统自动生成的数据作为数据的来源。换言之,凡与提炼裁判规则、归纳审判经验和技能相关的数据,必须源自于司法人员的独立办案。唯有如此,才能确保司法机关对人工智能辅助裁判系统的数据控制权,隔绝系统可能生成的不当数据。总而言之,对于司法数据的获取我们应时刻保持谨慎,因为系统参数任何细微的调整变化都可能带来裁判结果的“蝴蝶效应”,直接影响被告的实体性权利和程序性权利。
结合各地法院的实践成果,可以说法律人工智能确有用武之地。但对于人工智能在司法裁判领域的应用,笔者认为应明确其作为法官断案之辅助工具的功能定位。法律人工智能应始终坚持其工具性价值,服膺于司法裁判的基本规律,尊重法官在事实认定、规范寻找、价值权衡中的职业判断。这主要是由人工智能自身的局限性所决定的。如前文所述,人工智能技术虽然能够在一定程度上模拟人的思维,但目前尚无法取代法官的主观能动和审判经验,亦无法正确考量外来因素对法官自由心证和行使自由裁量权的影响。大数据只能为司法人员提供参考意见,法律适用不是在执行运算法则,或许我们可以从计算结果推演出运算法则,但却不能用过去办理的案件数据来完整诠释法律。未来人工智能技术可能会得到进一步的发展,但在现阶段及往后相当长的时间内,应更多地将法律人工智能应用于处理技术性、辅助性的工作,帮助司法人员提高工作效率,将其从机械的、重复的工作中解脱出来,专注于案件事实和证据的审查判断。
受制于技术,目前人工智能尚无法深入应用于充满价值判断的审判领域。但若未来随着人工神经网络的发展,人工智能能够完全模拟一个理性法律人的思考过程,其是否就可以完全取代法官进行司法裁判?换言之,技术问题解决了,我们应如何面对机器裁判的法律伦理问题。在现实司法实践中,法官之所以能够决狱断案,除了其具备专业的法律知识和严密的法律逻辑之外,还在于法官的民主正当性。我国的司法权来源于人大,人大通过选举或任免法官来行使司法权,从而实现了人民的自我统治。从正当性上而言,法官进行司法裁判的资格或职权是人民授权的结果。因此,即使人工智能能够在司法裁判中作出更为精准的判断,法官也应根据自己的认知来理解法律,以保障司法事务的公共属性。“在司法裁判作为公共权力的语境下,司法裁判中人工智能的运作过程必须能够被解释,才能保障公共权力行使的公共性。在这个意义上,人工智能只能是司法解决公共事务的辅助。”[10]
与此同时,法律人工智能的应用必须建立在机器裁判获得社会公众普遍认可的前提之下。法官的审判经验在开放的环境下历经时间的考验得以逐步累积,其裁判结果以文书为载体,以社会公众认可接受的方式进行表达并得到理解。然而,人工智能通过对数据的分析进行司法裁判,即使得出的结果和法官裁判结果相同,其裁判过程恐怕也很难被社会公众理解和接受。因此,人工智能在司法裁判中的应用是一个长期的建设工程,应当有步骤地推进。只有当机器裁判被社会所认同,人工智能才可能具有司法裁判的正当性,否则其应当在裁判领域被限制使用。
笔者认为,现阶段法律人工智能在裁判领域的应用应主要致力于提高司法裁判效率,达成司法裁判统一,避免矛盾裁判。例如,浙江省高院已经成功研发出“裁判文书自动生成系统”和“案件信息分析挖掘系统”,用以提高司法人员的办案效率。上海高院在研发刑事案件智能辅助办案系统的过程中建立了本地案例信息库,通过类案匹配实现了对司法人员办案的提醒与监督,在本地范围内基本达成了司法裁判的统一。在案件类型的选择上,法律人工智能应首先应用于案件信息较为客观、法律适用较为明确的轻微、简单案件。此类案件的信息往往已被充分披露,人工智能系统赖以运行的数据的充分性得到了保障,其计算结果自然具有更高的可靠性。如保险纠纷、小额借贷纠纷、租赁合同纠纷、银行卡纠纷、劳动争议、人事争议、机动车交通事故纠纷等民事案件,侵占、盗窃、抢劫、信用卡诈骗、危险驾驶、交通肇事等刑事案件以及适用简易程序审理的行政诉讼案件。
除了服务于公安、法院、检察院等司法机关外,目前法律人工智能应更多地被运用于服务私主体,例如当事人及其诉讼代理人。面向当事人,法律人工智能可提供法律咨询,根据基本案情给出法律建议,帮助当事人评估诉讼风险。面向企业法务部门,法律人工智能在合同起草与审核、法律风险评估、刑事风险防范等方面都有施展的空间。面向律师或律所,以往人工智能主要提供信息检索与文书处理服务,现在其应用范围已得到进一步延伸,可以通过数据分析对案件裁判结果进行预测,如理脉、CaseCrunch、Lex Machina 等均在此方面推出过相关产品。据CaseCrunch公司公布,其智能软件对判决结果的预测成功率高达86.6%,较同期律师的成功率提升了近20%。
人工智能作为一项变革性的技术,在司法领域具有巨大的应用价值。它在协助法官办案、缓解法院压力、提高司法效率、优化程序管理、减少冤假错案、促进司法公正方面能够发挥重要作用,是我国司法创新的一项重要尝试。但是司法实践应如何适应人工智能带来的变化,以及人工智能应如何适应法律所体现的人类价值观,取决于社会、经济、文化等多方因素。因此,将人工智能应用于司法裁判必将是一个长期且缓慢的建设过程,我们不宜盲目乐观、操之过急,应充分考虑人工智能辅助裁判系统的风险。尤其是在尚未解决人工智能辅助裁判系统公平性、透明性、正当性的前提下,我们应始终坚持法律人工智能的工具性价值,将其作为司法裁判的辅助工具,严格限定其应用范围,谨慎采纳人工智能计算得出的结果。
注释:
① 卢米斯案COMPAS 评估报告的书面警示内容包括:第一,“COMPAS的专有性”使得风险评分的计算方式无法公开;第二,COMPAS 评分无法识别特定的高风险个体,因为这些分数依赖于群体数据;第三,虽然COMPAS 依赖于全国数据样本,但是“没有在威斯康星州人口中进行过交叉验证研究”;第四,研究“已经就COMPAS 评分不适当地将少数犯罪者归类为再犯的风险更高提出质疑”;第五,COMPAS之前曾被专门用于协助惩教部门作出宣判后的决策。
② 锚定效应,是指当人们需要对某个事件做定量估测时,会将某些特定数值作为起始值,起始值像锚一样制约着估测值,在做决策的时候,会不自觉地给予最初获得的信息过多的重视。