可信赖AI司法：意义、挑战及治理应对

2020-07-22 00:47李晓楠

法学论坛 2020年4期

李晓楠

(对外经济贸易大学法学院，北京 100029)

一、问题的提出

“AI”在执行特定任务，尤其是处理海量数据方面，不但具备了技术上的可能，而且在实际效果上也已经超越了人类。(1)谷歌的AlphaGo和AlphaGo Zero就是一个优秀的数据处理者，通过计算机强大的计算能力，已经战胜了人类优秀的棋手。参见《人机大战结束：AlphaGo 4：1击败李世石》，https://tech.qq.com/a/20160315/049899.htm，最后访问时间：2019年8月25日。信息搜集、算法运算、形成结果、执行任务，是AI的一般运作模式，涉及到大数据挖掘与分析理论、自然语言处理理论、深度学习理论等复杂的问题。(2)参见朱福喜：《人工智能》(第三版)，清华大学出版社2017年版，第1-13页。从发展趋势看，AI从擅长单个方面，例如语音识别、图像识别和翻译等，逐步发展至可以进行思考、计划、抽象思维、理解复杂理念、从经验中学习。(3)尽管有学者认为现有的人工智能无法在抽象思维上获得突破，参见刘亚东、胡德文：《脑科学视角下的高性能计算》，载《计算机学报》2017年第9期。但新近的技术发展和研究表明，尽管人工智能在抽象思维上表现的不足够好和稳定，但是已经具备了抽象思维的潜力和能力，具体参见David G.T.Barrett, Felix Hill, Adam Santoro, Ari S.Morcos, Timothy Lillicrap, Measuring Abstract Reasoning In Neural Networks, Proceedings of the 35th International Conference on Machine Learning, Stockholm, Sweden, PMLR 80, 2018, http://proceedings.mlr.press/v80/santoro18a/santoro18a.pdf(last visited Aug.25, 2019); Buckner, C., Empiricism without magic: transformational abstraction in deep convolutional neural networks, 195 SYNTHESE, 5339-5372.

法律实践需要新的思维工具，以应对日益繁杂的社会生活法律关系，卷帙浩繁的法律文献，爆发式增长的法律案件。AI在辅助司法裁判、促进司法公正、辅助法律教育和培训方面都具有重要的现实意义。(4)参见张保生：《人工智能法律系统的法理学思考》，载《法学评论》2001年第5期。从现有的研究来看，关于 AI的法律研究更多集中在隐私与数据保护、算法歧视、知识产权、AI法律人格等方面，其中对算法歧视的讨论最多。(5)参见徐琳：《人工智能推算技术中的平等权问题之探讨》，载《法学评论》2019年第3期；张凌寒：《算法规制的迭代与革新》，载《法学论坛》2019年第2期；姜野、李拥军：《破解算法黑箱:算法解释权的功能证成与适用路径——以社会信用体系建设为场景》，载《福建师范大学学报(哲学社会科学版)》2018年第5期；郑志峰：《人工智能时代的隐私保护》，载《法律科学》2019年第2期。在应对算法歧视的对策上，主要从严控数据质量、透明性、可解释性等方面入手，以规制AI适用的伦理困境；(6)参见张凌寒：《算法规制的迭代与革新》，载《法学论坛》2019年第2期；刘友华：《算法偏见及其规制路径研究》，载《法学杂志》2019年第6期。关于AI在司法领域的运用及规制讨论相对较少，且主要在宏观角度探讨人工智能可能对司法裁判带来的冲击及原则应对，并未提出建立可信AI司法的具体路径。(7)参见左卫民：《关于法律人工智能在中国运用前景的若干思考》，载《清华法学》2018年第2期；王禄生：《司法大数据与人工智能技术应用的风险及伦理规制》，载《法商研究》2019年第2期；李飞：《人工智能与司法的裁判及解释》，载《法律科学》 2018年第5期；於兴中：《预测编码在司法中的应用简介》，载《经贸法律评论》2018年第1期。

作为AI在法律行业运用，AI司法不但存在着技术挑战，同样存在着伦理困境，面对深度学习、强化学习带来的不可知性，简单地建立“AI司法负面清单”(8)人工智能仅能适用于类型化的案件中，禁止或限制在非类型化案件中适用。参见黄京平：《刑事司法人工智能的负面清单》，载《探索与争鸣》2017年第10期。，排斥AI在复杂案件中的适用，并不能解决AI司法过程中可能存在的歧视、不公平或错误等问题，相反很容易导致放松对人工智能在处理类型化案件时的监督和警觉，导致产生不被发现的错误。笔者认为AI司法的构建，不但提高法官审判效率，还有利于法律知识图谱的构建，促进司法裁判尺度的统一。但如前所述，算法黑箱的存在必然引发对AI司法判决可信赖的质疑。笔者结合法律适用的具体特点，试图构建AI司法运用过程中的“信赖但必须验证”(9)参见[美]凯文·沃巴赫：《信任,但需要验证:论区块链为何需要法律》，林少伟译，载《东方法学》2018年第4期。的制度规则，通过技术保障、正当程序要求等实现可控和可信赖的AI司法。

二、AI的司法运用

将机器学习(Machine Learning, ML)诉诸法律实践，如证据发现、评估，判例分析、论证挖掘、适用法律分析和定量法律预测，依赖多种ML技术，如自然语言处理，构建输入(证据、判例、法律等法规)与期望的输出(可适用的法律法规)之间关系的算法模型。(10)参见Daniel Martin Katz, Quantitative Legal Prediction-or-How I Learned to Stop Worrying and Start Preparing for the Data Driven Future of the Legal Services Industry, 62 EMORY L.J.909(2013); Nikolaos Aletras et.al., Predicting Judicial Decisions of the European Court of Human Rights: A Natural Language Processing Perspective, https://peerj.com/articles/cs-93.pdf(last visited Aug.25, 2019); Daniel Martin Katz, Michael J.Bommarito Ii, Josh Blackman, A General Approach for Predicting the Behavior of the Supreme Court of the United States, https://arxiv.org/pdf/1612.03473.pdf(last visited Aug.25, 2019))

(一)可能性基础

1.基于法律推理自身的特征。(1)尽管法律推理并非完全的线性单调推理，存在着可废止性规则、可辩驳性推理等非经典逻辑，但它有相对稳定的对象(案件)、相对明确的前提(法律规则、法律事实)及严格的程序规则，且须得出确定的判决结论；(2)法律推理特别是抗辩制审判中的司法推理，为AI观察思维活动的轨迹提供了可以记录和回放的样本；(3)法律知识的长期积累、完备的档案、丰富的案例、为模拟法律知识的获得、表达和应用提供了丰富、准确的数据资料。

2.基于AI技术的发展。ML使AI理解数据，获得信息，具备归纳推理和决策能力。(11)参见刘全、翟建伟、章宗长、钟珊、周倩、章鹏、徐进：《深度强化学习综述》，载《计算机学报》2018年第1期；曾毅、刘成林、谭铁牛：《类脑智能研究的回顾与展望》，载《计算机学报》2016年第1期。基于神经网络的深度学习、强化学习技术使AI摆脱了浅层学习模型依赖人工经验的局限，使AI在多次迭代中自主地重新修正算法，具有了人类的自适性、自组织、自学习、迁移学习等能力。(12)参见奚雪峰、周国栋：《面向自然语言处理的深度学习研究》，载《自动化学报》2016年第10期。深度学习脱离了传统ML数据输入、特征提取、特征选择、逻辑推理、预测的过程，直接从事物原始特征出发，自动学习和生成高级的认知结果。(13)参见周飞燕、金林鹏、董军：《卷积神经网络研究综述》，载《计算机学报》2017年第6期。

ML算法可以自动检测与过去法律场景相关的数据模式，然后可以对这些模式进行外推，以预测未来法律场景的结果(见图一)。即使在不理解法律、学说或政策的潜在含义和目标的情况下，通过启发式算法(探试算法)的运用，AI也能在法律这样一个抽象的、充满不确定性的领域中提供预测性。(14)参见Harry Surden, Machine Learning and Law, 89 WASH.L.REV.87, 116(2014).

AI+法律的结合已经催生出辅助律师工作的人工智能ROSS(15)Ross是一个基于云计算的人工智能系统，它通过一个庞大的法律研究数据库来搜索答案，帮助执业律师更有效地执行法律研究任务，http://www.rossintelligence.com(last visited Aug.25, 2019).，协助法官评估犯罪风险的系统COMPAS(16)COMPAS是一种基于人工智能技术的罪犯风险评估工具，已经被引入到美国法院的审判中，以辅助罪犯风险评估工作，如暴力再犯、一般再犯、未出庭以及在押期间违规、潜逃等。参见Algorithms in the Criminal Justice System, https://perma.cc/M34D-9FE9(last visited Aug.25, 2019)(stating risk assessment tools such as COMPAS use data on socioeconomic status, family background, neighborhood crime, and employment status to calculate individual's criminal risk).等应用。搜狗公司与北京互联网法院联合发布了全球首个“AI法官”，在线为用户提供“智能导诉”服务，未来将实现同当事人智能沟通，协助法官完成诉讼接待，基于司法“大数据”的案件审理等。(17)《搜狗联合北京互联网法院发布全球首个AI虚拟法官》，http://www.chinanews.com/business/2019/06-27/8876563.shtml，最后访问时间：2019年8月25日。

(二)应用意义

1.提高司法工作效率。

(1)提高法律检索的准确度。当法官使用AI查找相关的法源，并不断将某些文件标记为相关，AI就会知道应该寻找哪种类型的文件，以更准确地识别其他相关文件，既避免法官在找法过程中的遗漏，又避免无关法律条款的干扰，大大简化了法官找法的过程。此外，计算机强大的运用能力极大的缩短了找法的过程，Ross Intelligence 在一瞬间搜集到的类似的案例几乎与人工在10小时内工作的案例相同。

(2)提高文档管理效率。通过ML，AI擅长找出符合人类定义标准的项目(items)，并且可以发现数据中的模式(patterns)已执行 “搜索和找到类型”(search-and-find type)任务。

ML算法基于文档文本和其他文档特征(如法院书记员的描述性意见)，自动将给定的文档分类为特定的预定义类别。例如，与诉讼有关的核心文件，包括起诉状、证据、法院的裁定和判决等。AI可以将相关文档自动识别为“起诉状”“证据”或“判决“，并自动生成规范化的、可阅读的电子卷宗文档材料，以使法官更容易地找到重要的案卷文件(见图二)。斯坦福知识产权诉讼清算所(Stanford Intellectual Property Litigation Clearinghouse)采用了类似的ML技术，以自动分类繁冗复杂的案件文件，简化了法庭查找关键文件的难度。(18)参见Stanford IP Litigation Clearinghouse,STAN.L.SCH., http://www.law.stanford.edu/organizations/programs-and-centers/stanford-ip-litigation-clearinghouse(last visited Aug.25, 2019).

(3)提高证据审查效率。在特定类型的案件中，法官往往要审查大量的书面证据，而只有极少数关键证据与案件处理有关。机器算法可以根据与特定问题相关性的大小(通常称为预测编码或技术辅助审查)对文档进行分类，找到那些与该问题实际相关的少数文档。在达席尔瓦·摩尔诉阳狮集团(Da Silva Moore v.Publicis Groupe)案中，被告提供的电子证据多达300万份，主审裁判法官佩克同意采用预测编码为一种文件审查方法，从大量文件中剔除不相关的文件，作为双方电子证据开示协议的一部分。(19)参见Da Silva Moore v.Publicis Groupe，287 F.R.D.182(S.D.N.Y.2012).

2.帮助进行法律分析。AI可以对合同进行分析，并通过预先设定的条件和变量清单，确定哪些条款和变体存在和缺失。(20)参见Lauri Donahue, A Primer on Using Artificial Intelligence in the Legal Profession, https://jolt.law.harvard.edu/digest/a-primer-on-using-artificial-intelligence-in-the-legal-profession(last visited Aug.28, 2019).在摩根大通，一个名为coin的AI驱动程序被用于解释商业贷款协议。基拉系统(Kira Systems)公司提供的AI平台，可以识别、提取和分析合同中包含的业务信息，可以为并购尽职调查创建合同摘要图表。劳杰克斯(Lawgeex)公司使用的AI能识别出合同中哪些条款存在漏洞，以供律师进一步审查和修订。

3.预测判决结果。目前法律工作者通过运用专业知识、经验等认知技能和直觉对案件的审判结果进行评估。基于计算机的自动化分析将会越来越多的介入到法律结果的预测中。(21)参见Daniel Martin Katz, Quantitative Legal Prediction-or How I Learned to Stop Worrying and Start Preparing for the Data-Driven Future of the Legal Services Industry, 62 EMORY L.J.909, 912(2013)(discussing legal applications such as automation in document discovery and quantitative legal prediction).AI通过数据挖掘可以获得海量数据，在预测法律纠纷和诉讼结果上可能比人类更好。在200年的美国最高法院判决记录的训练下，AI已经比许多人类专家更好地预测美国最高人民法院的判决。(22)参见Andrew D.Martin et.al., Competing Approaches to Predicting Supreme Court Decision Making, 2 PERSP.ON POL.761, 761-68(2004).

监督学习技术的应用，使AI可以通过人类对数据的标注，找出数据之间的关联关系。(23)参见Peter Flach, MACHINE LEARNING: THE ART AND SCIENCE OF ALGORITHMS THAT MAKE SENSE OF DATA 16-18(2012).在司法实践中，同类案例本身就构成了可供训练AI的数据集，在学习足够多的案例后，AI可以从案例中识别出自变量如主体身份、行为类型、损害结果等与因变量判决结果之间的涵摄关系，并结合法律规则等构建起预测案件结果的算法模型。当同类案件信息输入AI时，AI将基于预测模型自动得出裁判结果(见图三)。

4.有利于实现同案同判。法官在判决书中需要详细引用法律、事实、公共政策及其他考量因素以作为判决正当化的理由。法官不应依据判决载明以外的理由裁决案件。然而，在有些案件当中，法官往往考虑判决书阐明理由以外的因素而做出与类案不同的判决，例如，基于原、被告的身份，社会舆论压力等。美国的一项研究表明，在影响案件判决结果的因素中，联邦巡回法庭自身就举足轻重，即便是同类案件，不同的巡回法院却极有可能做出不同的裁决。(24)参见Andrew D.Martin et.al., Competing Approaches to Predicting Supreme Court Decision Making, 2 PERSP.ON POL.761, 761-68(2004);在后果主义的司法裁判中，例如于欢案、江苏龙哥反杀案，基于舆论的社会压力，或者基于社会效果的考量，法官往往做出类案异判的裁决，即便判决结果是正当的，由于判决书本身并未阐明法外因素对判决结果的影响，势必带来对判决合理性的怀疑。由于ML算法能够很好地检测出案例中某些变量与特定法律结果之间的模糊关联。如果AI提供证据表明法官的判决不是基于他们所明确陈述的理由，而是基于其他考量，法官必须作出合理的解释。从另一个层面来讲，AI基于同一套算法模型作出裁决，在案件情况相同或类似的情况下也即输入相似的情况下，会得到相同的输出。

三、AI司法的挑战

AI司法的核心挑战在于是否“可信赖”。《欧洲AI道德准测》(ETHICS GUIDELINES FOR TRUSTWORTHY AI)对“可信赖AI”提出了一个官方解释，首先，它应该尊重基本权利、规章制度、核心原则及价值观，以确保“道德目的”，其次，它应该在技术上强健、可靠。因为即使有良好的意图，缺乏对技术的掌握也会造成无意的伤害。(25)参见High-Level Expert Group on AI : Ethics Guidelines For Trustworthy AI , April 8, 2019, https://ec.europa.eu/digital-single-market/en/news/ethics-guidelines-trustworthy-ai(last visited Aug.25, 2019)

(一)技术上的挑战

1.抽象分析和高阶认知能力不足。人工之智能由硬件和软件、数据和代码组成，主要依赖于计算机科学与统计学获取知识形成推论。AI依靠计算机的二进制运算做出决策，却没有自我意识、目的和立场，这也是AI在语言、思维和文化的高阶认知上远逊于人类智能的重要原因。(26)参见蔡曙山、薛小迪：《AI与人类智能——从认知科学五个层级的理论看人机大战》，载《北京大学学报(哲学社会科学版)》2016年第4期。尽管ML可以设置反馈机制，不断自主修正程序的偏差，但却与人类的自我反省不同。(27)参见Benjamin Alarie, The Path of the Law: Towards Legal Singularity, 66 UTLJ 454(2016), speaks of an artificial legal intelligence that achieves Rawls’s ‘reflective equilibrium.’ It can, however, only attempt to simulate this-whether such equilibrium is reached and how the algorithms should be trained to accomplish this will necessarily depend on human judgment.由于自我意识的缺乏，即使AI擅长模拟人类情绪，也无法体验到痛苦或羞辱。(28)参见Rosalind Picard, Affective Computing(Cambridge, MA: MIT Press, 1997).AI符号运算的特征可能导致其抽象分析缺陷，进而难以完全胜任复杂的司法活动。

首先，在法律职业活动中，抽象的法律推理、价值衡量、道德感是必不可少的要素，AI却难以精确模拟和体会。尽管法律AI的设计者可以将价值观、道德准则等注入到AI中，但也是有限和僵化的。此外，法律问题的处理，往往取决于对抽象概念的分析，例如理解法律的整体公共政策，公平正义理念、故意或过失的心态等，如果难以通过数据量化，那么就可能超出当前AI处理的范围。再有，法律问题往往没有唯一正确的答案，这是AI模拟法律推理的一个难题。选择哪一个答案，往往取决于法律推理的目的标准和推理主体的立场和价值观念，而这些又是AI所欠缺的。最后，法律规范中存在着大量细微差别的概念，例如涉及意思表示瑕疵的真意保留、虚伪表示、隐藏行为、戏谑表示、错误等。基于二进制代码语言的局限性，AI能否做出如此精细的法律规范模拟值得怀疑。(29)参见James Grimmelmann, Note, Regulation by Softiware, 114 YALE L.J.1719, 1732(2005); Australian Administrative Review Council, AUTOMATED ASSISTANCE IN ADMINISTRATIVE DECISION MAKING ISSUES PAPER 46(2003).

2.算法“黑箱”的技术应对不足。在强化学习下，算法模型的日趋复杂及动态变化特性，导致数据科学家也无法完全理解AI预测背后的逻辑，使AI具有了“黑箱”性质。尽管存在一些具体技术如“模型的最重要特征”“不同特征变量的作用”等来辅助理解AI模型然而还未达到建立非“黑箱”算法模型的能力。(30)打开“黑盒”技术包括Permutation Importance, Partial Dependency Plots, SHAP Values, 具体可参见https://blog.csdn.net/qq_42793029/article/details/94459036.最后访问时间：2019年8月25日。在司法适用中，算法“黑箱”意味着AI可能存在模式识别错误，推理错误，而无法从技术上确保AI做出的判决满足三段论的要求。AI进入司法领域，要解决的不单是技术上AI能否胜任司法工作，包括法律推理尤其是可废止推理、非单调推理，还要有足够的手段防止AI滑向不可知性，建立公众对AI司法的信赖，在算法“黑箱”存在的情况下，这显然是个重大挑战。

(二)算法偏见挑战

AI研发者通过写入代码的方式构造AI算法，使用“训练”数据不断完善算法模型。这意味着研发者的价值观、偏见和人类缺陷都会反映在软件上。此外训练数据的选择偏差，如训练数据不能完全代表自然情况变化；分类偏差，如程序员对数据进行了错误分类；均会导致决策模型都会秘密地嵌入偏见、错误和歧视。此外数据本身也可能蕴含歧视，如训练数据中所有的男性职业都是CEO，所有的女性职业都是秘书，尽管数据本身符合现实情况，AI却可能得出女性天生不适合做CEO的结论，这实际上造成了性别歧视。

AI司法领域当然也会出现算法偏见风险。最鲜明的例子是 COMPAS 算法，该算法被美国多个州政府的执法机构用于评估被告人再犯罪的风险，据ProPublica的一项调查显示，黑人被错误标记为罪犯潜在分子的比例几乎是白人的2倍。(31)参见Julia Angwin et.al., Machine Bias, PROPUBLICA(May 23, 2016), https://www.propublica.org/article/machine-bias-risk-assessments-in-criminal-sentencing(last visited Aug.25, 2019).然而算法偏见，尤其是数据本身造成的偏见是隐蔽的，难以察觉的，如何有效治理算法偏见无疑是充满挑战的。

(三)法律和法治的挑战

AI司法导致从法律作为信息到法律作为计算的转变，带来对法律和法治的挑战。具体表现在(1)AI技术的发展，可能造成法官严重依赖，进而无法挑战AI判决；(2)从有意义的法律信息到符号计算的法律推理，导致了从理性(reason)到统计(statistics)、从论证(argumentation)到模拟(simulation)的转变；(3)在开发和测试数据驱动AI的过程中，当事人隐私可能会被侵犯。

1.法官过分依赖AI。法官可能基于AI的强大分析能力被迫依赖于AI得出的结论。法官对技术的依赖还可从其对司法鉴定的态度中发现端倪。以建设工程为例，由于专业知识的限制，法官往往过度依赖工程量鉴定作为工程价款确定的依据，甚至一旦发生工程款纠纷首先想到的就是工程量鉴定，而拒绝对施工合同进行法律分析。可以预见的是，如果AI能够进行证据评估、判例法分析、论证挖掘、适用法律分析和定量法律预测等任务，且总能保证高效、正确的情况下，法官可能会加重对AI的依赖。尤其是在法官的预判与AI结论相左但最终证明AI是正确时，可能会削弱法官的自信心，进一步加强法官对AI建议的依赖，从而拒绝做出独立判断。

2.定量法律预测破坏了法律的张力。定量法律预测(Quantified legal prediction , QLP)是AI法律最明显的特征。QLP基于统计学的数学函数来模拟进行法律论证和决策，以消除法律的不确定性。然而，从本质上来讲，不确定性或模糊性也是法律发挥作用的重要工具。例如，法律的不确定性可以建立足够的灵活性，以涵盖目前存在或将来可能存在的意外情况。而 “简单”地运用AI将司法活动转移到训练集、算法类型和假设空间设计的数理层次上，在消除法官主体性及法律不确定的同时，以“唯一正解”来代替法官主体性的综合权衡，可能导致法律僵化执行，减弱了AI司法的张力及处理复杂案件的能力。

3.侵犯隐私权。AI司法也可能引起了重大的隐私问题。为了开发预测算法，需要大量详细的案件信息数据，这些信息可能包括被强奸受害人身份信息，未成年人的犯罪信息等。在我国，为保护当事人个人隐私，法律规定采用不公开审判的方式进行庭审或者要求封存未成年犯罪记录信息，例如刑事诉讼法第188条、266条，民事诉讼法第134条均作出了明确规定。AI司法下，由于构建算法需要，开发者获取了上述隐私信息，一旦发生泄露，就可能对诉讼参与人造成侵害。例如隐私的泄露可能造成就业歧视，企业可能不愿意雇佣有犯罪前科的员工；可能造成名誉受损，如被强奸受害人可能遭受社会非议，面临耻辱。密歇根网络法院失败的一个重要原因就在于，证人和当事方因担心他们共享的信息无法得到适当保护，而拒绝向网络法院提交案件。(32)参见Anjanette H.Raymond, Scott J.Shackelford, Technology, Ethics, and Access to Justice: Should an Algorithm Be Deciding Your Case, 35 MICH.J.INT'L L.485(2014).

四、可信赖AI司法的构建

司法裁决的合法性可由三个因素评估，即决策过程是否考虑了诉讼参与人的观点；决策是否中立，所有意见是否得到平等考虑而没有偏袒；诉讼参与人是否信任司法系统。(33)参见Amy Gangl, Procedural Justice Theory and Evaluations of the Lawmaking Process, 25 POL.BEHAV.119, 121(2003).鉴于AI司法潜在的挑战，如何构建合法的裁判，成为AI司法必须考虑的命题。美国部分学者提出透明度、公平性和适当的程序标准有助于网络法院(ODR system)合法性的构建。(34)参见Anita Ramasastry, Government-to-Citizen Online Dispute Resolution: A PreliminaryInquiry, 79 WASH.L.REV.159, 173(2004).美国计算机协会和欧盟计算机协会针对算法自动决策可能带来的危害，提出了AI利用的七大基本原则，即对算法歧视的意识，权利救济，问责，可解释性，数据可追溯，可审计性，验证和测试。(35)参见ACM U.S.Public Policy Council, ACM Europe Policy Committee, Statement on Algorithmic Transparency and Accountability, https://www.acm.org/binaries/content/assets/public policy/2017_joint_statement_algorithms.pdf(last visited Aug.25, 2019).上述原则的背后也蕴含着AI司法治理的可行路径。结合司法适用的自身特点，笔者认为可从技术保证、使用监督、程序规制等方面实现可信赖的AI司法。

(一)技术保障

1.代码中融入伦理和法律要求。在AI司法时代，AI充当了证据分析、辅助审判的重要职能，即便法官依然要承担最后裁判者地位，但在一定程度上来讲，AI本身已经充当了部分裁判者的角色。因此从人工职能自身来讲就必须满足法官应有的职业素养和道德要求。为此，作为AI核心组成部分的代码本身应当满足非歧视、忠实执行宪法法律、以事实为依据以法律为准绳等等。美国的部分学者将代码与法律的融合称为“法律代码化”及“代码法律化”，通过“合约模块化”、“合约融合”等技术手段及制度安排，实现在区块链代码体现法律要求，保证法律实施的目的。(36)参见[美]凯文·沃巴赫：《信任,但需要验证:论区块链为何需要法律》，林少伟译，载《东方法学》2018年第4期。“数据清洗”“情感计算”“因果网络模型”等技术和方法的运用已经部分实现了AI的非歧视及是非观的形成，也使有道德的AI成为了可能。(37)参见[美]肖恩·格里什：《智能机器如何思考》，张羿译，中信出版社2019年版，第517-518页；王峰：《人工智能的情感计算如何可能》，载《探索与争鸣》2019年第6期；苗旺、刘春辰、耿直：《因果推断的统计方法》，载《中国科学：数学》2018年第12期。算法设计人员在开发AI司法系统时，应当将法律、道德等要求，并通过 “法律代码化”的方式嵌入代码的运转逻辑，实现对AI的软法规制，以避免其“任意性”。

2.充分的测试。软件测试(Software Testing)，用来鉴定软件的正确性、完整性、安全性和质量的过程。软件测试是一种实际输出与预期输出之间的审核或者比较过程。通过软件测试以发现程序错误，衡量软件质量，并对其是否能满足设计要求进行评估。AI司法在投入使用前必须进行严格且充分的测试，以保证软件实现正确的裁判结果，且以正确的逻辑实现。例如，AI应当可以实现对证据的校验、把关、提示、监督。如果原告或公诉机关提供的证据存在形式上的瑕疵，AI应当具有识别出来的能力，并提请法官注意。总的说来，围绕着AI司法系统的功能定位，开发人员应该采取广泛而深入的测试手段，诸如白盒测试(诸如代码审查等)，黑盒测试(等价类划分法，正交试验法等)以发现程序适用中可能存在的错误，实现AI系统的鲁棒性和安全性。

3.可解释算法的构建。可解释性指算法能被终端用户理解，比如要求算法应用者解释其算法是如何工作的，或者要求他们使用能够阐明决策依据的算法。实践中，欧盟已将可解释性作为评估算法决策潜在危害的一项基本指标，从而保证人们能够获取与算法决策相关的有价值的信息——这是GDPR赋予人们的一项重要权利。(38)参见Lilian Edwards and Michael Veale, Slave to the Algorithm? Why a 'Right to an Explanation' is Probably Not the Remedy You are Looking For, 16 Duke L.& Tech.Rev.18(2017).考虑到AI将在证据审核、法律信息检索、法律论证和证据推理等方面深入介入到案件审判流程，必将对当事人的权利造成重大甚至是决定性的影响，可解释性对构建可信任AI至关重要，也是司法公信力的体现。然而强制要求算法具备可解释性，可能会严重限制算法的潜在功效，因为在AI系统的可解释性与其准确性之间可能存在着不可避免的冲突。数据科学家Max Kuhn和Kjell Johnson认为，“不幸的是，最强大的预测模型通常是最难解释的。”(39)Max Kuhn and Kjell Johnson, APPLIED PREDICTIVE MODELING 50(New York: Springer-Verlag New York, 2013).算法的准确度通常随着其复杂性增加而提升，但是越复杂的算法，解释起来就越困难。(40)参见Jason Brownlee, Model Prediction Accuracy Versus Interpretation in Machine Learning, https://machinelearningmastery.com/model-prediction-versus-interpretation-in-machine-learning/(last visited Aug.25, 2019).尽管随着AI算法可解释技术的不断出现，例如，一种被称为“概念激活向量测试(Testing with Concept Activation Vectors)” 的算法可解释性技术，能够直观显示神经网络模型运算所依据的概念及其比重，(41)参见王焕超：《如何让算法解释自己为什么“算法歧视”？》，https://mp.weixin.qq.com/s/4gjKvSB5acN_1evfTFyLkg算法的可解释性与准确性会同时得到提升；但在短期内，AI系统的功能性与可解释性之间需要达成一种动态平衡。

(二)管理机制保障

1.建立AI司法许可制度。许可制度意味着经过充分测试或验证的AI程序才可以得到正式使用，严格的批准程序是AI有效性的保证，但是鉴于AI算法模型是动态的，即算法可能通过不断抓取新的数据或对外界环境的反馈，更新预测模型。可以考虑更动态的市场准入，不是一次性的实施前批准，而是在AI程序运行过程中采取更为频繁的功能验证和运行监控。此外，许可制度也意味着更广泛对话的可能，实现通过充分的讨论来确定模型的构建，主要是各种变量的权重。例如，可以通过许可制度中的听证程序，广泛听取社会大众和专家学者的意见，确保算法模型中体现诸如公平正义、非歧视等公共价值。(42)Danielle Keats Citron; Frank Pasquale, The Scored Society: Due Process for Automated Predictions, 89 Wash.L.Rev.1(2014)

2.建立算法审计制度。算法审计制度作为AI算法的一种监督方式，保障了AI司法系统稳定运行。有些学者认为，针对自动化决策系统，应当根据系统所涉事项的重要程度，确定审计的频率和深度。一年两次的审计对于大多数自动化决策系统都是有意义的。(43)参见Helen Nissenbaum, Accountability in a Computerized Society, 2 SCI.& ENGINEERING ETHICS 25, 37(1996).美国联邦贸易委员会(Federal Trade Commission)则认为针对广泛出现的人工智能预测系统，包括决定贷款额度的信用自动评分系统，应进行更强有力的审计监督。(44)参见Danielle Keats Citron, Frank Pasquale, The Scored Society: Due Process for Automated Predictions, 89 Wash.L.Rev.1(2014).建立算法审计制度，对AI司法进行事中或事后预防，可以起到及时纠正瑕疵AI算法的功效。在算法审计的方式上，技术专家需要进入AI司法系统，测试系统是否存在偏差，专横和不当的表征。在审计的内容上，即包括AI系统挖掘的数据集，还需要查看描述嵌入系统算法中的变量、相关性和推论的源代码和程序员注释，以识别不恰当的数据分类和相关性模式，例如种族、地域、性别等在案件结果影响中的不当权重，检测出程序设计人员潜在的偏差和Al进化过程中产生的偏差。

3.透明度要求。在以算法驱动的AI司法系统中，透明度不仅是一种“清晰可见的状态”，更是一种观察和了解甚至参与系统运行的方式。(45)参见Phillips JWP, Secrecy and transparency: an interview with Samuel Weber.28 THEORY, CULTURE & SOCIETY 158-172(2011)透明度可以在平台设计和算法机制层面，也可以更深入地在软件系统逻辑层面。理想情况下，AI系统的源代码、算法预测模型、数据集及逻辑应该向公众开放。但基于隐私保护，商业秘密等方面的考量，在开放的具体方式和程度上，还有待进一步的商榷。

有些学者进一步认为，提高系统的透明度，将系统内部的工作流程公示于众，将有助于公众理解系统，培养公众信赖。(46)参见Hultman J., Axelsson B., Towards a typology of transparency for marketing management research, 36 INDUSTRIAL MARKETING MANAGEMENT 627-635(2007); Wehmeier S., Raaz O., Transparency matters: The concept of organizational transparency in the academic discourse, 1 PUBLIC RELATIONS INQUIRY 337-366(2012).例如通过构建人机交互模型(interactive modeling)，让诉讼参与人直观感受到在输入条件改变时，如影响案件裁判的各种因素，比如认罪态度、数额、是否累犯等的输入值发生变化时，AI的推论结果会发生怎样的改变，以使人们更好的理解AI如何影响影响案件的裁判结果，从而消除当事人“AI裁决如同赌博”的疑虑。

将透明性要求适用于AI司法系统，也是司法公开的基本要求，有利于公众监督的实现。(47)参见Danielle Keats Citron, Technological Due Process, 85 WASH.U.L.REV.1249, 1308(2008)..正如李纳斯定律，“只要有足够多的眼睛，就可让所有的问题现形”。(48)Eric S.Raymond, THE CATHEDRAL AND THE BAZAAR 9(1999).这意味着，将AI算法透明的展示给足够多的公众，那么算法漏洞将变得容易发现，并且可以得到补救。通过代码开源并建立AI司法代码开源社区，吸引、鼓励技术开发人员对代码进行讨论、测试、完善或许是透明度实现的可行方式。从美国的实践来看，已经存在公众参与进行算法监督的例证。在软件用于公共系统前，立法者将公开代码方便算法审查，公众可以测试算法如何运转。(49)参见，e.g., Jim Dwyer, Showing the Algorithms Behind New York City Services, N.Y.TIMES(Aug.24, 2017), https://www.nytimes.com/2017/08/24/nyregion/showing-the-algorithms-behind-new-york-city-services.html(last visited Aug.25, 2019)(discussing a New York city councilman’s bill to mandate that computer code used for government decision making be open for inspection and testing).

透明度也意味着问责的可能性。美国的法律和政策往往注重透明度要求，有时甚至将监督等同于透明度。(50)参见，e.g., 5 U.S.C.§ 552(2012)(requiring agencies to make government records available to the public); 15 U.S.C.§ 6803(2012)(requiring financial institutions to provide annual privacy notices to customers as a transparency measure).缺乏透明度，监管者往往难以开展算法追责。(51)参见杨东：《监管科技:金融科技的监管挑战与维度建构》，载《中国社会科学》2018年第5期。透明度的问责在AI司法当然也具有实际意义。当系统出现误判时，诸如量刑中明显考虑了被告的职业特征，或引用了错误法条时，透明性有助于找出智能系统产生歧视或功能偏差的原因，如识别出AI出现的偏差，究竟是开发人员或使用人员故意导致，还是AI系统深度学习的结果，以实现责任的准确归结。

(三)建立法律与技术的互动机制

1.法官的技术培训及技术人员的法律培训。法官应该了解AI运行的基本原理，包括有监督和无监督的ML算法的简单原理。其中的偏见教育将有助于法官理解AI应用中固有的算法偏见，及其在司法应用上如何形成、体现及产生影响。进而促使法官辩证看待AI，既不盲目排斥，又不过分依赖，保持法官的裁判独立性。技术开发人员应当了解基本的法律原则。在AI时代，代码可能意味着法律本身，进而实际赋予了技术开发人员重新表达法律甚至填补法律漏洞的权力。美国学者甚至认为，因为AI系统决策系统本身实质上起到了分配权利义务的作用，技术开发人员编写代码的过程等同于立法本身。即便在与法律专家的互相配合下，代码的编写不至于偏离法治的轨道，然而技术人员至少应当了解法律的基本原则，才能更好的实现法律的技术表达，否则可能出现“各说各话”的不利局面。

2.法律专家与开发人工合作促进法律代码化。法律与代码并不完全对立，法律同样可以代码化。然而，将法律规则转化为技术规则的做法并非易事。法律规范是一种本质上模棱两可、用语言书写的一般规则；技术规范与法律规范相反，它只能通过代码表达，也必然依赖算法形式和数字模型。所以，代码规范比其包含的法律条款更为具体，也比较“刻板”。因此，将法律规则转化为技术规则，将法律写入技术、硬件或软件设备的过程，需要法律专家提取出抽象法规范中的具体要素，如主体、行为、后果，也需要技术人员用刻板的代码表达出法律规范具体要素之间的关系模式。

区块链及智能合约的发展，为法律的代码化提供了注解。大多数商业合约本质上都是由律师组织并自定义的模块。有些部分对经营条款和特定情况下的应为之事进行阐述，其他部分就是非经营性或者法律条款，例如有关损害、赔偿、保密、法律适用和法院选择的规定。将商业合约转化为智能合约正式编码，需要从上述模块中提取模板进行数字化。合约的模块化以适应代码化对法律工作者提出了新挑战。

AI司法构建的主要数据来源为法律规范及案例，数据质量好坏将直接影响AI性能的发挥。在法律数据的筛选、分类、标记、清洗，法律文件的代码化上，开发人员应当与法律专家充分讨论，形成共识，以防止在数据源头出现的歧视和错误。在涉及法律推理算法模型的构建上，由于开发人员往往缺乏法律专业知识，也应与法律专家充分交流，法律专家应当参照合约模块化的作法，具体化影响法律结果的要素(自变量)，如行为人的年龄、造成的后果、是否足额赔偿受害人，是否认罪等等，并帮助技术人员预设权重，以实现法律的代码化，达成技术上可实现，又符合法律自身要求的AI司法系统。

3.建立法官与技术人员定期联系机制。AI构建完成后，即便法律发生变化，AI也可能不会更新软件代码。对法律变化或其他意外情况的担忧可以通过向软件系统添加日落条款来缓解，也可以要求定期审查和重新考虑软件。鉴于成本考虑，定期审查软件可能是首要选择，可以考虑建立开发人员与法官定期联系制度，以实现软件的及时完善。

(四)建立AI司法的审判程序保障

AI如何融入司法裁判，其实就是进一步回答法官将如何利用AI结论？是替代还是辅助？当事人如何参与AI司法系统？应该为当事人提供哪些保护？这均涉及AI司法审判的程序选择，也关系到可信赖AI司法的构建。

1.AI是法官的延伸而非替代。《欧盟AI伦理准则》要求，AI系统应以增强、补充人类的认知、社会和文化技能为目的，在功能分配应遵循以人为中心，确保人对AI系统的监督。以人为中心的人机关系，决定了在AI司法领域，案件的自动化处理结果，不应对当事人发生终局效力。法官应当对自动化结果拥有采纳与否的权力，以应对AI可能存在的算法霸权(arbitrariness by algorithm)，歧视(bias)，和不公正(unfair mischaracterizations)。完全的自动化有助于提高裁判效率，然而合法性才是司法裁判的根本，AI司法必须在提高效率和确保改善司法途径所固有的程序保护之间取得平衡。

此外，自由裁量权对实现实质正义具有重要意义。尽管在大多数情况下，AI带来的自动化可能是比自由裁量权更好的选择，但彻底根除一切自由裁量权将是错误的。(52)参见Matthew Diller, The Revolution in Welfare Administration: Rules, Discretion, and Entrepreneurial Government, 75 N.Y.U.L.REV.1126(2000).(discussing problems with new discretionary model for administration of public benefits as eligibility workers lack professional norms they once possessed).在纠纷解决机制中，必要的自由裁量权是创造性的主要来源，是案件定性和定量的关键。(53)参见张军：《法官的自由裁量权与司法正义》，载《法律科学》2015年第4期。

故而，在法官与AI融合方式上，必须得设置最后看门人机制，法官应当审查AI处理结果的理由及逻辑，形成AI预处理+法官最终决定的模式。只不过在法官介入的程度上应视案件的复杂程度区别对待，对于标准化程度高、已经形成稳定有效裁判模式的案件，诸如交通肇事侵权案件、民间借贷案件，法官可能更容易直接采纳AI结论；而对于需要价值判断，综合考量的案件，诸如死刑复核、正当防卫的认定上，法官就需要从严核查AI的裁判结论，并得出自己的判断。

2.当事人应当获得参与AI决策的程序保障。良好的法律秩序保证决策者对决策负责，并赋予受影响者抗辩的权利。(54)参见，e.g., Lori Andrews, I KNOW WHO YOU ARE AND SAW WHAT YOU DID: SOCIAL NETWORKS AND THE DEATH OF PRIVACY 189-91(2012)(concluding with a proposal for a "Social Network Constitution"); Rebecca Mackinnon, CONSENT OF THE NETWORKED 240-41(2012)(proposing ten principles of network governance).AI对诉讼参与人做出不利结论时，受影响的诉讼参与人应当被告知支持结论证据和决策的过程。并赋予当事人针对AI的结果提出抗辩的权利，进而降低法官采信错误结论的可能性。换句话来讲，在AI与当事人的关系中，当事人不只是被动地接受AI的结论，而是应当赋予当事人正当程序保护，这实际也是“对抗式”诉讼的基本要求，对于发现真实、促进公平、权利保障都具有重要的意义。在实现可抗辩的技术保障上，系统开发人员应当在AI中建立审计线索(audit trails)，以记录支持AI决策的事实和法律依据，包括得出相关性和推论的过程和依据。诉讼参与人或其委托的专家证人通过查阅审计线索，访问算法模型，以获得挑战误判和错误推断的抗辩能力。当然，对于AI在事务辅助上产生的错误，比如遗漏了部分证据、未能正确反映诉讼请求，当事人无需技术支持，当庭就可以要求更改或者法官自觉更改。从这点来讲，技术的意义更多在于保障对AI错误推理产生的预判决结果的挑战。

3.AI参与司法的形式选择。就目前的司法实践看，如由中央政法委委托，上海承建的“刑事案件智能辅助办案系统”已经应用到刑事案件的庭审当中，运用AI对证据进行校验、把关、提示、监督。从形式上看，AI的司法运用停留在事实认定的角度，在程序上也并未脱离传统庭审即线下审理的框架。实际上，即便AI的发展在技术上能够完全代替法官做出法律推理和判决，基于前述理由，也不能直接将AI的处理结果适用在当事人身上，而必须为法官和当事人等构建程序入口，以实现可监督、可抗辩。在程序入口的构建上，既可能是一问一答的传统纠纷式或对抗式的庭审方式，也可能是针对AI预判决结论的事后抗辩或监督，或者是两者之间的融合。关键在于AI的利用方式的选择，法官既可能利用AI同步进行庭审，AI在庭审过程中自动完成证据分类、法条检索等，当事人可以当庭对AI的分类或法条检索结果提出异议，也可能在庭审后完成类似工作，法官在决定是否采纳时听取当事人意见。但总的来说，AI并不排除法官的当庭利用或者事后利用，但不管采取哪种方式，既要保证发挥AI司法便捷、高效的信息优势，又要不排斥传统的纠问式查明方法，照顾当事人维权习惯和偏好，服务于AI预处理+法官监督+可抗辩的逻辑框架的作用的发挥。

(五)建立责任追究制度

法官承担枉法裁判责任毋庸讳言，也是“让审理者裁判，由裁判者负责”的司法责任制要求。AI责任主要包括使用人责任，开发人责任。(55)参见[美]约翰·弗兰克·韦弗：《AI也是人：AI时代的法律》，郑志峰译，元照出版集团2018年版。在AI司法场景下，使用人责任应是法官责任；开发人责任，主要为算法设计人员责任。

在责任的性质上，法官的责任随着AI功能的不断完善，可能最终转化为监督责任。换句话来讲，当AI具备独立处理案件的能力时，法官可能就会仅仅扮演一个监督者的角色。这意味着，当法官对AI错误裁判结果造成当事人损害没有过错时，不需要承担责任。当然，如前所述，在监督的内容和标准上，应当结合AI的技术实现能力、案件的复杂程度、对当事人权利影响的重大性等综合确定。通常来讲，AI的智能化程度越高、案件越简单、处理结果偏差对当事人影响越小，法官监督内容就越少，监督必要性就越小，责任就越轻。在法官监督责任的具体设定上，有待进一步的研究和探讨。

算法设计人员责任，主要表现若因设计原因导致AI出现偏差，对法官形成误导，损害当事人权益的，算法设计人员应当承担责任。在具体义务的设定上，应要求算法人员(1)与法律专家充分沟通，确保法律原则、规则，法律推理逻辑等在代码设计层面得到体现；(2)充分的测试和代码自查义务，以司法实践功能为导向，满足司法活动需求；(3)充分提示AI算法的固有缺陷和使用风险，披露AI模型的主要参数以及法律推理的主要逻辑，以满足算法审计需求及透明度要求。可考虑参照美国电气电子工程师协会(IEEE)发布的《人工智能设计的伦理准则》(Ethically Aligned Design)(56)参见Ethically Aligned Design, https://standards.ieee.org/content/dam/ieee standards/standards/web/documents/other/ead_v2.pdf(last visited Aug.25, 2019).建立适用于司法活动的AI设计准则，既为设计人员提供行为指引，约束算法设计过程中的不当行为，又为追责提供参照标准。总之，建立算法设计人员责任有利于促使其勤勉谨慎的履行算法设计义务，从源头实现可信赖的AI。