司法大数据与人工智能开发的技术障碍*

2018-02-06 16:29:09王禄生

中国法律评论 2018年2期

王禄生

东南大学法学院副教授

江苏高校区域法治发展协同创新中心研究员

大约从2013年开始，我国法院进入了以智能化为核心的“智慧法院”建设时期。这实际上就是在传统司法信息化建设的基础之上，进一步利用大数据与人工智能等前沿技术，在人民法院全业务、全方位和全流程实现网络化、阳光化和智能化。此后，“智慧法院”建设的司法现代化规划逐步被国家战略所认可。2016年7月，中共中央办公厅、国务院办公厅印发《国家信息化发展战略纲要》和《“十三五”国家信息化规划》，将建设“智慧法院”列入国家信息化发展战略。2017年7月出台的《新一代人工智能发展规划》中则明确将“智慧法庭”列入规划。可以预见，在未来一段时间内，大数据与人工智能驱动的“智慧法院”建设将会成为法院系统的工作重心之一。值得注意的是，在司法大数据与人工智能开发的过程中出现了片面技术理性的论调，这突出表现在认为技术能够解决一切问题。从科技哲学的视角来看，科学技术都必然面临一定的限度。因此，要更好地推动大数据与人工智能的司法应用，首先必须明晰它们的技术障碍所在。本文试对该问题谈谈浅见。

一、司法大数据与人工智能开发的典型功能

在“智慧法院”的整体架构下，大数据与人工智能技术被整合到四大应用场景之内——服务社会公众、服务案件审判、服务判决执行、服务司法管理。其中，为法官办案提供智能辅助是“智慧法院”建设的核心目标之一。从目前全国各地的实践来看，类案推荐、量刑辅助与偏离预警是大数据与人工智能技术在辅助法官办案（“审判智能化”）领域最为典型的应用。1参见李林、田禾、吕艳滨：《中国法院信息化发展报告No.1(2017)》，社会科学文献出版社2017年版，第9—10页。在最高法院出台的《关于加快建设智慧法院的意见》中，上述三大功能就被放置在“运用大数据和人工智能技术，按需提供精准智能服务”的标题之下。

（一）“类案推荐”的功能概述

类案推荐，顾名思义，即推荐与在办案件最为相似的案件。判断是否类似的标准主要是案件情节、适用法条与争议焦点。该功能是目前全国各地智能法院办案系统几乎必备的模块，主要包含类案的快速查询、智能推送等功能，并可以进一步衍生出类似案件适用法条推荐、争议焦点推荐、主要证据推荐等功能。日常生活中，我们的手机APP会收到各种推送，这些推送通过提取用户喜爱的产品的特性，在数据库中寻找相关的类别，再推送给用户。类案推荐也是通过提取案件情节，在数据库中寻找情节最为类似的案件，推荐给法官。当然，对案件情节结构化工作（也称“案件画像”）的精细程度在很大程度上影响类案推荐的准确度。这一点将在后文的技术路径中展开。

类案推送在司法辅助中将占据重要地位。此前，江苏、北京、上海等地法院的智能辅助办案系统中均嵌入了类案推送的模块。2参见《江苏“智慧法院”信息化建设升级为司法能力现代化注入新动力》，载《法制日报》2017年3月20日；《北京“睿法官”推进同案同判》，载《北京晨报》2017年2月24日；《上海应用“人工智能”办案防范冤假错案全国首个“智能辅助办案系统”问世》，载《法制日报》2017年7月11日。2018年1月5日，最高人民法院推出的“类案智能推送系统”也正式上线运行，具备类案快速查询和智能推送等功能。3参见《周强在“智慧法院导航系统”“类案智能推送系统”上线活动上强调加快推进新时代智慧法院建设》，载《法制日报》2018年1月5日。

（二）“量刑辅助”的功能概述

量刑规范化改革是法治进步和时代发展的客观需要。“规范裁量权，将量刑纳入法庭审理程序”是中央确定的重大司法改革项目。4参见《最高人民法院关于深化司法公开、促进司法公正情况的报告》，载《人民法院报》2016年11月9日。在此背景下，法官量刑辅助系统应运而生。应当明确的是，该系统只是为法官提供参考的工具，直接让人工智能作出裁判并不符合司法的基本伦理。从技术路径来看，量刑辅助系统就像天气预报系统，运用函数对各种变量（案件情节）运算推测结果。具体而言，该功能模块是采用正则表达式、上下文无关文法、命名实体识别等方式提取法律文书的情节信息，之后对提取的信息进行结构化，用数学模型来描述数据的特点和规律，算出与其最相符的数学模型或算法，人工智能通过模拟算法，根据情节推导量刑结果。5参见张德：《自然语言处理技术在司法过程中的应用研究》，载《信息与电脑》2017年第17期。从目前的开发来看，部分系统可以根据司法办案系统内部的文书（如起诉书、庭审笔录）自动提取情节，从而匹配案件并进行量刑的推荐；部分系统则可以基于法官勾选情节的方式实现量刑推荐；也有部分系统两种功能实现方式兼而有之。量刑推荐是司法大数据与人工智能开发的核心模块之一，贵州的“法镜系统”、6参见《贵州政法机关扎实推进科技创新与司法体制改革深度融合——大数据办案精准又公正》，载《人民日报》2017年7月 10 日。上海“206工程”开发的“智能辅助办案系统”7参见《上海应用“人工智能”办案防范冤假错案全国首个“智能辅助办案系统”问世》，载《法制日报》2017年7月11日。都具有量刑辅助的功能模块，海南高院则专门开发了“量刑规范化智能辅助系统”为法官办案提供决策参考。8参见《让现代科技更好助力司法改革——海南智能量刑系统运行“多快好省”》，载《人民法院报》2017年12月9日。

（三）“偏离预警”的功能概述

如果说“量刑推荐”是针对法官未决案件的智能辅助的话，“偏离预警”则在更大程度上定位于对已决案件的质量控制。它是指人工智能依据算法推测的量刑幅度与法官裁判的量刑幅度进行比较，计算二者的偏离程度，针对偏离程度的高低给予不同等级的预警。它就像电梯的超重警报，对法官的裁判具有防控风险的功能。以刑事案件为例，在类案推送与量刑辅助系统的支撑下，系统通过运算能获得关于本案的量刑区间，这个量刑区间的准确性也依赖于系统的成熟度与数据的完整度，数据越完整，量刑区间就越准确。系统把法官审理案件的裁判情况与人工智能的量刑区间进行对比，偏离特别高的话，意味着裁判结果可能存在合法性、合理性问题。当然，偏离预警是一个涵盖面很广的功能模块，用类似的思路不仅可以解决判决结果的偏离预警，同样可以通过对案件处理全流程的偏离情况进行预警，比如某个案件的办理时间明显超过其他类似案件的办理时间。前者是实体偏离预警，后者则是程序偏离预警。据不完全统计，上海、江苏、浙江、贵州、云南等省市已经上线了包含“偏离预警”功能模块的审判辅助系统。以江苏为例，该省拥有最高人民法院在全国范围内设立的首家“人民法院司法大数据研究基地”（江苏省高院与东南大学共建）。依托科研优势，基地开发的“同案不同判预警系统”通过对海量刑事文书的深度学习，形成量刑算法，对高偏离度的案件进行自动预警，从而为统一裁判尺度提供技术支撑。9参见《贵州探索司法体制改革与科技创新深度融合谱写“数字政法”“智慧司法”新篇章》，载《法制日报》2017年7月10 日；《大数据服务司法创新云平台助推司法公正——浙江高院联手阿里巴巴打造“智慧法院”》，载《人民法院报》2015年11月25日；《大数据统一裁判尺度直播提高司法公信力》，载《南方日报》2017年9月14日；《司法信息网络化运行大数据助力执法办案——云南探索智慧法院建设新模式》，载《人民法院报》2018年1月5日；《江苏“智慧法院”信息化建设升级为司法能力现代化注入新动力》，载《法制日报》2017年3月20日。

二、司法大数据与人工智能开发的基本思路

从技术路径来看，类案推送、量刑辅助与偏离预警三大典型应用模块在依照一条依次推进的技术路线展开，三者之间有很大的技术逻辑关联，同时也代表着司法大数据与人工智能应用“数据源—数据整合—知识构建”的一般思路。

（一）图谱构建

知识图谱是结构化的语义知识库，用于以符号形式描述物理世界中的概念及其相互关系。知识图谱的架构，包括知识图谱自身的逻辑结构以及构建知识图谱所采用的技术（体系）架构。10参见刘峤、李杨、段宏、刘瑶、秦志光：《知识图谱构建技术综述》，载《计算机研究与发展》2016年第3期。从这个角度出发，案件知识图谱就是用符号形式描述的法律案件要素相互关系的——在类案推荐与偏离预警的应用场景下，主要是案件情节与裁判结果之间关系的——结构。以刑事案件为例，包括犯罪构成要件、量刑情节、法律规范、刑事政策等方面。知识图谱有自顶而下和自底而上两种构建方式。自顶而下指借助百科类网站等结构化数据源，从高质量数据中提取本体和模式信息，加入到知识库中；而自底而上构建，则是借助一定的技术手段，从公开采集的数据中提取出资源模式，选择其中置信度较高的新模式，经人工审核之后，加入到知识库中。11参见朱木易洁、鲍秉坤、徐常胜：《知识图谱发展与构建的研究进展》，载《南京信息工程学报》（自然科学版）2017年第6期。案件知识图谱的构建在实践中也存在两种模式。其一是自顶而下，即事先人为地设定好案件图谱的相关结构，如主体、客体、客观方面、主观方面，以法律逻辑展开，形成系统的图谱结构。然后，从海量的裁判文书、法律、司法解释中提取相应的情节来充实形成完整的图谱。比如在“盗窃金额”方面就可以细分为“数额较大”“数额巨大”“数额特别巨大”，并与具体金额挂钩。其二则是自底而上，即事先不设定案件知识结构，而是通过对海量裁判文书的深度学习，自动地搭建出案件知识图谱。可以发现，无论采用哪种模式，都离不开海量案件文书的支撑。因此，目前百花齐放的司法大数据与人工智能应用在某种程度上与中国裁判文书网的司法公开息息相关。

（二）情节提取

案件知识图谱构建完成后，司法人工智能就可以尝试依照知识图谱确定的框架体系来识别每个案件。情节提取实际上就是将裁判文书中半结构化、非结构化的数据进行提取整合，形成结构化的标签。当然，仅有知识图谱还不能直接提取案件情节，还需要一道桥梁，就是“自然语义识别技术”。在大数据时代，对海量文本信息进行有效的语义分析已经是自然语言处理、信息检索、信息分类、信息过滤、语义挖掘、文本的机器学习等诸多应用领域基础且关键的研究问题，它影响着上层信息服务与信息共享的质量和水平。12参见秦春秀、祝婷、赵捧未、张毅：《自然语言语义分析研究进展》，载《图书情报工作》2014年第22期。自然语义识别技术是处理自然语言的前提条件，自然语言一般是指人类社会中逐渐发明和演变的用于沟通交流的语言，表现为语音、手势语、书面语言等。通过自然语义识别技术的框架，就可以自动实时、明确地从海量司法文书中提取知识图谱构建所需的情节，这是一个非常关键的环节。

（三）类案识别

完成情节的提取后，第三步就可以做类案识别。它的基本思路是依据已经构建好的案件知识图谱，通过自然语义识别技术从海量文书中提取情节，将每个案件全方位地结构化与标签化，然后，将具备相似情节的案件进行整合分类，形成不同维度之下的“类案”。目前许多类案推荐的基本原理就是在识别目标案件情节的基础之上（也可以通过用户勾选情节选择），从已经标签化的案件大数据库中匹配符合情节的案例。用技术语言来表述就是系统构建案件画像，基于案情画像知识库，构建案例知识索引，便于加速检索匹配过程。利用案情语义匹配功能，与案例知识库进行案情相似性匹配和裁判结果相似性匹配，综合二者匹配度获得初步的类案。13参见张德：《自然语言处理技术在司法过程中的应用研究》，载《信息与电脑》2017年第17期。这很像图书馆把图书依据性质分类，读者再依据图书种类查询类似图书的过程。

（四）模型训练

实现类案识别后，就要对人工智能进行模型训练，这是最为关键的一步，也是体现各个研发单位核心竞争力的步骤。当人工智能学习法律文书达到一定数量之后，就能够让人工智能模拟算法或者函数，根据录入文书提取的各种案件情节，通过深度学习，得出应当得到的函数结果（通常是判决结果）。模型训练的基本原理是人工智能通过对大规模裁判文书分析建模，寻找案件要素特征到裁判罪名和量刑之间的高置信度的关联规则，实现案件要素有机重构。关联规则是如同“X→Y”的蕴含式，表示通过 X 应当可以推导“得到”Y，其中 X 和 Y 分别称为关联规则的先导和后继。通过关联规则挖掘能够发现案件要素特征以及裁判罪名量刑之间的关联，分析案件判决逻辑过程与依据。这种能够表征实际判案过程中的高置信度规则需要人工智能模拟训练，14参见张德：《自然语言处理技术在司法过程中的应用研究》，载《信息与电脑》2017年第17期。其过程是一种从具体到抽象总结、升华的过程，如同推导数学公因式一样，人工智能通过对海量学习案例库、知识库的内容，寻找情节与量刑间的关联规则，得出“X→Y”的蕴含式或算法。系统根据不同的情节模拟出了相关算法，实际上是训练了不同的模型。

（五）量刑预测

模型训练的结果是形成量刑的算法，而算法的实质就是根据海量案件情节的组合拟合出符合量刑结果的函数。海量精准算法的积累使量刑预测成为可能：当一个案件传入法官的裁判系统之后，就算仅有公诉文书，人工智能也可以通过自然语义识别技术，提取案件情节，根据先前形成的算法推导量刑结果。公诉文书提供的情节一般比较少，细节也不清晰，所以可能预测结果不准确，但是随着案件诉讼程序向前推进，相关的信息就会越来越多，系统做出的量刑预测就会更准确。量刑预测就像预测天气情况一样，根据条件推出可能的结果，离不开前面四个环节高效的运转。预测天气是为了未雨绸缪，预测量刑则是为法官尚未裁判的案件提供参考，帮助法官发现、解决问题，这关系着司法辅助系统的第二个模块——量刑辅助。

（六）偏离度测算

量刑预测与偏离预警的功能都是为法官提供参考，不同的是量刑预测是针对未决案件，为法官提供量刑辅助，是判决前的参考；而偏离预警则是在法官裁判后提供参考，针对已决案件。案件偏离度测算实质是对已决案件的情节进行实时自动提取，再按照系统中的算法进行运算，从而计算出案件裁判的偏离度。按照偏离度的大小划分等级，如果案件裁判偏离度很大，系统就会自动预警。对于偏离度较高的案件，法官可以在界面中看到偏离度偏高的原因，从而帮助法官衡量所作裁判的合理性。同样，借助偏离预警功能模块，法院案件管理部门也可以在判后完成对法官办案质量的全样本筛查。

三、司法大数据与人工智能开发的技术障碍

（一）图谱构建的技术障碍

知识图谱构建是司法大数据与人工智能引用的关键环节，其中信息抽取(information extraction)又是知识图谱构建的第一步，分为实体抽取、关系抽取、属性抽取。15参见刘峤、李杨、段宏、刘瑶、秦志光：《知识图谱构建技术综述》，载《计算机研究与发展》2016年第3期。现阶段，法律知识图谱的构建尚未达到自动化的水平。也就是说，由于法律数据主要以非结构化和半结构化形式存在，对结构化数据有较大依赖度的“自底而上”的自动化、半自动化构建图谱面临极大的困难，人工智能通常无法自主、准确、高效地完成法律知识图谱中的实体抽取、关系抽取与属性抽取等工作。故而，多数研发主体采用“自顶而下”的方式，通过人工构造语法与语义规则推进知识图谱的构建工作。然而，刑事案件的案由有400多种，民事案件的案由更是可以细分为上千种，所以，“自顶而下”法律知识图谱构建过程对人工的过度依赖是现阶段司法大数据人工智能发展面临的最大难题之一。进而言之，由于案件知识图谱构建速度与精度不足导致现有的智能办案辅助系统的案由覆盖十分有限，如2017年7月上线的 “上海刑事案件智能辅助办案系统”（简称“206工程”）只覆盖了18个罪名；16参见《上海应用“人工智能”办案防范冤假错案全国首个“智能辅助办案系统”问世》，载《法制日报》2017年7月11日。随后，“上海民商事、行政案件智能辅助办案系统”（简称“206工程”民商事版）第一阶段只覆盖了8个案由。17参见《上海智能辅助办案覆盖民商行政全领域 “206”工程民商事版试运行上线》，载《人民法院报》2017年12月3日。贵州法院打造的智慧审判模式在刑事方面也主要覆盖了故意伤害、抢劫、盗窃等常见案由。18参见《贵州政法机关扎实推进科技创新与司法体制改革深度融合——大数据办案精准又公正》，载《人民日报》2017年7月 10 日。

（二）情节提取的技术障碍

众所周知，尽管法律文书大致按照统一的格式展开，但法官和检察官在撰写法律文书时就相同事项却存在多样化表述方式。也就是说，在知识图谱构建之后，无法通过传统的关键词匹配的方式提取情节，而是必须借助成熟的自然语言处理技术。自然语言处理技术的实质是让人工智能能够从法律文书的法律语言中（自然语言的一种状态）准确提取相应情节。举例而言，在法律文书中，被告人自首可能有相当多样的自然语言表述，除了“自首”之外还可能是“自动投案”“代为投案”“如实供述罪名”等表述。自然语言处理技术的目标是能够把一切实际上表示“自首”的自然语言表述精准识别，哪怕整个文书中并未出现“自首”二字。此种技术相较于传统关键词严格匹配的提取技术而言无疑有着极为显著的优势。现阶段不同的研发主体，在该技术积累方面相差悬殊。实践中，绝大多数研发主体较多地运用了通用的自然语义识别技术，未有针对性地根据司法场景进行迭代开发。这就会让人工智能在基于案件知识图谱提取案件情节时出现错误与遗漏，比如，盗窃罪案件中，法官对盗窃金额的描述可能分布在文书的不同位置，如果一个案件事实是盗窃了5000元，而自然语义识别技术却将金额识别为2000元，那么就会导致后面的环节包括类案识别、量刑的模型训练产生错误，进而造成前序相关工作功亏一篑。正因为普遍存在法律场景中自然语言处理技术的短板，现阶段有相当部分研发主体采用纯人工的方式为每个案件的情节打标签。这无疑极大地限制了情节提取的效率，同时也给后续的类案识别与模型训练制造了障碍。19模型训练需要海量样本的深度学习，而人工为情节打标签的方法无疑极大限制了学习样本的数量。

（三）类案识别的技术障碍

类案识别，其实是司法决策辅助都会必然运用到的，每个研发单位对这一方面都非常重视。类案识别面临的问题主要是在具体的识别过程中，准确率偏低。类案识别准确率偏低的原因有两点。一方面，在法律场景这个垂直领域的类案，不管是图谱的构建还是自然语义识别，在技术上遭遇瓶颈。如前文所述，由于自然语义识别技术的不成熟，极有可能造成情节提取不完全、不准确，而类案识别是建立在对案件情节分析的基础上，情节都没有提取到位，这必然会导致类案识别准确率的下降。另一方面，非常重要的原因是，一线开发的技术人员往往未能准确定位一线法官对类案推荐的实际需求。具体而言，一线法官在不同场景对类案推荐的业务需求是差异化的。对于简单案件而言，法官期待的“类案”可能是情节高度匹配，而对于复杂案件，法官对“类案”的期待则可能是法律关系或者争议焦点相同。在这种应用场景中，完全情节匹配反而无法满足法官的需求。

解决类案识别准确率低的问题，不仅需要完善图谱构建、自然语义识别技术，还需要设计、开发多种识别类案的方式。目前主要是以加权情节的类案匹配方式，即根据通过海量数据计算出不同情节与裁判结果之间的相关性强弱，从而对情节进行权重排序，在类案推荐时优先匹配高权重情节。这种类案推荐方式的准确度要高于通过部分情节权重而匹配的推荐方式。当然未来的方向是以法律关系及案件争议焦点为中心作类案识别，但是从现在人工智能还处于弱人工智能时代的背景来看，让人工智能自动识别法律关系以及争议焦点是不切实际的，难度很大，所以这也是类案识别开发过程中的技术障碍之一。

（四）模型训练的技术障碍

模型训练有多种方式，但是不管运用哪种方式，模拟训练都存在一个很大的问题，也就是人工智能的悖论：“Garbage in, garbage out”（垃圾进，垃圾出），意思是说拿不好或不对的数据去做分析，会产生糟糕或是无用的结论。目前，司法人工智能通过模拟训练形成的算法，都建立在对海量文书学习、训练的基础上，但是研发人员在现有技术条件下无法保证训练的样本文书全都是绝对正确的。如果文书本身就是错误或者存在瑕疵的，基于这些文书训练产生的模型与算法就可能遭遇精确性困境。进而，再遵循这些算法对法官办案进行辅助，可能的结果就是历史的经验错误被不断放大并形成、固化错误的“路径依赖”。

模型训练还面临“小样本难题”。也就是说，人工智能的量刑模型训练往往需要结合海量文书的深度学习形成，而司法实践中部分案件整体样本较少。在样本不足的情况下，大数据智能将面临困境。从目前的技术方向看，迁移学习是一个潜在的方向。迁移学习是运用已存有的知识对不同但相关领域问题进行求解的一种新的机器学习方法。两个不同领域共享的因素越多，迁移学习就越容易。20参见庄福振、罗平、何清、史忠植：《迁移学习研究进展》，载《软件学报》2015年第1期。比如，一个会骑自行车的人，往往很容易学会骑电动车。然而，理念与现实之间仍然有很大的差距，迁移学习作为可欲的方向之一至少在司法人工智能的开发领域尚未出现被实践充分认可的成果。一方面，小样本案件能否寻找到“临近”的、有足够相似度的大样本进行迁移学习；另一方面，迁移学习之后的函数与小样本案件之间拟合度是否充分。这都是法律人工智能模型训练技术创新过程中的重要障碍。

此外，模型训练还面临“过拟合”（overfitting）的技术“瓶颈”。一般而言，如果一个模型只在训练样本上表现得很好而不能对于新的数据样本做出很好的预测，则称为模型过拟合。21参见姚海鹏、王露瑶、刘韵洁：《大数据与人工智能导论》，人民邮电出版社2017年版，第27页。当前量刑预测的模型训练十分依赖判决样本数据集的训练，也就不可避免出现过拟合的现象——在训练的判决书样本之内，模型精准度很高，而当面临新的判决书时，则准确性急剧下降。

（五）量刑预测的技术障碍

量刑预测是通过一套算法作量刑的预测，包括罪名预测、刑期预测和罚金预测。法官们本应因为有个得力的助手而感到期待，然而事实上，一线法官对这种量刑预测的系统，似乎有些忧虑甚至并不买账。一线法官对这种系统的担忧在于，他们认为这套算法是个“黑盒子”，他们不知道算法是什么，不清楚这种量刑预测是如何计算出来的。这其实也是人工智能的悖论导致的，即人工智能算法的隐蔽性和案件裁判过程透明性间的冲突。这一冲突无法通过简单的“可视化”就有效解决。这是因为，现在的人工智能司法辅助系统，与20世纪90年代出现的量刑机器人不同。90年代将量刑视为一个线性模型，好比“1+1=2”这种决策方式，认为量刑可以是一系列加重、减轻情节的加减计算。但事实上，大数据的研究已经揭示，法官的裁判过程并非是线性模型，法官要综合考虑犯罪构成要件，加重、减轻、从轻等情节，最终的判决结果往往是一个模糊决策。基于此，许多研发主体在量刑决策的算法形成中也常常得到一个模糊决策函数，在这种情况下，人工智能量刑预测的过程就很难通过可视化的方式呈现或将算法完全公开，法官与公众也很可能因为技术门槛而无法充分理解。

（六）偏离度测算的技术障碍

偏离预警技术的研发目标实质上在于实现案件的同案同判。而在该技术的开发过程中，面临诸多技术障碍，其中最为明显的是偏离度测算模型的数据本地化问题。对于刑事案件，不同地区之间的量刑差异是较为显著的，以盗窃罪为例，对于同样的盗窃金额，经济发达地区的量刑很可能系统地低于经济不发达地区。因此，从偏离度预警模型构建的技术来看，势必要考虑不同地区之间的量刑差异。现阶段，部分研发主体采用分省域构建数据本地化模型，也就是对不同省份的数据进行分别训练，从而形成本地化的量刑模型。此种工作虽然有助于提升偏离度预警的准确性，但实际上在省域范围内量刑的差异也是十分显著的（如苏南与苏北，珠三角与粤东、粤西、粤北）。由此，对于技术开发主体而言，预警模型本地化工作的颗粒度就成为一个技术障碍，如果颗粒度过大（如以全国数据构建模型）其偏离度预警准确度将很可能存在系统性偏差；如果颗粒度过小（如以一个县域数据构建模型），不仅会面临样本不足的问题，同样还会使偏离预警追求同案同判的制度目标被消解。

四、结语

本文讨论了在“弱人工智能时代”司法大数据与人工智能研发面临的一些技术障碍，旨在冷静反思当前过热的司法技术主义热潮。当然，这绝非对科技介入司法的全盘否定。实际上，前沿科技与司法领域的融合确实改变了传统司法运作的面相，也实质上为司法效率与司法公正的提升创造了全新可能。从人类社会科技史来看，科学技术呈现出一种加速发展的态势，当前存在的技术障碍也许在不远的将来就可能被突破。尤其值得关注的是，2018年1月9日，科技部发布国家重点研发计划（司法专题任务），第一批投入4.5亿元（总投入9亿元）来专门研究司法领域的科技问题，本文提及的技术障碍都在这一专项拟定研究的指南范围之内。随着全国范围内对司法领域科技研究投入的增加，我们有理由期待司法领域的科技应用将迎来一个新的高潮。