未来还未来：反思中国法律大数据的基础建设*

2018-02-06 16:29:09程金华

中国法律评论 2018年2期

程金华

上海交通大学凯原法学院特聘教授、法社会学研究中心执行主任

“忽如一夜春风来，千树万树梨花开。”用唐代诗人岑参的这个诗句来形容“法律大数据”“法律人工智能”以及类似话题近期在中国法律界的涌现，一点不为过。仅就机构建设而言，最近两年，借法院裁判文书上网工程的东风，一批关于法律大数据和人工智能的公司和学术机构纷纷成立。1仅就法学院而言，中国最好的法学院都已经成立了专门从事法律大数据研究的机构，比如，同在2017年，中国人民大学法学院于9月成立了未来法治研究院；清华大学法学院于12月23日成立了法律与大数据研究中心；北京大学法学院于12月29日成立了法律人工智能实验室和北京大学法律人工智能研究中心。其他政法院校成立类似机构的也不在少数。理论界和实务界对于法律大数据和人工智能的潜在价值也有较好的阐述。2参见白建军：《大数据对法学研究的些许影响》，载《中外法学》2015年第1期；白建军：《法律大数据时代裁判预测的可能与限度》，载《探索与争鸣》2017年第10期；天同诉讼技术研发中心：《小律所，大数据：诉讼的数据化时代》，载《中国律师》2014年第5期；胡凌：《大数据影响下的法律实践与法学研究》，载《光明日报》2014年12月3日；周蔚：《大数据在事实认定中作用机制分析》，载《中国政法大学学报》2015年第6期；张浩：《大数据与法律思维的转变——基于相关性分析的视角》，载《北方法学》2015年第5期；刘佳奇：《论大数据时代法律实效研究范式之变革》，载《湖北社会科学》2015年第7期；於兴中：《当法律遇上人工智能》，载《法制日报》2016年3月28日；蒋勇：《以法律大数据建构法律职业的新型关系》，载《中国应用法学》2017年第2期；叶慧娟：《法律大数据：实现法治战略的有效战术》，载《文汇报》2017年10月31日；郑戈：《人工智能与法律的未来》，载《探索与争鸣》2017年第10期。目前，法学界开会流行一种新的模式，要么法律数据公司参加研讨会做主题发言，要么与会学者自带数据公司参会。这种现象具有全球普遍性，呈现了大数据时代法学研究和法律实践的“结构性转型”，而中国的同行则非常积极热心地拥抱这个转型，并誓言要在法律研究和实践中实现“弯道超车”或者“换道超车”，以更好地讲述法治建设的中国故事，掌握中国法治建设在国际舞台上的话语权。其志可嘉。

然而，根据笔者从事法律量化实证研究十多年的浅薄经验，认为有必要对这股热流泼些冷水，降降温，以便大家对中国法律大数据事业形成更健康的认识。3参见李鑫：《中国法律大数据产业发展研究》，载《经济与社会发展》2017年第2期。笔者的核心看法是，官员、学者和商人意识到法律大数据的重要性仅是“科学启蒙”，而法律大数据的基础性建设才算迈向“工业革命”的第一步。当前，中国的法律大数据事业充其量还只刚刚形成了科学启蒙的共识，实施了“科学实验”，但是由于法律基础数据存在的诸多问题，还没有形成法律大数据的真正产业革命。因此，对于中国法律大数据的产业发展而言，目前的重心是夯实基础数据建设的技术、机制和制度保障，为将来铺垫基业。尤其是，掌握各类法律数据“采矿权”的公共权力机构，负有不可推卸的责任。

本文将从如下几个方面展开。首先，结合在上海的调研，笔者谈谈整个法律大数据产业目前所形成的小气候，称为产业“小阳春”。其次，文章用两个部分，分别从法律数据的收集和使用两个方面，着重说明整个产业所面临的根本性问题。这是文章的重点。最后，提几点浅薄的建设性意见。值得说明的是，本文所讲的法律大数据的范围远远超越了以判决书为中心的司法数据，包括立法、执法、司法和法律服务领域的相关行为和结果数据信息。

一、新时代的产业“小阳春”

中国的法律大数据产业，在新时代进入了“小阳春”，迎来了一个非常好的小气候。各级政府的规划与推动，是形成这个小气候的主要推手，而市场和学术界又非常敏感地捕捉到这个潮流，往火堆里猛添柴火，多方联手，实实在在地在全国范围内进行了一场关于大数据和法律大数据的科学启蒙。这些动作主要体现在如下几个方面。

首先，国家和地方政府通过产业规划与政策引导来推动（法律）大数据产业的发展。在国家层面，对于大数据产业，已经是本届政府的重点工作领域，出台了相当多的政策来推动大数据产业的发展。在此不予赘述。在法律领域，亦是如此。有识之士认为，通过法律大数据来改善政府治理能力、倒逼治理机制的改革，以技术发展带动司法的机制和体制改革，也将是一条非常有特色、走在时代前沿的“中国道路”。正因如此，2016年10月，中央政法委邀请阿里巴巴集团董事局主席马云给百万政法干警以“科技创新在未来社会治理中的作用”为题做讲座。中央政法委书记孟建柱在主持讲座中也指出“各级政法机关要以合作姿态利用好企业、社会的数据资源，通过共同研发、购买服务、项目外包等多种方式，发挥好大互联网企业在社会治理中的重要作用。要以更加开放心态推进政法数据资源共享共用，更加注重设施互联、数据开放、资源共享，更加注重地区部门联动，不断增强政法综治工作系统性、整体性、协同性。要牢固树立提高服务民众水平的理念，通过大数据应用，为群众提供多样性、个性化公共服务，在周到、精细的服务中提升社会治理水平。4《树立战略眼光，增强机遇意识，创造性运用大数据提高政法工作智能化水平》，载《法制日报》2016年10月22日。当然，众所周知，法院系统的裁判文书上网工程，是法律大数据产业的最大亮点。正如有学者评论的，党的十八大以来的法治中国建设（尤其是司法改革）与信息化、大数据技术相结合，促成了法律改革的“无心插柳柳成荫”的良好局面。

在这里，以上海为例，笔者着重描述一下地方政府对法律大数据产业的推进。为落实国务院的文件精神，上海市政府于2016年2月1日发布了《上海市推进“互联网+”行动实施意见》，提出了“互联网+电子政务”的概念，指出“完善上海市政府数据服务网，形成政务数据资源对外开放的统一门户，促进社会各方对政务数据资源的开发利用；建设面向政府公共服务的大数据平台，提供基于电子政务公共云平台汇聚的数据资源，为辅助决策、统计分析、业务管理等方面提供大数据支撑”。之后，市政府又在2016年2月29日发布了《上海市政务数据资源共享管理办法》，将上述国务院和市政府的文件精神进一步规范化、操作化。与之相关的是，上海市政府在2015年年底先后发布了《上海市行政处罚案件信息主动公开办法》和《上海市公共信用信息归集和使用管理办法》。在这些政策与规范性文件中，《上海市政务数据资源共享管理办法》显得尤为重要，其对“政务数据资源”进行了界定，对推动这项工作的机构进行了设置，对各项潜在的工作进行了前瞻性规范，成为今后推动这项工作的重要规范性文件。根据《上海市政务数据资源共享管理办法》的定义，“政务数据”是指市级行政机关和依法经授权行使行政职能的组织在依法履行职能的过程中采集和获取的各类数据。因此，虽然政务数据并不等同于法律数据，但是两者显然高度重叠。上述政策文件也为今后有效利用法律大数据提供了很好的政策与制度铺垫。

其次，建设相关机构与数据平台，切实推动法律大数据的采集与利用。由于绝大部分的党政单位都或多或少涉及法律数据的利用，因此这些单位也都或多或少在自己的管辖范围内搭建了自己的数据平台。应该说，目前只要有门户网站的政府单位，都有一定意义上的数据采集与利用；但凡涉及立法、执法、司法与法律服务的单位，也都不同程度上进行法律数据采集与利用。很显然，法律数据的平台建设，最出色的还是法院和检察院系统——早在“法律大数据”概念提出之前，对案件信息的记录与保存、司法文书的制作与公开、案件流程的信息化管理等已经是法院和检察院的常规工作，也因此顺其自然地与法律大数据进行了对接。

当然，正如前述，法律数据远远超越了司法数据的范畴。建设立法和执法等领域法律数据收集的机构、机制与平台，是与“智慧法院（检察院）”同等重要的任务。上海市政府在近年来有如下一些探索：（1）在政府行政系统内部，组建了领导全市政务数据资源共享管理工作的“网上政务大厅建设与推进工作领导小组”，负责协调推进政务数据资源共享有关的重大事项，在市政府办公厅内设立领导小组办公室，负责推进政府行政系统内部的数据共享，并通过“网上政务大厅”来推进部分政务数据的外部分享——“中国上海门户网站”的微信平台也提供了类似功能；（2）在上海市信息中心下面搭建了事业单位性质的上海市公共信用信息服务平台，对相关单位所产生的与社会组织或者个人相关的信用信息（如行政处罚书与法院执行判决书）等进行科学分类、归集，形成了查询社会组织与个人信用信息的统一平台；5上海市公共信用信息服务平台整合了大量的政务（法律）数据。在2016年我们调研时发现，这个平台涉及44家市级行政机关的2063个事项、16个区县政府的2982个事项、11家中央在沪单位的87个事项、2家人民团体的5个事项、市高级人民法院的6个事项、10家公用事业单位的34个事项和13家社会组织的21个事项——总共97家单位的5198个事项。其中有大量的事项是法律数据。（3）委托中国电信公司搭建并管理“12345”上海市民服务热线，接收市民的询问、投诉与建议电话，解答市民的问题，并把相关信息转交有关部门办理；（4）建设搭建“上海市政府数据服务网”，向全社会免费公开部分政府公共数据，其中部分涉及法律数据（如上海市公安局提供的公安执法数据和上海市司法局提供的法律服务业数据）。当然，上海只是例证，其他地方政府也在做类似的工作，有些还做得更好。

最后，以对法律数据产品的实际应用来推动对法律数据的产品研发。应该说，把立法、执法、司法与法律服务数据用于政府治理的举措一直存在。对于法院和检察院而言，对自身办理的案件数据进行保存、整理、统计与分析，是其工作的分内之事。在全国范围内，法院依然走在前头，法律大数据产品的应用已经延伸到利用人工智能实验法律推理的前沿领域。

除了司法机关对自身数据的应用和产品研发以外，“法律+大数据”背景之下的创新应用还延伸到立法、执法和法律服务领域。近期在法律服务行业内出现了基于大数据的智能法律服务。2016年5月，美国律师事务所Baker & Hostetler雇用了一名机器人律师Ross。Ross律师是由IBM公司开发的，专门提供破产方面的法律服务，并且拥有自己专门的服务网页。6参见http://www.rossintelligence.com/。在中国，于2016年10月的“云栖法律之光——DT时代的云数据丈量”主题活动上，法律服务商“无讼”宣布国内首款法律机器人“法小淘”正式诞生。“法小淘”是无讼新推出的一款人工智能产品，能基于法律大数据实现智能案情分析和律师遴选。这些最新的技术革命尽管对法律服务业还没有产生实质性影响，但假以时日应该会在局部领域产生革命性的影响。

除此之外，在上海，我们还发现了政府如下几个方面对法律大数据的实践应用：（1）市依法治市领导小组办公室利用各项法律数据编制“上海市法治城区创建评估指标体系”，对区县政府的“法治指数”进行评估排名；（2）市司法局搭建“法律服务信用信息平台”，对其管辖的律师、公证、法律服务、鉴定方面的正面奖励与负面惩罚予以公示，方便市民了解相关法律服务机构与个人的信用状况；（3）市民服务热线管理办公室对市民通过“12345”热线提交的大量问题信息进行统计分析，对市民所关心的政府治理问题进行分门别类，对有关部门的解决效率进行统计排名，并提交市政府做决策参考，其中相当一部分也涉及规范性文件的制定和法律规范的执行问题。

可见，在政府的产业政策、组织建设、数据平台和实践应用（部分还是购买服务）等的组合拳之下，法律大数据产业在近两年来成为“香饽饽”，在诸方参与之下，迎来了一个产业“小阳春”。但是，小阳春之后是进入寒冬，还是迎来艳阳天，还取决于中国法律大数据产业的根基是否扎实：法律数据的收集是否科学、系统、全面，使用者是否方便获得？依笔者之见，情况不容乐观。

二、无处不在的数据“Bug”

自从有法律以来，便有了法律运作的行为和结果信息，也已经有了海量的法律数据。但是，如果这些行为和结果信息只是零星地被记录、保存，甚至完全没有被记录，那么也就无法被科学地量化分析，因此法律大数据只存在于应然世界。反过来，只有当法律运作的数据被系统地记录下来，并被有意识地用于量化分析，法律大数据才是有现实意义的实然存在。在这个意义上讲，法律大数据在最近几年突然流行起来，不只是因为大家受到了科学启蒙，还因为几千年以来一直存在立法、执法、司法和法律服务等法律行为及其结果信息数据被系统记录下来，可以被数字化，便于传输，可以应用电脑分析，并且分析结果有理论和——一定程度的——现实意义。

而对于中国的法律大数据产业而言，其面临最大的问题恰恰是法律基础数据残缺不齐，即便是裁判文书网上海量的文书数据，也是充满了大量的“bug”（残缺）。7参见马超、于晓红、何海波：《大数据分析：中国司法裁判文书上网公开报告》，载《中国法律评论》2016年第4期；王竹：《法律大数据要注重质与量的提升》，载《社会科学报》2016年6月2日。法院的裁判文书，尤其是判决书，包含有大量标准化的案件程序和实体信息，无疑是进行法律大数据分析的丰富矿藏。但是，即便是法院的判决书，从法律数据收集和存储的角度看，依然存在如下一些普遍性的问题。其一，裁判文书中记载的当事人、审级、裁判法院、审判程序、案件事实、证据类型、裁判结果、结案时间等信息虽然相对标准化，但是这些标准化信息实际上是案件的整个司法过程中行为和结果信息的一部分（甚至是少部分），许多可以也应当标准化的信息并没有被文字记载或者记载在没有公开的案卷资料里，因此被“非标准化”。举个大家都熟悉的例子：在相当一部分案件中，合议庭、审判庭、审委会都可能就本案进行过讨论，但是这些讨论信息并不会出现在最后的裁判文书中，而是记录在其他地方，或者不记录。讨论不记录肯定意味着信息的损毁。即便是记录过，讨论的记录事项也是因地而异、因案而异、因人而异。同时，对讨论信息的保存方式也不一样，有些是插放在卷宗里的手写稿，有些是打印稿但电子版没有存档。可以看出，非标准化司法数据信息是千差万别的。对于大量的非标准化数据信息，看起来令人兴奋，但是真正进行数据的量化科学分析时，到处都是“断头路”。做过数据分析的人都知道这种痛苦，正所谓“谁用谁知道”！其二，即便是标准化的司法信息，也存在各种数据错误，包括标准化操作过程中的问题。根据何海波等人的大数据分析，已经在中国裁判文书网发布的裁判文书中，仍然有一部分文书存在标识性信息错误，以及文书内容的表达多样化问题。8参见马超、于晓红、何海波：《大数据分析：中国司法裁判文书上网公开报告》，载《中国法律评论》2016年第4期。

举轻可以明重。如果法院的司法数据存在这样或者那样的问题，那么其他类型的法律数据更是千奇百怪、形态各异，充斥着各种问题。比照法院的司法数据，检察院的数据种类比较类似和接近，但是数据质量在全方位存在差距。在立法领域，最大的问题在于立法过程信息数据的灭失。忽视对过程数据的保存是中国立法领域非常普遍的现象——甚至在有些时候，因为过程信息非常重要而且敏感，反而刻意没有被保留。这里的“立法”是广义意义上的立法，不仅包括《立法法》中规定的立法活动，还包括海量的规范性文件的制定。在法律或者规范性文件制定过程中，有座谈、电话、邮件、公开征求意见等立法意见征求与交换的形式，所得到的信息有些没有被采纳，有些会被采纳直接纳入新的草案中——但是由于草案的版本很多，前后意见的叠加就像橡皮檫多次擦过一样，只能看到背景很模糊，但是不知道之前写过什么。有时候与立法事项相关的部门会提供交流意见，并以打印稿的方式传递。但是这些打印稿信息很少被存档，有些存档之后因为主管处长或者副处长的调动，便遗失了。不仅仅过程信息，事实上相当数量的法律法规和规范性文件的旧版数据，也不齐整。像法宝或者法意公司目前还提供了旧版法律法规和规范性文件的检索，但也只是全国各级人大和政府所制定的法律法规和规范性文件的“冰山一角”，有些没有上网的文本或许还安静地躺在某个档案柜里，有些则已经永远消失了。

在行政执法过程中，也会产生大量的数据信息。比如，证监会官方网站发布的很多行政执法的文书和其他数据信息。这些行政执法的法律数据信息也是非常有价值的。不过，与立法机关相比，绝大多数行政执法机关既没有严格的要求，也缺乏类似的能力，去记录和保存行政执法的过程与结果信息。尽管行政执法时时发生，但是所保留的数据信息只是九牛一毛。

律师和公司法务等法律专业人士在提供法律服务中也会产生大量的法律服务数据信息。由于涉及对客户信息的保密，目前对外界而言，法律服务数据的质量和保存情况，整体上是一个迷。笔者的猜测是，对于像“红圈所”这样的一流律所而言，他们在提供法律服务过程中的资料信息应该是齐整的、高质量的。而对于大部分中小型律所——尤其是主要从事诉讼的中小型律所，法律服务重在结果而非过程，因此法律服务数据信息应该是一笔糊涂账。

当然，除了立法、执法、司法和法律服务各个领域的机构和组织各自在数据收集中存在诸多问题以外，他们相互之间在数据的收集上更是甚少协调，有时甚至故意唱反调，导致同一数据信息在不同部门那里呈现出不同的信号。举一个小例子来说明：在涉及外国当事人时，检察院和法院对当事人的名字记载要求不一样，一个要求中文翻译，另一个则要求外文名称。这样一个小小的技术差异，实际上在大数据分析中很可能就是一道天堑。

上文之所以对立法、执法、司法和法律服务的数据记载和保存的问题进行一一剖析，是想强调一个观念：法律大数据不只是司法大数据，前者是比中国裁判文书网所公布的法院数据信息更加宽泛的概念。所以，如果我们只用4000多万份法院的裁判文书说事，那么还只能说是法律领域的“大量数据”，而不是法律领域的“大数据”。法律大数据之所以“大”者，是因为当前法律数据类型和性质发生了明显变化，从传统上类型比较单一、静态的、数量相对可计算的法律文本信息、结果统计数据，转向类型繁多、动态的、数量浩瀚的法律行为信息、过程痕迹数据，也在于它为我们提供了对法律体系运作的所有环节进行全方位关联（甚至因果）分析的可能。很显然，至今在法律领域的基础数据收集方面，无论是立法、执法、司法还是法律服务，其数据的记录与保存，到处充满“bug”。到目前为止，我们口中的“法律大数据”，还只是一个虚构的大饼。对于有志于从事法律大数据分析的人而言，现阶段还只能画饼充饥。

三、“数据孤岛”

基础数据不扎实，即便用大数据的分析工具也是事倍功半，甚至得出错误导向的结论。然而，即便法律数据收集和保存良好，但如果数据被垄断、割裂，不能实现合法前提下的有效分享与共享，那么大数据的分析工具也是“英雄无用武之地”。而现状是，除了相当数量的裁判文书上网以外，绝大多数类型的中国法律数据基本上处于采集者的垄断占有之下，并形成了一座座大小不一的“数据孤岛”。法律数据采集者根据自己的采集规则和操作方法，采集自己想要的数据，在本部门的范围之内使用，回避分享和共享——如果实在有必要，只能进行数据交换使用。“数据孤岛”是中国政府数据使用普遍存在的现象。在法律领域，“数据孤岛”现象体现如下。

首先，立法、执法、司法和法律服务数据的采集者根据不同的规则和标准采集和保存数据，相互之间没有技术接口，在客观上为数据分享设置了技术障碍。尽管工作上存在交叉，但是政府机关、法院、检察院、党务部门等在数据采集、保存和使用基本上是各自为政。不仅如此，甚至在一个机构的不同内设部门，各自都根据自己的标准采集数据，利用不同的数据系统，相互之间“老死不相往来”，甚至有意设置防火墙。这些在客观上都妨碍了法律数据的分享。

其次，数据采集机构对数据的保密是常态，进行数据分享是极其例外的。尽管前文提到，国家和地方政府的政策与文件要求实现数据的合理分享，但是在实践中，数据被垄断占有是常态。应该说，中国法院系统的判决书上网工程是个极其罕见且有魄力的壮举——其中固然也有司法公开给法院的压力。相比之下，其他类型的法律数据公开或者合理的分享，举步维艰。

再次，在不得已情况下，如果需要分享，则也是“缺斤少两”地分享。在法律数据公布及与社会分享方面，数据信息披露通常是严重滞后、人为选择、错误频繁。在调研中，我们发现，这方面的问题主要体现在如下几个方面：（1）大部分政府部门的网站信息更新滞后，相关的法律数据公布也明显滞后，官网上的法律信息更新不及时，部分新法律文件并没有及时更新替代旧文件；（2）一些地方性规章或者规范性文件信息在官网上与其他渠道不一致，无从判断哪个为正式版本；（3）即便是专门的政务数据公开渠道也存在严重的数据延迟，用户体验不佳。

最后，数据采集部门并非完全不可以分享数据，而是通过“数据交换”的方式来分享数据，公器私用。调研发现，法律数据（尤其是执法数据）并非不可以分享，但很多时候以资源交换的方式来分享。对于公共法律数据拥有者而言，他们把自己掌握的法律数据变成了为部门甚至为个人谋私利的工具。大数据热以来，越来越多的人认为，未来掌握在那些拥有数据的人或者组织手上。9参见郑戈：《在鼓励创新与保护人权之间——法律如何回应大数据技术革新的挑战》，载《探索与争鸣》2016年第7期。这种认识助长了法律数据资源的垄断，而不是促成了开放与共享。

关于数据分享，我们再以裁判文书上网工程为例，举轻以明重。在最高人民法院几轮司法解释的催促之下，各地法院至今已经大体上实现了文书上传的制度化，中国裁判文书网所公开的文书数量已经达到4300多万件。10截至2018年3月14日，中国裁判文书网所公布的文书数量为4314万件左右。然而即便如此，依然存在如下诸多数据分享的问题：（1）尽管最高院的规则要求非常清晰，但是上网实际公开的裁判文书远远少于应该公开的文书；（2）最高人民法院虽然提出明确要求，但是否上传、如何上传、何时上传是由做出裁判的法院来操作的，而后者的实践逻辑并不透明、千差万别；（3）在已经上网公开的数据信息中，不同法院、不同法官之间对裁判文书的隐名类项和隐名程度还存在把握不一致的情况，很多不应该被隐名或者被删除的信息，被不恰当隐名或者删除了；此外，还存在其他一些问题。11参见马超、于晓红、何海波：《大数据分析：中国司法裁判文书上网公开报告》，载《中国法律评论》2016年第4期。

当然，对于法律数据孤岛的存在，也不必一味指责数据采集机构，除了利益考量以外，还存在一些客观因素。首先，现有的法律法规对信息公开和分享的边界规定并不十分清晰，在这种情况下，保护公共信息安全和维护公民个人隐私，也可能是数据保密的真实理由。其次，法律数据的采集、保存、传播等有严重的“路径依赖”，各个机构慢慢地使用自己的技术和操作标准，建立起自己的数据库，并依赖已经形成的数据采集和存储路径，在没有十足的动力和压力之下，不太会改变已有的路径。事实上，为了保护自己的数据安全，绝大部分数据采集机构都花了不少资源去建设数据防火墙——相当于给数据孤岛建围墙，这是巨大的沉默成本。拆除已有的“围墙”，打通数据孤岛之间的“桥梁”，意味着大量的资金和其他资源投入。这其实也是第三个原因，也就是数据的分享与共享，需要技术、资金、人力、物力等的支持。没有这些支持，即便孤岛之间的人希望架上桥梁，也只能望洋兴叹。有时候，一个小小的技术问题，可能就是一道屏障。比如，现存的大部分纸质法律数据资料都盖有公章，如何把这种印章资料转化成权威的电子文档就存在理念与技术上的障碍。最后，更为关键的原因是体制和机制上的障碍。目前，尽管我们的党政机关应当齐心协力“为人民服务”，但在实践中，条条块块的政府部门也存在自己的利益，并在立法、执法与司法中出现了权力使用的“碎片化”。调研中，有位被访谈人做了一个形象的比喻：“几百个部门就有几百个工作机制，就形成了几百个工作平台，它们都是相互独立、自己流转的垂直‘烟囱’”。在没有硬性法律规定或者严格政策要求下，法律数据的科学采集、有效共享、合理分享就难以实现。

很显然，如同数据“bug”一样，数据孤岛的存在给法律大数据产业的发展设置了很大的障碍。很多有识之士都想到，应该把裁判文书网的文书数据信息和其他类型的法律数据，乃至与更大范围的社会人口经济数据对接，以更全面地对真实的世界做大数据分析。很可惜，由于数据整合的高成本、高难度，至今难以实现。畅想一下，有朝一日，如果我们能够把一部法律（或者一个条文）的所有立法过程和结果信息，所有相关的行政执法信息，所有相关的诉讼信息，所有相关的法律服务信息，与社会人口经济数据结合在一起，进行真正意义上的大数据分析，那么我们对这部法律（或者这个条文）的废除、修改或者存续的认知将是何等的透彻！然而，数据的贫穷限制了我们的想象力。

四、夯实根基：建设统一法律大数据库

最近，热衷于法律大数据、法律人工智能的人最喜欢用的一句口号是“未来已来”。基于上文提到的数据问题，笔者看未必，未来还未来。有了良好的数据基础，未必促成辉煌的中国法律大数据事业；但是，没有良好的数据基础，免谈未来。前面讲到，在政府、学界和市场等的多重作用之下，国人在最近两年很好地接受了一场关于法律大数据的科学启蒙。为了让这场科学启蒙尽快成为一场真正的科学革命，必须回到根本性的问题来：如何为“未来”提供非常扎实的法律基础数据？很显然，对于法律数据而言，主要的“采矿者”是进行立法、执法和司法的公权力机构与部门。

不妨可以考虑如下几项举措。首先，倡导“中国统一法律大数据库”的理念，研究并落实建设这个法律大数据库的领导协调机构与机制。统一法律大数据库中的“统一”有两层含义。第一层含义是法律数据类型需要齐整，除了司法的大数据，还要把立法、执法、法律服务等与法律体系运作相关的数据信息都纳入进来。第二层含义是不同类型的法律数据之间的术语要标准化、技术接口要通、数据门类要对称。由于这样的法律大数据库超越了单一系统的数据，因此不妨由筹备中的“中央全面依法治国委员会”来领导协调。其次，在法律数据采集方面，由某个中央权威部门（如新组建的司法部）牵头编制统一的法律数据采集、收入、存储等的技术标准和操作指南，推进立法、执法和司法机关在法律数据建设过程中的技术标准统一化，并由此为市场机构建设法律数据库提供示范模板。最后，在法律数据分享方面，尽快制定全国性法律，尽可能界定清楚法律数据是否分享、如何分享、何时分享的法律边界，明晰法律数据采集的政府机构的权责边界，既为保护国家信息安全和公民个人隐私提供制度保障，也为数据分享和共享解除后顾之忧。12参见邵俊武：《法律视野下的大数据问题研究》，载《法治社会》2016年第2期；齐爱民：《论大数据时代数据安全法律综合保护的完善——以《网络安全法》为视角》，载《东北师大学报》（哲学社会科学版）2017年第4期。在条件适当时，可以推广最高人民法院关于司法公开的一系列举措的经验，为立法、执法和检察院司法数据的公开与分享提供好的示范路径。

国务院办公厅在《关于运用大数据加强对市场主体服务和监管的若干意见》（国办发〔2015〕51号）中提到：“进一步加大政府信息公开和数据开放力度。除法律法规另有规定外，应将行政许可、行政处罚等信息自作出行政决定之日起7个工作日内上网公开，提高行政管理透明度和政府公信力。提高政府数据开放意识，有序开放政府数据，方便全社会开发利用。……打破信息的地区封锁和部门分割，着力推动信息共享和整合。各地区、各部门已建、在建信息系统要实现互联互通和信息交换共享。除法律法规明确规定外，对申请立项新建的部门信息系统，凡未明确部门间信息共享需求的，一概不予审批；对在建的部门信息系统，凡不能与其他部门互联共享信息的，一概不得通过验收；凡不支持地方信息共享平台建设、不向地方信息共享平台提供信息的部门信息系统，一概不予审批或验收。”由此可见，对于法律基础数据的建设和分享，中央是英明的，问题是，要落实。笔者期待中国的法律大数据产业有个更美好的明天，并且尽快到来。