沈明磊 张 龑
互联网是这个时代最具发展活力的领域,大数据是国家重要的基础性战略资源。近年来,人民法院紧跟时代步伐,大力推动“智审、智执、智服、智管”建设,充分运用高科技手段,研发审判工作相关技术应用软件和平台,加大新技术对审判业务和审判监督管理的支持力度,向科技要人力资源,办案质效不断提高。(1)例如,江苏高院依托与东南大学联合成立的全国首家“人民法院司法大数据研究基地”,开发“类案不同判”预警系统,规范法官自由裁量权。上海高院建立的大数据审判辅助体系由智能辅助办案、智能法庭、智能管理等35个子系统组成,为法官办案提供系统服务,实现了执法办案规范化、网络化、移动化、智能化等等。参见《人民法院司法改革案例选编(一)》,载“中国法院网”,https://www.chinacourt.org/article/detail/2017/07/id/2916048.shtml,最后访问日期:2021年3月7日。“大数据是人们获得新知、创造新价值的源泉”,(2)[英]维克托·迈尔-舍恩伯格,肯尼思·库克耶:《大数据时代:生活、工作与思维的大变革》,盛杨燕、周涛译,浙江人民出版社2013年版,第9页。而大数据能够创造新价值的关键,不在于数据的规模,而在于对海量数据所进行的挖掘提炼和加工处理。深入研究大数据对法官办案有着积极的意义和作用。
2016—2018年,江苏全省法院的民间借贷案件数量一直处于各类民事案件首位,并呈逐年增长趋势。(3)2016年,江苏全省法院新收民间借贷案件159386件,占新收民事案件总数的17.03%。2017年,新收民间借贷案件177869件,占新收民事案件总数的18.09%。2018年,新收民间借贷案件202228件,占新收民事案件总数的19.70%。2019年,新收民间借贷案件228913件,占新收民事案件总数的21.11%。2020年,新收民间借贷案件136259件,占新收民事案件总数的14.81%。在民间借贷案件数量增长的同时,披着民间借贷外衣的“套路贷”虚假诉讼时有发生,不但严重妨害金融秩序和社会稳定,也严重损害诉讼秩序和司法公信力。
在司法实践中,“套路贷”具有很强的隐蔽性和迷惑性,在外在形式上与民间借贷难以区分,准确识别“套路贷”虚假诉讼具有一定的难度。一是表面证据完备,在证据认定上识别难。在“套路贷”虚假诉讼中,放贷人通常能提供内容翔实的借据及资金交付凭证,形成“完整”的证据链条,案件事实真相难以查证。二是当事人不到庭应诉,在法庭审理上识别难。在“套路贷”虚假诉讼中,被告和原告本人往往不到庭,或者被告虽到庭但因受胁迫不敢作任何抗辩,庭审功能难以有效发挥。三是调查取证作用有限,在依职权审查上识别难。民事诉讼法对于法官依职权调查取证有明确的限定,且民事审判调查取证不同于刑事侦查调查取证,其发现案件事实真相的作用是有限的。四是案件分散审理,在工作机制上识别难。存在着相关联的民间借贷案件在不同法院、不同审判部门、不同合议庭审理的情况,客观上导致“套路贷”虚假诉讼识别难。五是“套路”手法不断翻新,在法律规则上识别难。“套路贷”违法犯罪分子往往深谙法律规则,善于研究、采用新的“套路”手法,如目前各地出现了利用融资租赁、分期付款买卖以及借贷同时强迫借款人购买履约保证保险等掩盖“套路贷”、非法高利放贷等新情况,给法院准确识别“套路贷”虚假诉讼带来挑战。(4)参见江苏高院民五庭的调研报告《关于严厉打击“套路贷”虚假诉讼情况的报告》《关于全省法院打击整治“套路贷”等非法金融活动及虚假诉讼情况的调研报告》。
为了防范和惩治民间借贷涉“套路贷”与虚假诉讼,江苏全省法院持续参与非法金融活动专项整治工作,建立防范和打击“套路贷”及虚假诉讼“333”机制,(5)“333”工作机制:一是依托法院案件信息管理系统、执行指挥中心执行案件信息管理系统、“套路贷”虚假诉讼智能预警系统“三大系统平台”,并对接省非法金融活动信息监测平台,案件信息多维度立体检索比对、串联分析,为专项治理提供信息化支撑。二是强化立案、审理、执行三部门协同配合,严把“三大关口”,建立健全全流程全方位打击防范工作机制。立案环节建立立案预警标识机制,进行疑似职业放贷人和“套路贷”虚假诉讼智能预警系统强制检索查询,预警标识移送审理部门。审理部门将立案预警标识案件作为高风险案件加强审理,加强实质性审查判断,彻查借贷资金流向,严格界定合法民间借贷与“套路贷”违法犯罪的界限。执行环节重点加强对执行依据为仲裁裁决、赋予强制执行效力的公证债权文书的审查。三是建立“一检索、二集中、三并案”的办案机制,解决单一案件难以发现“套路贷”虚假诉讼犯罪线索问题,提高打击惩治精准度。落实强制检索制度,在立案、审理、执行各环节全面建立关联案件强制检索制度,经检索后形成强制检索报告入卷。坚持集中审理,三级法院均要将民间借贷案件集中到一个部门审理,不能适用速裁程序审理,人民法庭暂不审理民间借贷案件。坚持并案审查,将关联案件集中到同一个合议庭进行审理,强化综合审查判断,类型化深入剖析,甄别发现借贷“套路”手法。全面排查放贷活动,坚决打击“套路贷”。针对上述“套路贷”虚假诉讼识别难的问题,江苏法院研发上线并升级了“套路贷”虚假诉讼智能预警系统,被最高法院确定为全国法院唯一试点。该系统运用大数据、人工智能技术,对民间借贷案件涉“套路贷”虚假诉讼风险进行测算。目前,系统按照风险从高到低设置了五星级到一星级五个预警级别,并用可视化方式进行展示。该系统主要开放全省法院概况,风险放贷人预警,已结案件预警,案件检索,放贷人检索,疑似职业放贷人名录,重点关注,工作成果,态势分析(综合分析、人员分析、案件分析),人员画像(放贷人群体画像、诉讼代理人群体画像),诉讼代理人分析等功能。自2019年8月30日系统上线至2020年12月31日,全江苏法院使用“套路贷”虚假诉讼智能预警系统查询信息共计270万余次。
全省法院经过集中整治、多管齐下、靶向发力,取得了积极成效。2019年,全省法院一审新收民间借贷案件165727件,同比下降10.76%;2020年,全省法院一审新收民间借贷案件115732件,同比下降30.17%(含疫情影响因素),自2015年以来案件量首次出现负增长。全省13个地区法院收案均呈现同比下降态势,绝大部分基层法院收案减少趋势明显。2020年案件量进一步下降,2019年9月1日—2020年12月31日,江苏法院民间借贷一审共收案151040件,同比大幅下降31.99%。特别是,全省各级法院建立了一系列防范和打击“套路贷”虚假诉讼制度机制,全省法院干警防范和打击“套路贷”虚假诉讼的意识明显增强。“套路贷”虚假诉讼甄别机制作用明显,不法分子通过虚假诉讼掩盖“套路贷”违法犯罪、实现非法利益的通道被有效切断。
当前,大数据时代已到来,与之相适应的商业模式、交易方式、生存方式都在发生变化,由此带来的社会关系也在发生着变化,司法对此应当动态地作出回应,更加关注动态的、系统化的数据,也就是以不间断的“流”的形式存在的、成片的、活的数据。一般认为,大数据具有“4V”特征,即巨量(Volume)数据,通常被认为是全样本研究,前提是将一切量化为可供运算的数据;高速(Velocity),不仅指对巨量数据的高速运算,更重要的是数据收集和运算均可实现实时;多样(Variety),大数据分析处理的是形式多样的非结构化数据,或者可以称为“混杂数据”;价值(Value),既指单一数据的低值,也指巨量数据分析所具有的高值,即能挖掘出传统社会科学研究所无法发现的价值。(6)参见何挺:《刑事司法实证研究:以数据及其运用为中心的探讨》,载《中国法学》2016年第4期。大数据的这些特征对司法运用既提供了便捷的途径,也带来了一定的难度。
如前述,由于“套路贷”虚假诉讼人工识别存在种种困难,再加上实践中的一些“套路贷”虚假诉讼并未进入诉讼程序,需要通过大数据的运用,实现“套路贷”虚假诉讼的自动识别和源头治理。通过对“套路贷”虚假诉讼智能预警系统的研究,笔者认为,大数据在司法中的运用主要体现在以下三方面。
大数据筛选是大数据运用的基础前提。有研究指出,大数据筛选首先要做的是数据信息采集,要求数据是全体数据,不是随机数据;注重混杂性,不是精确性;注重数据之间的相关关系,不是因果关系,因此需要尽可能地采集各种数据信息。在采集内容上,不仅要采集传统的案件信息数据,还要采集案件稳定风险、当事人对判决意见、公众对法院判决认同度、司法热点、不同社会群体司法需求等与审判执行工作相关的数据信息以及经济社会发展数据信息。(7)参见张化冰:《加强大数据的司法应用》,载《人民法院报》2013年10月9日。“套路贷”虚假诉讼智能预警系统,就是汇集省公安厅、省市场监督管理局、省检察院、省司法厅、省委网信办、省地方金融管理局等外部数据,通过将案件信息分为涉法院刑事案件,涉公安(刑事案件、治安处罚、警情信息),原告起诉频次,被告未出庭次数,被告负面答辩次数(裁判文书中出现“暴力”“胁迫”等关键词),制式合同,现金方式支付,市场监管数据等36个“套路贷”虚假诉讼监督点来进行检索、预警。
大数据筛选,包括“事实性知识”与“检索技巧”两部分的组合,也就是对法律图景式的理解、定义具体法律问题的能力与检索技巧的组合。对于司法工作者而言,检索过程是发现案件争点、调整办案思路、优化文书写作的过程,而检索结果的优劣将对案件办理结果产生直接影响。为了能够成功地检索,法官需要尽可能透彻地了解案件的细节,不仅要关注单一的案件,还要检索与该案件有关的所有参考资料,如该案件涉及的法律法规施行之日,或者相关试点工作开始之时。数据信息采集之后需要进行大数据筛选。大数据分析或预测结果取决于数据的质量,作为源头的数据质量瑕疵将直接导致误导性甚至根本性的错误。因此需要通过检索的方式,去除无用和冗余的信息,也就是要对数据进行清洗。数据清洗从检索数据后的第一时间开始,将数据中那些由于误传、漏传、迭传等原因产生的失真部分摒弃在计算之外,保证进入下一步系统的数据是干净的、准确的,同时归纳总结并整理成清洗规则。比如,不同情况下获取的时间值数据可能不一致,有的数据集按一年365天计算,而另一个数据集按一年的工作日计算,还有的数据集可能按一年的小时数、分钟数计算,只有一致的数据才能进行比较。再比如,有的法律术语可能被废止或者其内涵外延已发生变化,但旧的表述仍保留,这样会对后面的分析结果产生影响。除此之外,受各种利益因素影响,可能还会有作弊或者误导的信息。如关键词作弊,标题、分类或属性中有与关键词无关的词语,如A的朋友是B,那么在搜索A的时候,B也会被匹配上;类目的错放,如将普通盗窃放入暴力型犯罪范畴;特定时期的特点,如严厉打击酒驾醉驾期间,相关犯罪多发;等等。这些都需要进行自动侦测,清洗此类数据。
大数据的运用要做到以下五个方面:一是标准化,即对数据元素的定义和理解必须一致;二是完整性,即所有必需的数据都要存在并且录入;三是精确性,即数据应确定代表现实情况并且来源可靠;四是有效性,即数据的价值应处在可接受的范围内;五是唯一性,即数据不能多次重复出现。(8)参见陈琨:《类案推送嵌入“智慧法院”办案场景的原理和路径》,载《中国应用法学》2018年第4期。由此,司法运用大数据涉及大数据管理。
大数据时代不仅需要对文字等进行识别,还需要对图片、声音、视频等数据进行识别,而识别的前提是规范化和标准化。拥有高质量的数据,才能有大数据分析的基础。裁判文书属于格式文书,具有一定的结构性,对于技术处理来说,属于半结构化文本。半结构化文本在经过技术处理之后,可以转化为结构化文本,从而方便进一步地信息处理、特征抽取或者数据标注。收集筛选后的数据,只有在通过复杂的算法将这些数据流和标签联系起来的时候才能产生价值。大数据管理就是将筛选后与问题有关的数据内容进行标准化的整理,形成标签,以便进一步使用。具体来说,就是在观察与分析数据后,更好地将数据进行归类和整理,打上标签,从而更加清晰地识别出数据的价值。
而要想达到以上目标,就需要通过数据中间层,生成数据的个性化标签,从而使数据能够标准化、统一化。一般来说,建立标签通常有以下三种方法:第一是通过规则结合数据分析来建立标签,这一类型的标签和司法人员的经验紧密结合;第二是通过模型来建立标签;第三是通过模型的组合来生成新的标签。而这样的分类整理也是根据司法人员的需要而来的。数据如何进行分类视不同的场景、不同的案件而定。例如,“套路贷”虚假诉讼智能预警系统中有疑似职业放贷人名录,对同一出借人及其实际控制的关联关系人作为原告一年内在全省各级法院起诉民间借贷案件5起以上的,将该出借人打上疑似职业放贷人的标签,在立案环节自动提示。又如“动物”,如果把动物和植物进行比较,动物整体必然有不同于植物的特性,但如果对动物进行更深层次的分析,则需要对“动物”进行不同种类的分类和分析。在司法审判中,可以通过不同属性对案件当事人进行深入细分,如根据企业规模,将企业分成超大型企业、大型企业、中小型企业、个体户。而对于中小型企业,按照行业又可以细分为医疗行业、美容行业、教育行业、农产品行业等;按注册资本分,又可以分成10万元、50万元、100万元等;按地区分,又可以分为北京、上海、广州、南京等。
但标签是具有生命周期的,经过一段时间之后,标签可能会发生变化,例如年龄、职业、家庭住址、企业资产规模等,这时候就需要更新标签。上述对疑似职业放贷人名录就实行动态管理,每年更新一次,自疑似职业放贷人名录确定之日起一年内,该名录中的人员及其实际控制的关联关系人起诉民间借贷案件数量少于上述规定数量二分之一的,可以将其从疑似职业放贷人名录中移出。更新需要在大数据管理阶段,由法官扮演“老师”的角色,负责教会并训练计算机这个“学生”最新的法律术语和习惯表达等,使计算机可以自动发现、细分每个数据,并与之前的标签进行匹配或者创设新的标签,这样可以使大数据整理任务的重复执行和微调变得更简单,不用每次都从头开始。这可以借助物联网技术发展趋势,对接互联网海量人机交互信息,实现关联主题下涵盖所有时空要素的全方位信息智能提取,并进行智能信息纠错、及时性信息分类整合、噪点信息清洗等后续加工处理。
数据本质上是没有意义的,但通过数据分析,可以使数据形成有意义的知识,并从知识中发掘出信息。数据分析是大数据应用最关键的工作。数据分析,是指通过特定的计算机算法对大量的数据进行自动分析,从而揭示数据之间隐藏的关系、模式和趋势,为决策者提供新的知识。(9)参见涂子沛:《大数据》,广西师范大学出版社2013年版,第98页。数据分析是在没有明确假设的前提下去分析信息、发现知识。也就是说,数据分析没有既定的假设,也不能准确预测会有什么样具体的结论。大数据时代,庞大的数据量、不规则的数据格式,使信息整合成为人力所不能及的复杂工程,需要从不规则的数据中分析有效信息,使输出反馈结果与输入信息条件完全匹配。大数据分析通过构建合理模型,依托人工智能的多项技术,如机器学习、知识图谱和自然语言处理技术等,模拟人的思维过程对数据信息作出判断,即对感知的信息进行学习或自我学习、信息抽取、逻辑判断、决策,并产生相应的反应,使得大数据真正发挥价值。因此,要“有效分析获取数据,管理萃取数据中所蕴含的重要价值,智能化运用数据,充分利用人工智能深度学习构建大数据社情民意和预警研判模型,增强社会治理工作的动态性、精细化水平”。(10)翟云:《人工智能+政务:开启智慧治理新征程》,载《学习时报》2019年8月16日。
通过对大数据进行整理、加工及整合,司法大数据可以呈现司法领域中为我们所未知的具有规律性的各种情况抑或是提供新的知识参考。(11)参见单勇、阮丹微:《司法大数据的现状、挑战及应用改进》,载《净月学刊》2018年第3期。2012年7月欧洲世界杯期间,各大网络购物平台成交量在球赛开始时突然增长,有机构就通过数据分析得出“男人一看球,女人就购物”的结论,推动电商对女性群体的推销活动。(12)参见魏琳:《直面大数据 直面统计未来——国家统计局“直面大数据”青年论坛侧记》,载《中国信息报》2013年6月17日。再如,共享单车公司通过大数据模型,测算在特定时间、地点、天气下,共享单车的租用数量,包括季节、月份、时间、假日/工作日、星期、天气、温度、湿度、风速等,计算出小时租用数量,从而按量投放共享单车,增加营业额,避免资源浪费。从司法活动中也可以发现社会活动的一些规律或者倾向。通过对大数据的统计、分析,结合人工归纳和推理,分析出案件的规律,包括案件发生的时间、地域,手段,侦破,量刑方面的倾向性规律。比如,浙江省高院的大数据主题分析得出的结论:55岁前,女人起诉离婚多;55岁后,男人起诉离婚多。(13)参见《你知道吗?55岁是离婚诉讼的神奇分割线》,载《今日早报》2013年11月9日。笔者认为,利用“套路贷”虚假诉讼智能预警系统,可以通过大数据发现全省某一地区“套路贷”案件频发,或者某些疑似职业放贷人长期在某一区域进行活动,这样有利于有针对性地加大对这些“套路贷”虚假诉讼行为的专项整治力度。
案件分类的主要目的是按照指定的规律将案件进行分组,分类的目的是便于整体把握案件的判决情况。案件分类的第一个重要功能是“异常检测”,即及时发现审判的异常行为,正确进行审判公平性的评估,对审判行为进行控制和监测。“套路贷”虚假诉讼智能预警系统就是通过构建“套路贷”虚假诉讼案件分析模型,将36个监督点根据不同情形赋予职能算法模型,重点运用裁判文书语义分析技术,甄别出疑似“套路贷”虚假诉讼案件,按疑似程度和风险高低,从高到低设置五个预警级别,对疑似涉案人员和疑似“套路贷”虚假诉讼案件进行预警,并形成人员画像、案件画像和评估报告。案件分类的第二个重要功能是进行案件判决辅助参考。一是特定场景中的司法名词界定。司法名词界定往往对判决结果有着直接的影响。例如,在一个抢劫案件中,被告人是否构成“入户抢劫”,是需要法官判断的问题。而在已有“入户抢劫”案件判决中,这些认定都有哪些特征,包含了什么信息,则可以通过对已有案件构成的大数据进行分析得出。二是对非传统领域案件的判决参考。在现有的法律规定基础上参考其他类似案件,有助于审判公正。三是对判决结果的参考和规制。通过对已有案件数据的分析,对法院各类案件的审判工作建构裁判模型,得到对相同客观条件下同种案件的判决区间,对公正判决具有一定的意义。北京法院的“睿法官”系统和上海法院开发的“206”刑事案件智能辅助办案系统,运用大数据与云计算充分挖掘分析数据资源,并对法官制作的裁判结果与预测之间发生重大偏离时进行系统自动预警,为法官判案提供统一、全面的审判规范和办案指引。案件分类的第三个重要功能是进行智能分案,即运用大数据,对分配案件和收案法官的信息进行处理,包括案件信息与法官信息的识别与分类、获取与分析、比对与评估等,建立和存储正确的分案规则,有效克服传统分案机制的弊端,实现办案工作量与法官司法能力的有效识别。
相关性分析是大数据分析的重要方法。法院审理的案件信息是经济社会发展的晴雨表,全国法院几十年积累的裁判文书形成海量信息,这又与海量的经济社会信息产生很多关联性。“建立在相关关系分析法基础上的预测是大数据的核心”,(14)前引②,维克托等书,第95页。“套路贷”虚假诉讼智能预警系统设置了“案件画像”模块,可查看该案件的基本案件信息,风险评估信息,外单位涉案情况,关联案件星级分布,相似案例推送,关联案件(法院民事、法院刑事、公安刑事案件、警情、治安)的详细信息,同时支持案件关联关系图谱的在线查看。在审判实践中,案件主体的各种因素是否对审判结果造成干扰,比如,犯罪嫌疑人的经济收入、家庭背景、社会地位与审判结果是否有关联,往往是目前社会上所关注的。关联性分析可以作为司法裁判公平的依据,通过对混杂性数据的关联分析,判断司法工作中存在的被忽视问题以及趋势,并通过提升审判态势分析、案件状态分析的及时性、全面性和准确性,规范司法行为,预防司法腐败。
在全面深化司法改革的新形势下,开展司法大数据分析研判,是大数据时代助推人民法院审判体系和审判能力现代化的新思路、新探索。“但总体上看,对大数据的收集、研究与应用还处在一个比较粗浅的层面上,司法大数据可能具有的超凡价值远远没有得到挖掘。”(15)倪寿明:《充分挖掘司法大数据的超凡价值》,载《人民司法》2017年第19期。
以裁判文书为例,司法大数据的不充分主要体现在“中国裁判文书网”上的裁判文书并不能涵盖所有审结案件的裁判文书,导致数据分析的不完整。法官裁判不仅是法律技术的体现,更是法律观念、社会价值的映照,存在着很大差异。加之,法律适用具有主体性、主观性与变迁性,导致无法获得没有任何意识形态与价值判断的客观化的法律信息数据。(16)参见龙飞:《人工智能在纠纷解决领域的应用与发展》,载《法律科学》2019年第1期。大数据能为计算机所识别的重要前提是数据具备结构化特征。对于机器而言,识别自然语言已属不易,识别法律专业术语更是难上加难。法律语言本身非常复杂,要让机器读懂一句中文,涉及中文分词、词性标注、依存语法和情感分析,在中文法律语言中对同样的事物可能还有不同表述,非结构化的数据表述为机器的学习造成了极大的障碍,也影响数据收集、分析的准确性。另外,有些司法领域的概念,并不等同于教科书上所下的定义,而是包括所有经过概念化后的抽象观念。不同类型案件的诉讼程序、证据规则、审理标准、执行内容截然不同,民事案件、行政案件、刑事案件所承载的数据信息在司法属性的基础上包含其特有的数据属性。实践中,大数据应用还有待深化,专业化区分和有针对性的应用实践开展还存在不完善之处。
此外,以往的结构化司法数据来源于人工填写报表,近年来虽也推出了几种数字化系统,但是当海量司法数据以音频、视频等非结构化、半结构化数据形式出现时,现有的系统结构化处理能力难免有些捉襟见肘。大数据分析所依靠的信息化需要同时具备数据提取、数据分类、数据重组、数据分析、趋势预测等多项功能并形成一个完善的体系,而要全面实现这样的信息化还存在较大的困难。同时,数据的混杂性与司法的精确性之间也存在矛盾。人们采取“抽样”的方式,由于抽样的数据量有限,所以对每个数据的质量要求都很高。而大数据采用“全数据”“整体性”的思维模式,由于数据量巨大,数据结构混杂,很难保证每一数据都精准无误,(17)参见王燃:《大数据时代侦查模式的变革及其法律问题研究》,载《法制与社会发展》2018年第5期。这些都可能造成数据错误,如数据字段本身的错误或拼写的错误;数据重复,即同一事物往往有着不同的数据表达形式,如侦查中录入的地址编码经常出现一址多名、地址重名等问题;数据缺失,如某一数据体系中丢失个别重要数据。此外,还有数据不一致、数据过时等问题。
“大数据”分析的要义不是对数据的提取,而是对不同领域的信息进行重组、扩展,并基于非结构化、半结构化数据价值的深度挖掘,进而实现知识表示与抽取,实现由“数据→知识”的关键一步。目前数据采集范围主要局限于以案件为中心,与案件审理不相关的数据大都被抛弃,造成了大量的数据资源浪费。单纯收集与案件相关的数据,只是对原有人工填报数据的技术替代,实际上仍然停留在小数据时代对表面价值的浅层挖掘,并未达到深层知识发现。举例而言,对海量裁判文书的分析如果停留在案件量、上诉率、发改率的层面,那只是浅层价值的分析,而如果从海量文书中挖掘法官对特定案件的裁判规则则属于知识发现层面。例如,“我们可以通过这些数据,发现交通事故成诉的成因点、发现当事人对裁判规则的不服点、发现证据评价的矛盾突出点”。(18)姜强:《数据革命如何解放基层法官:以道交赔偿案件为例》,载“法影斑斓微信公众号”2015年12月21日。有学者通过对11984件知识产权侵权案例进行实证研究,发现了平均判赔额依然较低等普遍性问题。但是,深度分析发现,批量案件尤其是商业险维权案件的大量存在,对相关统计结果的干扰性影响十分显著。(19)参见詹映:《我国知识产权侵权损害赔偿司法现状再调查与再思考——基于我国11984件知识产权侵权司法判例的深度分析》,载《法律科学》2020年第1期。
此外,传统司法研究的对象是静态法律数据。这些数据经过编辑处理从而成为人们所熟知的结构性数据,非常容易被利用。即使在数字化之后,虽然其改变了存储数据的载体,但是仍然属于静态法律数据。而对于动态法律数据,传统司法研究关注较少。尽管在研究过程中常常引用互联网上出现的数据,但是这些数据依然属于静态法律数据。而互联网实时产生的动态法律数据要求关注数据存在的特定时空条件,关注法律数据的演变过程,及时分析人们对法律问题认识和判断的基本动向。加上动态法律数据往往和其他相关数据相混杂,使人们利用数据增加了新的难度。
大数据分析是大数据在司法领域应用的核心驱动力,其主要作用就在于认识、总结、提炼决策规律,归纳决策模型,从而提供具有参考价值的结论。以类案推荐为例,影响推送精确度的关键就在于相似度算法,如果嵌入的算法无法将目标案件情节与数据库中的案件情节进行准确比对,那么这一应用工具就是低效的甚至错误百出。需要指出的是,从司法实践来看,无论是基于保护商业秘密的考量,抑或是大数据分析本身的复杂性,技术的开发者很少对使用者说明算法的运行原理,却可以轻易将“需求”编入数据算法中,形成隐藏的价值偏见,并通过科学方法为这种偏见披上合理的外衣,(20)参见前引,王燃文。而法院对大数据分析的关注度不够,很少会去研究结论背后的依据。即使关注到司法大数据的运用,但运用的数据种类也较为单一,组合运用数据的原则尚未确立,大量的研究集中在典型案例或法律文书的案件情况与处理结果数据、源自个别地区办案机关所记录的原生数据、问卷调查所获得的主观性数据以及部分官方数据等方面,导致研究结果倾向于集中运用某一类数据得出结论,而非组合运用各种数据来弥补单一种类数据所具有的缺点。另外,大数据分析流程包括主题确定、数据集成、建模运算以及数据可视化等一系列环节,每一个环节都有出错的可能,这会影响到最终的分析结果。
如果说数据是土壤中的“水分”,那么,开放数据就会形成土壤上流淌的“河流”。数据共享是运用大数据技术的基础和前提。当前,制约数据开放、共享、应用的一个重要症结是缺乏统一的数据标准,大量数据以数据孤岛的状态被分割在各部门内部,无法被关联与聚合。比如,不同司法机关之间的司法数据多用于内部使用而非数据共享,客观上造成各机关之间存在数据交流壁垒,形成了数据孤岛。这种数据孤岛又自成数据体系,检察院有检察院的司法大数据,法院有法院的司法大数据,进而导致不同数据的信息重叠。(21)参见前引,单勇等文。而在法院内部,以往法院的司法统计数据和流程信息在审管办,执行信息在执行局,诉讼服务和信访信息在立案庭,人事数据在政治部,各个部门的数据都归各自所有,互不共享。如此,数据的高效运用就无从谈起。数据不能共享导致在法院工作中调取数据的过程烦琐、费时费力。在传输方式上,现行法院系统的信息由各部门流向决策部门、由下级法院流向上级法院,再由上级法院或决策部门将决策信息向下传播,也就是典型的“章鱼型”传输方式,缺乏相互对话、形成共识的沟通,不能完全适应和满足司法实践的需要。
对于当事人来说,大数据无疑为司法便民提供了更多可能性:可以借助大数据技术在分析人民群众需求的基础上,通过各类诉讼服务平台和智能问答机器人提供包括当事人信用、流程指引、案例研判、信访咨询、司法建议、诉讼服务效果分析在内的大数据分析服务,为人民群众提供更有价值的司法服务,让人民群众有更多参与感和获得感;还可以通过提供典型性普遍性的案例信息、诉讼风险评估、案件胜败因素分析报告等方式,方便当事人精准评估案件要素,准确引用案例,自行预判案件结果,引导当事人理性选择,减少纠纷成讼。
对于法官来说,不断有新的技术在试图达成“算法裁判”的终极目标,(22)参见前引,龙飞文。未来可能需要研究“机器人法官”能否替代司法裁判等问题。(23)参见吴习彧:《司法裁判人工智能化的可能性及问题》,载《浙江社会科学》2017年第4期。在法官办案中的运用主要体现在以下方面:一是可以依托大数据实现智能办案,实现审判流程和审判体系的现代化重塑。例如,浙江高院与浙江大学、阿里巴巴进行战略合作,探索人工智能技术在审判全流程的深度应用,研发了无实体的法官助理“小智”,从立案阶段自动审查、自动排期、自动送达,到庭审阶段提前推送庭前报告、同步语音识别、分析认定证据、归纳争议焦点,再到裁判过程中预测结果、计算数额、实时生成裁判文书、当庭宣判送达、自动分类归档,实现了从案件的传统审理模式向全流程智能审理的革命性转变。二是可以通过对事件进行概率建模,辅助法官心证。大数据分析本身包含着概率统计的分析方法,展现出的结论亦系一种规律性的标准,而其能够实实在在地呈现在法官与当事人面前,为当事人进行质疑、反驳和反证提供了可能,为司法认知中心证的显现化提供了基础。(24)参见李葳:《网络大数据司法应用分析模型——以2017年福建省夫妻共同债务案件为例》,载《数字通信世界》2019年第1期。三是可以实现真正意义上的类案检索程序透明化。通过数学模型或模拟算法,构造提取情节信息,使用输血模型来描述数据的特征和规律,并计算最合适的数据,根据精准算法规则自动提取关键信息,从而与案件相匹配并推荐案件相关“要素”,如职业放贷中36%的利率红线、2年10次的经常性放贷、放贷人数及标的数额等,甚至类案检索系统可以根据法官选择情节的方式推进案件数据,在处理案件的过程中,如果程序、证据、定性、裁判结果等存在偏差,系统会自动提醒。(25)参见谷昌豪、高新峰:《类案检索程序透明化的实现路径》,载《人民法院报》2019年11月24日。四是可以进行类案不同判预警。2019年,江苏高院与东南大学共同承担了最高法院两个大数据课题的研究工作,并依托全国法院裁判文书大数据,按照“图谱构建→情节解析→权重排序→类案识别→模型训练→量刑预测→偏离预警”的基本步骤,整合相似案例推荐、法律知识推送、量刑智能辅助、文书智能纠错、量刑偏离预警等五大功能模块,构建了服务裁判尺度统一的“类案不同判预警平台”。
目前司法改革已经从“立梁架柱”转向了“精装修”阶段,既可以运用大数据手段推进司法改革,也可以运用大数据来检验改革效果。例如在审判权运行机制改革方面,可以借助大数据手段,对审判权运行过程中产生的数据进行全程记录、融合分析,及时发现和控制可能存在的风险,挖掘分析出各类不作为、乱作为发生的概率和“蛛丝马迹”,形成无缝化的“数据铁笼”,倒逼法官自觉规范和约束权力运行,保障审判权依法、独立、公正行使。在建立大数据与人工智能法官绩效评估体系方面,可以通过甄选全省具有区域、类型、审级代表性的若干法院试点,抽样挖掘结构化(标签)和非结构化(OCR识别)的类型案件全过程数据(包括但不限于审理时间、庭审时间、法律文书、内卷文本),提取和筛选足以影响审理时间的案件要素,通过专家评估、模型训练、模型应用,构建符合司法规律和司法实践的案件权重体系。还可以通过大数据构建完整、全面的评估体系,将试点地区改革前后数据录入数据库,以树形结构呈现,从而形成整体性数据评估结果。每一项信息都是“最小单元信息”,这些最小单元信息经过后期处理分析对比,将以递进的方式计算出试点地区评估结果进而对整个试点作出评估,而非试点地区的最小单元信息也将通过处理,分析其与试点地区数据的契合度,从而评估改革成效,并决定试点是否合适“移植”到非试点地区。
作为社会现象的一部分,法律现象有着异质性和不确定性,同时法律现象的总体往往又是巨量的。在这种情况下,大数据就为司法研究提供了另一种理论与现实的对应样本,它不仅可以为司法研究提供客观的材料,还可以为司法研究提供科学的方法,因此,司法大数据研究将成为司法研究的一个创新领域。一方面,大数据带来司法研究思维的转变。长久以来,司法研究思维范式都拘泥于小数据时代的因果关系思维。然而,大数据却强调事物之间的相关关系。大数据的相关性是通过量化数值之间的数理关系而得出的,这种数据逻辑上的相关性往往无法被主观思维所理解,即只告知结果“是什么”,却不解释过程“为什么”。(26)参见前引,王燃文。相关关系为司法研究提供了广阔空间,人们对因果关系的把握从既存结果推展到潜在结果,从过去时推展到将来时,(27)参见王天思:《大数据中的因果关系及其哲学内涵》,载《中国社会科学》2016年第5期。有效拓展了司法研究的思维和视野。另一方面,大数据从深层次驱动司法研究话语模式和研究范式的转型。例如,可以结合工作实际深化对案件内容、程序运行等信息数据的分析,为加强公正司法提供有力支持;可以深化对审判过程中法律适用情况的信息数据分析,为积极回应人民群众期待、提升司法水平提供有益参考;可以全面分析诉讼活动的内容、裁判结果等方面的信息数据,支持和促进法治政府和法治社会建设;可以深化对当事人在结案后的行为和满意度进行分析,为评价案件质量提供数据支持;等等。
2018年初,最高人民法院审判管理办公室选取机动车交通事故责任纠纷中伤残赔偿金的计算标准作为研究对象,基于“中国裁判文书网”上公开的所有裁判文书,对法院审理机动车交通事故责任纠纷的相关裁判规则开展实证研究,发现实践中存在多种裁判观点并存,需要推动修改相关立法或者出台司法解释,进一步明确和统一裁判标准。有学者以“中国裁判文书网”上公开的31个省级行政区的年度行政裁判文书为分析样本,进行法治政府的司法指数研究,通过阶段性的数据库建设、体系性评估及其衍生的基础理论研究,为中国法治政府建设实践提供有益的决策建议。(28)参见肖军等:《法治政府的司法指数研究》,载《行政法学研究》2019年第1期。当前,影响社会治理决策的事项纷繁芜杂,各类矛盾交织、各种变量融合的情况非常突出。借助大数据手段,基于海量数据基础所进行的模块化分析,可以掌握和预测社会人群越轨行为、社会矛盾风险隐患等关键节点动态,从而为社会治理提供更为系统、准确、科学的参考依据。例如,开发大数据分析系统,建立涵盖毒品犯罪、危险驾驶、金融借款、劳动争议、知识产权、行政机关败诉分析等多个数据的分析模型,通过相关数据的收集、汇总、分析,可以为法律法规和司法解释的制定提供更多决策参考;通过融合司法审判、区域发展、行业变化、经济指标等内外数据,建立智能数据分析模型,从司法的视角为供给侧结构性改革以及长三角一体化等国家战略的推进部署及成效评估提供服务。
通过“套路贷”虚假诉讼智能预警系统的应用,可以发现司法大数据发挥了积极作用,加强对司法大数据的研究和应用是今后发展的方向。我们应当因应大势,以开放的理念、务实的心态去拥抱互联网时代、拥抱“大数据时代”,以互联网思维、大数据思维为法院工作注入创新的基因,进一步推动大数据、人工智能等科技创新成果同司法工作深度融合,促进人民司法事业实现新的更大发展。