孙春雨
当今时代,大数据是生产资料,云计算是生产力,互联网是生产关系,数字技术是未来竞争的利器。要实现新时代检察工作高质量发展、现代化发展,当务之急就是要找到关键变量,找到支撑高质量发展的“船”和“桥”,实现“一子落而满盘活”的裂变效应,其答案就是数字革命。[1]参见贾宇主编:《大数据法律监督办案指引》,中国检察出版社2022 年版,第14 页。2021年12 月 28 日,最高人民检察院召开党组会,研究深化落实国家大数据战略,充分运用信息化、大数据推进“四大检察”“十大业务”,提升法律监督质效,张军强调“以大数据赋能法律监督,这是新时期检察工作更高层次‘高质量发展’的新内涵、新要求”,最高人民检察院要求,各级检察机关要有强烈的大数据意识、大数据思维,要用大数据提升检察工作质效。要打破数据壁垒,积极主动沟通协作,实现信息共享,借助大数据拓展监督渠道、改进监督模式、创新监督方法、提升监督能力。[2]《“数据革命”赋能法律监督更高层次发展,最高检党组研究深化落实国家大数据战略、用好大数据推进“四大检察”“十大业务”的举措》,《检察日报》2021 年12 月30 日,第1 版。此次会议标志着新时代检察工作进入大数据法律监督时期。
1.数据的概念和特征。美国学者乔丹·莫罗认为,数据堪称“新石油”,它就像水一样可以拯救生灵。数据是一种资产,一旦使用得当,不仅能助推进步,而且能确保取得成功。[3]参见[美]乔丹·莫罗:《数据思维:人人必会的数据认知技能》,耿修林译,广东经济出版社2022 年版,第3 页。我国工业和信息化部2021 年 11 月 15 日印发的《“十四五”大数据产业发展规划》,将数据界定为新时代重要的生产要素、国家基础性战略资源。此两者均是从功能作用角度对数据进行界定,尚不能科学揭示数据的实质内涵。而我国《数据安全法》则将数据定义为“任何以电子或其他方式对信息的记录”。笔者认为,此概念阐明了数据的科学内涵。
2.数据的性质。一是具有伴生性。随着计算机、互联网的普及,数据日益取代笔记,成为人们日常生活中记录的工具,它伴随着人类而生,无法完全摆脱人的影响范畴。二是具有独立性。数据诞生后,在拥有一定载体的前提下,可以被保存下来,而无须取决于所记录对象。三是具有非同质性。在数据系统中,以字节作为衡量数据的大小单位,根据应用的范围与用法,往往在相同的单位下,保存的数据所包含的价值相差悬殊。四是具有非竞争性和可替代性。与传统物质相比,数据在使用过程中,不会因他人的使用发生损耗,且边际成本趋于零。原始数据的生产者已然提供了整个数据流通的大部分成本,数据的后来使用者无须再次投入成本,使用者也不会对其他使用该数据的人发生损耗。五是数据产权具有排他性,在其利益范畴内,具有对其他生产者产生排斥在外的能力。[4]参见周演民:《大数据背景下数据产权的排他性研究》,《经济研究导刊》2022 年第 22 期,第153-155 页。
3.大数据的概念及特征。《天津市促进大数据发展应用条例》[5]2018 年12 月14 日天津市第十七届人民代表大会常务委员会第七次会议通过,自2019 年1 月1 日起施行。和《贵州省大数据安全保障条例》[6]2019 年8 月1 日,贵州省第十三届人民代表大会常务委员会第十一次会议通过。均将大数据界定为“以容量大、类型多、存取速度快、应用价值高为主要特征的数据集合”,不同之处在于:天津的条例认为还包括对数据集合开发利用形成的新技术和新业态;而贵州的条例则认为, 大数据还是对数量巨大、来源分散、格式多样的数据进行采集、存储和关联分析,发现新知识、创造新价值、提升新能力的新一代信息技术和服务业态。工业和信息化部印发的《“十四五”大数据产业发展规划》则指出,大数据是数据的集合,以容量大、类型多、速度快、精度准、价值高为主要特征。《黑龙江省促进大数据发展应用条例》[7]2022 年5 月13 日,黑龙江省第十三届人民代表大会常务委员会第三十三次会议通过。则将大数据分为公共数据和非公共数据,公共数据是指国家机关和法律、法规授权的具有管理公共事务职能的组织以及供水、供电、供气、供热、通讯、公共交通等公共服务运营单位在依法履职或者提供公共管理和服务过程中收集、产生的,以一定形式记录、保存的各类数据及其衍生数据。非公共数据是指公共管理和服务机构以外的自然人、法人和非法人组织依法开展活动所产生、获取或者加工处理的各类数据。笔者认为,以上官方文本只是从不同角度揭示了大数据的部分内涵,而非全部,并不周延。
有学者认为,大数据包括海量数据集、数据分析技术以及大数据分析结果三层含义。首先,大数据是海量数据的集合,它们构成了大数据分析的基础,并且这些数据具有量大、结构多样特征。其次,大数据还是一种以数据挖掘为核心的数据分析技术,只有通过数据分析技术,才能够发掘出数据背后的价值。最后,大数据还强调经过分析、处理后所获得的数据结果,它们往往能够反映出数据背后的规律,是大数据的价值和精髓所在。[8]参见王燃:《大数据侦查》,清华大学出版社2017 年版,第26 页。笔者认为,此概念动态、完整揭示了大数据的科学内涵。关于大数据的特征,学界的通说是大数据具有“3V”特征,即大容量、多样性和数据产生频率、更新频率快。[9]王燃:《大数据侦查》,清华大学出版社2017 年版,第27 页。与上述官方文本阐明的大数据的特征有共同之处,揭示了大数据的鲜明特质。
基于以上认识,检察大数据无疑属于公共数据,它是指检察机关根据法律规定,在履行职责过程中所产生或获取的、以一定形式记录和保存的数据资源。[10]马建刚:《大数据视野下智慧刑事检察探析》,《中国检察官》2022 年第3 期,第7-10 页。一般而言,检察大数据主要包括案件中的各类证据,如电信网络诈骗案件中犯罪嫌疑人发送的虚假信息;办案过程中收集到的各类数据,如统一业务应用系统中的案件信息、监督平台上的各类监督线索;法律文书数据和业务资料以及司法过程中接触到的各类当事人或者第三方数据,如犯罪记录封存数据、司法救助数据等。[11]参见《开发大数据潜力为检察工作赋能》,《检察日报》2022 年7 月13 日,第11 版。
一般认为,大数据法律监督是指从数据或个案中发现规律与问题,通过总结、归纳并开发监督模型,从海量数据中挖掘隐含在其中的、仅依据个案难以知晓的监督信息和类案线索,继而从类案问题中分析、发现管理衔接、制度机制、立法执法司法等方面存在的系统性漏洞,以引导侦查、提出检察建议等方式,促进社会治理。[12]翁跃强等:《大数据赋能法律监督的价值与应用》,《人民检察》2022 年第11 期,第27-30 页。大数据在检察监督中运用领域不同,呈现的形态也不同。一是根据大数据信息技术在法律监督过程中应用方式和目的,可以划分为大数据调查、大数据审查、大数据侦查。其中,大数据调查是指运用大数据技术对案件事实证据、监督事项进行调查核实;大数据审查是指运用大数据技术对案件事实证据、证明的标准、程度进行审查认定;大数据侦查是利用数据分析处理技术对侦查人员收集信息进行筛选、处理并分析得出结论的过程。[13]杨荣慧:《大数据侦查的风险及其规制》,《南方论刊》2022 年第 8 期,第70-72 页。二是按四大检察业务则可划分为大数据刑事检察、大数据民事检察、大数据行政检察、大数据公益诉讼检察。尽管形态表现有所差异,但性质是一样的,即大数据监督已不是一般意义上的大数据技术辅助监督办案,而是将大数据技术与检察监督办案有机融合,本质上是监督办案的新形态、新业态。
依法原则要求大数据监督行为必须有法律的依据,只有在法律有明确规定的情况下才能作出积极的行为,否则就构成违法。例如,《个人信息安全规范》(国家标准 GB/T 35273-2020)5.6(d)规定,为刑事侦查、起诉、审判和判决执行的需要而收集、使用个人信息不必征得个人信息主体的授权同意。但是《个人信息安全规范》仅是国家推荐标准,无法律效力,它显然无法授权检察机关开展大数据监督工作。大数据监督过程中处理的信息很多是涉及公民隐私权的敏感数据,更应当明确“只有法律有明文规定”才能处理。
合目的性原则包括“目的明确”和“受目的拘束”两个方面。首先,在立法授权公权力机关搜集公民个人信息的情况下,必须明确规定搜集、使用公民信息之目的;其次,信息的后续使用要与原先的收集目的一致,不允许在法定目的之外使用信息。但是“合目的性原则”是传统个人信息保护的基本原则,由于受到原先收集目的的限制,限缩了数据的流转和二次使用,显然无法适应大数据的二次利用模式。因此,大数据时代对“合目的性原则”之内涵应予以发展,不必要求后续使用目的必须与原先目的具有关联性,但应尊重数据主体的合理预期。
任何公权力要进入私领域,都需要通过比例原则进行“正当性证成”。要在公法中合理保护个人信息利益,当然需要运用比例原则以实现“数据保护与流转”之平衡,并以其为依据判断信息数据的使用是否合理合规。《个人信息保护法》第 6 条的规定,处理个人信息应当采取对个人权益影响最小的方式;收集个人信息,应当限于实现处理目的的最小范围,不得过度收集个人信息;第 19条规定,个人信息的保存期限应当为实现处理目的所必要的最短时间;第 34 条的规定,国家机关处理个人信息,不得超出履行法定职责所必需的范围和限度。[14]参见钟明曦、陈淑珍:《大数据侦查之法律困境与应对》,《海峡法学》2022 年第 1 期,第71-79 页。
数据认知素养是指对数据进行阅读、用数据语言开展工作、对数据进行分析和用数据进行沟通的能力。[15][美]乔丹·莫罗:《数据思维:人人必会的数据认知技能》,耿修林译,广东经济出版社2022 年版,第47 页。要做好做精大数据监督工作,首要的要有大数据思维。然而,令人遗憾的是这方面很欠缺。正如工业和信息化部印发的《“十四五”大数据产业发展规划》所指出的,“十三五”时期我国大数据产业虽然取得了重要突破,但仍然存在一些制约因素。首要的是社会认识不到位,“用数据说话、用数据决策、用数据管理、用数据创新”的大数据思维尚未形成。检察监督办案中同样亟需培养“四用”大数据思维。原因在于,大数据最典型的思维特征是“相关性”,将事物、行为转化为数据,通过数据运算来发现各要素之间有无相关性。大数据只发掘事物之间有无相关性,而不去探寻它们之间为什么有关系,即“知其然而不知其所以然”。这种方式耗时少、成本小,相比于人类的主观分析,大数据得出的结果也更具有客观性和说服力。[16]王燃:《大数据侦查》,清华大学出版社2017 年版,第37 页。
数字检察让法律监督工作不再局限于个案和卷宗,也不局限于单一事项、单一职能,而是打破区域和空间限制,覆盖执法司法流程的每一个节点,呈现跨条线、跨职能、跨区域的特征,因而必须建立与之相适应的配套组织体系和运行机制,有效承接法律监督模式变革的要求,这也是数字检察“重塑变革”内涵要义的重要体现。[17]贾宇主编:《大数据法律监督办案指引》,中国检察出版社2022 年版,第35 页。
1.领导机制。实践中法律监督质效短板主要表现在被动性、碎片化、浅层次,这既是法律监督工作质效不高的集中体现,更是长期以来破解检察机关法律监督职能虚化、弱化难题的瓶颈。[18]贾宇主编:《大数据法律监督办案指引》,中国检察出版社2022 年版,第10-11 页。对检察机关而言,数字时代的到来,为法律监督模式深层次变革插上了科技翅膀、提供了重大机遇。作为一项革命性的战略工程,数字检察的核心要义就在于“重塑变革”,既是“本”的提升,更是“质”的嬗变。[19]贾宇主编:《大数据法律监督办案指引》,中国检察出版社2022 年版,第16 页。要实行“提升”“嬗变”,更需要在检察内部形成坚强有力的领导机制。比如,浙江省检察院专门成立数字检察办案指挥中心,下设研判综合组、数据保障组、协调督查组等专业工作组,着力发挥“中枢大脑”的作用,[20]贾宇主编:《大数据法律监督办案指引》,中国检察出版社2022 年版,第33-34 页。为纵深推进大数据监督工作提供强有力的领导保障。北京市人民检察院则成立了全国首个数字检察部,专司此项工作。
2.促进机制。一是建立跨部门协同作战机制。大数据监督与传统监督方式不同,它是一种系统化、集成化、一体化的监督方式,凸显检察机关内部职能融合的必要性,需要通过线索引导,将不同部门的审查、调查、侦查有机衔接,实行跨部门协同作战。[21]参见翁跃强等:《大数据赋能法律监督的价值与应用》,《人民检察》2022 年第11 期,第27-30 页。因此,建立跨部门、跨检察业务领域的协同作战机制至关重要。二是建立线索发现审查机制。应当依托大数据法律监督平台,按照“解析个案、梳理要素”“构建模型、输出线索”“问题核实、类案监督”的路径,有效融合“四大检察”职能,特别是以审查、调查、侦查“三查融合”的思维和方法,发现并查实一批法律监督线索。[22]参见贾宇主编:《大数据法律监督办案指引》,中国检察出版社2022 年版,第28-29 页。三是建立类案监督新机制。推进“数字赋能监督,监督促进治理”的法律监督模式变革,探索实践“个案办理-类案监督-系统治理”的数字检察路径。[23]贾宇主编:《大数据法律监督办案指引》,中国检察出版社2022 年版,第18 页。
3.纠偏机制。很多人认为大数据的分析结果一定是客观中立的、正确无误的,但实际上并非如此。从数据采集、数据清洗到数据分析的每一个环节都涉及人为因素影响,都可能产生错误,如数据采集偏差、数据分析错误、数据歧视等。数据采集偏差,如数据盲点、数据阴影、数据黑暗地带等,为数据分析埋下隐患。大数据分析流程包括主题的确定、数据的集成、数据的建模计算以及数据可视化等一系列环节,大数据分析的每一个阶段都离不开人为操作,每一个环节都有出错的可能,每一处操作失误都有可能影响最终的分析结果。大数据算法中还有一对不可避免的误差,即数据的假阴性和假阳性。大数据侦查算法的假阴性是指将犯罪结果遗漏,即没有检测出犯罪结果,这有可能导致“漏罪”;而大数据侦查算法的假阳性是指分析结果错误,误将无辜之人错认为犯罪嫌疑人。[24]参见王燃:《大数据侦查》,清华大学出版社2017 年版,第65-74 页。所以,需要针对大数据监督中容易出现的偏差和问题,建立相应的纠偏和防范机制。
大数据立法明显滞后,亟需跟进。大数据监督尚欠缺必要的规则可循,有必要从权力边界、证据规则等方面予以规范。
一是将数据权利界定为一种新型蕴含着人格权属性的财产权,侵犯数据主体的人格权或财产权,归纳起来都是侵犯以数据为载体的各项权利,这些权利可以竞合成一项统一的权利也就是数据权,通过数据权的规制可以调整与数据相关的权利义务关系。[25]参见陈伟:《大数据背景下数据的归属、利用与保护》,烟台大学2021 年硕士学位论文,第22 页。
二是明确数据权的内涵,主要包括知情同意权,即只有在数据主体知情同意的基础上,才允许数据业者收集、加工和处理用户数据;被遗忘权,即数据主体享有要求网络服务提供者或数据控制者永久删除与其有关的个人数据的权利;数据可携带权,即赋予数据主体从数据持有者处获得其个人数据从一个数据持有者处无障碍地转移到另一个数据持有者的权利;数据财产权,即数据主体享有对其个人数据的开发利用的处分与收益的权利。[26]参见何渊主编:《数据法学》,北京大学出版社2020 年版,第83-88 页。
三是适时将数据权上升为立法,为大数据监督明确边界。例如,《黑龙江省促进大数据发展应用条例》第七条规定:“自然人、法人和非法人组织对其合法取得的数据,可以依法使用、加工。法律、行政法规另有规定或者当事人另有约定的除外。”第八条规定:“自然人、法人和非法人组织对其合法处理数据形成的数据产品和服务享有法律、行政法规及本条例规定的财产权益,依法自主使用,进行处分。”
大数据监督虽然是检察监督方式的蝶变,是检察监督办案的新业态,但其本质上仍然属于监督办案,需要遵循监督办案的一般规律和要求,特别是要遵循办案的证据要求和规则。众所周知,办案从某种程度上讲就是收集证据、固定证据、分析证据、运用证据的过程,因此,从规范大数据监督行为的角度看,应当明确大数据监督的证据类型和证据规则。
1.大数据证明的特征。一是具有一种超越人类经验的智能化证明。传统司法证明是基于人类主观经验的证明,大数据证明则是依靠智能化算法来完成证明活动,是一种超越了人类经验的新型证明模式。一方面,大数据证明解决了人类经验难以完成的证明困境。大数据时代出现了证明对象海量化的趋势,特别是在一些互联网涉众型案件中,提取的电子数据动辄上亿条。对此,仅凭人类经验浏览完数据都是不可能完成的任务,更遑论进行证据推理。在此情形下,算法提供了一种超越人类经验的智能化证明方法。算法可将证明难题模型化,提炼出类案中的普遍证明规律与特征,用数学模型来取代主观推理。另一方面,大数据证明突破了人类经验尚未涉足的认知新领域,智能化算法亦可被用来探索司法证明的新领域。二是具有数据空间证明、数据因果关系证明以及涵摄未来证明等内涵。大数据证明不同于物理空间“载体—信息”式证明方式,其将证明对象转化为数据,并通过数据的智能化计算分析来完成证明。大数据证明中,因果关系并没有被抛弃,只不过传统基于逻辑推理的因果关系往往以数理相关关系表现出来,甚至很多案件中借助大数据分析来解决因果证明的难题。传统证明主要面向过去事实,但大数据证明可涵摄未来。预测是大数据最具价值的应用。大数据时代人类活动转向创构性,即根据人的需要和发展进行开创性活动。创构性活动主要建立在大数据预测基础上,通过对相关因素的把握和干预,来达到预想的结果。创构性活动亦对司法领域产生影响,特别是随着风险社会、信息社会带来的风险增加,预测警务、预测侦查在全球范围兴起,通过对犯罪分子、犯罪地区、受害人等预测来提前防范发案风险。[27]参见王燃:《大数据证明的机理及可靠性探究》,《法学家》2022 年第3 期,第57-91 页。
2.大数据是独立的证据类型。首先,大数据不属于鉴定意见。就与案件事实关联性而言,鉴定人只是对检材的真伪或样本的同一性问题做出判断,并不对证据与案件事实本身之间的关联性下结论;而大数据证据以算法和源数据采集为构成要素,以数据间相关关系为桥梁连接数据与行为的因果关系,进而直接或间接证明案件事实。就科学依据而言,鉴定意见是以自然科学原理为依据所作的一种科学性判断,需要鉴定人具备专门化的科学认知能力;而大数据证据的科学性体现在,通过数据技术揭示海量数据内在价值与特定事实的逻辑关系,其本质是借助经验事实结构化的运算提供新的司法认知方法。其次,大数据不同于电子数据。尽管电子数据和大数据证据均以数据要素证明案件事实,但大数据证据与电子数据在数据发挥证明作用的机理上仍存在差异。小数据语境下,有限的数据量使电子数据与案件事实容易形成直接关联。电子数据本身形成于案件事实发生之时,无需依赖数据算法等技术工具即可完成少量非结构化数据的因果逻辑分析。大数据背景下,案件所涉及的电子数据的数据量呈指数级增长,大数据证据更关注对源数据的结构化、多样化分析,通过数据算法挖掘海量数据之中隐藏的结构化数据规律以证明待证事实。相较于电子数据,大数据证据由于加入了智能化元素,已经远远超越了电子数据作为静态信息载体的功能。这种分析既具有总结性、智能性,又具有预测性、易变性,与电子数据不可同日而语。[28]参见倪春乐、陈博文:《大数据证据的刑事诉讼应用机理研究》,《中国人民公安大学学报(社会科学版)》2022 年第2 期,第37-49 页。再次,大数据是独立证据。大数据证据看似与传统证据的载体或过程形态相一致,实则其必须基于对海量电子数据内在逻辑的解释并在机器运算的支持下,才能使事实的因果逻辑得以表达和展示。大数据分析证明是数据信息收集→科学模型运算→小前提剪裁成形→大前提涵摄对应→法律适用的综合过程。在大数据证据生成及证明作用发挥过程中,不仅需要融合诉讼认知主体的能动性,还要依托算法技术、人工智能等挖掘海量数据与案件事实之间的客观性、逻辑性关联。因而,大数据证据是集科学性和思维性的统一,与传统证据有本质的区别,将其直接纳入现有某种证据形式都可能产生一定程度的不适应,在现有证据体系下,大数据证据与其他法定证据形态并非完全契合,大数据证据独立为证既有理论证成,也有实践需求。[29]参见倪春乐、陈博文:《大数据证据的刑事诉讼应用机理研究》,《中国人民公安大学学报(社会科学版)》2022 年第2 期,第37-749 页。最后,大数据证据的内涵外延。大数据证据是运用大数据技术、方法、思维等方式方法,用以证明案件事实的一切材料。其外延不仅包括最终呈现的数据材料,还包括案件的“全数据”,处理非结构化数据或结构化数据所采用大数据技术的说明材料,大数据分析方法的合理性说明材料,案件发展趋势或走向预测结果的说明材料。
从证据规则的应有内容看,大数据证据规则不仅应当对大数据的证据能力和证明力从证据实体的权能上进行规范,还应当从取证、举证、质证、认证等诉讼程序上进行规范,并制定相应的排除规则。
1.大数据证据“有无”之规则。大数据证据是否具备证据能力主要在于其与其他证据、待证事实及法律要件事实间是否具有关联,也在于其数据收集、处理、形成的过程是否合法以及其数据、内容等是否真实。应当从数据来源、数据处理过程以及大数据预测等方面入手,形成相对完整的大数据证据“有无”规则。第一,建立证据来源规则。对于犯罪行为的调查、侦查、审查,应当围绕案件所需的各种数据信息开展,此时,与案件关联,符合办案目的、需要和程序的数据均可纳入大数据证据的来源范围。但是对于犯罪预测的数据来源应当予以限制,尤其是对于个人敏感数据信息,应当予以区分、排除,除非得到个人同意。第二,建立有效的证据算法规则。大数据证据的核心在于算法,在运用算法进行数据分析的过程中,势必存在算法黑箱、数据偏见等问题,其核心问题仍为对算法以及其运算过程有效性的质疑。对于算法应当建立完备的审查说明解释机制,需要从合法律、合逻辑、合科学三个层面对算法设计的相关原理、各要素以及要素权重进行解释说明,并由法官、检察官、专家辅助人或鉴定人对算法设计的合理性共同做出判断。
在运用算法分析数据过程中,数据清洗涉及数据控制者的主观排除性,数据运算涉及运算过程的不可见性,有必要引入技术性纠偏的方法,使用修正度量或相似度计算,将算法结果输出与设计者或开发者预期实现的公正效果进行对比,通过严格贯彻公平性约束原则,可以有效消解算法歧视、信息茧房、算法共谋等算法不良影响的发生。对于算法运行结果的真实性,一方面可以通过已有数据验证结果的正确性,另一方面可以通过多种算法进行交叉验证,确保其真实性。同时还包括事后鉴定机构或大数据技术专门机构对大数据算法准确性、有效性的验证。
2.大数据证据“程度”之规则。首先,关联程度之规则。大数据证据的关联性应当包括逻辑、法律以及科学层面的关联。其次,自由心证之规则。可以依据来源不同将大数据分为公权力主体自有数据库所储存的数据与私权利主体数据库所提供的数据。其中,前者的数据相对具有较高的真实性与可靠度,可以直接用于形成大数据证据,为查明案件事实提供帮助。而后者的第一手数据交由公权力机关办理案件使用的过程中,在数据选择、生成、传输、保存等过程具有不确定性因素,需要对此部分数据的真实性予以检测。
3.大数据证据“排除”规则。主要包括大数据证据收集、储存、分析违反程序的排除规则、侵犯人权的排除规制。另外,最佳证据原则仍是大数据证据需要遵循的一项证据规则。但是,大数据证据以其体量之大,涉及范围之广而著称。当获取原始数据以及原始证据的固定移送需要耗费较大成本以及具有不便时,并不要求必须是原始数据,通过镜像复制的数据仍然可以适用。在保证大数据来源、载体、介质、内容真实性的情况下,相关的大数据证据不应当排除。[30]参见李晓东:《大数据证据规则之体系构建研究》,《政 法 学 刊》2022 年第 4 期,第122-128 页。