大数据证据二元实物证据属性及客观校验标准

2021-09-17 08:18
关键词:校验实物证据

元 轶

(中国政法大学 比较法学研究院,北京 100088)

一、问题的提出

随着智能终端和高速蜂窝通讯网络的迅速普及以及国际互联网的普遍提速,“大数据作为证据之运用”已经成为法学界必须面对的现实问题。然而,有关大数据证据的若干基本理论内涵,尚未得到清晰的界定。

首先,何种证据构成“大数据证据”?也就是说,体量达到何种程度、与大数据技术构成何种关联的证据才具有证据法意义上的特殊性,以至于须纳入“大数据证据”项下单独讨论?例如,一组GPS坐标[1],“连续多天”的“网吧实名制登记记录”(1)参见山东省菏泽市中级人民法院《刑事裁定书》(2018)鲁17刑终430号。,“某数据库平台之操作记录统计”(2)参见重庆市第五中级人民法院《刑事判决书》(2016)渝05刑初96号。,是否构成大数据证据?又如,侦查机关基于海量数据生成的“人脸比对评分结果”(3)“公安机关依据人像大数据平台对监控视频中的涉案男子进行人像比对,比对出90分以上3人,徐某某为最高分98分。”参见福建省南平市延平区人民法院《刑事判决书》(2019)闽0702刑初367号;福建省南平市中级人民法院《刑事裁定书》(2020)闽07刑终1号。可否作为“大数据证据”使用?再如,“e租宝案”中存储于200多台服务器上的海量数据[2]是否构成“大数据证据”?侦查机关在扰乱无线电通讯秩序案件中“利用‘大数据分析平台软件’技术,获取到该‘伪基站’设备内2077579个非重复IMIS号”(4)参见贵州省贵阳市中级人民法院《刑事裁定书》(2017)黔01刑终448号。,这两百多万个IMIS号本身是否构成“大数据证据”,这些号码经过比对、过滤、去重后,其结果又能否构成“大数据证据”?

其次,“大数据证据”属于言词证据还是实物证据?例如,在侵犯公民个人信息案件中,侦查机关提取的被侵犯的海量公民个人信息本身显然属于实物证据(实物证据中的电子数据)。那么,侦查机关基于这些信息所出具的“数据清洗情况说明”(5)江苏省无锡市惠山区人民法院《刑事判决书》(2019)苏0206刑初650号。等还应被认为是属于实物证据吗?换言之,算法之运用是否会对“大数据证据”之属性发生根本改变?

最后,“大数据证据”应当如何进行审查判断和法庭调查?如果说,对大数据集本身可以运用电子数据审查判断规则,那么对基于大数据集通过算法生成的大数据分析报告本身,是否仍可运用同等规则?也就是说,“大数据报告”之具体证据方法和法庭调查规范应当以人证调查还是以物证调查为基点进行展开,实践中仍不明朗。

对大数据证据之学理研究亦未能充分解决实践困惑。现有的研究不但将各种与“大数据”技术存在各种意义上直接、间接关系的证据材料都归入“大数据证据”项下,还就“大数据证据”之属性展开了热烈讨论,“鉴定意见说”(6)参见:刘品新.论大数据证据[J].环球法律评论,2019(1):28.“独立证据类型说”(7)张建伟教授认为,大数据集本身构成电子数据,而“大数据报告”应单列为独立证据类型。参见:何家弘,邓昌智,张桂勇,等.大数据侦查给证据法带来的挑战[J].人民检察,2018(1):56.“特殊类型书证说”(8)胡铭教授和龚中航博士认为,大数据集本身构成电子数据,而大数据报告构成一种特殊类型的书证。参见:胡铭,龚中航.大数据侦查的基本定位与法律规制[J].浙江社会科学,2019(12):19.“侦查实验说”(9)罗文华教授认为,“侦查实验非常适合于示例化说明大数据分析结果,从而弥补检验报告及书证的局限,增强分析结果的可信度。未来司法实践中有必要加大侦查实验的使用力度,更好地服务于大数据证据”。故“大数据报告”应纳入侦查实验项下加以规制。参见:罗文华.大数据证据之实践与思考[J].中国刑事警察,2019(5):20.等不一而足。在现有之研讨语境下,人们似乎已经达成共识:与大数据概念具有某种关联性的证据,都可归类于“大数据证据”;“大数据证据”相比于其他证据类型,除数据体量“更大”之外,似乎并无本质区别。

然而,应当看到,与传统数据集相比,大数据不但意味着数据体量的增多,还意味着数据结构、处理方式和运用方法的转变(10)参见:李学龙,龚海刚.大数据系统综述[J].中国科学:信息科学,2015(1):1-5.。这一系列变化,意味着人类认知从基于有限数据的模拟计算科学阶段开始转向基于大数据的人工智能阶段(11)大数据所带来的这一系列变化,意味着人类认识世界范式的一种根本变革。如同顶级资讯工程学家詹姆士·格雷(Jim Gray)所精辟指出的,大数据时代的到来标志着科学研究方法从“第三范式”走向“第四范式”:科学研究的“第一范式”是发轫于千年前的经验科学,其以描述自然现象为己任;“第二范式”是近几个世纪的理论科学,其运用归纳方法提炼理论模型;“第三范式”是近几十年来的计算科学,其运用计算机模拟复杂现象;而大数据时代所带来的“第四范式”下,数据由仪器捕获或通过模拟生成并被软件处理,并将产生的信息或只是存储在计算机中。“人们并不真正通过望远镜进行观察,而是通过大型复杂仪器‘观察’——这些仪器将数据传送到数据中心,之后人们在计算机上查阅信息。”See Tony Hey,Stewart Tansley,and Kristin Tolle (eds.),Jim Gray on eScience:A Transformed Scientific Method,in Tony Hey,Stewart Tansley,and Kristin Tolle (eds.),The Fourth Paradigm:Data-Intensive Scientific Discovery,Microsoft Research,2009:4-5.。进而,传统的刑事证明体系亦将迎来系统性变革:大数据的非结构化特性决定其难以按与案件事实有关联的标准“精切分割”,因而进入法庭的证据信息量将非常巨大,职权调查原则(或证据的关联性法则)将相应地迎来全新的实践样态(12)证据法上,对抗制一般通过关联性法则控制进入法庭的证据信息量;职权主义一般通过职权调查原则的范围控制进入法庭的证据信息量。大体上说,如果一项证据材料只包含对认定案件事实及其法律后果没有意义的信息,那么该材料一般无法进入法庭。对结构化数据库而言,从中截取与案件事实有关的信息片段而不损及其内容并非难事。例如,侦查机关从户籍信息库中提取犯罪嫌疑人户籍信息用于证明犯罪嫌疑人身份;从审判或刑罚执行机关提取犯罪嫌疑人的刑事判决书(裁定书)、释放证明书、假释证明书等,用于证明犯罪嫌疑人前科劣迹等。在这一过程中,取证主体只需从信息库中提取以犯罪嫌疑人为主体的“那一份”(“那几份”)材料并提交给法庭即可,无需将“户籍信息库”“判决信息库”之整体提交给法庭。而之所以能实现这种不损及信息本体的信息提取,正是因为这些信息是结构化的,其本质上须存储于具有二维数据库结构的信息空间中。自技术角度观之,这种信息提取,本质上只是根据特定字段特征查找对应行其他字段数据的过程,是结构化数据库的典型应用方式。然而,大数据时代的非结构化数据库则不具有此种功效。任何数据查询的结果都是在大数据基础上进行“提纯”后的“二手资料”。由于原始数据与案件事实的关联性在逻辑上亦无法得到反驳,那么根据关联性法则,所有原始数据都是证据,都应当移送法庭。例如,在窃取大量个人信息的案件中,尽管对定罪量刑具有意义的只是所窃取个人信息之数量,然这些信息本身同样与案件具有关联性而须移送给法庭。;进入法庭的信息量巨大意味着其无法通过人工方式直接读取,只能通过计算机算法“间接读取”,澄清义务(或最佳证据规则)将面临新的实现方式(13)证据法上,对抗制一般通过“最佳证据规则”要求原则上使用证据原件;职权主义则一般通过“澄清义务”要求事实认定者运用最佳证据材料,这要求尽可能接触证据之原初载体,以获取更充分的证据信息并防范讹误和伪造。Vgl.Eisenberg,Beweisrecht der StPO,10.Aufl.,2017,Rn.13-13b.可见,两种诉讼传统均要求裁判者尽可能接触证据之原初形态。然在证据体量达到无法在可容忍时间范围内进行人工读取的程度时,裁判者只能通过计算机算法间接读取大数据中的信息内容。例如,在e租宝案件中,全案电子数据量达到30TB。在此种情形下,对资金流向的分析只可能通过算法实现,而不可能人工操作。;与此同时,在大数据技术体系下,数据普遍采取分布式存储,这要求对传统的离线取证方式进行变革,对大数据证据的收集和固定方式作出改变(14)自技术视角观之,这是因为“第一,一个完整的文件会被分割成若干数据块,并存储在不同的节点上,而各节点可能存在于不同的地域,存储的非定域性和司法管辖权的限制导致取证的复杂程度和成本激增;第二,离线取证要求云计算的分布式存储系统节点全部或部分停机,这对云计算服务来说是不可接受的”。参见:武鲁,王连海,顾卫东.基于云的计算机取证系统研究[J].计算机科学,2012(5):83-85.。可见,当前“大数据证据”之理论研究仍然处在初步阶段,并不能满足实践需求。

进入深水区的“审判中心制度改革”要求“确保侦查、审查起诉的案件事实证据经得起法律的检验”,“保证庭审在查明事实、认定证据、保护诉权、公正裁判中发挥决定性作用”(15)参见:中共中央关于全面推进依法治国若干重大问题的决定[J].人民日报,2014-10-29(1).。自理论视角观之,这必然意味着,至少在被告人不认罪案件中,事实认定之规范体系和实践样态须走向彻底的“严格证明”,意味着证据能力规则,亦即证据方法和法庭调查程序两方面规则之法治化、规范化、严格化。大数据证据之规范体系,亦须以此为核心目标。因此,本文将在清晰界定“大数据证据”概念的基础上,阐发其内部构造和本质特征,进而在严格证明框架下研讨“大数据证据”之属性及其审查判断要点。

二、大数据证据的基本特征与内部构造

什么是“大数据”?只有回答了这一问题,对“大数据证据”的研究才能有的放矢。令人遗憾的是,现有研究大数据证据的前沿文献对这一问题或避而不谈,径行分析“大数据证据”之应用价值与方法(16)参见:吴春妹,叶萍,黄成等.大数据证据的定位与运用——以互联网金融犯罪案件为切入点[J].人民检察,2020(3):53-58.;或泛泛而谈,将并不具备大数据证据实质要素的各类证据信息都纳入到大数据证据的范畴(17)参见:刘品新.论大数据证据[J].环球法律评论,2019(1):21-34;徐惠,李晓东.大数据证据之证据属性证成研究[J].中国人民公安大学学报(社会科学版),2020(1):47-57.。这种研究进路,导致前文提到的“GPS坐标”,“连续多天”的“网吧实名制登记记录”等,都被错误地作为大数据证据来对待。然而,这些证据材料的提取过程,只是信息技术语境下的信息捕获;其所包含的信息量也非常有限(一个经纬度、连续几天的上网记录)。进一步看,这些信息含量非常有限的证据材料之所以被误认为“大数据证据”,只是因为其系提取于大数据信息系统。然而,这些信息一旦提取,便与其所出身的系统独立开来,可以直接作为书证或电子证据单独提交法庭,因此它们都不具有大数据证据的特征。

那么,我们前文提到的“e租宝案”中存储于200多台服务器上的海量数据,以及“伪基站”设备内的2077579个非重复IMIS号是否属于“大数据证据”呢?这就需要我们引入两组科学标准进行综合研判。首先,我们引入顶级咨询公司麦肯锡提出的“大数据”是指“体量超过了典型数据库软件工具捕获、存储、管理和分析数据能力的数据集”[3]1这一概念。该定义存在一定的主观性,并未将大数据界定为大于几TB的数据,而是以不同部门领域及其适用的数据软件中常见的数据集大小为标准。使用此种定义,可将“大数据证据”界定为数据体量超过了办案人员及其典型数据处理方式管理和分析能力的证据。这一定义强调了大数据证据“数据体量巨大”这一重要特征。依据这一定义,可以轻松将“e租宝案”中存储于200多台服务器上的海量数据,以及“伪基站”设备内2077579个非重复IMIS号定义为“大数据证据”,因为这种证据类型虽然是从大数据集中提取而来,但是其提取部分仍具有海量性,从而导致其在信息体量上具有大数据证据的特征。也就是说,如果我们面对的是一种无法单独提交的数据信息,例如从非结构化数据库中通过算法才能得出的数据结论,那么我们就只能将生成该证据的“大数据集”也一并作为证据提交。

除此之外,经过比对、过滤、去重后的这2077579个非重复IMIS号码的数据报告,可以归入“大数据证据”项下吗?这时,我们有必要进一步引入国际数据中心(IDC)提出的,关于大数据是“旨在通过实现高速捕获、收集、分析,以经济地从多样的极大量数据中挖掘价值”[4]这一概念。这一概念强调大数据证据是利用大数据技术和体系生成的证据,是从大数据平台挖掘、分析而形成的,但其生成之后本身并不一定具有“数据体量巨大”这一特性。具体而言,就是运用大数据技术在大数据集(往往是大数据平台)中直接进行算法分析,并生成法庭可以直接认知的结果报告,这时,算法分析结果与算法分析之基础数据集之间无法分割,因此须把大数据集(大数据平台)整体向法庭移交。在这个意义上,上述经过比对、过滤、去重的2077579个非重复IMIS号码的数据报告也属于“大数据证据”之组成部分。但是,如果作为大数据集的整个数据平台不具备整体移交的可行性,那么,单独提交的算法分析结果或者数据报告便不再具有证据法意义上的大数据证据之属性。那些“直接从所谓‘大数据平台’‘大情报系统’获取得到的数据或结论,如对端手机号码的实际使用人、犯罪嫌疑人行为轨迹与案情在时空上高度吻合等”[4]信息,同样不具有大数据证据之特征。这类证据虽然脱胎于所谓的大数据平台,但若要将其作为证据使用,便须将其所依托的整个大数据平台提交法庭,否则这些证据的真确性无从验证,事实认定者也就无从对其产生确信。然而,整个大数据平台数据体量极大,且时刻处在运行之中,将其整体提交法庭极为困难。相较而言,将这种信息用作侦查线索,在其指引下收集、固定其他多种证据并形成证明体系显然更为可行。例如,在涉毒案件中,侦查人员往往通过大数据平台进行研判,以确定犯罪嫌疑人的物理位置并实施精准抓捕,而抓捕后,用于锁定犯罪嫌疑人人身同一性的证据,并不包括该大数据平台的研判结论,该数据分析结果只构成抓捕线索(18)这是大数据技术在犯罪治理中的典型运用形式。例如,“接举报后……禁毒大队通过大数据轨迹分析侦查,发现一男子形迹可疑……20日0时许,民警前往思茅区橙桔快捷酒店518号房间将黄天富抓获。”参见云南省普洱市中级人民法院《刑事判决书》(2020)云08刑初112号;“工作人员经过情报研判和大数据比对,发现一叫郑建强的男子欲乘坐JD5282航班从云南运输毒品至京。接此情报,我民警……在北京市顺义区首都机场T1航站楼出站口将涉嫌运输毒品嫌疑人郑建强抓获,从其体内起获毒品海洛因241.08克。”参见北京市高级人民法院《刑事裁定书》(2020)京刑终25号等。。而本文开篇提到的侦查机关作为人身同一性认定证据的、基于海量数据生成的“人脸比对结果”,也属于这种证据形式。此时,法庭对大数据集及其算法都没有进行实质审查,直接接受该等人脸比对结果,违背了证据收集运用规范,违背了证明标准条款(《刑事诉讼法》第55条第2款第2项)。

由上文的分析不难发现,大数据证据同时具有以下两个特征:第一,作为证据的原始数据集体量巨大,无法以人力在可容忍时间范围内读取;第二,原始数据集需通过大数据分析转化为信息体量有限的大数据报告,方能为事实认定者所感知。不符合这两点本质特征的证据,直接构成书证或电子数据,无需纳入大数据证据范围加以讨论。这两点本质特征表明,大数据证据不是不可分割的同质整体,它由大数据集及大数据集之算法分析报告两部分构成,本文将这种构造特征称为大数据证据的二元内部构造。如前所述,大数据集之整体均与案件具有关联性,因此该整体都是证据,与此同时,由于该大数据集体量庞大,其运用以转化为法官所能感知的分析报告为前提。因此,大数据集之算法分析报告也是大数据证据不可或缺的组成部分。

三、大数据证据的二元实物证据属性

在明晰大数据证据之本质特征和二元构造的基础上,值得讨论的是大数据证据的属性。当前有关大数据证据属性的学理讨论,多是以证据法定分类为基点展开。但是,我国证据的法定分类是同时考虑不同证据类别的内在属性及其应用上的便宜需要的结果,不具有周延性。因此,本文主张以学理分类为讨论的起点。我国学理上普遍接受的证据分类四对范畴,是“实物证据与言词证据”“原始证据与传来证据”“直接证据与间接证据”“不利于被告人的证据与有利于被告人的证据”。在证据法理论上,每对范畴中两种类型的证据都具有审查判断上的系统周延性。

对“大数据证据”而言,具有理论价值的是讨论其属于实物证据还是言词证据。大数据集属于电子数据,系实物证据之一种,自不待言。例如,在侵犯公民个人信息案件中,侦查机关提取的被侵犯的海量公民个人信息本身显然属于实物证据中的电子数据。那么,侦查机关基于这些信息所出具的“大数据报告”(19)在本案中非典型地表现为《数据清洗情况说明》。参见江苏省无锡市惠山区人民法院《刑事判决书》(2019)苏0206刑初650号。等还能被认为是属于实物证据吗?

(一)大数据报告与鉴定意见具有本质区别

在理论研讨中,基于其技术性特征,“大数据报告”往往被认为与言词证据中的鉴定意见具有某种意义上的亲缘性。如刘广三教授认为:“我们通常所说的电子数据,是一种互联网产生的静态数据。但资金大数据分析运用了模型分析,加入了电脑逻辑,可视为一种动态的数据,与我们以往认识的电子数据是有区别的。我认为最好把资金大数据分析纳入司法鉴定范畴。”[5]刘品新教授认为:“大数据证据无疑是一种专业性或科学性很强的证据,其结论部分的意见表达是普通人无从凭借常识就能理解的。而在我国现行法律框架中,只有鉴定意见与之相符。”“将大数据证据(报告)纳入鉴定意见之列,既具有形式上的亲缘性、可比性,也满足司法追求经济性的原则,司法人员可以相对容易地援引鉴定意见的审查判断规则去处理大数据证据的效力。”(20)参见:刘品新.论大数据证据[J].环球法律评论,2019(1):28.这些观点从根本上看都是基于归类便宜的考虑对大数据报告的证据属性提出意见,却并未深入分析大数据报告与鉴定意见在本质属性上的区别。

本文认为,大数据报告在生成过程上与鉴定意见存在本质区别。这种区别决定了,大数据报告不可能属于鉴定意见之一种。

——大数据集中的海量数据,是大数据报告的信息源。计算机对该信息源进行数据清洗、筛选、加工、比对、碰撞等数据分析过程后,生成分析结果。计算机在完成这一工作时,利用的是以生成目标数据为导向的元算法(必要时还包括基于元算法通过机器学习机制生成的迭代算法)。这一过程本质上是按特定标准对源数据进行逻辑归纳的过程。计算机在此起到的是扩充人类算力、加速逻辑归纳的作用,算法在此并不提供任何补充的信息。在信息源和元算法都控制不变的前提下,计算机所生成的分析结果应当具有高度稳定性,亦即由计算机开展的指向特定目标的大数据分析,具有可复现性。此种可复现性,可作为检验大数据分析结果的标准(大数据报告可复现性原理)。

——对于鉴定意见,检材中的信息是其信息源,拥有专业知识的鉴定人员从其专业角度“读取”检材中所含有的各种维度的信息,并运用其专业知识中所包含的命题,得出关于该检材的鉴定结果。这一过程,本质上是以其专业知识中包含的经验性归纳结论为依据、以其从检材中“读取”的信息为基础进行类推的过程。一方面,鉴定人员的专业素养、知识背景和能力影响了其从检材中“读取”信息的全面性和准确度,同时影响其在特定检材信息上运用学科普遍规律的妥适性;另一方面,鉴定人员之专业学科所提供的经验性归纳结论,一般不是全称命题而是特称命题,鉴定人员在这种以特称命题为主要形式的学科规律性认识指导下,对检材所提出的并不是逻辑演绎的必然性结论,而只是一种带有学科性质的类比和推测(21)“一门科学中往往统计规律和必然规律并存,只是在不同学科中所占比例不同。借助这两种性质的规律来考察司法鉴定活动,我们就会发现司法鉴定活动中统计规律占到了绝大多数。比如,‘指纹特征总体终身不变’;‘双胞胎指纹的相似程度高达80%-90%’;‘模仿笔迹与样本笔迹大同小异’等,还常常有‘一般来说’‘可能’‘对大多数人来说’等频率词汇夹杂其间。”参见:杨立云,张继成.司法鉴定科学性之反思[J].法商研究,2004(4):58.。因此,即使对同一检材针对同一鉴定目的,由不同学科背景和专业程度的人员进行鉴定,可能得出不同的鉴定结论。由于鉴定无法通过复现检验其准确性,人们只能依据对鉴定人的当庭质证结果,依据一定的法律标准对鉴定结论之证明力进行评判(鉴定意见不可复现性原理)。

结合上面的论述,本文将大数据报告和鉴定意见各自的形成过程概括为上图1。总的来说,大数据分析过程中用到的算法具有固定性和可复用性;报告的生成过程是纯粹的归纳推理,结论具有较强的稳定性和可复现性,因而可以“符合论”之客观标准,以大数据分析过程之整体复现为方式进行检验——在这一过程中,没有任何“意见”容身之余地;鉴定意见的生成过程是类比推理,其结论受到鉴定人专业知识、学术观点乃至科技发展水平的局限——这一过程中,鉴定人“意见”的填补是不可或缺和殊为关键的,这也就意味着,“鉴定意见的科学性、真实性和权威性,在很大程度上不取决于鉴定意见本身,而依赖于鉴定人的主体属性、鉴定过程和判断能力”[6]。因而,在充分的直接言词原则环境下,对鉴定意见的证明力,只能基于以人证调查为模型的质证程序(22)鉴定人在本质上属于人证。Vgl.Löwe/Rosenberg/Hadamitzky StPO,26.Aufl.2008,StPO vor § 72 Rn.1; KK-StPO/Hadamitzky,8.Aufl.2019,StPO vor § 72 Rn.1.因而,对鉴定人的发问,一般适用发问证人的规定。(《德国刑事诉讼法》第72条,《最高法解释》第260条)。由事实认定者作出法学评判。

图1 大数据报告和鉴定意见的生成过程对比

从法规范上看,鉴定意见作为证据类型的本质特征就在于鉴定人填补法庭所不具备的专业知识。因而,不存在这一专业知识之填补过程的证据类型,不可能构成鉴定意见。正是基于这种明晰规范性概念之分界的考虑,2021年新《最高法解释》删去了电子数据“有疑问时”送交鉴定的规定(23)2012年《最高人民法院关于适用〈中华人民共和国刑事诉讼法〉的解释》(法释〔2012〕21号)第93条规定:“对电子邮件、电子数据交换、网上聊天记录、博客、微博客、手机短信、电子签名、域名等电子数据,应当着重审查以下内容:……对电子数据有疑问的,应当进行鉴定或检验。”但在2021年的《最高法解释》中,已不见此规定。,而其他司法解释文件在提及电子数据的鉴定时,只明确对“电子数据涉及的专门性问题”,应当送交鉴定或检验(24)2014年最高人民法院、最高人民检察院、公安部《关于办理网络犯罪案件适用刑事诉讼程序若干问题的意见》(公通字〔2014〕10号)第18条规定:“对电子数据涉及的专门性问题难以确定的,由司法鉴定机构出具鉴定意见,或者由公安部指定的机构出具检验报告。”类似地,2016年最高人民法院、最高人民检察院、公安部《关于办理刑事案件收集提取和审查判断电子数据若干问题的规定》第17条第1款规定:“对电子数据涉及的专门性问题难以确定的,由司法鉴定机构出具鉴定意见,或者由公安部指定的机构出具报告。对于人民检察院直接受理的案件,也可以由最高人民检察院指定的机构出具报告。”。显然,如果电子数据在个案中并不涉及专门性问题,便不落入应当送交鉴定的范围。而大数据集之所以无法由人力直接读取,并非因其在内容上艰深晦涩、只能通过填补专业知识才能理解,而只是因其体量庞大,如以司法实践中可支配之人力进行读取,将无法在可容忍时间范围内完成,故必须通过计算机算力予以加速。这一过程并不涉及“专门性”问题,因而从规范层面看,大数据分析本身亦不必也不该纳入鉴定意见的范畴(25)当然,本文并不否认的是,在生成大数据报告后,该报告的内容涉及专门性问题、须经专业知识填补方能理解的,仍须将该大数据报告送交鉴定。。

(二)大数据报告与实物证据具有共同属性

在认定大数据报告并不属于鉴定意见的基础上,值得分析的是,大数据报告与实物证据具有何种共性,使其能够并应当归入实物证据的范畴呢?

本质上讲,大数据证据中的规律性是客观的,只是这种客观规律常常需要通过算法来反映。这正如物证、书证可以用不同的表达方式来反映,如物证可以用图片方式展示,也可运用放射线对其内部结构进行三维剖析,书证中的外文可以进行翻译表达,还可以或截选或概括的方式展示运用,但这些都不会影响其作为实物证据的本质属性。算法之于大数据,无非是其特有的表达方式之一。根据算法得出客观结果,是一种对事实的呈现,并不含有规范或价值判断。本文认为,大数据报告同样是实物证据,大数据报告是大数据证据作为实物证据发挥证明作用的运用形式,具备实物证据运用形式的典型性。

一方面,大数据报告是大数据集的显化运用形式。我们知道,实物证据中所包含的信息,只有在能被司法人员感知的前提下,才能发挥证明作用。对于那些其外在属性能直接为司法人员所感知的实物证据,如具有某种显性物理属性的物证(比如辛普森案中带血的手套)、以司法人员通晓之语言撰写之书证等,可直接以其原本形态(原物、原件)发挥证明作用。但对那些内在属性并不能直接为司法人员所感知的实物证据,如证物上残留的指纹、以司法人员不通晓之语言撰写之书证、保存有证据资料的U盘等,须显化为司法人员所能直接感知的形态后,方可发挥证明作用,如通过荧光照相技术对指纹进行拍照提取、对书证进行必要的翻译、利用计算机对U盘中的数据进行读取或进行摘要打印等。本文将这种将实物证据所包含信息转化为司法人员所能直接感知之形式的运用方式称为实物证据的“显化运用”。并且认为,显化运用是这部分实物证据的运用常态。大数据是一种不能为司法人员所直接感知的证据:不但数据本身必须通过计算机进行读取,而且直接读取的大数据由于体量庞大,由司法人员人工逐条审查并不现实,只能通过算法显化,在与证明目的相关联的维度上读取大数据中所包含的信息,生成大数据分析报告,以为司法人员所感知(26)Vgl.Fährmann,Digitale Beweismittel und Datenmengen im Strafprozess:Digitalisierung als rechtsstaatliche Herausforderung an Justiz,Polizei und Gesetzgeber,MMR 2020,228,230f.。因此,大数据报告是大数据这一不能为司法人员所直接感知的实物证据类型转化运用的形式,具有实物证据运用形式的典型性。

同时,大数据报告具有实物证据的多维选择特性。我们知道,实物证据是以实际的物质形态而存在或表现的证据,而此种物质载体上实际蕴含着多维度的大量信息——物证的每种理化属性、书证中的每个字符、电子数据中的全部主文、附属信息和关联痕迹,都承载着信息。而实物证据的运用中,实际上只是与证明目的相关联之维度上的信息——而并非实物证据所能承载的各个维度的全部信息——在发挥作用。例如,从凶案现场提取之带血作案刀具,其外观和附着血迹、指纹等发挥证明作用,而该刀具的熔点和导电性等物理属性不具证明作用;网络诈骗案件中的微信聊天记录,其中指向诈骗事实的内容发挥证明作用,而穿插期间的问候、闲谈等内容则不发挥证明作用。可见,提取实物证据中对具有相关证明作用的部分信息进行选择性运用,是实物证据的又一运用常态。本文将实物证据的这种运用特点称为实物证据的多维选择特性。

大数据证据中包含海量与案件具有关联性的信息,却往往并不能直接服务于证明目的。例如,在通过网络窃取公民个人信息的案件中,所窃取之个人信息所构成的数据集整体构成证据,但对证明目的而言,具有意义的并非“具体哪些公民的个人信息被窃取”,而是“被窃取的个人信息实际数量”。因此,大数据证据的运用,关键在于提取该数据集与证明目的相关联之方面的属性。例如,通过算法对上述被窃取公民个人信息之数据集进行清洗和比对,可统计出被窃取之公民个人信息的数量。运用算法对大数据证据特定属性进行分析并呈现为大数据报告,即是大数据证据作为实物证据而具有多维选择特性下的经典证据运用形式。

由此可见,大数据报告具备实物证据运用形式的典型性,故宜认定为实物证据。大数据证据由大数据集和大数据报告构成。大数据集是实物证据,大数据报告也是实物证据;与此同时,两者并非彼此独立的。在算法控制不变的前提下,大数据集与大数据报告具有高度稳定的对应关系。在这一意义上,大数据证据具有二元实物证据属性。

四、大数据证据的客观校验标准

由上文分析可发现,大数据证据具有二元实物证据构造,也就是说,大数据证据与鉴定意见存在本质区别,大数据集本身系实物证据,而经由算法分析形成的大数据分析结论亦构成实物证据。与此同时,在算法控制不变的前提下,数据集与数据分析结论的对应关系亦保持高度稳定。这种特殊构造决定了,大数据证据须通过合法性、算法目的符合性和分析结论正确性三重客观校验,方可具备证据能力。而在证据能力问题上,本文将继续通过大数据证据与鉴定意见的对比,展开关于大数据证据客观校验标准的论述。

(一)完整性校验标准

我们知道,如果鉴定检材的来源和保管链条未经依法记载固定,那么便无法确认其在鉴定前或鉴定后是否遭到偷换、篡改或毁坏,鉴定意见之真实性将无从验证。如果鉴定主体不具有法定的鉴定资格,或鉴定程序违背法律的规定或者专业规范,那么鉴定意见之准确性将无从确保。如果鉴定意见文书缺乏封存性证明要件,如骑缝章、签名等,那么鉴定意见内容之真实性将无从验证。因此,法律对鉴定检材、鉴定主体、鉴定意见提出了一系列形式性的要求(《最高法解释》第98条(27)“鉴定意见具有下列情形之一的,不得作为定案的根据:(一)鉴定机构不具备法定资质,或者鉴定事项超出该鉴定机构业务范围、技术条件的;(二)鉴定人不具备法定资质,不具有相关专业技术或者职称,或者违反回避规定的;(三)送检材料、样本来源不明,或者因污染不具备鉴定条件的;(四)鉴定对象与送检材料、样本不一致的;(五)鉴定程序违反规定的;(六)鉴定过程和方法不符合相关专业的规范要求的;(七)鉴定文书缺少签名、盖章的;(八)鉴定意见与案件事实没有关联的;(九)违反有关规定的其他情形。”)。这些要求从其实体内容上看,不具有直接保障个案中鉴定意见准确性的机能,但提出了排除鉴定意见证据资格的抽象标准。也就是说,这些要求实际上构成了法律对鉴定意见赋予证据能力的形式性前提条件。对大数据证据而言,则大数据集、算法和大数据报告三者都必须保证其数据内容未曾受到篡改。具体而言,大数据集是整个大数据证据的根基,其一旦受到篡改,整个大数据证据的证据资格将无所附丽;算法是大数据证据的中枢,其一旦受到篡改,算法符合性校验将无从展开;大数据报告是大数据证据的表征,其一旦受到篡改,事实认定者从大数据证据中所感知的信息将直接受到扭曲。因此,必须保障送交法庭的大数据集的完整性,必须保障送交法庭的分析算法的完整性,还须保障送交法庭的大数据报告的完整性,否则,整个大数据证据将不具有证据能力。

我们知道,实物证据有瑕疵、可能严重影响司法公正的,应当予以补正或者作出合理解释;不能补正或者作出合理解释的,对该证据应当予以排除(《刑事诉讼法》第56条第1款)。对大数据证据而言,证据排除规则运用之特殊性主要在于其技术方面。大数据往往通过分布式存储技术分散保存于位于多个物理位置的存储介质上,因此难以扣押原始存储介质(《电子数据规定》(28)2016年最高人民法院、最高人民检察院、公安部印发《关于办理刑事案件收集提取和审查判断电子数据若干问题的规定》(法发[2016]22号),文中简称《电子数据规定》。第8条),只能提取电子数据并计算完整性校验值(《电子数据规定》第9条)。在这种情形下,电子数据外部载体审查判断之关键在于对该数据之依附载体的封存状态与保管链条之审查(《电子数据规定》第18条)。内部载体审查判断之关键在于电子数据完整性校验值之比对(《电子数据规定》第23条)——技术上,尽管大数据体量庞大,但其中任何一字节数据的变动,都会引发该校验值之变化。

对外部载体而言,大数据证据——无论是大数据集还是算法、大数据分析结论——提取后存储介质之封存状态及保管链条无法确认的,构成瑕疵电子数据,经补正或作出合理解释的,可以采用(《电子数据规定》第27条),否则不具证据能力。对内部载体而言,大数据证据——无论是大数据集还是算法、大数据分析结论——完整性校验值发生变化的,表明该电子数据内容与提取固定时相比已发生变化,此时该等数据之真实性已无法保障,故不得作为定案的根据(《电子数据规定》第28条)。还须注意,大数据证据之二元构造决定了,对大数据集及大数据报告(包括算法和大数据分析结论)两者均须进行上述外部载体和内部载体的审查判断。

在法庭调查中,对大数据集、算法和大数据报告数据完整性的校验,可通过比较数据完整性校验值的方式进行。在证据收集、固定规范中,应当要求对三者在大数据分析中首次出现的时间戳与当时相应的校验值进行封装。在此基础上,法庭上如对三者发生异议,可随时进行比对,必要时可以展开现场校验。

(二)算法目的符合性校验标准

由于鉴定意见不具有可复现性,在对鉴定意见的审查判断中,对鉴定行为的科学性,包括鉴定主体所采用的鉴定方法是否正确、是否适合于达成特定的鉴定目的,只能通过询问鉴定人,调查鉴定方法、鉴定过程、鉴定行为、鉴定依据等手段,间接地对鉴定人的水平和能力作出“法学评判”。如同前文所述,鉴定意见在生成过程中,须填补鉴定主体的专业知识。因此,在检材本身控制不变的前提下,所填补的专业知识的科学性和鉴定主体运用该专业知识的妥适性都会影响结论的准确性。例如,所采用的鉴定方法可能潜藏相对更高的错误率;所依据的科学理论并未得到广泛认可或已被新的理论替代或淘汰;鉴定主体可能在识别鉴定指征和运用鉴定方法时存在疏忽等。这些情形都可能对鉴定意见的准确性产生关键影响。然而,这些情形是否必然否定鉴定行为的科学性,并非由法庭能够直接判断。因此,只要鉴定主体、方法等符合鉴定意见合法性规范的要求,即使出现这些情况,也不能仅以此为根据排除鉴定意见的证据能力,只能在证明力的层面上对鉴定行为科学性可能存在的疑问予以考虑。

由此可见,虽然与鉴定意见类似,对“大数据分析行为”的科学性,也需要进行检验,即检验其算法是否符合大数据分析目的。例如,某项大数据分析的目的是“既不重复又不遗漏地”统计涉案银行流水信息中所涉及的银行账户数量,而如果该大数据证据中的算法并不能有效排除重复出现的银行账户,那么此种算法便不符合大数据分析的目的。但是,与鉴定意见不同的是,对大数据证据算法的目的符合性,还可以直接进行科学性校验,且此种校验得出的结论,只有是非之分,并无程度之别。也就是说,与某种鉴定方法“相较而言更”适合于特定鉴定目的的情形不同,算法要么符合大数据分析之目的,要么不符合,不存在中间地带,不可能出现“不太符合”或“较为符合”的情形。这是由算法本身的性质决定的。算法是明确定义的计算过程,其以某个或某组值为输入,并以一个或一组值为输出。因此,算法亦可被视为解决特定的计算问题之工具,对这一“问题”的描述即构成对算法“输入-输出”关系的指定[7]1。换言之,算法是运算目的的数学表达,而运算目的则是算法的自然语言描述。两者在数理内涵上只存在一致与不一致两种样态。

那么,在具体操作层面,如何开展算法目的符合性校验呢?在算法源代码可以开示的情形下,可以通过类似白盒测试(white-box testing)的技术路线,通过直接检查算法内部技术构造,亦即校验其中每一运算步骤的数理内涵及每一运算步骤之间的关联关系,以最直接的方式实现对算法之目的符合性的校验。通过这种校验,可以实现对算法中不符合运算目的的内容精准定位。在实践中,由于客观条件的限制,仍然存在相当比例不能通过开源算法达成运算目的,或算法提供者基于保护商业秘密等目的不愿提供算法源代码的情形。在这些情形下,鉴于无法实现对源代码的直接读取,只能对算法进行黑盒测试(black-box testing)。黑盒测试之基础在于,“如果算法对每一输入的实例,都能给出正确的输出结果,那么,该算法便是正确的”[7]1-2。进而,可以通过对该算法输入大量实例,观察其是否输出错误结果。如果算法输出了错误结果——哪怕只有一次——亦说明该算法存在错误,无法通过目的符合性测试。黑盒测试不要求测试者具有程序设计方面的专业知识,因此,在能获得算法程序的前提下,控辩审三方均可对算法进行黑盒测试。

应当注意的是,一般而言,这种校验只对算法正确性具有推定效力而起不到证明作用。这是因为,在白盒测试中,尽管理论上可以实现对被测试算法的完全覆盖,但是,一方面,在复杂算法中,实现对算法内部运算路径的遍历将带来较高成本;另一方面,测试者的注意力水平是有限的,就像审校者无法保证经其校对的文件中不含有任何错误一样,白盒测试的测试者也无法保证通过其测试的算法必然具有完全的目的符合性。而在黑盒测试中,由于用于测试的输入实例的数量是有限的,因而其往往无法保证对算法实现全覆盖式的检测。因此,黑盒测试只能实现“成功的测试每增加一次,我们对软件正确性的不确信程度便降低一分”[8]。总之,白盒测试和黑盒测试的可靠性都要求其在各自技术路线上对待检验算法实现穷尽式覆盖,然而这两种穷尽在现实中往往都是不可行的[9]12。但是,白盒测试或黑盒测试可以有效指出算法中出现的错误。因此,算法符合性校验是一项排除性校验,亦即通过符合性校验并不表明算法必然正确;但无法通过符合性校验的算法,亦即在白盒测试或黑盒测试中被指出存在错误的算法,必然不具有目的符合性——在这一种情形下,该大数据证据便不具有证据资格。

(三)大数据报告正确性校验标准

在对鉴定意见的审查判断中,无法实现对鉴定“结论”之正确性直接作出科学评判。这一方面是由于鉴定作为对过去发生事实之推测,不具有可复现性,另一方面是因为法庭缺乏形成鉴定意见所需的科学知识。因此,对鉴定“结论”的检验,实际上只能立足于对鉴定意见生成过程中所填补之专业知识的检验。这种检验只能间接地通过询问鉴定人、开展二次鉴定、请有专门知识的人出庭就鉴定意见发表意见等方式进行;以通过这些方式获得的信息为“中介”,事实认定者作出对鉴定“结论”正确性的间接判断。本质上,对鉴定意见的审查判断,只能以法学标准代替科学标准。

与对鉴定意见的审查判断不同的是,如前文所述,大数据报告系对大数据集之特定属性的客观反映,因此,大数据报告的正确性应当以“符合论”之客观标准检验。具体而言,大数据报告所述情况符合大数据集实际情况的,大数据报告具有正确性,反之不具有正确性。

如何在实际操作层面落实这一校验标准呢?第一,一般而言,由于大数据本身数据体量巨大的特点,难以通过人力检验对其实现纠错。但这并不能排除所有例外情况。当通过人力对数据集进行不完全检验,已经得出与大数据报告相矛盾的结论时,大数据报告显然不具有正确性。第二,当事人提出技术构造更为简单的算法——且该算法因技术构造较为简单而能通过穷尽式白盒测试证明符合运算目的的——通过该算法得出的运算结论与大数据报告所载结论不符的,大数据证据不具有正确性。第三,当事人提出多种具有目的符合性的算法,且这些算法得出一致结论,但该结论与大数据报告所载结论不同时,应启动进一步调查。

五、结语

在大数据证据涌向法庭的时代背景下,理论界必须作出有力回应。否则,以“技术”之名,控方主张将可能透过“大数据”“算法”等看似不容置疑的“科学概念”潜入证明体系,证据裁判原则将受到挑战。如果说对鉴定意见质证中以法学标准代替科学标准是法律实务界由于专业知识之匮乏而不得不采取的妥协,那么在计算机算力加持下,法律实务界人士对大数据证据独立进行验算、质证都将成为现实。在大数据技术体系下,人类有能力通过技术平台掌握更多数据化认识工具,对世界的认识将越来越脱离对主观意见和推测的依赖并走向客观化。而将大数据证据认定为实物证据并按符合论等标准对其进行真实性评判,正是刑事司法程序正视大数据所带来之认知变革的第一步。

猜你喜欢
校验实物证据
复杂多耦合仿真模型校验工具研究
使用Excel朗读功能校验工作表中的数据
电能表在线不停电校验技术
浅论加强实物档案管理工作的策略
精通文件校验的“门道”
班主任进行实物分析的实践路径
手上的证据
家庭暴力证据搜集指南
手上的证据