大数据证据的刑事诉讼应用机理研究

2022-11-23 15:11倪春乐陈博文
关键词:证据证明算法

倪春乐,陈博文

(西南政法大学,重庆 401120)

网络信息时代背景下,大数据以其独特的相关性功能在司法实务中发挥着日益重要的作用。在刑事诉讼实践逻辑中,大数据也不断被应用于案件事实证明。2012 年《刑事诉讼法》修改时将电子数据纳入了法定证据种类,但电子数据并不等同于大数据证据,更无法完全替代大数据证据在司法证明中的作用。大数据作为一种科技元素,如何与证据法规范相融合,形成事实证明新的有效手段,值得进行理论探索。

大数据应用于侦查极大拓展和深化了事实认知的能力,也为其作为诉讼证明的依据进入诉讼视野打下了认知基础。在“以审判为中心”的背景下,要真正发挥大数据在庭审阶段的事实证明作用,我们必须对其事实认知的机理、事实证明的形式载体及证明作用发挥的路径进行研究和探讨。鉴于此,本文将立足于大数据认识论及刑事司法应用的基本原理,从大数据的镜像论证明、大数据事实认知与司法真实的逻辑自洽以及大数据侦查认知与因果关系证明的联通互动视角,论证大数据与证据的契合机理,阐释大数据“何以为证”;进而从证据形式法定化与证据形态动态发展之间的矛盾出发,以证据形式为逻辑起点,研究大数据的证据形式问题,即解决大数据“以何为证”的问题;最后从证据形式、证据方法、证明力发挥一体化的视角探索大数据证据作为融合性证据的证据方法,对大数据证据在庭审空间中的应用,特别是对控辩双方基于大数据证据的“权力—权利”对等性保障进行论证,试图为大数据证据在诉讼语境下的贯通式应用提供一定的理论支撑。

一、大数据“何以为证”

证据是载体和内容的统一。证据载体是证据的留存形式,证据内容是事件发展进程的记录,即完成证明待证事实存在可能性的客观依据。大数据具备成为证据材料的客观属性,这也构成了从大数据与证据制度互动视角探讨“大数据证据”问题的逻辑前提。

作为新兴技术和存在形态,何为“大数据”也仍有不同观点。舍恩伯格从大数据蕴藏的内在价值角度强调,“大数据是从海量数据中提取的价值和服务”[1]4。也有学者指出,大数据是“以数据空间为场景,以数据为载体,连接起了‘案’与‘人’之间的关系,架起了虚拟与现实的桥梁,以专业算法为工具,挖掘数据背后的案件线索、情报”[2]。我们认为,对大数据的理解至少应包含“数据技术为依托、海量数据为资源、预定算法为工具、以相关思维为认知方式”等要素,相关性思维是大数据的核心。

在思维层面,大数据也可以理解为是从海量的非结构化数据中发掘规律性事实,以相关性结论对事物创造价值的思维方法。在实践层面,大数据借助于侦查认知的操作路径已然进入刑事司法领域。

正如有学者所指出的,大数据证据是指通过海量数据进行筛选、汇总、提炼形成结论并在审判中使用的证据[3]。尽管从规范角度讲,大数据证据并非独立的证据类型,但在对大数据应用于诉讼证明的机理和程序进行理论研究时,有必要用“大数据证据”来指代这一具有独特性的证据材料和证据载体。实践中,基于技术和时空的局限,大数据之于“特定案件”也并非“全量数据”,其实质在于充分挖掘了海量数据中关于数据与犯罪行为及案件事实的相关性。“强调以技术和方法为核心的大数据证据需要对其可以证明的方方面面予以解释说明,使人确信其为真,与所待证的整个案件事实存在的关联性为真。”[4]可见,大数据依其机理及与“事实”的关系,具有成为证据的内核价值。

(一)大数据的客观性和镜像论

大数据基于镜像关系反映客观行为,因此具有事实证明的客观性。数据空间中的犯罪行为以数据形式记录、保存并形成包含行为信息的镜像数据,侦查人员对镜像数据分析运算得出规律性结论,反映并证明相关事实。

证明是人依据证据对事实认定的活动。在刑事司法证明各个阶段,对证据的收集审查无不结合着司法人员的主观意识影响。证据所包含的信息,客观上反映了事件的发展进程,而证据的发现和证明过程却是司法人员判断证据与待证事实是否关联的主观认识活动。尽管大数据证据在海量数据筛选、整理汇总和运算形成规律性结论的过程中容纳了司法人员对源数据的审查判断,但其仍符合形式和内容上的客观性要求。

“形式客观”是指大数据证据的载体客观。对一个证据而言,只有这种物质形式的信息载体的存在,证据的存在才是客观实在的,证据的这一客观存在才能够为人们的证明活动提供客观基础[5]。传统电子数据存储的数据量有限,往往以U 盘等存储介质保存。然而由于大数据内含海量数据信息,传统载体介质和技术手段无法完成数据存储和内容呈现,大数据证据以分析报告为形式,使得数据所揭示的相关性结论的内容有了更具直观性的载体。

大数据证据是借助算法对海量相关数据挖掘、分析得出规律性结论,其载体的客观性取决于源数据的客观真实性。首先,大数据证据形成的基础在于无限接近于“全量”的海量数据,通过数据清洗这一自我纠错机制来剔除无关、错误数据,提升数据相关性和准确性。其次,借助相应证据保全措施,确保源数据真实性保管。比如,实践中有针对云平台存储的大数据证据实施“冻结”的证据固定方法[6],即对数据采集、储存、共享和分析运用的全过程进行备案、登记和审查时,注意进行数据的交叉验证和清洗,注意留存过程性证据,注意保护原始储存介质[7]。而对于数据在传输过程中产生新的数据痕迹,如邮件、传输记录等,在大数据证据应用中,也可根据补强逻辑发挥过程性补强作用。

大数据证据“形式客观”的另一个层次是指大数据证据的数据算法可为他人所认知,即解决了所谓“算法黑箱”问题。一直以来,学界对大数据证据基于单一和不透明算法得出的结论的客观性存有疑问,因此要求公开数据算法以增强司法公正透明。左卫民教授认为,我们不清楚法院和法律科技公司到底采用了何种算法以及该算法的实际效果如何;深度学习算法的“黑箱性”可能天然地与法律决策的“透明性”要求相冲突[8]。从认识论角度看,算法设计是以过往相关案件及办案经验分析所得出的规律性结论为依托,交由专业技术人员编写完成。在算法生成过程中,由于计算机技术自身带有专业性和科学性,即便算法公开,司法人员受专业性限制无法了解算法的代码编程等知识。基于此,我们认为,算法公开与否对于客观性而言意义不大,只需在算法使用、检验时加以规制即可。同时,算法在设计时所融入的价值指引是设计者为实现司法公正,将某一领域的“特殊经验”向数据的“一般经验”过渡,形成数据算法价值判断。对此,正如里克·西蒙斯教授所言,他们只需要知道:“(1)算法使用的因素;(2)算法结果的历史精确度。”[9]史蒂芬·E·亨德森教授认为,算法也不一定必须具有可解释性,只要导致该决策算法的基础算法可以访问,只要决策算法可用于广泛的偏差和准确性测试,只要没有人为地保留为机密,只要最终的决策者是人,刑事司法系统中就应有机器学习、非人类可解释决策算法的一席之地[10]。可以说,数据算法是真理与价值的统一,即数据算法符合证据的形式客观性。

大数据证据的“内容客观”是指,证据所包含的信息具有客观性并与案件事实之间存在客观关联性。正如城田真琴所言,在数字社会“人们通过分析庞大的数据来获得有价值的信息或判断”[11]。正因大数据的即时性记录克服了传统证据的时效性弊端,故而大数据证据将分散且碎片化行为信息依照特定算法模型运算分析,则会发现各信息点背后隐藏的行为规律。从信息论看,犯罪行为在一定的时空内与特定的人、事、物发生关系时,基于信息交换而留存或映射在特定客体上,形成证据。由于大数据是对已有数据的加工、分析,大数据证据的客观真实性,需要由原始数据的客观性予以保障[12]。无论何人针对源数据实施任何活动都会在虚拟空间留下痕迹信息。换言之,现实空间的犯罪行为在数据镜像作用下形成了“孪生”数据事实,大数据的镜像论为侦查活动的逆向思维提供了实现路径。依托大数据镜像论,证明活动可以大数据证据所包含的数据事实信息实现现实空间证明的回归。由此可见,大数据镜像论使得大数据证据具有内容上的客观性。

(二)大数据事实认知与刑事司法的“真实”

大数据使得传统“以假说或模型为动力寻找样本检验科学认知正确与否的‘理论驱动’型方法论”[13]转向“将海量数据的抽象归纳为认知先导的‘数据驱动’型方法论”[14]。换言之,大数据证据舍弃有限数据的主观性的因果先验假说,通过数据积累后挖掘发现数据信息与事件间的相关性,在相关性基础上探究普遍的因果关系,以此客观地创构事实达到司法“真实”。

证明的逻辑起点是事实,而证据与事实之间的逻辑关系是相关性[12]。尽管不同实践领域对判定证据为真的条件、强度不一,但证据本身不具有领域依赖性质,证据通过命题、断言在推理或者论证展示对待证事实的支持关系[15]。证明活动本质上是判断证据与待证事实之间契合概率的大小问题。侦查作为回溯性认知活动,所收集的证据与案件事实之间无法达到百分百的绝对契合,当证据与事实认识的契合度达到刑事案件要求的因果证明概率,昭示着此证据为真。换言之,大数据通过对数据分析形成的规律性认识与案件事实的相关概率达到因果证明要求,便可以说大数据证据能推定事件的发生,即大数据证据为真。以此为视角看大数据相关概率的特点,与证据的证明概率本质无异,当大数据证据的弱相关积累能达到因果证明的强相关要求时,大数据证据符合证据法则中相对真理的认知。

在司法认知层面,大数据证据主要从两个维度发挥作用:一是将认定事实的“精确”思维转向“容错”思维;二是利用数据变化的相互印证关系强化证明效果。“两个具有相关性关系的数据,如果一个数据发生变化,另一个数据也会随之发生或强或弱的变化,即变化的数据不唯一。”[16]因此,不能将相关性割裂为两个独立存在的维度,前一维度是后一维度的认知起点,后一维度是前一维度的证据制度延伸。

而在主体思维层面,大数据的“容错”性将司法人员的注意力从追求精确的因果关系转向模糊的相关关系。大数据技术提升了从数据样本中获取信息的能力。大数据除已有极少部分的结构化数据外,还存有海量繁芜的非结构化信息,这些信息离犯罪事实内核越远,数据量越庞大,也变得愈加混杂。“执迷于精确性是信息缺乏时代和模拟时代的产物。通过接受不精确性才能打开一扇从未涉足的世界的窗户。”[1]64大数据证据对海量数据的运算,其效果在于对相关事实行为的客观化描述,而非对行为因果的分析。当拥有海量数据时,绝对追求精确的事实证明要素会将价值密度低的数据自动忽略,而非结构化数据的整合往往能使事实的证明更加真实客观。虽然精确的事实因果因数据的混杂变得模糊,“然而由‘无限的模糊’所带来的聚焦成像会比‘有限的精确’更准确”[17]。“容错”思维在客观上也拓展了司法证明的实践路径。

大数据背景下,数据要素形成普遍关联的拓扑结构,形成相关性的联动反映。这成为数据印证进而事实证明的基础。这也意味着大数据证据能在证据推定中量化社会中的“一般经验”,通过相关数据“量”的研究得出因果性结论,创构案件事实。以“e 租宝”案为例,e 租宝与芝麻金融平台以理财产品形式开展线上、线下集资活动,吸收115 万余人资金共计762 亿余元人民币。该案关联的数据信息涉及上千家银行、多家支付平台及上万个证券账户间数十亿资金流数据;数百家公司、数十名犯罪嫌疑人之间的担保、保理等财务合同数据;各犯罪主体的角色关系图谱及关联通讯数据;上百万被害人的投资流水;集资款流向等等。如此海量的数据依靠侦查人员逐一筛选、梳理和使用显然不切实际。本案侦查人员对海量电子数据进行检验鉴定,明晰了“e 租宝”运营中各主体间的层级关系及分工;提取并鉴定阿里云平台保存的项目信息表、资金统计表等海量电子数据,鉴定报告展现了“e 租宝”平台的进出账资金流水,证明非法集资人数、数额和款项去向等核心案件事实。①参见《刘曼曼等非法吸收公众存款一审刑事判决书》,载“北大法宝”,http://gfggi66f6a8ad06ba47d9skfv09q6kpw k9656c.fbch.oca.swupl.edu.cn/pfnl/1970324933080742.html,最后访问日期:2021 年10 月23 日。由此可见,通过大数据分析海量数据的相关性,得出规律性事实,便可将资金流等海量数据予以直观的可视化呈现,进而证明案件事实——即海量数据与行为的相关关系是大数据与事实证明的衔接点。

司法“真实”要求证据与事实建构之间形成逻辑自洽。事实认定者通过相关关系证明逐渐深化对待证事实的认知,由相关关系演进到因果逻辑,进而完成诉讼证明的任务。大数据证据从非结构化数据中把握行为规律,让司法人员认识到海量数据与事实创构相互贯通的可能性,为实现“真实”认知和认定提供可行的司法路径。

(三)物的数据化和数据物化

当经验主义的侦查思维无法适应数据时代的犯罪情势时,数据驱动与侦查认知融合的大数据侦查认知应运而生。大数据认知不仅突破了传统侦查认知的时空界限,同时拓宽了案件侦查路径,实现了案件侦查与侦查资源的交互融合。在技术应用层面,侦查实务界和理论界普遍接受大数据带来的新思维及以之为基础的新方法,并积极寻求大数据驱动侦查的效益最大化[18]。从大数据侦查认知看,以数据相关分析为时间节点可分为物的数据化和数据物化两条路径。

物的数据化是从案件事实出发,以因果关系的拓展分析为思维起点,实现案件事实以数据形式可视化的认知路径。传统回溯型侦查认知以犯罪现场为中心,凭借先前经验知识构建事实假设,依据现场有限数据信息收集证据完成事实构建,难以实现最大价值的信息整合。大数据技术正在助推物的数据化转变进程,这使人类的认识活动在一定程度上得以摆脱时空维度的局限,大数据时代使物的数据化成为可能[18]。大数据侦查实现了侦查从物理空间向虚拟空间延伸。侦查主体以过往同类型案件的结构化数据为依托,通过现场信息与结构化数据的对比分析筛选相关数据,并以此查找相关信息指引数据挖掘、碰撞、分析等工作,最终查明案件事实。在信息技术条件的支撑下,物的数据化使不同空间的犯罪信息转换为海量结构化数据成为可能,进而侦查主体可以通过对案件信息的相关性分析清晰勾勒出案件事实的脉络。这一过程充分展现了信息重组的最大化价值,为数据物化提供了可行性。

物的数据化以相关关系为依据构建盖然性事实,也模糊了因果逻辑的整体性认知。具有相关关系的信息点串联成无数内含事实要素的“线”,但仍需因果逻辑的整合才能成为具有唯一性的“事实整体”。尽管物的数据化为跨越时空的信息扩散和相关关系拓展提供了条件,但以概率为形式的表达仍无法满足诉讼事实证明中确定性的要求。因此,需要数据物化的认知路径回归,以填补物的数据化在因果构建上所缺失的连接点。

数据物化是从“线性的相关数理”到“多维的事实证成”的合成进路。相关关系基础上所寻求的因果关系是数据物化的认知基础,案件事实与证据的连接最终仍然回归于因果关系桥梁。“犯罪人—犯罪行为—犯罪现场”因果逻辑关系所产生的证据是构建案件事实的主线,大数据拓展了证据搜集的思维和渠道,并提供了由相关性线索回归因果性证据的现实可能性和路径[18]。数据物化创设了回溯型侦查与数据化认知的关联,与物的数据化形成完整的逻辑闭环,完成了事件证明由相关盖然到因果同一的整体性评价。

物的数据化和数据物化是侦查认知的一体两面。单一的相关关系难以完成规范化事实证明,同时,只依靠因果性认知也无法克服数据驱动认知中精确性与混杂性之间的逻辑矛盾。物的数据化与数据物化的融合实现了实体侦查与虚拟数据的可视化统一,也意味着大数据契合事实证明的实践路径。

综上所述,大数据始终追求这样一种理想的证明状态:事实的创构和证明围绕着大数据相关关系展开,“最终的裁判建立在无瑕疵的证据基础之上”[19]。大数据运用于侦查活动,属于从数据相关性发现过去因果关系的认识过程。与侦查活动不同的是,审判活动则很难被简单地概括为认识活动,而属于一种司法证明活动[20]。可见,司法证明是联系大数据与事实认定的纽带。就实践而言,“机械的演绎逻辑观终将被抛弃,取而代之的是一种不断适应法律开放属性的动态的和发展的逻辑观”[21],从司法证明的论证逻辑看,大数据证据与现代司法证明具有功能与目的的契合性。

二、大数据“以何为证”

证据载体与证据方法的有机统一是证据发挥证明作用的前提。随着社会的不断发展,特别是信息载体本身出现的多元化,使得证据形式的法定化与证据内容的多样化之间可能存在矛盾。即,具有实质性证明价值的内容可能因缺乏与之相对应的证据形式而无法发挥作用,进而使事实认定陷入困境。当前,新型网络犯罪的事实认定及证据应用的复杂性亟待证明理论和证据制度的主动调适。

(一)大数据证据的形式定位

我国遵循证据形式法定主义原则,即法律明文规定了证据类型或形式,并以此作为证据发挥作用的法律形式基础。基于法律的滞后性,司法呈现出被动状态,社会变迁和犯罪形式的发展使证据具有动态变化的特性。如此一来,证据形式法定主义容易导致证据适用过程中形式的法定化与证据形态的动态变化之间存在矛盾。当前,法律并未明确界定“大数据证据”,大数据证据到底应以何种“独立形式”发挥其证明作用,未有定论。

正如有学者所指出,法定证据确认的准则在于,每种证据在其收集和认定的方法上均有区别于其他证据形态的特质[22]。而当前学界关于“大数据证据”的形式问题,争议焦点主要集中在是否将大数据证据列为独立证据种类,抑或是纳入现有法定证据种类。一种观点认为,基于大数据证据生成和适用的特殊性,应将大数据证据与传统证据在证据形态上做具体划分。“未来的证据法中,大数据证据有必要单独列出来作为独立的证据种类。”[23]也有观点指出,尽管不能否认大数据作为证据的独特价值,但大数据证据作为新事物尚未被刑事司法完全接受,出于平衡立法滞后与司法迫切需求的矛盾,暂时将其纳入法定证据种类以填补大数据适用规则的空白。因此有论者认为,应将大数据证据纳入鉴定意见之列,既具有形式上的亲缘性、可比性,也满足司法追求经济性的原则,司法人员便于审查证据效力[24]。对此,有必要将学界所主张的大数据证据形式进行比较和研究,以分析其证据形式归属的可能性。当前学界关于大数据证据的归属有如下代表性观点:

1.“鉴定意见说”

大数据证据借助专业算法对海量源数据分析运算得出规律性事实,以书面形式将算法结论予以展示,这一过程与鉴定意见的生成具有“形式”的相似性。因而有观点认为,大数据证据应归于“鉴定意见”。何家弘教授针对涉众类经济犯罪中的资金大数据分析认为,“最好把资金大数据分析纳入司法鉴定范畴,这有利于司法实践的展开,在法律上也可以找到依据”[23]。从证据内容的生成机制看,大数据证据与鉴定意见,二者的确存在一定的相似性。从运用角度看,以“鉴定意见”为形式,也便于司法人员依据现有规则对大数据证据进行审查和采信。正如刘品新教授所指出的,就我国现有法律框架而言,实务中最常见的做法、学理上最流行的观点当数“鉴定意见”论。鉴于大数据证据同一般意义上的鉴定意见存在前述一些差异,这有待于设立其采用规则时进行必要的调整。

我们认为,大数据证据与鉴定意见的内核具有本质差异。大数据证据将非结构化数据进行结构化转变,利用大数据技术抽取出可用于证明的内容,最终以书面判断材料形式在法庭呈现,与鉴定意见“形似”。但是从证据的产生和使用过程看,鉴定意见是“鉴定人运用科学技术或专门知识对诉讼的专门问题进行鉴别和判断并提供个人意见”[25],而大数据证据兼有“侦查主体的思维性”“算法分析的技术性”和“数据内容的客观性”特征。

就与案件事实关联性而言,鉴定人只是对检材的真伪或检材样本的同一性问题做出判断,并不对证据与案件事实本身之间的关联性下结论;而大数据证据以算法和源数据采集为构成要素,以数据间相关关系为桥梁连接数据与行为的因果关系,进而直接或间接证明案件事实。

就科学依据而言,鉴定意见是以自然科学原理为依据所作的一种科学性判断,需要鉴定人具备专门化的科学认知能力。而大数据证据的科学性体现在,通过数据技术揭示海量数据内在价值与特定事实的逻辑关系,其本质是借助经验事实结构化的运算提供新的司法认知方法。

2.“电子数据说”

有学者主张以大数据证据的信息载体样态为依据,提出具备客观真实性的大数据在作为证据使用时, 其证据种类可以被归为“电子数据”[12]。该观点认为,可以在诉讼进程中借电子数据审查规则对大数据证据进行审查判断,帮助法官对相关案件事实形成内心确信。大数据证据的源数据具有电子数据性质,即数据形式表现的同质性,同时大数据证据和电子数据与案件事实之间的关系呈现出结构的相似性。

尽管电子数据和大数据证据均以数据要素证明案件事实,但大数据证据与电子数据在数据发挥证明作用的机理上仍存在差异。小数据语境下,有限的数据量使电子数据与案件事实容易形成直接关联。电子数据本身形成于案件事实发生之时,无需依赖数据算法等技术工具即可完成少量非结构化数据的因果逻辑分析。大数据背景下,案件所涉及的电子数据的数据量呈指数级增长,大数据证据更关注对源数据的结构化、多样化分析。大数据证据“源于”案件事实,但“形成于”诉讼过程,它通过数据算法挖掘海量数据之中隐藏的结构化数据规律以证明待证事实。相较于电子数据,大数据证据由于加入了智能化元素(人脑智能或人工智能),已经远远超越了电子证据作为静态信息载体的功能。这种分析既具有总结性、智能性,又具有预测性、易变性,与电子证据不可同日而语[3]。大数据证据在电子数据基础上对数据应用方式进行深耕,既需要数据间的分析,更需要对数据构建的“全景式”事实进行证成,并将视角拓宽至未来行为的预测,是一种综合型的数据应用机制。

3.其他形式说

除了“鉴定意见说”和“电子数据说”外,关于“大数据证据”发挥作用的法定形式载体,学界和实务界的观点主要还有“证人证言说”“书证说”等。

“证人证言说”认为,大数据算法在运用中可视为机器传达信息以证明案件事实。美国学者洛斯教授指出, 机器在解决法律争议事实中正扮演着越来越重要的角色, 机器传递出的一些信息可作为“机器证言”[26]。将机器证言解释为证人证言本质是对证人证言的类推解释,还无法被人所接受,因而“证人证言说”尚无应用的土壤。

“书证说”认为,基于大数据的分析最终以书面材料形式予以应用,应遵循书证的有关规则。这在司法实务中有所体现。大数据证据将关于案件事实的数据分析结论以书面形式展示,裁判者从书面语言文字等呈现角度将大数据证据的适用归于“书证”。司法实践中确有法官在该判决书中明确将大数据证据认定为物证、书证,但并未说明大数据证据的形成机理及相关关系证明作用,也无法在庭审中进行质证。①参见《王东鹏、陈广万、陈锦坤走私、贩卖、运输、制造毒品罪一案刑事一审判决书》,载“北大法宝”,https://www.pkulaw.com/pfnl/a6bdb3332ec0adc4ef45feb71e4bfd572da8910b300b38d7bdfb.htm,最后访问日期:2021 年6 月29 日。

(二)大数据证据应单独为证

大数据证据突破了传统证据的单一形式,将传统事实认知方法、大数据思维、大数据技术融为一体,对传统因果关系的探究转向以相关性构建事实整体性思维。因此,学界也有不少观点认为,应当将大数据证据单独列为一项证据才能凸显其特有的证明价值。

学界对大数据证据独立为证所依之理各有千秋。有学者认为,根据风险社会和大数据时代的现实需求和未来趋势,唯有承认大数据分析报告的证据属性并将其列为独立的证据类型才能充分挖掘大数据分析报告在刑事诉讼中的价值[27]。也有学者将大数据证据置于庭审对抗的语境中,认为大数据分析如果作为新的证据形式呈现,并且能够将数据可靠地、或者较高概率地向结论传递,那么大数据分析在司法证明中满足了证明力要求[12]。还有学者从认识事实方法的视角提出,大数据作为事实认识的证据具有相当程度的可靠性[15]。无论从司法需求还是司法证明条件,抑或是事实认识维度,“独立为证”的观点都体现出大数据证据的特殊作用。

我们认为,通过大数据算法对数据进行挖掘、分析、碰撞、刻画寻找行为的数据规律是大数据证据区别于传统证据的核心。因此,支撑大数据证据发挥证明作用的,不是作为其载体的电子数据本身,而是认识主体在大数据技术辅助下,以相关关系拓展为路径对大数据与事实之间内在因果逻辑的揭示和表达,它是一种融合性证据。大数据证据看似与传统证据的载体或过程形态相一致,实则其必须基于对海量电子数据内在逻辑的解释并在机器运算的支持下,才能使事实的因果逻辑得以表达和展示。

大数据分析证明是数据信息收集 → 科学模型运算 → 小前提剪裁成形 → 大前提涵摄对应 → 法律适用的综合过程[28]。在大数据证据生成及证明作用发挥过程中,不仅需要融合诉讼认知主体的能动性,还要依托算法技术、人工智能等挖掘海量数据与案件事实之间的客观性、逻辑性关联。正如学者所言,越来越多的“后果”或“情节”证明必须借助大数据分析才能解决[29]。因而,大数据证据乃是集科学性和思维性的统一,与传统证据有本质的区别。

从证据规则适用与创构角度看,基于大数据证据与现有证据形式的原生性、结构性差异,将其直接纳入现有某种证据形式都可能产生一定程度的不适应。大数据证据的实质是揭示海量数据背后的规律性结论,以及该结论与待证事实的关联性。大数据证据以分析报告形式使海量数据和算法的选择适用向法官可视化展现,简化了法官对大数据证据的形式审查认定,将审查重心转向证据的内容。在现有证据规范下,大数据证据与其他法定证据形式并非完全契合,大数据证据独立为证既有理论证成,也有实践需求。

三、大数据“如何为证”

当前,大数据证据的运用基本处于“实践先行”的状态,从法的规范性要求和证据的诉讼效能发挥出发,必须明晰大数据证据的作用机理,以完善相应证据规则,实现证据之于诉讼的价值。大数据证据及相关证据规则的构建应紧紧围绕“审判”这一中心,从诉讼全局予以科学规范。作为一种蕴含科学因素的新证据形式,需要回归证据理论准确把握大数据证据的证据方法,方能揭示其发挥证明作用的机理和路径,也才能更好地明确规范运用大数据证据之规则要义。从证据的诉讼属性看,证据不等同于定案依据,为防止大数据证据诉讼应用的恣意性,还需将目光聚焦“权利—权力”关系和两造主体的平等武装,探求大数据之权利规则的制度路径。

(一)大数据证据的证据方法

“证据方法”是解析证据材料应用于诉讼证明过程的基础性概念之一,它是指在法庭空间中揭示证据所包含的与待证事实之间的关联性并据此对裁判者事实认知产生影响的机制、途径和技术等的总称。正如有学者指出,“证据方法,指得供调查之物体。因其方法之不同,得分为人的证据方法与物的证据方法二种。前者,如被告人、证人、鉴定人等;后者,如证物是。”[30]证据方法与证据的调查手段和证据形式密不可分。每一次技术的更新都伴随着新的证据形式出现[31]。每一种类型的证据均有与之适应的证据方法,基于内容和载体的不同,证据在法庭展示内容,接受证明力评价方法必然有所差异。大数据证据独立为证也即意味着,用于传统证据的证据方法无法完全与之相适应。证据方法的主要问题是怎样更正确地理解证据的证明力,从而完成案件事实的认定[32]。因此,欲发挥大数据证据的诉讼效能,须从大数据证据证明特征出发,探索与大数据相匹配的证据方法。

1.证据方法与证明力

在某种程度上,特定证据只有与其相对应的证据方法结合才能反映证据内容,进而发挥证明效力。即证明力的发挥以证明方法为依托,证据须借助特定的证据方法显示其证明力并影响心证。一方面,证据方法作为“调查证据资料并证明待证事实的手段”[33]9,具有多样性和特定性,不同证据类型有其不同的证据方法,而针对特定证据,也可以通过综合性的证据方法从不同角度揭示证据内容。如物证既可以通过实物展示来揭示其外显化的证据内容,也可以通过司法鉴定来揭示其内在属性以发挥其证明作用。而证据方法的思维方式和性质决定了能否对案件事实做出清晰性说明[32],即证据方法本身还承载着一定的权利要素。在事实认知之外,在应然层面,控辩双方可依据特定证据方法进行平等的基于证据的“对抗”。案件事实的重塑是依赖证据进行回溯性探知的过程,在这一过程中,证据蕴含的历史痕迹成为证据方法实施的对象,必须建立客观化认识基础才能使证据与一般诉讼规律和真理的“符合论”产生共鸣。

证据最终转化为定案依据必须发挥法官的能动性,将证据内含的客观证明力转变成为主观的内心确信,这一过程离不开证明方法的支撑和过渡。从这一角度看,证据方法具有连接证据客观要素与证据主观效应的功能。证据方法是证据评价的手段,是揭示证据内容的工具,它使对证据证明力的评价有了可视化、可量化分析的现实可能。

由此可见,证据方法的运用过程与证明力的评价过程相统一,构成了主客观相协调的证明基础。证据方法的科学化、客观化立场构成了对证明为主观评价的支撑和约束。

2.大数据证据需借助融合性证据方法

大数据证据一般综合了书面结论、数据算法技术和海量电子数据呈现三个部分,即大数据证据本身具有内容与形式的综合性,也就需要借助融合性的证据方法。大数据证据作为新证据形态,是将案件事实发生过程产生的数据,经过侦查人员在主观思维指导下的“数据信息提炼”、算法技术等加工处理所形成的。因此,传统证据的证据方法无法满足大数据证据适用的现实要求。在本体上,大数据已经不同于传统小数据,因其数据量及其内在关联的原因,它可以独立于理论而自己说话,并展示自身的真理性[14]。证据方法首先是作为裁判者接收证据信息的载体和手段而存在的,故而,大数据证据的证据方法其功能之一便是要让海量数据经过技术算法所形成的结果具备可视化、可为裁判者接收的展示形态。从内容或功能看,大数据证据的价值体现在数据客观性和算法科学性两个维度。尽管算法本身是一个技术问题,实践中更多地表现为对有效数据抓取和分析的技术路径,但实质上是人的思维与机器语言的结合。特别是面对海量数据进行取证时,正是人(侦查主体)的思维主导才使得机器算法有了目标导向的运算路径。因此,从这个角度讲,大数据证据还含有“人证”的因子。正因为如此,有论者指出,“同一证据数据或其来源,可能使用两种以上证据方法。”[33]14“大数据证据方法可以区分以下两种情况:基于海量数据的数据库对比和基于算法模型的大数据分析。”[34]基于此,从大数据证据的证明效力视角看,确保大数据证据方法能发挥预期证明作用,需要从书面分析报告、算法和数据三个维度出发论证融合性证据方法的科学性。

(1)分析报告展示与答辩。从实践看,大数据证据多以书面分析报告(辅以可视化图表等形式)为载体和形式,故而在法庭空间中,大数据证据首先将以类似“书证”的形式出现并展示其内容。基于分析报告多以文字或图表等方式记载着算法机理、数据分析结论等与案件事实认定紧密相关的内容,我们认为,对于分析报告,可根据其内容分为展示和答辩两个方面。鉴于其书面性的形式特征,一般情形下,大数据证据在庭审中以阅读、展示等方式向法庭呈现其内容是最直观、便利的方式,其证据方法对应的规则可借鉴书证认证规则。而另一方面,鉴于分析报告的技术性特征,就如同大数据证据内容中有“加密”的部分,法官及诉讼参与方受自身知识局限,可能会有知识和技术层面的疑问。因此,可以要求参与大数据侦查和大数据证据“制作”过程的相关人员对法庭疑问进行“答辩”,特别是阐明分析报告生成进程中的海量数据来源和大数据算法技术,以便进一步明确大数据证据的形成机理及所含内容,更好帮助案件事实的证明。

(2)算法验证。算法验证的目的主要是为了化解大数据证据算法黑箱的难题。有学者提出,算法的可视化问题是可以用技术加以解决的,只要法律提出了要求,技术便会做出回应使之得以解释[35]。从技术维度看,大数据算法推论演算过程十分烦琐,即使公开算法,控辩双方当事人,尤其后者无法完全解析大数据算法。即便将算法完全解析,也需要通过反向推导验证的技术方式予以论证。这会加剧诉讼主体对算法结果的检验困难,也无法保证反向验证技术是真正科学的。为此,有学者提出通过程序规则保障算法公正的实践思路,即对大数据证据给予严格的程序规制,主张将大数据证据的外观处理过程公开化,保证整个运算过程外观的程序透明,并针对此程序规制设置程序性制裁措施[36]。将使用因素与历史精确度作为外观处理过程,如此一来,技术问题转化为程序问题,降低结果检验难度,在司法实践中具有极强的可实行性,也为大数据证据这种融合性证据的程序规制提供了新思路。当然,确保算法设计和运行的科学性才是调和算法问题与司法透明的治本之策。

大数据算法是对先前海量案件的数据资源分析整理打磨提取待证要素,并根据相关刑事内容构建标注体系,将证据要素与证明要素拆分到证据链条各环节所构建的算法模型[12]。从算法模型建构来看,大数据算法已将先前案件裁判所衡量的价值判断标准融入运行程序之中,也就是说算法本身已经蕴含一定的价值倾向,具备价值判断的能力,可参照先前类似情形对案件事实做出同样的价值判断。并且在算法适用过程中具有普遍适用性,推动了法官对证明效力认定标准的同一化,有助于真正实现同案同判。

(3)数据反推。大数据证据以海量数据集合体为基础,因而,电子数据是其基础细胞和最微观形态。2012 年《刑事诉讼法》将电子数据纳入法定证据种类以来,对于电子数据证据已建立了较完善的证据方法。为此,这里将主要从海量数据结合体这一视角对大数据证据的证据方法进行探讨。

大数据证据内含的海量信息在一定程度上决定了抽样数据反推验证的实践合理性。侦查中搜集的海量数据并非皆可用于事实证明,而是需要从行为相关性出发抽取有效数据,进而通过机器算法形成分析结论。抽样的方法尽管带有盖然性验证和抽象数据反证力不足的局限,但基于大数据背景,这应该是相对合理可行的操作办法之一。抽样方法要求由果推因,具体而言,在给定的特定条件下,以数理逻辑架构为基础,从结论数据反推初始数据,来验证大数据证据本身的可靠性。以当前高发多发的电信网络诈骗案件为例,由于案件可能的涉案人数众多,涉及的通讯信息流、资金流、网络流等更是不计其数,要想逐人、逐条、逐笔查验几乎不具有现实可能性。因此,通过数据侦查手段获取与案件有关的海量信息,从中提炼出整体性事实,生成大数据证据。而在抽样反向验证层面,则可以采取由果及因的方式,将符合结论的随机性数据要素通过技术算法进行反推,以达到反向验证的效果。当然,在准确度或精确度层面,这种带有实验性质的验证法需要有一定数量的可重复结论的支撑,以强化以数据为载体的事实推演结论的可靠性。

基于证据方法的客观科学立场,不合理的抽样反推无法为大数据证据的证明力评判提供认知基础,因此,抽样的合理性也是数据反推验证的客观性保障。大数据证据的生成逻辑具有归纳推理的特性,即将海量数据信息归纳分析,得出与案件事实是否相关的结论。因此,笔者认为,论证抽样的合理性关键在于抽取数据的量的多少。从归纳推理的盖然性视角看,抽取的数据量较少时,无法归纳海量数据的多种可能性,数据反推倾向于单纯的形式验证,与证据方法的客观科学性相左。而抽取的数据量较多可将数据抽样控制在相对客观的范畴,所得结论能够具有一定的代表性时,抽样方法方可满足证据方法的客观科学性要求。

(二)诉讼语境下大数据证据的应用

证据的诉讼运用是司法理论或实践都无法回避的核心问题,刑事大数据证据的理论研究最终仍要回归于实践应用维度。大数据技术获取的证据资料也不得不面对诸如其作为诉讼证据的证明力评价等基础问题[34]。证明力评判需要一定的证明模式和对等的权利保障为支撑。

一方面,“印证”规则倾向于证据的整体性思维,在保障证据客观真实的同时,也趋向异化为“形式”化规则。鉴于此,大数据证据与“印证”规则难以产生预想的共鸣状态,“整体主义”证明成为新视角。另一方面,大数据证据的工具属性打破了原有“两造”的传统意义的平衡,使传统控辩平等的司法运行模式受到一定挑战。“刑事诉讼通常也就是被认为是致力于保护与国家相冲突的个人权利”[37]155,对于国家权力在大数据应用中的优势地位,应当重新考量对等性权利的保障。

1.“整体主义”逻辑下证明力的发挥

在我国证据理论发展历程中,“印证”证明体现了鲜明的时代烙印,被视为主流的本土化证明模式。印证证明体系的建构具有的非同源证据存在共同指向的属性。质言之,印证模式的融贯性要求多种类(数量)证据与待证事实间内部的协调一致和外部的客观印证。就规范而言,2020年《最高人民法院关于适用<中华人民共和国刑事诉讼法>的解释》(以下简称《最高法解释》)第140 条规定:没有直接证据,但间接证据同时符合下列条件的,可以认定被告人有罪……(二)证据之间相互印证,不存在无法排除的矛盾和无法解释的疑问。可见,印证证明模式在证据制度中具有举足轻重的地位。从学理看,印证证明理论完成了从思维到认知、从观念到规范的演进之路。但值得注意的是,印证证明在刑事司法实践有出现异化的倾向。“印证模式着眼于证据群内证据的关系,更趋向于整体主义的证据分析”[38],从融贯论的论证方式看,印证证明“以整体信念的‘真’或‘有效’来证立单个信念的‘真’或‘有效’”[39],由此带来整体证据审查形式化倾向和对个体证据重视不足的问题。

大数据证据相较法定证据的特殊性在于,大数据证据既能以海量数据自成事实,也可与其他证据共同证明,而除了个别情形下的直接证据外,一般证据都很难实现单一证据的“事实建构”。从大数据证据的融合性特征出发,我们不仅要聚焦于数据综合的整体特性,也要关注作为构成“部分”的数据元素;而整体主义既着眼于证明体系所建构的事实构成要件证明,原子主义聚焦于单一证据要素的事实证明。由此可见,大数据证据的证明机制与整体主义和原子主义相契合。对于大数据证据而言,“将‘原子主义证明模式’与‘整体主义证明模式’作为理论框架,进而对我国刑事司法证明模式进行研判,或许更适合当下之中国语境”[40]。

大数据证据的整体性体现在证明的整体性和证明力维度的整体性,这一点与“整体主义”不谋而合。一方面,“整体主义”强调证据之证明力源于所有已输入信息之间的相互作用,任何特定的证据原子之意义与价值在于和其他所有证据的关联,并为解释者所用时扮演的角色。易言之,一个特定证据作为分析对象的证明价值,从根本上取决于其他所有证据[41]。“整体主义”挣脱对证据链整体证明力评价规则的束缚,将单个证据的证明力与其他证据信息相联系,聚焦于由证据到证明力作用的认知路径,并借助证明力作用维护证明的实质整体性,形成“原子分析到整体认知证明的良性互动”[41]。大数据证据自成事实所依据的是相关关系的基础性作用,与其他证据共同作用证明案件事实。在这一过程中,大数据证据使证明认知从证据链的“单向理性”到证据链的“交互理性”的跨越。

回归诉讼实践语境,法官在“整体主义”证明逻辑之下,审查大数据证据证明力应遵循从数据元素到大数据证据、大数据证据到证据链中其他原子证据的证明路径。首先,借助数据反推等方法检验各数据与大数据结论之间是否存在矛盾,这一阶段是法官对大数据证据进行原子分析的认证过程,也是法官适用证据规则的静态证明。控辩双方基于不同立场分别从数据元素或电子数据证据的角度入手对大数据证据进行质证,在此基础上,法官形成对大数据证据的证据原子认知。其次,从整体证据链条出发,审查大数据证据与其他证据是否存在矛盾,这一阶段需要法官暂时跳脱出证据规则,发挥自由推理的能动评价作用,是一种动态证明。法官对大数据证据运用一般经验和逻辑法则,考量大数据证据整体作为证据原子与其他证据原子的交互关系。庭审中心主义要求发挥法官在庭审的实质功能,为避免法官形成审前先入为主的臆断,须在法官形成内心确信时从全案证明体系的整体效果出发,对大数据证据的证明力进行精密论证,即从数据原子到大数据证据,再到案件事实对应的刑事证据体系,这应当是环环相扣和逻辑自洽的证明进程。此外,法官的裁判说理应展现庭审过程,以检验“整体主义”证明模式中从原子分析到整体认知的证明逻辑是否在庭审中有效呈现[41]。

2.两造平等下的对等性权利保障

控辩平等是刑事司法公正的基础和前提,在刑事诉讼中体现为权力与权利的对等状态。大数据证据基于复杂的算法技术和数据采集等证据偏在问题,使辩方在与控方对抗中处于劣势地位,地位平等之下潜藏能力不对等的风险。鉴于此,应当在两造平等的基础上落实正当程序原则。我们认为,需要从权利构造、技术辅助和法官兜底三方面协同发力。

(1)权利构造。数据信息的不对称和数据收集的隐性权力不平等造成了诉讼双方在大数据证据应用层面的“权力—权利”失衡风险。基于“案卷移送主义”,控方在法庭空间出示的大数据证据源于侦查阶段,故基于大数据证据的“权力—权利”关系构造既要平衡庭审时控辩力量的平等,还需对大数据侦查本身进行程序控制。

正当程序强调两造在法庭空间进行对等的诉辩交锋,鉴于控辩双方在大数据证据应用上的优劣地位,除要求控方履行大数据证据的披露义务外,还须强化辩方质证权。鉴于辩方在数据资源规模化采集和运用能力上无法与控方形成对等关系,有学者提出,要保障辩方知情权并建立审前的大数据证据开示制度,确保辩方充分了解大数据证据的收集提取等情况[42]。在事前向辩方披露数据采集范围、方式以及算法模型等相关信息,是辩方行使质证权的前提。我们认为,保障辩方质证权必须要求控方向辩方公开数据使用情况并言明数据采集的时间节点,这对于辩方质证大数据证据更具有可操作性。同时,辩方的调查取证权和质证权不能停留在形式层面,法庭应当为辩方行使此项权利提供必要的便利,使辩方能在大数据证据的质证过程中拥有实质性权利,达到真正意义上的控辩平衡。

程序性权利保障不仅要求法庭空间的权利构造,还应在侦查取证阶段设置对应的权力控制程序。大数据侦查必须符合刑事司法要求侦查的合目的性原则,一方面要防止数据侦查行为对个人信息权的过度侵犯;另一方面要允许侦查对个人数据的合理、机动使用[43]。权利侵犯的风险程度理应成为大数据侦查手段类型划分的重要面相,故而应针对大数据侦查的强制或任意属性构建相应的权利保障。对于任意属性的大数据侦查,借鉴“合理隐私期待”理论,赋予侦查相对人知情权而无需赋予其同意权;对于强制属性的大数据侦查,不仅赋予侦查相对人同意权还要求检察机关提前介入侦查,以“权利+权力”的形式保障私权利不受侵犯。

(2)技术辅助。现代司法正日益成为复合体,在事实认知方面,技术的重要性正不断攀升,以致出现法律问题技术化的倾向。面对科学证据,诉讼参与各方大多无法基于自身知识实现理性认知,而需要借助一定的程序性技术因素介入的方案。专家辅助人制度逐渐向刑事司法领域渗透,为化解大数据证据的技术认知难题提供了广阔的前景。大数据与法律融合过程中应坚持问题导向,将技术引入问题作为首要规则,专家辅助人参与诉讼目的是为公诉方或诉讼当事人提供技术性服务[44]。为此,应发挥专家辅助人制度作用以强化控辩双方的庭审对抗性,以此权利助推“两造”的平等对抗。《最高法解释》第100 条规定:因无鉴定机构,或者根据法律、司法解释的规定,指派、聘请有专门知识的人就案件的专门性问题出具的报告,可以作为证据使用。该条文为大数据证据引入专家辅助人制度提供法律依据。大数据证据以专业性报告形式呈现,其质证必然针对大数据载体、存储、算法等专业性内容,对于法官而言,鉴于知识局限也必然需要专家辅助以实现对大数据证据的科学认知,确保其在诉讼中发挥应有的作用。

技术辅助的核心问题在于保障控辩双方在诉讼语境下的“对等”,强化控辩庭审对抗的实质性,协助法官完成大数据证据的证明力审查。故而,有必要在专家辅助人的诉讼地位和参与程序两个维度完善技术辅助。其一,借鉴英美法系的专家证人制度,增强专家辅助人在诉讼中的话语权,优化填补刑事司法主体在大数据证据专业性上的不足。其二,对专家辅助人参与的时间、方式和司法监督等程序性要件进行细化规定,为专家辅助人参与诉讼提供规范性支撑,实现与司法制度的衔接。值得注意的是,出于诉讼的便利性考量,存在法官直接采纳专家证言的可能。专家在某种程度上取代了司法官员,成为了实际上的裁判者,司法监督沦为虚幻[45]。是故,在实施技术辅助过程中应当正视专家辅助人的诉讼地位,防范“唯专家论”对刑事司法可能造成的不可逆后果,维护正当程序和司法公正。

(3)法官兜底。大数据与司法的融合日趋紧密,在未来还会发挥更广阔的作用,法官应发挥中立的司法裁判作用对大数据证据的证明力做出准确评价。刑事诉讼贯彻政策的使命要求负责最终裁判的官员坚定地控制事实认定活动[37]160,即法官自觉地运用理性最大可能准确评价证据在认定事实活动中的证明力。法官作为维护实体正义和程序正义的看门人,具有保障刑事司法公平正义的义务。当大数据证据在法庭空间的运用潜藏着事实认定和“权力—权利”失衡的风险时,法官不能无视诉讼力量失衡的现实,应发挥庭审实质功能对权利进行兜底性观照。

法官基于客观公正的立场,在大数据证据与案件事实或其他证据存疑时,积极行使司法权维护程序正义。权力在大数据技术的绝对优势在一定程度上蕴含着辩方权利规则的虚置化风险,也是导致庭审空间控辩失衡的主要原因。基于辩方在数据资源规模化采集和运用能力的天然缺陷,控方运用大数据证据将以压倒性姿态履行“有罪”的证明责任。此时,法官出于司法真实和平等对抗的考量,适度割裂“控与审”的关联,即对大数据证据的评判不能因辩方的有限抗辩而对控方意见过于信赖。法官应借助其他证据实现对大数据证据的整体认知,防止陷入控方单方面证明的证实偏见和技术迷信的内卷化倾向。同时,面对大数据证据认知的困境,法官要更加积极地发挥“庭外调查权”的效用,围绕大数据证据的形成全过程开展调查核实,在一定程度上帮助辩方形成有效的“权力—权利”制衡,从而走出大数据证据司法适用的权利保障困境。

结语

在电信网络诈骗等新型网络犯罪侦查中,借助数据技术和数据平台进行数据碰撞、数据挖掘等措施来查明案件已成为常态。在诉讼证明的实然角度看,大数据证据以海量性、相关性等特点突破了传统证据对事实证明的局限,尤其是面对新型网络犯罪的证明,在一定程度上为破解证明困境提供了新的路径。与此同时,在以审判为中心的诉讼制度改革背景下,大数据证据的应用蕴含着审判两造“权力—权利”失衡的风险,权利保障的程序和规则建设也应得到必要观照。未来,大数据证据与刑事司法实务的联系会更加密切,大数据证据必须准确掌握其自身规律,使其与司法制度、证明规则相融合,使其在诉讼中的应用有更科学、健康的程序生态。科技的进步总是会伴随着其与法律的摩擦、磨合与适应的过程。在批判中进步是新事物持续发展的唯一路径,大数据证据的理论研究还任重道远!

猜你喜欢
证据证明算法
Travellng thg World Full—time for Rree
学习算法的“三种境界”
算法框图的补全
算法初步知识盘点
手上的证据
家庭暴力证据搜集指南
手上的证据
证明我们的存在
Nesbitt不等式的十七种证明
证明