大数据证据规则之体系构建研究

2023-01-08 02:39李晓东
政法学刊 2022年4期
关键词:证明证据规则

李晓东

(中南财经政法大学 刑事司法学院,湖北 武汉 430073)

一、问题的引出

大数据的出现改变着人们认识世界、改造世界的方式,大数据技术应用于刑事司法过程中,也必然会对证据种类的界分和大数据证据本身的证据规则产生重大影响。当前大数据分析技术所产生的证据材料广泛运用于刑事司法领域,如涉众型网络犯罪,尤其是电信诈骗类犯罪的认定之中,由此所产生的大数据证据已然得到学界的特别关注。在大数据证据的证据属性方面,有学者认为大数据证据以海量电子数据凝练的规律性认识发挥证明作用,其主要以分析结果或报告的形式呈现,并且将大数据证据纳入鉴定意见之列。[1]也有学者将大数据证据视为电子证据,认为大数据证据是基于算法所衍生的一系列分析数据,其最终表现形式仍然为电子数据,因而大数据证据本质仍然是电子数据。[2]另有学者从侦查视角出发,认为大数据证据是指为查明案件事实,在诉讼过程中运用大数据技术对海量数据进行分析后得到的能够证明案件事实的大数据分析结果。[3]由此可见,该观点将大数据证据作为能够证明案件事实的证据材料,为独立的证据种类。结合上述观点,笔者认为从大数据证据本身出发,包括数据本身、大数据思维或方法以及大数据分析结论,最终呈现给法官的是一种综合性证据材料,该证据内涵具有高度的复合性,但更侧重大数据方法或思维,即关联性逻辑而非因果性逻辑,因而从根本上有别于传统的证据种类,也在一定程度上改变了传统证据的证明要素或证明逻辑,理应作为独立证据种类。因此,笔者认为大数据证据是运用大数据技术、方法、思维等方式方法,用以证明案件事实所得出的一切材料。[4]大数据证据的外延不仅包括最终呈现的数据材料,还包括关于案件的“全数据”,对于处理非结构化数据或结构化数据所采用大数据技术(科学性与合理性)的说明材料,对于大数据分析方法(算法) 的合理性说明材料,对于案件发展趋势或走向预测结果的说明材料,对于以上材料能够证明其关联性、合法性、真实性的说明材料等。[5]

基于以上对大数据证据作为独立证据种类的基本定位,如何构建大数据证据的证明力和证据能力规则成为大数据证据亟待解决的难题。大数据证据规则体系的建立能够有效解决当前针对涉众型非接触犯罪的治理难题,例如有组织犯罪涉案人员组织架构、资金数据、物流数据分析等。[6]证据规则以规范证据能力和证明力为主,旨在调整和约束证明行为的相关法律规范的总称。[7]而在科学技术不断变革的今天,大数据证据已然凸显出其所具有的证明力与证据能力。从证据规则的应有内容来看,大数据证据规则不仅应当对大数据的证据能力和证明力从证据实体的权能上进行规范,还应当从取证、举证、质证、认证等诉讼程序上进行规范[8]358,制定属于大数据证据自身特色的排除规则。同时,还应当认识到,证据规则会考虑认定事实的准确性与诉讼成本之间的均衡,这一均衡取决于制度的诸多非功利性和价值以及他们的相对重要性。[9]2-5其中必然会涉及诉讼风险分配的问题,取决于立法者的利益衡量。如何通过诉讼风险分配实现价值和成本的平衡,同样是大数据证据规则制定过程中需要考虑的问题。因此,本文将主要从三个维度对大数据证据规则体系进行建构,包括大数据证据“有无”之规则,主要围绕大数据证据能力的规则进行构建;大数据证据“程度”之规则,主要围绕大数据证据证明力的规则进行构建;大数据证据“排除”之规则,主要围绕大数据证据过程性行为和诉讼风险分配的规则进行构建。

二、大数据证据“有无”之规则

任何能够用于证明案件事实的证据都应当首先具备证据资格即证据能力,这就必然要求其与其他证据、与待证事实及法律要件事实间具有关联,也必然要求其来源、形式、内容等必须合法,从而确保该证据的真实可靠。而大数据证据“有无”之规则的确立不仅是有效区分可用于证明案件事实的大数据证据与其他数据间关系的重要依据,也是确定大数据证据证明能力的重要参考。大数据证据是否具备证据能力主要在于其与其他证据、待证事实及法律要件事实间是否具有关联,也在于其数据收集、处理、形成的过程是否合法以及其数据、内容等是否真实。笔者认为可以从数据来源、数据处理过程以及更进一步的大数据证据预测等方面入手,进而形成相对完整的大数据证据“有无”之规则。

(一)建立有限的大数据证据数据来源规则

大数据以数据量之“大”和“全”而著称,但是在全数据的世界,每个人都会成为“透明人”,个人将毫无隐私权可言。此时大数据证据的采集范围势必面临“隐私权”与“安全”“隐私权”与“正义”“个人权利”与“国家权力”之间的冲突,在一定程度上这属于隐私权以及围绕隐私权保护相关法律所讨论的范畴,并不属于证据法的范畴。但是,大数据证据在取证的过程中必然面临数据范围选择的阶段,有必要对大数据证据的数据来源范围予以讨论。个人信息的公共属性为大数据范围的选取提供了理论基础。人的本质是一切社会关系的总和。个人的确希望有更多的“隐私”,有时甚至会刻意隐藏、掩饰或美化自己,但从社会公众的角度,也应当保护社会公众的“识别权”。[10]因此,应当按照个人数据信息的用途不同予以区分保护,具有识别个人数据特征的某些数据应当成为大数据证据的来源。诸如个人在互联网网站的购物信息,个人浏览相关网站的数据信息可以纳入大数据证据的数据范围。我们需要明确的是此时对于个人信息的使用具有目的上的正当性,在识别个人特征的同时,对个人信息进行分析的过程是为了分析某种犯罪行为亦或预测犯罪。在案件中侦查人员使用公安网大数据对嫌疑人手机号查询,利用了大数据搜索和比对技术,锁定嫌疑人真实身份。此时,侦查人员正是通过个人信息分析犯罪嫌疑人的人际关系网,进而确定其真实身份。在个人信息的获取与使用过程中,应当建立以“知情—同意”为前提,以个人信息公开后再利用为原则,以个人特殊控制为例外的规则体系。[11]对于犯罪行为的侦查,侦查人员应当围绕案件所需的各种数据信息开展侦查活动,此时,围绕案件的关联性,符合侦查目的、需求和程序的数据均可纳入大数据证据的证据来源范围。但是对于犯罪预测的数据来源应当予以限制。对于个人生活的一般数据信息,公安机关可以获取并加以分析使用,但是对于个人敏感的数据信息,应当予以区分、排除,除非个人同意。此时的敏感数据信息包括:个人的通话数据、个人健康状况数据、个人财务数据、个人使用电子设备APP进行社交的数据、个人基因数据和生物识别数据等涉及个人敏感私生活的数据。

(二)建立有效的大数据证据算法规则

大数据证据的核心在于算法,在运用算法进行数据分析的过程中,势必存在算法黑箱、数据偏见等问题,其围绕的核心问题仍为对算法以及其运算过程有效性的质疑。首先应当解决算法黑箱和数据偏见的问题,在此基础上检验算法的有效性和真实性。算法的产生很大程度上取决于设计者本身所掌握的知识、动机、价值观念及预期效果等因素[12]36,带有主观性和经验性,每个构成要素所占的比例和权重均由开发人员进行配置。正如学者拉胡尔·巴尔加瓦所言:“算法本身没有偏见,但我们有。”[13]因此,在借鉴欧盟《通用数据保护条例》(简称GDPR)中对处理个人数据规定了合法公平透明的原则[14],同时在大数据画像部分规定数据主体享有获取有关算法的重要信息,这些规定均要求数据控制者对数据的使用,尤其是算法进行解释说明,以公众可得知悉、理解的形式展现出来。因此,对于算法应当建立完备的审查说明体制,构建大数据算法设计的解释机制。需要从合法律、合逻辑、合科学三个层面对算法设计的相关原理和各要素以及要素权重进行说明解释,并由法官和专家辅助人或鉴定人对算法设计的合理性共同做出判断,如果说明涉及商业秘密,则解释可以秘密进行。数据往往在算法黑箱中运行,不可见的环境中如何保障算法运行的公平公正?如何保证结果的真实性?因为其中涉及到数据清洗和数据运算两个阶段,数据清洗阶段涉及到数据控制者的主观排除性,数据运算涉及运算过程的不可见性,笔者建议引入技术性纠偏的方法,使用修正度量或相似度计算,将算法结果输出与设计者或开发者预期实现的公正效果进行对比,通过严格贯彻公平性约束原则,可以有效消解算法歧视、信息茧房、算法共谋等算法不良影响的发生。对于算法运行结果的真实性,一方面可以通过已有数据验证结果的正确性,另一方面可以通过多种算法进行交叉验证,确保其真实性。同时还包括事后鉴定机构或某些专门大数据技术机构对大数据算法准确性、有效性的验证。审判阶段还可以借助控辩对抗的方式对大数据证据算法的有效性、真实性进行查明,由于犯罪嫌疑人处于弱势地位,可以建立辩方聘请专家辅助人援助制度,对大数据证据,尤其是算法的有效性和真实性进行质疑。此时,通过控辩双方专家的质证,可以更加明晰地判断算法的有效性和真实性。

(三)建立有限的大数据证据预测性规则

大数据证据具有预测性的特征,在一定程度上树立了过于注重“工具理性”,而忽视“价值理性”的倾向,容易造成侵犯人权以及疑罪从有的恶果,如果难以在两者之间寻求平衡,将对我国法治建设造成严重冲击。因此,在应用大数据证据的同时,应当着重注意对其使用目的的正当性和使用程序的正当性予以规范。笔者所定义的大数据证据具有预测性,只是针对具有严重社会危害性或特定行为模式、行为规律的特定案件类型,诸如反恐、毒品、爆炸、贪污贿赂等严重社会危害性案件以及互联网传销、电信诈骗等涉众型案件的犯罪。此时,大数据证据的真实性如何应当严格依照验证和印证体系的相关规定。大数据犯罪预测的实现是通过在犯罪发生过程中,犯罪主体对犯罪客体即周围环境所产生的关联性变化进行持续共时性观察来实现对犯罪走向和后果的预测,简言之,通过“总结规律,监控现实,实现预测未来”。[15]首先应当验证大数据是否真实,对相关数据自身的真实性进行验证,同时验证相关数据的证据集合所体现的内容能否与算法模型所依据的行为模型相吻合。其次,验证犯罪嫌疑人连续实施的行为能否与行为模型相吻合,有无相关人证、物证与大数据证据所体现的信息相互印证。再次,由于犯罪预备与犯罪的边界为是否着手,因而,大数据证据真正发挥证明效用的时间节点为着手的前一要素行为——犯罪预备行为(即行为模型中着手的前一要素行为)之发生。基于预测之慎重性,要求着手之前的行为模型要素行为应当与大数据证据所体现的信息以及犯罪嫌疑人现实中实施行为的相关物证、书证相互印证。符合上述条件,我们可以认为预测性的大数据证据具有证据能力同时具有证明力。对于大数据证据能否对一般犯罪适用,笔者认为随着大数据的进一步发展使用,在改变现有的证据规则体系,形成以相关关系、验证制度、印证制度三者并存的证据体系时,大数据证据对于一般犯罪行为的预测将成为重要的证据之一。而此时所适用的犯罪预测,出于保障人权和疑罪从无的角度出发,不宜采取强制措施,采取非强制手段较为合适,以保证措施的谦抑性。包括对潜在犯罪人的询问、盘问、检查等非强制措施。在采取上述措施之后,一旦被调查的对象对侦查机关的行为提出异议,甚至进行申诉时,对于措施合理性、合法性的证明责任就需要侦查机关进行解释,此时就会涉及大数据证据的取证、证成以及采信工作。

三、大数据证据“程度”之规则

大数据证据“有无”之规则主要通过数据来源、数据算法与数据预测三个方面对大数据证据的证据能力做出了规定,确定了将大数据技术、方法、思维等用以证明案件事实或预测案件所得出的一切材料具备证据资格的条件。而大数据证据“程度”之规则应当主要围绕已经具备证据资格的大数据证据,进一步对其证明力予以综合考量。一般而言,大数据证据的证明力如何取决于其关联性的强弱和法官的自由心证,此时关系到大数据证据是否采信的问题。单个证据的证明力主要取决于该证据与待证事实之间推论链条当中每一环节的强度。而多个证据的证明力评估不但要评估每一个证据的证明力,而且要求整合单个证据的评估来决定与最终待证事实有关的证据群的净证明力。[16]93

(一)关联程度之规则

大数据证据虽然是当前证据类别中较为特殊的一类证据,但仍然属于证据的一种,其在基本属性方面仍然与其他证据具有一定的共性。而证据的关联性包括逻辑关联、法律关联与科学关联,因此大数据证据的关联性也应当包括逻辑、法律以及科学层面的关联。大数据证据建立在数据弱关联基础之上,数据的弱关联越丰富,则大数据证据与案件事实之间的强关联越充分,此时对于单个大数据证据的证明力则越高。在逻辑层面,大数据证据中关于数据之间的弱关联性应当通过专业人员借助逻辑思维,具体包括通过数理逻辑、归纳逻辑、演绎逻辑等逻辑方法进行数据间关系以及数据与案件事实间关系的推理和证成,从而实现对数据与数据、数据与大数据证据、大数据证据与其他证据以及大数据证据与待证事实之间逻辑关联程度的判断。在法律层面,数据与数据之间、数据与大数据证据之间、大数据证据与待证事实和法律要件之间的关联,应当经由法官在相关大数据专业人员的辅助下对大数据证据进行充分的了解,并结合法律规定和自身经验,对大数据证据的关联性和关联程度做出判断。正如达玛斯卡所言:“站在20世纪末思考证据法的未来,很大程度上就是要探讨正在演进的事实认定科学化的问题。[17]200-201因此在科学层面也应当由专门的科学共同体或权威科学机构以科学手段、科学设备、科学标准对合法获取的大量弱关联数据进行分析处理,通过对大量数据间的弱关联的整合重构,科学建立起新的关联,从而确保最终使用的大数据证据具备相当的关联性。同时,在法官对整个案件进行判定时,已具备相当关联性的大数据证据的证明结论仍应当结合其他人证、物证,彼此之间进行相互印证,而不能仅仅依靠大数据证据进行定案。此外,大数据证据所具有的关联性既包括一般性的相关关联,也包括更直接意义上的因果关联,但并不意味着其所具有的因果关联必然会使其成为证明案件事实的直接证据,也不意味着具备普通相关关联的证据只能构成证明案件事实的间接证据。因果关联与直接证据、一般相关关联与间接证据之间并不是相互对应的关系,反而能够证明案件事实的大数据证据中必然同时具备因果关联与相关关联。

(二)自由心证之规则

由于证据的收集、审查、运用等各个环节都离不开人的主观参与,而且对证据进行收集、审查与运用的规则都由人所制定,由此便决定了证据不可能是纯客观的,而具有一定的主观性,进而便会产生证据真实性的问题。证据真实性是指证据所反映的信息与案件事实的相似程度。证据的相关性与合法性规则的设定,其最终目的均指向证据的真实性,即通过实现法律真实、最大限度还原案件事实,最终追求无限接近客观事实。[18]就大数据证据在实践中的运用而言,从其前期形成到作为证明案件事实的依据,都会涉及到真实性程度的问题。如前期的数据样本如何选择、数据处理过程中使用何种程序以及在法庭审判中法官采取何种态度、是否予以采信等仍然离不开人为的决定。一般可以依据来源不同将大数据中的数据分为公权力主体自有数据库所储存的数据与私权利主体数据库所提供的数据。其中,公权力主体数据库中自行储存的数据相对具有较高的真实性与可靠度,可以直接用于形成大数据证据,为查明案件事实提供帮助。而由私权利主体所储存的第一手数据交由公权力机关办理案件使用的过程中,在数据选择、生成、传输、保存等过程具有不确定性因素,因此需要对此部分数据的真实性予以检测。又如前文所述,在人的主观参与过程中,法官的自由心证便会对证据的证明力产生直接影响,这一影响又可以进一步分为对个别证据证明力的影响和对多个证据综合证明力的影响,而个别证据的证明力涉及对证据真实性程度的评价,证据综合证明力涉及到的是事实认定的问题。虽然历史和现实都表明我们无法彻底否定自由心证,但并不意味着自由心证可以不受任何约束。因此我们可以通过一定的规则对法官的自由心证予以必要的限制。如可以从逻辑上入手,通过确立法官从已有条件推导未知事实所必须遵循的思维规律对法官的自由心证予以约束,提高司法裁判的公正性。推理的一般逻辑规则虽然不是作为硬性的法律规定影响法官的裁判活动,但其也可以为普通民众所理解。同时,法官结合大数据证据对案件进行认定,仍应当遵从“排除合理怀疑”的证明标准,进行自由心证,否则不能认定犯罪嫌疑人的行为有罪。

四、大数据证据“排除”之规则

大数据证据本身具有一定的客观性,也具有高度的技术性。因此,在其排除规则的制定中应当主要围绕大数据证据收集、储存、分析程序违反之规则、非法证据排除规则以及最佳证据规则来建构其排除规则。同时需要明确的是大数据证据相比于其他证据更难以为常人所认知和理解,因此应当构建相对严格的证据排除之规则,最终保证公民的宪法性权利。

(一)大数据证据收集、储存、分析程序违反之排除规则

对于大数据证据收集的法定程序,可以参见电子数据收集法定程序和司法鉴定法定程序的相关内容予以规定,对于收集提取大数据证据的侦查人员予以限制,将具备专门知识的人纳入其中,是否由两人以上进行;对于大数据证据收集的程序、方式是否符合相关法律和技术规范;经勘验、检查、搜查等侦查活动收集的大数据证据,是否附有笔录、清单,并经侦查人员、数据所有者/控制者、见证人签名;缺少数据所有者/控制者签名的,是否说明原因;远程调取境外的大数据证据的,是否符合相关批准手续或说明必要性、紧迫性、合理性理由;对大数据证据的数据种类、数据完整性等说明和校验过程是否清楚;对于大数据证据提取的介质其保存是否符合相关规定;大数据证据鉴定机构资质的规定;对于大数据证据的完整性和同一性鉴定是否符合相关技术规定;大数据分析书的实验证成过程是否符合相关规定等等。此时,如果相关大数据证据在程序上出现疑问应当予以排除。

此时的排除为绝对排除,不能通过补正或作出合理解释予以采信。究其原因,在于数据本身具有易篡改性的特征,如果当相关大数据证据包含的数据在取证程序上出现相应的瑕疵或错误,则可能直接导致数据本身的不真实,如应当做数据完整性校验值的数据,办案人员在取证时并未做相应的检测,则在后续移送审查起诉乃至审判时,则无法确定数据是否被篡改,直接影响当大数据证据本身的真实性,进而导致大数据证据本身无法被采信。基于此种考虑,加之大数据证据取证行为本身的专业性,避免日后的控方承担不利的举证责任以及出现侵犯犯罪嫌疑人或被告人权益的后果发生,应当采取严格排除的方式规制办案人员收集、储存、分析行为。

(二)大数据证据侵犯人权之排除规制

随着《个人信息保护法》的颁布,个人信息受保护权作为一项宪法性基本权利逐渐引发重视。[19]在企业开展数据合规的同时,公权力机关也应当重视数据合规工作的开展,实现对数字人权的保障。[20]非法证据排除规则的本旨建立在保障数字人权基础之上的,因而对于大数据证据应当从数据来源、数据使用目的、数据使用的比例最小化和数据获取的损益衡量方面予以规制。

在数据来源方面,鉴于大数据证据本身倾向于“全数据”的典型特征,其数据库的范围基于可直接获取的一切数据,因此,个人的交互数据或已公开的相关数据可以直接成为大数据证据的直接数据来源。但对于敏感数据信息,包括:个人的通话数据、个人健康状况数据、个人财务数据、个人使用电子设备APP进行社交的数据、个人基因数据和生物识别数据等涉及个人敏感私生活的数据等是否适用于大数据证据的数据范围,则应当分情况讨论,其适用应当契合比例原则。从合目的性考量,当大数据分析以预防案件发生为目的采用个人敏感数据乃至重要数据进行分析,应当予以绝对排除;当大数据分析以侦破案件为目的时,采用个人敏感数据或重要数据进行分析可以被允许,但应当符合相应的审批程序,同时符合比例原则的其他规则。从比例最小化角度而言,对于个人的敏感数据应当从损害最小化的角度出发,对于涉及第三人的数据除非经过匿名化处理或者可以通过技术手段进行处理,如通过提取数据类型的单一化、关键信息检索①关键信息检索是基于数据内容的搜索技术,按照特定的搜索条件提取符合该条件的电子数据,关键信息可以是信息名称、信息创建时间、信息修改时间、信息内容所包含的字符串信息等,需要围绕案件直接相关或间接相关的信息进行搜索,进一步提高其准确度和效率。参见王永全,廖根为,涂敏.信息犯罪与计算机取证实训教程[Z].北京:人民邮电出版社,2019:138.、数字指纹搜索②数字指纹搜索通过单项加密技术实现,它只对数据进行加密,不能通过一定的技术将其还原成原文,可以用来针对某些不需要或不宜知道的内容。数字指纹技术常用于检测恶意代码与已知内容的嫌疑数据。数字指纹在一定程度上提升了数据搜索的精确度,也缩小了数据获取的范围,但也更可能遗漏与案件相关的数据。参见王永全,廖根为,涂敏.信息犯罪与计算机取证实训教程[Z].北京:人民邮电出版社。2019:139.、模糊指纹搜索③模糊指纹搜索针对犯罪嫌疑人故意修改或部分破坏、计算机系统出现意外,或者数据被部分覆盖等情形时,引发原始数据的变化,但通过数字指纹搜索与其缺乏相关性,则难以提取数据。此时,可以通过设置一种模糊的数字指纹,使数据内容与模糊指纹具有相关性。因此,通过模糊指纹搜索来发现和检测内容基本相似的恶意代码,或其他程序或数据。参见王永全,廖根为,涂敏.信息犯罪与计算机取证实训教程[Z].北京:人民邮电出版社,2019:140.等限制关联度等技术手段控制数据识别分析的范围,达到对个人信息提取范围最小化的目标,否则应当予以绝对排除。从目的与手段的损益均衡方面,当获取信息的价值性与技术手段、侦查资源或损害个人信息权益等所付出的代价不成正比时,则应当将此时的大数据证据予以排除。

最佳证据原则仍然是大数据证据需要遵循的一项证据规则。但是,正如前文所述,大数据证据以其体量之大,涉及数据范围之广而著称。当获取原始数据以及原始证据的固定移送需要耗费较大成本以及具有不便性时,并不要求必须是原始数据,通过镜像复制的数据仍然可以适用。[21]在保证大数据来源、载体、介质、内容真实性的情况下,此时的大数据证据不应当排除,原件理论在大数据证据中仍然适用。[22]因此,在针对大数据证据而言,最佳证据规则的特质性并不是非常突出。

结 语

大数据最大的功用在于使预测犯罪成为可能,在预备行为正犯化趋势明显的今天,为大数据证据具有证明预备犯罪的证据能力提供支撑。随着大数据证据的广泛应用,鉴于其自身所特有的技术性和专业性,应当建立更为完备的程序规则体系和排除规则体系,以此来避免适用过程中出现的重“工具理性”、轻“价值理性”的现象。在经过对证据能力、法定证据种类和证据规则的讨论后,对于大数据证据的价值定位仍然需要司法实践和理论运用的齐头并进予以发展完善,尤其是司法实践对理论乃至法律完善的反哺。本文力求抛砖引玉,对大数据证据在预测犯罪方面的功用、大数据证据的应用对传统证明模式的影响等方面,可能成为未来拥抱和看清大数据证据的研究重点。

猜你喜欢
证明证据规则
撑竿跳规则的制定
获奖证明
数独的规则和演变
判断或证明等差数列、等比数列
让规则不规则
TPP反腐败规则对我国的启示
手上的证据
家庭暴力证据搜集指南
手上的证据
证明我们的存在