大数据证据客观性的制约因素及其克服之道

2022-04-16 22:19郑海王慧如
四川警察学院学报 2022年5期
关键词:源代码侦查人员证据

郑海,王慧如

犯罪形态与社会的发展变化紧密相连[1]。进入信息化时代,物联网、互联网、人工智能等技术深度融合发展,将物理空间、社会空间和数据空间前所未有地紧密联系在一起,使得人类、自然和机器高效协作、互联互通。这种人、机、物的三元融合引发了信息数据的爆炸性扩张和数据模式的高度复杂化[2]。网络空间的新型犯罪由此而生,这也为大数据技术进入刑事诉讼领域奠定了基础。2017 年9 月,公安部印发《关于深入开展“大数据+网上督察”工作的意见》,强调要提高思想认识,顺应时代潮流,坚持创新引领以及加强组织领导,主动拥抱大数据,大力支持“大数据+网上督察”工作。2021 年10 月,最高人民法院院长周强在第十三届全国人大常委会第三十一次会议第二次全体会议上报告工作情况时指出:要健全大数据、人工智能、基因技术等新领域新业态知识产权司法保护规则,研究完善算法、商业秘密、人工智能产出物、开源知识产权司法保护规则[3]。大数据技术在司法实践中的应用趋势由此可见一斑。

一、问题的提出

(一)大数据证据的理论研究现状

当今信息技术快速发展,犯罪从传统的现实空间向网络虚拟空间过渡。犯罪人在实施犯罪的过程中利用信息网络技术,使得犯罪生态环境日趋复杂,原有的侦查技术手段已经不足以应对这类新型网络犯罪。所以,大数据技术在侦查中的应用以及由此而产生的大数据证据的相关问题成为研究热点。文献检索结果显示,学者们主要从以下几个方面开展研究:一是大数据证据的证据属性。如刘品新在《论大数据证据》中,从形式的亲缘性、可比性和经济性的角度出发,提出将大数据证据归类于鉴定意见[4]。严若冰在《以定义为中心的大数据证据独立种类研究》中,提出了“三位一体”的大数据证据定义方法[5]。徐惠、刘晓东在《大数据证据之证据属性证成研究》一文中认为大数据证据具有“综合性”和“高技术性”的特点,其有别于传统证据,所以应当将其视为独立的证据种类[6]。二是大数据证据的应用。如孔德伦在《大数据证据在网络犯罪案件中的运用——以镶嵌论为视角》中,提出以镶嵌论逻辑推演路径为视角,着重审查判断大数据证据的关联性、可靠性及合法性,以准确认定案件事实,依法打击犯罪[7]。林喜芬在《大数据证据在刑事司法中的运用初探》中,从大数据证据的法律定位及运用规则、大数据证据的证据能力审查以及大数据证据的证明力评价三个层面对大数据证据展开研究[8]。三是大数据证据的审查。如卫晨曙在《论刑事审判中大数据证据的审查》中,认为大数据的审查应当从证据鉴真以及源代码两个方面进行[9]。

综上所述,已有的研究虽涉及大数据证据的各个方面,但仍存在一定的不足。根据我国刑事诉讼领域的通说,不具备法定形式的证据资料不能被纳入诉讼程序,而在一些司法实践中,诸如“破案经过”“情况说明”“扣押清单”等并非属于刑事诉讼法所确立的法定证据种类的证据也往往被使用,这为大数据证据的适用提供了实践可能性。换言之,大数据材料能否作为证据在庭审中得以适用,不完全看其是否属于法定的证据种类,重要的是看其是否符合证据的“可采性”要求。探究大数据证据的可采性,重点在于解决大数据证据的客观性问题。只有解决其客观性问题,才能使得大数据证据在实践中得以更好地适用。在已有的研究中,很少有学者专门从大数据证据的客观性角度出发论述大数据证据基于其客观性而产生的各种应用困境。因此,大数据证据客观性的制约因素及其克服之道的研究有待进一步深化。

(二)大数据证据的实践运用状况

现阶段,以审判为中心的刑事诉讼制度改革如火如荼,这标志着公安机关的侦查活动、人民检察院的审查起诉活动都应当向审判看齐。而审判活动又以庭审为中心,在庭审环节中,举证质证作为最重要的环节之一,证据是整个刑事诉讼活动的重心。当下,大数据技术的应用在立案前的初查阶段、立案后的侦查阶段以及法院审判阶段初具规模,尤其在人脸识别、轨迹对比、涉案资金数据分析等方面的应用已经形成一定的态势。

以“刑事案件”为基本范围,以“大数据”“大数据分析”为检索关键词,在【中国裁判文书网】中进行数据检索,可以发现,目前在我国司法实践活动中,大数据证据及相关技术通常被表述为:大数据平台数据、大数据分析研判、舆情报告、大数据比对技术、大数据检测技术等,另外还有一些案件的判决裁定书虽然没有“大数据”等相关字眼,但是有不少涉及利用大数据技术对所获得证据进行汇总和分析的内容。

大数据证据分为基于数据库比对和检索的大数据证据和基于算法模型分析和生成的大数据证据两类,前者诸如步态比对、人脸识别等,后者诸如有组织犯罪涉案人员组织架构、资金数据、物流数据分析等[10]。根据从【中国裁判文书网】检索获得的信息,判决裁定书对通过大数据技术获得的证据的表述通常有以下两种情况。

1.将该种证据纳入法定证据种类的范畴之中

(1)作为新型鉴定意见适用。如《邝育华开设赌场罪一审刑事判决书》①中“经盘石软件(上海)有限公司计算机司法鉴定所对上述网络平台后台数据库进行检验,该数据库的下注记录最晚日期为……”的表述,《廉清珍、廉自长组织、领导传销活动罪刑事一审刑事判决书》②中“于2020 年9 月22 日聘请湖北某司法鉴定中心,对本案中建始县公安局提供的‘云电站全球合伙人管理中心’网站的数据库文件层级结构,及对廉清珍、廉自长的顶层会员号的所在的层级、下线会员号数量、层级架构、总层级数量、下线会员投资总额进行鉴定”的表述。

(2)作为电子数据适用。如《张明、薛元林等集资诈骗罪二审刑事裁定书》提到③,侦查机关利用大数据技术对【时空9 号】网站后台linux 服务器/虚拟主机后台数据库文件中的数据进行提取并将其纳入电子数据的范畴。

(3)作为书证适用。如《熊争贵、李育军持有、使用假币一审刑事判决书》④载明,公诉机关将“四川公安大数据查询清单、住宿轨迹以及各地通行记录轨迹”明确列入书证这类法定证据种类之中,《于崇泰组织、领导传销活动罪刑事二审刑事裁定书》⑤载明,公诉机关同样将“通过山东大数据平台查询信息证实得到于崇泰的身份信息”这将大数据证据列入书证的范畴之中。

2.将该种证据作为独立的证据,未说明其所属证据种类

如《胡云俊故意伤害一审刑事判决书》⑥,将“通过大情报比对技术发现犯罪人的户籍信息并通过大数据分析其行踪轨迹”作为“到案经过”单独列出,在《涂春、朱南徽等与李妍、李颖等诈骗罪二审刑事裁定书》⑦中,犯罪人交易、持仓量等情况被归到审计报告之中。

综上所述,大数据证据在司法实践中虽然尚不具有统一的定性标准,但不可否认的是,其已登上了司法实践的舞台,开始在刑事诉讼活动中作为证据材料出现。

二、制约大数据证据客观性的因素

在实践中,一些法院对大数据证据的应用呈现出明显的“必信”与“必排”的两极化倾向。一部分法院过度依赖大数据技术而忽视对其进行实质性审查,这种对大数据技术的盲目信赖使得法院从处于中立位置的裁判者变成了技术主导的被动接受者,大数据技术的专业性鸿沟会使得法官对其产生的证据无法做出准确的理解判断。这种“必信”倾向实质上是将对证据证明力的判断前置给侦查机关,易回到侦查中心主义的模式而影响以审判为中心的刑事诉讼改革。而有的法院在审判时基于保守的思维惯性,为了使审判结果不引发舆论争议而排斥适用大数据证据,以避免新兴技术对法庭的冲击。这种“必排”倾向易倒逼侦查机关回归提供传统证据的模式,进而影响司法改革。由此可见,对大数据证据一味的“必信”或“必排”都不利于司法进步,反而会造成一系列消极的后果。我们应做的工作是克服大数据证据客观性的制约因素,使大数据证据真正为案件事实“说话”,进而确保司法改革的有效推进。

大数据从“材料”到“证据”需要经过三个环节,即基础数据的汇总和清洗环节、建构分析模型和机器算法环节以及运算和分析报告形成环节。这三个环节又可以细分为数据录入、数据存储、数据传输、数据提取、数据清洗和算法运用等子环节。这些子环节中,都可能存在有制约大数据证据客观性的因素。

(一)数据录入和存储因素

原始数据录入主要包括两种形式:系统自动生成和人工生成。前者数据不易受机器操纵者主观意识的干扰而具有较强的可靠性,但依旧存在机器识别错误、扫描上传错误等影响数据客观性的隐患。后者采取特定人手动输入的方式进行登记,这种人工生成的数据可能会因为输入者的故意或者过失而出现错误或者失真。

数据存储环节主要存在系统故障、黑客入侵以及用户误操作等影响数据客观性的隐患。首先,软件系统故障可能会损害数据完整性。如两个不能兼容的软件同时运行,可能会导致程序被迫中止的后果,甚至会造成系统崩溃,数据丢失。再如软件版本与运行环境配置不兼容,可能会导致系统死机,文件丢失或被修改等后果。其次,黑客入侵可能会导致数据盗取和数据篡改。2017 年6 月,某市某单位培训中心在一次省级培训考试后发现通过考试的人员名单高达上千人,而本单位实际参加培训考试并通过的仅有两人。通过与省级单位核实,确认多出来的人员并未参加考试,而名单却出现在网上。随后该市公安机关展开侦查,发现该考试系统存在较大安全隐患,极易被不法分子侵入数据库并篡改信息。此次被篡改的信息更是高达上万条。在后续对犯罪嫌疑人进行讯问时,犯罪嫌疑人交代其利用网络漏洞非法篡改信息并借此来牟利的事实[11]。现实中,数据被泄露、盗取的现象屡见不鲜,如2020 年1 月化妆品巨头雅诗兰黛4.4 亿条邮箱记录被泄露,2020 年4 月2.67 亿个Facebook 账户信息在暗网被出售[12]。由此可见,黑客经常利用系统漏洞、弱口令等安全防护较薄弱的环节侵入数据库并篡改、盗取数据。再次,用户误操作也可能会导致数据丢失。如误删信息、强制关机、格式化等。除此之外,硬盘损坏、自然灾害等也可能导致数据损坏、丢失。

(二)数据传输因素

大数据材料需要经历数据传送、数据保管等环节,才有可能转变为可在法庭上出示以证明案件事实的大数据证据。这些环节存在一定的数据安全隐患,有可能会造成数据失真。首先,在数据传送的过程中,元数据脱离会导致法官对大数据证据中海量数据集的原始性存疑。元数据就是指数据的数据,是对数据本身属性信息的描述,一般附加在数据之中,不宜直接查看。如一张照片,其拍摄的相关信息就是元数据,主要包括拍摄时间、位置信息、拍摄参数、拍摄器材等。在实践中,许多大数据证据在法庭中仅仅以轨迹截图、人脸识别截图等图片形式简单呈现,而无元数据信息可供审查验证,法官和辩护方会对其原始性产生怀疑,最终可能被排除。所以在数据传送的过程中,元数据不能丢失,要一同提取保存以备后期验证之需[13]。其次,在数据传送的过程中,数据可能在压缩、加密、转换等处理过程中出现丢失或者变形。大数据证据的数据集与电子数据显著不同的一点在于其数据集的海量性,大数据材料中数量级的单位一般用PB⑧来表示,其数据集的规模已经远远超出传统的数据库软件工具能力范围。所以,专业人员在对数据进行传送时往往需要对数据集进行压缩处理。同时,如果数据涉及到秘密问题,专业人员在对数据进行传送时往往会对数据进行加密,对数据进行传送时也会将其格式进行转换,这些处理都容易导致数据信息丢失或变形。最后,数据保管的过程中,侦查人员缺乏专业的技术能力或操作不当也会导致数据失真的情况。

(三)数据提取因素

首先,取证主体合法性存疑。在实践操作中,海量数据集的提取一般参照电子数据的提取标准。2014 年“两高一部”《关于办理网络犯罪案件适用刑事诉讼程序若干问题的意见》中规定:收集、提取电子数据,应当由二名以上具备相关专业知识的侦查人员进行。取证设备和过程应当符合相关技术标准,以保证所收集、提取的电子数据的完整性、客观性。2016 年“两高一部”《关于办理刑事案件收集提取和审查判断电子数据若干问题的规定》第7 条规定:收集、提取电子数据,应当由二名以上侦查人员进行。取证方法应当符合相关技术标准。2019 年公安部发布的《公安机关办理刑事案件电子数据取证规则》第6 条规定:收集、提取电子数据,应当由二名以上侦查人员进行。必要时,可以指派或者聘请专业技术人员在侦查人员主持下进行收集、提取电子数据。《最高人民法院关于适用〈中华人民共和国刑事诉讼法〉的解释》第112 条规定:“对收集、提取电子数据是否合法,应当着重审查以下内容:(一)收集、提取电子数据是否由二名以上调查人员、侦查人员进行,取证方法是否符合相关技术标准……”综合上述法律法规可以发现,对侦查人员具备计算机类专业知识的要求过于严苛,导致难以执行,法律也逐步放宽标准,不要求侦查人员具备专业技术知识,只是要求其取证方法必须符合相关技术标准,并通过指派或者聘请专业技术人员的方式来弥补侦查人员在相关专业知识领域的不足,这其实是法律对现行侦查困境的妥协[14]。

但是在实践中,侦查人员往往对海量数据集进行先一步处理,发现确有处理困难时再指派或聘请专家对数据集进行进一步处理的现状。此时,专家处理的实际上并非原始数据集,而是侦查人员先行处理过的数据集,这就无法保证数据集的客观性。

其次,取证程序缺乏统一标准和规定。一方面,目前尚未有针对大数据证据相关问题专门的法律规范。另一方面,侦查人员对大数据证据进行提取时常以《关于办理刑事案件收集提取和审查判断电子数据若干问题的规定》以及《公安机关办理刑事案件电子数据取证规则》等规定为参考,但这些规定之间较为分散,尚不具备体系化的特点。这就使得侦查人员在对大数据证据进行取证时缺乏统一的参考标准以及具体的操作流程,容易导致数据提取不全、不同人员提取结果不同、数据提取操作错误等问题。如在对数据进行提取时,由于没有统一的程序标准,不同的侦查人员受主观认识、经验能力等多方面因素影响,可能会提取不同的数量及范围。这样,有的侦查人员提取的数据可能不完善,从而导致数据分析结果出现偏差。

最后,取证工具未与时俱进。大数据与云计算密不可分,云计算是基于互联网络平台的一种服务,大数据取证工具理应支持网络连接和分布式计算。但目前常见的取证工具基本上不支持网络连接,这就容易造成不能数据提取、数据提取不全等问题。

(四)数据清洗因素

宏观意义上的大数据是指“全体数据”,这些基础数据具备数据总量大、数据非结构化性质突出和数据价值密度低的特征,因此无法被直接认识、理解,需要通过数据清洗将其转换成符合质量要求的数据再运用技术对转换后较高质量的数据进行分析并最终形成分析报告。一方面,不同的数据分析人员对案件的认识角度和深度不同,其对数据清洗的选择侧重点存在差异,其分析结果也不相同。换言之,对原始数据集,不同的数据分析人员可能会得出不同的分析结论,即使是同一人,在侦查的不同时间段对相同的原始数据进行处理分析所得的结论也不一定完全相同。另一方面,存在数据重叠现象。以网络诈骗案件为例,网络诈骗犯罪往往是犯罪团伙采取“一对多”模式随机选择被害人进行诈骗。同一个被害人有可能被该犯罪团伙中不同的犯罪人分别诈骗。侦查人员对该案件进行侦查时,需要对犯罪团伙诈骗的人数以及金额进行汇总,如果在数据清洗的过程中没有进行去重,就会造成数据重叠,最终导致对犯罪人据以定罪量刑的金额进行可视化分析时,计算的金额超出实际的金额,从而不利于犯罪嫌疑人合法权利的保障。

(五)算法运用因素

算法是数学、计算机学科的专门术语,是指解题方案的准确而完整的描述,是一系列解决问题的清晰指令。算法是大数据技术的核心,当前绝大多数的大数据技术主要采取深度学习的技术路径来实现对数据的自动提取、挖掘、碰撞与分析。但是科学技术不等同于确定性,更不等同于真理,算法也是如此。

算法是解决某一问题的思路,其在计算机上的实现要依赖于程序将其转化为计算机的命令语言,而程序以代码为载体,故算法的准确与否与程序代码有必然的联系。源代码在计算机程序中起基础性作用,是指由程序员编写的原始文件。程序员编写源代码时会具有一定的主观性倾向。这也就不可避免地存在算法偏见和算法歧视。另外,机器的自主学习特征会驱动其对数据进行再加工,从而导致原始事实失真。

三、提升大数据证据客观性的措施

(一)加强区块链技术的融合应用,加强技术保障

2019 年1 月10 日,国家互联网信息工作室发布了《区块链信息服务管理规定》。2019 年10 月24 日,习近平总书记在中央政治局第十八次会议上强调“把区块链作为核心技术自主创新的重要突破口”。2021 年3 月11 日,第十三届全国人大四次会议表决通过了《关于国民经济和社会发展第十四个五年规划和2035 年远景目标纲要》的决议,将区块链首次纳入国家五年规划中,充分体现了国家对区块链技术的高度重视[15]。区块链技术侧重于大数据证据的形成,具有实现数据流通全过程的有效记录且保证数据不被篡改的重要作用,能在源头上进一步确保数据的真实性,有效地加强大数据证据的证明效力。从此立场上可窥见夯实区块链技术深度应用的重要性。

1.实行数据自动化录入

数据自动化录入相比较于手动录入,更加准确可靠。为了保证数据录入的真实性,首先要实现信息录入的全自动化,尤其是企事业单位的员工档案信息,吃、住、行、消、玩等重点场所的人员登记信息,七类重点人员⑨的基础身份信息等重要数据信息的录入,要避免手动录入,以防录入人员故意或过失造成数据错误。

2.保证数据上链的可信性

哈希值嵌套和去中心化技术能保证存入区块链上的证据不被修改,进而保证证据的真实性。哈希值通俗来说就是某个字符段的“DNA”,电子数据是通过二进制表达的,哈希算法可以将任意长度的二进制值映射为固定长度的较小二进制值,这个较小二进制值就是任意长度的二进制值的哈希值,具有唯一性的特点。一旦数据发生变化,哪怕是一个文字、数字、字母甚至标点符号的变化,都会引起最终所得的哈希值的变化。换言之,只要将最新所得的哈希值与最原始的哈希值进行对比就可以得出数据是否具有原始性,如果两个哈希值相同,则证明数据具有原始性,反之,则证明数据被改动过。在实践中,哈希值通常是起固定原始数据的重要作用,但是仅凭哈希值无法保证数据不被篡改。例如在中心化的大环境之下,在一个固定的模型中,终端服务器记录所有的数据信息,所有模型中的信息和交易都要以这个终端服务器为集中进行交互,该模型就是我们常见的互联网服务,如微信、微博等。如果进入终端服务器中就可以直接将原来的哈希值替换为修改之后的哈希值,这样就可以实现数据篡改而不被发觉。所以除哈希值以外,区块链还需要去中心化技术来保证链上的证据不被修改。去中心化技术实际上就是打破中心化服务器的壁垒,取消唯一中心的限制,将区块链上的每一个节点都变成中心,都存储有整个数据的副本,并会定期同步更新数据。这样,区块链上的每一个区块就都具有唯一的哈希值,一旦上一个区块更改,哈希值就会随之而改变,所以如果有人想要篡改某一个区块,就必须将后面的区块一起篡改,这就使得区块链上的证据几乎不可能被修改[16]。

但是,哈希值嵌套和去中心化技术只能保证数据上链后难以篡改,而不能从根本上保证链下数据的可靠性,因此,区块链技术的应用必须考虑到数据如何可信上链的问题。链下数据的可靠性需要各类技术之间的有机融合以及社会各方之间的高效协作。第一,技术有效融合。区块链技术无法保证链下数据的客观性,为克服这一缺陷,应加强物联网技术、互联网技术、人工智能技术等新兴技术的深度融合。如通过摄像头固定数据在链下的基本状态,再与数据上链时的状态进行对比,如完全一致,则说明数据上链时没有发生变动,具备可信性。第二,社会高效协作。一方面,链下数据的可信度需要技术类企业进一步研发更为精准的数字模型和机器算法,另一方面,链下数据的可信度还需要各行业部门制定相关的规范来进行全方位的治理和协调。

(二)提高侦查取证规范性程度,重构大数据取证观

首先,完善大数据证据相关的法律规范。目前,大数据证据的提取采用的是电子数据提取相关的法律法规。根据《关于办理刑事案件收集提取和审查判断电子数据若干问题的规定》,电子数据是指在案件发生过程中形成的,以数字化形式存储、处理、传输的,能够证明案件事实的数据。电子数据包括但不限于以下几类:网页、博客、微博客、朋友圈、贴吧、网盘等网络平台发布的信息;手机短信、电子邮件、即时通信、通讯群组等网络应用服务的通信信息;用户注册信息、身份认证信息、电子交易记录、通信记录、登录日志等信息;文档、图片、音视频、数字证书、计算机程序等电子文件。由此可见,大数据证据和电子证据中的数据在形式上存在一定的一致性。但两者归根结底是不同的两个概念,两者之间存在较大差异。一是数据涵盖范围不同。大数据的数据集具有海量性,其数据总量远超传统的电子数据且并非是电子数据的简单叠加。二是数据结构形式不同。大数据的海量数据集具备非结构化特征,数据无法被直接利用,必须要经过数据清洗,运用专门技术进行分析,而传统的电子数据仅是对简单、结构化数据进行的分析。三是数据与案件事实联系不同。大数据的海量数据集价值密度低,需要通过技术分析得出结论,其与案件事实之间是一种弱相关的、模糊的联系。传统的电子证据往往能够直接证明案件事实,与案件事实之间存在一种较强的联系。除基础数据之外,大数据证据还包括大数据分析技术和大数据分析结果,这是电子数据所不具备的。所以,不应将大数据与电子数据混为一谈,要制定和完善专门性的大数据证据的相关法规,以便更好地推动大数据证据的实践应用。

其次,严密大数据证据取证的程序。第一,对最原始数据进行备份留存,防止数据分析过程中出现意外事件。第二,利用统一的技术对全数据进行转换,从侦查人员准备着手提取数据到数据处理完成需要见证人在场并且需要全程录音录像。第三,在数据处理完成后,需要验证数据处理结果的完整性和科学性。可以由具备专业知识的侦查人员对最原始数据按照统一规定进行再次转换,比对两次转换结果是否一致。第四,厘清大数据技术与绝对真实之间的差异。大数据具有混乱性的特征,数据集中必然是真假混杂的数据集合,而非全真或全假。所以对具体数据的真实性审查不能苛求绝对真实,只能做到大概率真实,即微观意义上的大数据的真实性实质上是一种概率论视野中的真实性。最典型的事例就是DNA 鉴定中,亲子关系的鉴定结果只能达到99.99%,却不能达到100%的绝对值。由此,大数据集的一个数据为假不代表所有数据为假,真实的数据达到一定的规模,就可以被拟定为真实性数据。

再次,加强侦查队伍建设。目前,绝大部分侦查人员并未接受过系统完整的计算机专业知识与相关技能培训,这方面的业务能力不高,往往不能独立完成大数据证据提取任务。这就要求侦查部门一方面必须加强对侦查人员的相关业务培训,组建具备大数据技术的专业队伍,切实提升侦查人员整体的办案水平和能力。另一方面应聘请专家为侦查人员进行计算机理论知识和实践操作的相关培训,切实加强侦查人员在办案中发现、固定、收集大数据证据的能力。

最后,确立大数据证据取证的救济程序。应当平衡提取大数据证据的公权力与公民个人隐私权之间的利益。如果当事人对侦查机关取证程序有异议,有权向同级检察院提出异议,同级检察院应当做出决定并向当事人说明理由。如果不满同级检察院所做出的决定,当事人可以向上级检察院提出复核。

(三)建立配套算法制度,提高算法的可适用性

第一,完善大数据技术开发的标准,降低算法偏见。设立严格的技术开发标准和检测标准,将新技术的源代码匿名化交由多名公安部门的技术专家进行检测,重点检测源代码的可行性、合法性、普适性和应用的资格。新技术的源代码必须在全部技术专家的认可下才能投入社会进行使用,未获得全部专家认可、但超过半数专家认可的源代码有二次检测的资格。低于半数专家认可的源代码则因不具备一般的可信度而被直接拒之门外。这种检测模式,可以大大提高技术本身的可信度。

第二,建立源代码分级公开制度。有学者认为,既然基于机器学习的大数据证据被作为证据提交法庭,那就应当要求设计者公开技术方案,否则大数据证据就难以满足真实性标准。但是源代码往往涉及技术公司核心的商业秘密,完全公开有可能导致恶性商业竞争以及技术人员开发技术的积极性降低等后果。针对这种完全公开的理想状态和完全不公开的现实状态之间产生的分歧,可以选择折中处理,建立源代码分级公示制度,将源代码公开根据具体的情况分为三个等级——必须公开、申请公开以及不公开:当大数据证据承担认定事实的主要责任,是证明案件的核心证据时,源代码应当公开;当大数据证据充当认定事实的间接证据,主要用于印证其他证据的证明能力时,源代码可以公开,但需要经过申请以及严格的审批程序;当大数据证据对事实的认定基本不产生影响时,法官应当决定不公开,以保护商业秘密不被泄露。除分级公开以外,源代码还应当通过通俗易懂的可视化方式,如制作动画、PPT 等,配合专业人员的解读,首先向辩护人公开。如果没有辩护人,再向被告人及其近亲属公开。同时,所有接触源代码的人员都需要同技术公司就源代码签署保密协议。

(四)完善专家辅助人制度,平衡控辩双方诉讼权利

大数据证据的运用专业性强,控方有专业的鉴定人员以及技术化人才,如果辩方没有相应的具备专门知识的人员,就难以展开有效辩护,这显然不利于庭审目标的实现。所以,为强化庭审对抗,应当完善专家辅助人制度,提高专家辅助人的法律地位。首先,专家辅助人的资格要有明确的制度规定,内容包括通过综合考虑专家辅助人的专业领域、执业经验、业内评价等相关因素,选择专业的程序人员对源代码进行检验分析,确定源代码的可信度等。其次,明确专家辅助人的权利义务。专家辅助人享有对公开的源代码阅卷的权利以及在法庭上发表专业意见的权利,同时专家辅助人也要承担对源代码保守秘密的义务。最后,对专家辅助人的知情权进行明确界定。专家辅助人毕竟不是案件的当事人,其主要任务就是对源代码进行可信度鉴别,为辩护方提供相应的专业性意见。所以,对专家辅助人的知情权应当进行一定的限制,只允许其知晓与大数据证据相关的案件信息,其他信息一律不对其公开。

综上所述,大数据证据作为新兴科学技术支持下的证据类型,在司法实践中得到进一步应用已是大势所趋,我们要顺应时代发展潮流,聚焦司法公正,加快推进有关工作,不断克服影响大数据证据客观性的因素,提高大数据证据运用的水平。

注释:

①资料来源于【中国裁判文书网】收录的《广东省台山市人民法院刑事判决书》(〔2019〕粤0781 刑初274 号),查阅日期:2022年8月1日。

②资料来源于【中国裁判文书网】收录的《湖南省泸溪县人民法院刑事判决书》(〔2021〕湘3122刑初73号),查阅日期:2022年8月1日。

③资料来源于【中国裁判文书网】收录的《江苏省高级人民法院刑事裁定书》(〔2019〕苏刑终107 号),查阅日期:2022 年8 月1日。

④资料来源于【中国裁判文书网】收录的《四川省邻水县人民法院刑事判决书》(〔2020〕川1623刑初92号),查阅日期:2022年8月1日。

⑤资料来源于【中国裁判文书网】收录的《山东省德洲市中级人民法院刑事裁定书》(〔2021〕鲁14 刑终122 号),查阅日期:2022年8月1日。

⑥资料来源于【中国裁判文书网】收录的《湖北省襄阳市中级人民法院刑事判决书》(〔2021〕鄂06 刑初2 号),查阅日期:2022年8月1日。

⑦资料来源于【中国裁判文书网】收录的《内蒙古自治区高级人民法院刑事裁定书》(〔2019〕内刑终216号),查阅日期:2022年8月1日。

⑧PB指petabyte,是较高级的存储单位,1PB=1024TB=1048576GB。

⑨七类重点人员包括:涉恐人员、涉稳人员、涉毒人员、在逃人员、重大刑事犯罪前科人员、重性精神病人、重点上访人员。

猜你喜欢
源代码侦查人员证据
基于TXL的源代码插桩技术研究
软件源代码非公知性司法鉴定方法探析
侦查人员出庭作证问题研究
基于语法和语义结合的源代码精确搜索方法
我国侦查人员出庭作证制度的构建
侦查人员出庭作证的困境及完善策略
对于家庭暴力应当如何搜集证据
手上的证据
揭秘龙湖产品“源代码”
手上的证据