王 培 王 何 许 阳
江苏警官学院,江苏 南京 210031
二十世纪,大数据时代初现模型。由美国芝加哥大学商学院教授詹姆斯·麦肯锡最早提出“大数据”时代到来的概念,他给后人留下的观点也印证了大数据以及时代的发展:数据,渗透到每个行业,所有领域,各个业务。数据,是当之无愧的生产因素。同时,他对大数据做出新的定义,总结了大数据具有数据规模海量、数据流转快速、数据类型多样和价值密度较低四大特征,而数据的来源决定了它的特点。如果将社会比喻成一个超大的数据库,那么我们每个人都是这个数据库的数据来源。所有联网的物品信息:电脑、手机、平板电脑、智能手环……包括我们人也是数据的来源。
大数据证据的来源是万维网记录储存的各类无序,分散,杂乱的数据,与其他网络信息,云数据一样,此时的大数据不具备法律意义上的证明资格,还不具备证明能力,因此。大数据证据不是严格意义上的证据。在其通过相对客观完整的数据采集基础上,通过一系列复杂繁琐的数据处理技术的连接、整合、运算和分析,让大数据成为一种规律并能提供有价值的分析方向。这些科学复杂的技术是赋予它能够证明案件事实的证据资格的重要条件。与传统证据相比,大数据证据不仅具有传统的证据的客观性,关联性,合法性,还必须具备数据内容的提炼性、数据来源的复合性、数据处理技术的科学性等特点。
首先,数据内容的要有提炼性。从整个万维网,云数据中剥离隐藏的潜在有用的信息、线索并形成完整可靠确定的数据信息和证据。这是一个比较复杂提炼的过程,但也是因为其步骤的完善性、可靠性与系统性,使得大数据证据的数据内容更具提炼性。提炼同时要确保数据完整,这是作为证据的首要条件,根据完整数据作出的分析结果才具有真实有效的证明力。其次,数据来源的复合性不容忽略。大数据不是从单一来源中形成证据的,大数据到证据的转变需要针对具体事项和目标的需要,通过对多个不同来源的数据库或信息相互关联,从中多维分析挖掘才能够实现,这是一个复杂的分析挖掘复合形成的过程①。传统的统计学关注的是大量个体在伪相互作用下所形成的宏观统计规律性,它并不关注微观个体之间的差异性。然而,唯有异质性的个体之间才会发生真相互作用,这就意味着个体之间是具有可分辨性的,这同时也意味着数据库中的数据也是具有可分辨性的。因此,保证大数据来源的复合性,分辨出不同复合来源的数据,从而让大数据证据具有了更高的可靠性。最后我们还要关注数据处理技术的科学性。如何在海量的,分散的、无形的大数据中中获取有价值的大数据证据,必须借助科学有效的②大数据处理技术。包括:大数据的采集、大数据的预处理、大数据存储和管理、大数据分析、大数据可视化等等。庞大的数据量,需要利用相关领域普遍认同的技术实践,或加以验证。目前,想要真正实现大数据技术的应用,数据处理技术是我们必须突破的一大难关。善用科学的数据处理方法,可以保证用这种方式得出的结论具有强大证明力,更加可靠。
大数据证据可以作为诉讼证据。我国在三部诉讼法中,对于证据的法律规定中都要求证据须经“查证属实”③,这种逻辑下,大数据只要“核实”,确定其真实性与可靠性,就可以与诉讼中的其他证据一样具备证明能力。
证据的“可接受性”是一切证据面临的问题。在18年新修订的刑事诉讼法中,我国法律已经明文规定了电子证据是诉讼证据的一部分,日益普及的新事物将在法律的一次次更新中体现。电子证据适用范围、采信条件、采信原则、可接受的证据形式以及提交方式等在实践中明确,应当获得其应有的证据分量。当我们在评估一条数据消息是否具有证据分量,即是否具有足够的证明力,我们需要对其进行多方面的考量与研究。例如,该大数据信息的生成、存储或传播过程中,是否存在人为篡改与消灭,信息提取过程中是否存在缺漏或意思曲解,以及信息来源与提供者的可靠性等一系列问题。我们所属的是一个大数据时代,如果大数据证据不为法院和仲裁机关所接受,那不仅会影响证据收集的效率与证据链的完整性,同时也会为以数据信息商务交易的实体法保障埋下隐患,使电子商务交易演变成高风险的交易形式。
随着移动互联网、大数据、云计算、物联网与人工智能等新技术、新业务和新生态的发展,目前我国在电子证据取证方面还不够成熟,证据采信率较低、证据原件模糊、取证主体受限、成本高昂等困境始终没有突破④。大数据证据作为电子数据的一种特殊形式,两者具有天然的亲和力。在进行大数据取证的同时,应同时进行常规的电子数据取证。司法侦查有关部门没有自行开发的证据收集软件,缺乏先进的电子数据测试、存储和实验设备,不能在短时间内有效处理大量案件。只有当数据有作为证据资格的前提下,才有确定判断⑤证据证明力的大小的意义。如果传统的纸质证据可以通过整个事情呈现。如今社会,电子邮件、微信聊天记录等“电子证据”已经逐步在司法实践被当事人采用,大数据证据成为了必不可少的证据形式。但在它的证明效力方面却始终存在一定问题,大数据证据更容易通过剪辑、删除、重组等手段更改成为“伪证”。
电子证据是否具有独立证明力随着法律的更新得到了解释。原先的法律实践中,电子数据不能单独作为证据来证明案件事实,必须与其他证据加以结合形成完整的证据链才予以使用。由此可见,在新法出台之前,电子数据予以使用最大的难度就是“孤掌难鸣”。此类电子证据是否被法院采纳,与法官的理解和自由裁量具有很大关联性和不确定性。大数据证据也如此。一般来说,大数据证据审计分析方面存在数据采集风险、数据存储管理风险和数据分析质量风险等挑战。近年来,随着《最高人民法院关于修改<关于民事诉讼证据的若干规定>的决定》出台,电子证据就作为类似书证、物证等证明力的证据出示,无需通过其他证据加以辅助,电子数据进一步获得了独立证明力,也由此降低了其审计分析的风险,提高了诉讼效率。
数据收集是审计分析的第一步,是大数据的重中之重。因为大数据技术进步的影响,大数据的数据来源得到优化,其种类逐渐丰富并且类型多样,为我们的采集提供了更加开阔的存储与分析数据的环境。在数据收集工作中,主要面临两种风险。一是为了确保数据收集的真实性和完整性。缺乏有效验证手段对被审计单位的数据进行验证,导致数据的完整性和真实性得不到保证,只能通过后期的扩展调查验证某些数据的真实有效性,收集到的数质量不高、纷杂无效的信息对数据分析的进度与质量影响可谓是致命的;二是数据采集过程中被审计单位的系统安全性存在被破坏的风险。数据采集是困难的。采集过程中易出现记录或低效的人为错误。虽然单位引进了相关技术手段,应用了数据采集系统,但是由于系统本身的原因。以及缺乏选择最适合自己的数据采集系统,无法实现信息采集的实时性、准确性和可扩展性管理,而且容易出现了信息断层的现象,其安全性也难以保证。
从审计机关和人员那里收集大量数据,在存储和管理上面临着两大风险:首先,数据存储风险大。大数据如何存储,如何保证数据的完整性,可以要求检察人员监控分析。其次是数据管理的风险,数据审计机构包含大量的数据。对于人的基本信息,如何进行技术和系统的管理,保证数据不会泄露给社会是审计机构要规避的风险之一。数据存储和管理涉及到许多行业的信息,这些重要信息的遗露、丢失和泄密会给相关单位造成巨大损失和权威性、公信力、可靠性等形象的全面下滑。如今,数据管理的风险主要来自于数据存储设备的管理,类似于审计人员的计算机及移动存储介质等发生丢失以及数据网络加密不足等,这都是大数据存储和管理风险防范规避的关键领域。
从大量数据检索的审计单位获得审计资格后,下一步是数据的整理分析。审计中发现可疑数据进行审计验证,并生成审计证据。在数据分析过程中,审计人员将面临一下审计风险:
首先,海量的数据与有限的审计时间之间的矛盾。在这一矛盾之中,审计人员因各种原因,无法在规定时间内完整精细的对所有数据进行研究、整理、分析,因而容易忽视审计中的疑点,降低了整体审计质量。
其次,在分析数据过程中,审计人员极有可能只关注了数据分析,而忽视了对被审计单位信息系统的安全防范,导致因系统中存在的重大漏洞而对整个审计任务造成风险。
此外,审计人员技术水平参差不齐,对大数据证据的分析处理存在问题。在大数据时代,数据的处理方式是多种多样的,因此审计人员的技术水平决定着他们能否从复杂大量的数据中提取到我们所需的证据,当他们操作不当时,甚至有可能造成数据的丢失,导致关键证据无法被获得。此外,当公安机关侦查人员遇到无法处理的问题时,只得求助于外部人员。但是外部人员并不清楚公安内部对这些大数据证据规定或要求,因此得到的大数据证据很可能不具有法律效力,甚至都无法起到建议作用。同时,外部人员的保密问题也十分严重,是大数据证据在审计过程中最突出的风险问题。
最后,大数据本身具有无形性和脆弱性的特点。大数据证据不同于一般的纸质材料,没有没有实体性的存在形式,例如纸张、雕刻等,其存储介质较为特殊,导致其内容与载体可分离,复制不能改变其完整性与真实性,因此较难,直观区分原始件与复印件,这使得它具有了无形性的特点。大数据证据的脆弱性,则是因其可以人为进行修改,且不易被察觉。在实践中,存在着一定数量因人为篡改而导致大数据证据失去证明力、事实不清的案例,凭借现有的收集技术,审计人员很难对大数据证据的原始性进行确认。想要确保大数据生成证据的证明力,保证原始数据到最终审计证据的证据链完整性至关重要。
审计相关人员首先要提升自己的专业水平,更新技术观念,在熟练掌握当今社会的主流数据处理与分析的方式之后,还应该多角度的对现有技术进行挖掘。大数据时代的数据以范围广、数量大、时间跨度长为特点,而现在的刑事案件侦破则是需要高效、快速、准确,因此想要将大数据证据广泛的应用于司法过程中,相关审计人员便需要在短时间内,准确处理好问题,使得大数据证据能更及时的被加入到案件的处理过程中,这对于相关审计人员的业务能力提出来很高的要求。
在《民事诉讼法》的第64条中,规定了中国的证据收集制度包括了当事人自行收集并向人民法院提供与人民法院收集这两种证据收集制度。多数情况下,收集与提供证据的任务是由当事人完成的(除法律规定的职权调查以外),原则上,法官无需承担起证据调查与收集的责任。然而在现实实践中,我国的证据收集制度却常常因为不具备可操作性而产生混乱。
大数据证据作为一种最新型的证据形式,其受取证方式的影响较大。我国的证据保全制度尽管通过保全的形式,使得获得的电子数据的证明力有所提高,极大程度的减少了当事人收集证据的压力,然而其存在一个致命的问题,那就是申请时间较长。在长时间跨度的等待中,在大数据证据随时可能出现损坏、消失等紧急情况,没有专业的技术,损毁消失的大数据证据极难复原,即便复原,相较原始数据,其证明力也可能有所降低。因此,我国现在的证据收集制度并不适用于大数据证据的收集,因其导致的时机贻误,将会使得大数据证据难以发挥完全作用。
大数据证据中的电子数据通常具有极强的时效性,正因为它常常以数据流的形式存在,受时间因素影响大,因而留给我们的取证时间并不充足。所以我们需要对大数据证据的取证进行程序性立法,将大数据证据转化为一种常见证物,规范大数据证据取证的过程同时,也能够有效提高大数据证据取证的效率。
并且对其进行程序性立法,能够提高大数据证据被人们的接受度。现今,很多案件中已经开始引入大数据证据,但是在最后的审判中,大数据证据往往不被承认。因此,只有同时将大数据证据正式纳入《刑事诉讼法》规定的证据类型之中,通过法律束缚将其规范化、统一化,才能使得大数据证据在今后的刑事司法过程中发挥更大的作用。
一个人的大数据信息在多数情况下存于多个计算机设备、多台服务器上,获取到的信息可能包含着他人的隐私,导致影响到对方。大数据的信息来源广泛、自身数据量庞大,大数据下的电子数据已不仅仅局限于公民个人或是说用户端,同时还关联着技术供应端。在数据量庞大的基础上,大数据数据采集不仅要注重保护公民个人的隐私权,还要将技术服务提供者的合法权益放在优先考虑位置,例如自主经营问题、技术专利问题等。在进行电子数据取证时,首先面对的是基数庞大的数据库,如若没有专业技术企业提供相对应的服务或者对数据产生源进行专业管理,取证工作将会寸步难行。然而,在取得大数据证据的过程中,经常会获得与案件无关的数据,这就会对公民个人的隐私权造成威胁。如果没有法律明文规定来划定界限、明确过程、规范程序,可能会导致部分取证工作的失控,甚至出现侵害无辜群众及诉讼当事人的合法权益的情形。
切实做到保障采集证据时的个人权益,才能使得我们所获取证据的程序被人们所接受。但这是一个极其难以解决的问题,因为大数据证据和案件有关或者与案件无关的界限难以界定,通常都是依据审计人员的经验来进行,难以通过法律进行硬性规定。所以对于相关审计人员的保密意识的培养,对其业务素养的提高,在这一时代刻不容缓。
从智能算法展示个性,到在线旅游平台利用大数据,显示“成熟”,大数据应用不中立,机器学习还不成熟。信息不对等、双方互不了解的大数据技术将会继续发展,在综合解析了消费者的支付能力、偿还能力、消费偏好后,因地制宜,根据不同情况采取不同措施。例如,判断需要票的话就提高价格。大数据的“纯熟”不光违反了商业诚信的基本原则,而且还涉嫌违反了《反垄断法》,不仅失去消费者信任,还构成了价格歧视。消费者每单位商品所支付的最高价格的差异,每单位产品的销售价格形成一级价格歧视,大数据和人工智能算法,并利用每个用户制定了全方位的一些图像,分析预测为基础,可以设定价格歧视。该办法降低了消费者对互联网商业场景的信任度,将原本方便百姓生活的大数据技术作为盈利手段,阻碍行业发展,阻碍技术进步。不仅如此,机器学习模式还可能引起种族、性别等歧视。从输入数据到做出决策机器学习中间过程,甚至是更先进的自动学习,AI背后的代码、算法存在着超越我们理解的“技术黑匣子”。发展非歧视性数据挖掘技术是有待解决的研究领域,当务之急,就是要提高大数据算法应用的信息披露义务,运用监管科学技术手段升级监管能力。
大数据是这个时代的新标签。为了跟上时代的步伐,公安系统应加强大数据证据的规范化和应用,虽然现在有许多问题仍需探索,但大数据证据仍然有广阔的前景。
注释:
①李慧.大数据成为证据的新标准[J].人民法院报,2016-12-07.
②乔羽,孟彩霞.浅析大数据的处理技术[J].数码世界,2018(3):265.
③我国《刑事诉讼法》规定,证据必须查证属实才能作为定案依据;《民事诉讼法》规定:一切证据必须查证属实,才能成为认定事实的根据;《行政诉讼法》规定:一切证据必须经法庭审查属实,才能成为定案的根据.
④胡铭,王林.刑事案件中的电子取证:规则、实践及其完善——基于裁判文书的实证分析[J].政法学刊,2017(1):79.
⑤唐舒欣.试探究刑事诉讼中影响证据证明力大小的因素[J].法制博览,2019(26):217.