陈育龙,王景龙
(西安财经大学,陕西 西安 710000)
2015年8月31日,国务院以国发〔2015〕50号文件印发《促进大数据发展行动纲要》,而后我国大数据产业迅猛发展,逐步形成“大数据+”的产业模式。似乎“万物皆可数据,处处皆有算法”。受网络信息犯罪增加、反腐败斗争常态化、宽严相济刑事政策等影响,侦查机关亦开始对侦查措施涉及的技术进行大刀阔斧的改革,以期能充分发挥大数据技术的作用,为新时代侦查工作赋能。早在2003年,公安部便组织实施“金盾工程”。截至目前,该工程已经建立了全国人口基本信息资源库、全国机动车与驾驶人信息资源库等八大基础信息库,掌握全国公民的重点信息。各地方侦查机关也逐步建立了自有信息数据库,如DNA数据库、暂住人口信息库、旅馆住宿人员信息库、强制管理信息库等。大数据企业凭借技术与数据调取法律制度优势获得了介入侦查的机会,为侦查工作提质增效的同时,也带来了个人信息脱离权利主体控制、数据共享主义泛滥、数据偏见与算法黑箱等问题。
目前学界主要从数据调取的角度,对大数据企业协助侦查过程中的数据安全风险、个人信息泄露、个人隐私遭到侵犯等隐患进行研究,有部分学者根据不同标准提出了分类分级的处理机制。①贝金欣、谢澍提出,根据紧急程度与重要程度不同区分数据调取情形,再根据数据承载的信息区分五种数据调取对象,最终对应出五种数据响应等级。参见贝金欣,谢澍:《司法机关调取互联网企业数据之利益衡量与类型化路径》,载《国家检察官学院学报》2020年第6期;裴炜认为,可以结合信息类型、信息来源,围绕知情权等构建分层分级的数据调取规则。参见裴炜:《论个人信息的刑事调取——以网络信息业者协助刑事侦查为视角》,载《法律科学(西北政法大学学报)》2021年第3期;梁坤提出,未来在刑事程序中落实《数据安全法》第35条的规定可以参考《人民检察院办理网络犯罪案件规定》第27条的规定,在此基础上对刑事司法中需要重点保护的重要数据的范围进行划定。参见梁坤:《以分级分类为指引落实数据调取程序》,《检察日报》2021年7月14日。但是对数据共享、过于依赖算法结论等问题重视不够。应当看到,大数据企业协助侦查带来的隐患不仅限于个人信息或个人隐私,还涉及企业涉嫌行使部分侦查权,侦查数据、商业秘密泄露等问题。因此,本文将对大数据企业协助侦查的现状进行考察,全面审视大数据企业协助侦查可能带来的隐患,提出借鉴公共管理中智库模式的应对方案,构建以知情同意权为核心的分类分级调取制度,实现数据单向流动替代双向共享,加强对算法结论的审查。
将大数据技术运用于刑事侦查存在两种模式:一种是自建模式,即侦查机关自建大数据库、设计大数据分析算法与方案;另一种是大数据企业协助模式,即将建立数据库与分析数据的业务外包给大数据企业,或者建立长期的协助关系,以便随时借用大数据企业的数据资源与技术。两种模式都具有大数据技术的一般特征,这些特征决定了大数据企业协助侦查的一般方式。大数据企业在一般特征以外,还拥有其独特的优势。正是因为大数据企业协助侦查有这些一般特征与独特优势,才有必要着力消除潜在的隐患与风险。
大数据既是一种技术,亦是一门学科,因其内容具有开放性,当前并没有形成统一的定义。大数据之父维克托·迈尔-舍恩伯格(Viktor·Mayer-schonberger)认为大数据的核心价值在于揭示数据隐含的规律。应当以整体视角认识大数据,具言之,包括巨量的数据、先进的数据分析技术及大数据分析结果三层含义。虽然定义有待讨论,但对其本质特征已形成基本共识,即规模性(volume)、多样性(variety)、高速性(velocity)、价值性(value),简称为“4V”②计算机研究领域对规模性(volume)、多样性(variety)、高速性(velocity)三个特点几乎没有异议,但是对于第四个特点,即价值性(value)观点并不统一,如IBM认为是真实性(veracity)。笔者认为真实性并非大数据本身所具有的特征,数据仍然存在虚假、错误的可能性。特征。大数据技术所具有的特征,也是相对于传统数据收集、储存、分析机制的优势。传统刑事侦查模式在情报采集、证据收集方面存在的缺陷,被大数据技术所“补强”。
根据洛卡德交换原理,犯罪人在犯罪过程中,不可避免地将自身原有的物质或其一部分遗留于犯罪现场及被侵犯的客体上,同时还会从现场及被侵犯的客体上带走某些物质。[1]大数据技术运用于侦查,是将洛卡德原理运用于网络空间的一种实证。犯罪人的犯罪过程及与犯罪相关的行为,皆会以数据形式记录于网络空间之中,侦查人员便根据留存的数据痕迹完成数据画像,还原案件事实,从而侦破犯罪。
大数据企业凭借大数据技术协助刑事侦查,包括数据收集、数据储存、数据挖掘、数据分析、数据画像、数据碰撞、网络关系处理分析等技术。前述技术可归纳为数据收集与数据分析。先进技术的聚合决定了大数据企业协助侦查的一般方式,即全景式数据收集与深层次数据分析。
1.全景式数据收集。狭义信息时代①广义的信息时代是信息化时代,阿尔文·托夫勒(Alvin Toffler)认为人类的第三次技术浪潮是信息革命,自20世纪后半叶开始,人类进入信息时代,其对应的是工业时代与农业时代。狭义的信息时代指前互联网时代,尚未产生大数据分析的思维、模式、技术等,其对应的是大数据时代。的数据收集模式是静态的、范围狭窄的、被动的、滞后的。而大数据时代的数据收集模式是动态的、范围广泛的、自动的、及时的全景式数据收集模式。全景式数据收集模式,时间上表现为永不停止,实时更新;空间上表现为无省界,甚至无国界;内容上表现为有能力记录人与自然的所有信息;格式上表现为结构化数据、半结构化数据、非结构化数据同时存在。高效与多元是全景式数据收集的最显著特征。这给刑事侦查工作建立或“借用”数据库,开展侦查活动提供了数据基础。
第一,高效的数据收集能力。首先,大数据收集技术能在极短的时间内,对一般数据或即时数据快速反应并收集、储存,这是任何时代都无法比拟的。其次,数据更新迅速,借助物联网、互联网、传感器等技术,能实现数据信息实时更新。被更新信息并不会当然因更新而消灭,而是以另一种数据形式储存下来,除非被要求遗忘或删除,否则将永存于数据库深处,随时可以重新调取与其他信息进行碰撞,通过算法分析出时空结论。
第二,多元的数据收集能力。首先,收集数据方式多元。人类进入信息时代以后,数据收集方式从运营式系统的被动收集时代,到用户原创内容的主动收集时代,再到感知式系统的自动收集时代。三种数据收集方式先后出现,却未互相替代,而是形成并存模式。②运营式系统指数据伴随着商业运营活动而被储存在系统当中,比如超市每销售出一件产品就会在数据库中产生相应的一条销售记录;原创内容阶段指用户主动根据自我意愿将日志、数据保留在网络上,如以微信、微博、抖音等新型社媒体或自媒体以及便携的全天候联网的智能手机;感知式系统指微小的带有处理功能的传感器,将这些设备广泛地布置于社会的各个角落,通过这些设备来对整个社会的运转进行监控,如监控摄像头、人脸识别机等。此外,数据储存格式多元。进入大数据时代,信息系统内的数据格式从过去单一的结构化数据,发展为现在结构化数据、非结构化数据和半结构化数据并存的状态。[2]侦查活动得以对信用卡号码、日期、财务金额、地址等结构化数据进行分析,还可以对音频、图片、图像、文档等半结构化,或日志文件、XML文档、JSON文档等非结构化数据加以比对与挖掘。[3]
2.深层次数据分析。除了全景式收集数据以外,大数据技术还具有强大的分析与挖掘能力。在侦查活动中,大数据分析体现为数据挖掘、数据画像、网络关系处理等,以大数据挖掘这一核心技术为例,计算机系统对大数据库中的数据进行提取、清洗、降噪、修复,建立待处理的数据集,再对之分类、聚类,最后通过神经网络等数据算法揭示深层次关系与规律,并以人类易于理解的可视化方式给出变量将其融合在一起,展示并供人类分析和利用。[4]在刑事侦查中,侦查机关可以根据数据库,对所有类别、格式的数据进行挖掘,发现假设犯罪嫌疑人①大数据侦查已经将启动侦查的时间节点置于立案以前,甚至于受案以前。立案作为侦查启动的规定逐渐被虚置。但是,遵循传统认识,将正式立案启动侦查以后的被追诉人称为犯罪嫌疑人。因此,将并未立案侦查,却已经被大数据纳入假定犯罪范围的人称为假设犯罪嫌疑人。的行为轨迹、人员关系,以及其他存在相关关系的行为,对犯罪进行预测。
全景式数据收集与深层次数据分析是大数据企业协助侦查的一般方式,其功能是自建模式与大数据企业协助模式都可以实现的。截至目前,我国公安机关内网建成的各类信息系统已达7 000多个,已建成八大全国性公安基础信息库②八大全国性公安基础信息库:全国重大案件、出逃人员、出所人员、违法人员、盗抢汽车、未名尸体、失踪人员、杀人案件信息库。,存储了数百亿条基础数据。[5]且自2003年“金盾工程”启动以来,侦查机关大量引进技术型侦查人才,已经拥有了一定的大数据运用能力与丰富的数据分析经验。但是大数据企业在技术和法律制度层面还有其独特优势。大数据企业全面而深入的参与,使侦查工作呈现出多主体参与、第三方协助[6]的特征。技术层面上,大数据企业将大数据“4V”特征推向了极致;法律制度层面上,其能弥补国际刑事司法协助制度的僵化与低效缺陷、减少强迫犯罪嫌疑人自证其罪的危险。
1.技术优势。首先,大数据企业收集方式更精准。以巨头企业为例,用户的某一方面数据为关键生产要素。③协助侦查的大数据企业,可分为两种。一种是专为公共部门提供数据服务而设立的软件开发公司,可称为专业公司。如深圳源中瑞科技有限公司,致力于公安系统、金融交易系统、智慧园区系统和区块链应用等高端软件产品研发;另一种是已具备规模的大数据巨头企业,这些公司已经建成巨量数据库,并具备成熟的数据分析能力,可称为巨头公司。巨头公司通过签订合作协议等方式与侦查机关建立联系,将协助侦查作为其新业务。如阿里巴巴及蚂蚁金服与辽宁省公安厅签署协议建设智慧警务;福建省公安厅与腾讯公司签署“互联网+警务”战略合作协议;苏州市反通讯网络诈骗中心与百度公司签署合作框架协议,共建“打击新型犯罪联合实验室”。一则,集中要素投入对某一类数据的收集;二则,用户与其发生关系的场合正是其要素集中投入的领域。其次,大数据企业收集渠道更综合。大数据企业可以实现被动、自动收集共同运作,通过云端收集用户信息,使用分布式储存与运算技术,克服局域网以及固态储存的缺陷。再次,大数据企业及时更新数据能力更强。他们集中资源投入到最为精密、高效的数据收集技术开发中,以把握最前端的风向,实现商业供需预测。囿于职能封闭性与资金有限性,侦查机关自建模式更注重对结构化信息的收集。最后,大数据企业分析能力更强。大数据企业将挖掘数据作为日常业务,而侦查机关将收集数据作为日常工作。面对同一数据,大数据企业往往比侦查机关走得更远,侦查机关要了解某一特定信息,不需再重复基础挖掘工作,只需对大数据企业提供的结果进行再分析。
2.法律制度优势。除上述技术优势以外,通过大数据企业进行数据调取与分析,还存在法律制度层面的优势。法律制度优势主要体现在两方面,即弥补刑事司法协助制度的缺陷与减少强迫犯罪嫌疑人自证其罪的危险。[7]
第一,当前,快速获取境外电子数据以有效打击犯罪的现实需求与传统冗长、低效甚至失效的司法协助机制之间存在矛盾。[8]在传统国际刑事司法协助机制难以及时有效满足取证需求的背景下,向大数据企业直接调取数据成为一种新型路径。[9]大数据企业运行模式灵活,许多互联网公司触角涉及全球。④如腾讯云在全球已经开放27个地理区域,运营68个可用区,涉及北美地区、欧洲地区、非洲地区、亚太地区等。大数据企业跨境获取数据,能形成相对“柔和”且高效的模式,对于跨境打击网络犯罪、职务犯罪、恐怖活动犯罪等具有重大意义。
第二,能够降低强迫犯罪嫌疑人自证其罪的可能性。侦查机关若不能通过自建的数据库对证明被追诉人实施某些行为的证据加以收集,就需要被追诉人提供供述,一旦被追诉人声称其供述是因遭到刑讯、威胁、引诱等手段而作出,其证据合法性可能被质疑,甚至导致某些具有高度证明价值的证据被排除。大数据企业的协助有助于侦查机关从更为广阔的视角和广泛的信息中收集、分析,对于降低依赖口供的程度具有重大意义。尽管大数据是否可以作为证据、实质证据还是辅助证据等问题暂无定论[10],至少大数据企业的协助有助于收集线索与情报,为侦查人员提供侦查思路与方向。
大数据企业协助侦查模式展现出自建模式所不能及的优势。但因而沉迷于大数据企业协助模式带来的好处,可能使侦查机关过度依赖大数据企业,对其带来的隐患缺乏准确的认识与判断。这需要立法者给予高度重视,以免出现“数据独裁”“数据垄断”的异化现象。侦查机关以刑事侦查为名调取个人信息,仿佛为其实施的任何数据收集与处理行为做了合法背书;此外,过分强调数据共享,不仅加剧了个人信息泄露、隐私受到侵犯的隐患,还带来了商业秘密泄露的风险;过分依赖大数据企业提供的算法结论,还可能直接冲击侦查职能的行使。
根据《个人信息保护法》第4条规定,个人信息指“以电子或者其他方式记录的与已识别或者可识别的自然人有关的各种信息,不包括匿名化处理后的信息”。因此,匿名化处理后,且无法与其他信息结合识别自然人身份以外的信息,均为个人信息。《民法典》人格权编以专章规定隐私权与个人信息保护,承认了个人信息的人格权性质。《个人信息保护法》采“个人信息权益”立法表述也承认其人格权本质。[11]大数据企业为刑事侦查机关提供的绝大多数数据都可以直接或间接指向具体的自然人①即便是针对单位犯罪进行数据分析,其集体的意志与行为也是通过对某些个人的行为或意志进行分析而得以推断。,因此大都属于承载个人信息的数据。
个人信息虽然不如隐私权有绝对的对世权能,但是《民法典》《个人信息保护法》均承认个人信息权利主体享有知情与同意权。②《民法典》第1035条:“处理个人信息的,应当遵循合法、正当、必要原则,不得过度处理,并符合下列条件:(一)征得该自然人或者其监护人同意,但是法律、行政法规另有规定的除外。”第1036条:“处理个人信息,有下列情形之一的,行为人不承担民事责任:(一)在该自然人或者其监护人同意的范围内合理实施的行为;(二)合理处理该自然人自行公开的或者其他已经合法公开的信息,但是该自然人明确拒绝或者处理该信息侵害其重大利益的除外。”《个人信息保护法》第30条:“个人信息处理者处理敏感个人信息的,除本法第17条第1款规定的事项外,还应当向个人告知处理敏感个人信息的必要性以及对个人权益的影响;依照本法规定可以不向个人告知的除外。”知情与同意的权能构成权利主体对权利的控制。然而,当前有关大数据企业协助侦查涉及个人信息的规定,主要围绕侦查机关与大数据企业双方,而对个人信息权利主体对个人信息的控制关注较少。即便对其知情权有所保护,但也总是为刑事侦查规定了列外,且对这些列外的自由裁量权过大。面对刑事侦查,个人信息权利主体的同意权更是难以体现。如《刑事诉讼法》第154条规定,在技术侦查中采取不暴露技术方法的措施;《个人信息保护法》第13条第3款、第4款规定,为履行法定职责或者法定义务所必需、为应对公共卫生事件或者紧急情况下保护生命健康与财产时,个人信息处理者方可在未取得个人同意时处理个人信息,第18条第1款规定,法律或行政法保密而不需要告知的情形,第2款规定,紧急情况下不需要告知,而事后告知,第35条规定,告知将妨碍国家机关履行法定职责的可以不告知。
可见,涉及个人信息的大数据企业协助侦查活动,仿佛只是大数据企业与侦查机关双方的事情。个人信息权利主体在其中的地位微弱,尽管对其知情同意权有粗疏的规定,但因为规定的列外、侦查机关的威慑力以及大数据企业的技术性结合,实现对自己权利的控制非常难。实际上,信息控制权由信息主体向大数据企业转移,个人对于自身信息的控制能力便被弱化了。[12]当信息主体并非刑事案件被追诉人,其信息仅用作辅助比对,或者侦查机关进行警情预测、摸底排查过程中收集数据时,公民对于大数据侦查中侦查机关收集与使用其个人信息的过程,既不知情,亦无法抗拒。[13]对大数据企业协助侦查适度限制,极为必要。
自党的十八届五中全会提出“创新、协调、绿色、开放、共享”五大发展理念以来,“共享”一词被广为应用。《现代汉语词典》第7版对“共享”的解释为“共同享有;共同享用”。[14]“共享”在大数据协助侦查中,可能使人误解为侦查机关与大数据企业之间建立无差别的数据接口,互相共有或共用数据信息。数据共享,指不同位置使用不同计算机和软件的用户读取、操作、分析彼此拥有的数据。[15]当前,学界对建立数据共享呼声甚嚣尘上,认为应当建立数据共享机制,且不限于侦查机关之间及行政机关跨部门、跨地域,还要加强侦查机关与社会数据的汇集,即加强与大数据企业的共享机制建设。①参见程雷:《大数据侦查的法律控制》,载《中国社会科学》2018年第11期;何军:《大数据与侦查模式变革研究》,载《中国人民公安大学学报(社会科学版)》2015年第1期;翟海,江平:《大数据时代的智慧侦查:维度分析及实现路径》,载《中国刑警学院学报》,2018年第3期;王燃:《大数据侦查》,清华大学出版社2017年版。有学者认为,“创造和完善数据管控机制,在确保数据不被恶意利用的情况下,由原来的单线侦查模式向协同侦查模式转变,是大数据侦查的发展趋势。”[16]也有学者认为,“大数据侦查越来越多地需要与商业机构的数据库互通共享。”[17]还有学者提出,“数据共享机制的建立符合我国大数据总体战略的基本部署,大数据侦查中的共享机制可以从内部和外部两个方面入手。就外部而言,侦查机关应当与一些对侦查工作有密切联系的社会数据库建立共享机制,通过与相关行业签署共建协议、合作协议等方式开放接口获取进入社会数据库的部分权限。”[18]以上观点,均未意识到“数据共享”概念运用到侦查活动中可能加剧个人信息脱离权利主体控制,带来侦查机关内部数据泄露、企业商业秘密遭到侵犯等隐患。
1.加剧个人信息脱离权利主体控制。侦查机关与大数据企业建立共享机制,侦查机关可以直接对大数据企业储存的数据进行收集并处理。《数据安全法》第35条规定有关组织、个人具有配合公安机关为侦查犯罪调取数据的义务,公安机关需经严格的批准手续。②《数据安全法》第35条:“公安机关、国家安全机关因依法维护国家安全或者侦查犯罪的需要调取数据,应当按照国家有关规定,经过严格的批准手续,依法进行,有关组织、个人应当予以配合。”《公安机关办理刑事案件程序规定》 第62条规定:“公安机关向有关单位和个人调取证据,应当经办案部门负责人批准,开具调取证据通知书,明确调取的证据和提供时限。被调取单位及其经办人、持有证据的个人应当在通知书上盖章或者签名,拒绝盖章或者签名的,公安机关应当注明。必要时,应当采用录音录像方式固定证据内容及取证过程。”可见,侦查机关调取大数据企业数据仅需要办案机关负责人批准,对于数据调取请求是否属于《个人信息保护法》第14条第3款、第4款规定的“为履行法定职责或者法定义务所必需;为应对突发公共卫生事件,或者紧急情况下为保护自然人的生命健康和财产安全所必需”由侦查机关判断。建立大数据共享机制之后,仅有的审查机制也可能因为互通接口而形同虚设。即使大数据企业已经规定了数据协助审查办法,但是大都限于形式审查,只要相关手续齐全,几乎有求必应。特别是在“滴滴顺风车案”①2018年8月24日14时50分许,钟某在浙江乐清从事滴滴顺风车业务时,通过持刀威胁、胶带捆绑的方式,对被害人赵某某实施抢劫、强奸,后将其杀害并抛尸。公安民警接到报案后,多次向滴滴平台要求调取顺风车主有关信息,滴滴平台以审核与保护用户隐私为由迟延回复,后其行为被认为给及时破案造成障碍。2018年8月26日,滴滴发表声明,自8月27日零时起,在全国范围内下线顺风车业务。暴露出大数据企业在数据调取应急处理机制上的缺陷后,一方面,对于大数据企业拥有对安全事件风险自由裁量的能力越发怀疑;另一方面,该事件直接导致滴滴顺风车业务下架给大数据企业带来的威慑,共同使大数据企业面对侦查机关的协助要求时不敢怠慢。在此情况下,可用以分析个人信息的一切数据都可能因为数据共享而被侦查机关随意获取,此时个人信息的权利人连数据被收集都毫不知情,更不必说行使同意权或要求更改与删除的权利。
2.侦查机关数据泄露风险。建立完全无关卡的信息接口与通道,侦查机关可以随时从大数据企业的数据库中调取数据。反之,大数据企业亦可能通过接口与通道,进入侦查机关自建数据库。而大数据企业与侦查机关在属性上有本质差异,前者是商业机构,以逐利为目标。一旦大数据企业通过黑客或其他技术进入侦查机关的自建数据库,侦查机关内部数据泄露,将滋生以下风险:
第一,大数据企业可能获取侦查机关的刑事办案数据。例如,具有征信业务经营许可证的企业,可能因为采集到侦查机关中关于某人曾被侦查机关列为“假设犯罪嫌疑人”信息,而做出带有倾向性甚至歧视性的信用报告。然而,任何人都有可能成为假设犯罪嫌疑人,而非一定是犯罪嫌疑人。随着预防犯罪理念的渗透,防止犯罪发生成为一种新的犯罪治理思路,侦查机关进行日常巡视已经成为常态,被分析的对象可能与刑事案件毫无关系。第二,大数据企业接入侦查机关数据库,可能打破侦查封闭性,违背侦查不公开原则。媒体公审可能影响无罪推定原则之落实,媒体行业大数据企业最有可能成为祸源。诚然,大数据企业已经开始重视数据合规治理,但也无法保证其内部员工或部门通过黑客侵入等方式获取侦查数据,并公之于众,左右侦查,甚至影响司法。第三,若建立双向数据共享机制,可能出现异常的循环分析。大数据企业应侦查机关要求对某一公民某方面或全方面数据进行收集并分析后,将结论反馈给侦查机关。待下一次涉及该公民案件出现时,便以上一次所得的结论作为基础,循环分析,这种分析可能将偏见与错误延续、加深,使数据调取对象深陷这种循环分析的歧视之中。
3.企业商业秘密遭到侵犯的隐患。一方面,大数据企业任意进入共享数据库,可以在共享数据库中通过端口连接,侵犯其他企业的商业秘密。另一方面,侦查机关若将数据信息共享给其他机构,或者数据信息调取后因安全保障措施不力泄露等,数据信息的扩散也极易造成商业秘密泄露等经营风险。[19]因此,共享机制反而为大数据企业窥视或侵犯彼此商业秘密等提供了便利。毕竟,大数据巨头们都有着将触角伸向所有与人类生活相关行业的企图。
综上所述,过分提倡侦查机关与大数据企业建立数据共享机制,可能诱导侦查机关及大数据企业行为失范。应当看到,共享机制不仅给个人信息保护带来隐患,还可能因为侦查机关与大数据企业建立无差别的数据接口与通道,造成侦查机关数据泄露、大数据企业商业秘密遭到侵犯等风险。
舍恩伯格提出:“我们冒险把犯罪的定罪权放在了数据手中,借以表达我们对数据及其分析结果的崇尚,但实际上是一种滥用。”[20]盲目依赖算法结论可能使人类忽视算法偏见、数据质量、数据黑箱等问题,受数据统治而不自知。导致数据滥用的原因有以下方面:
第一,算法偏见难以消除。有学者认为,“在大数据时代,侦查模式的开启、运行以及终结都与大数据紧密相连,侦查活动主要是基于客观存在的大数据展开的,即更重视客观证据在侦查活动中的作用,而侦查人员积累的主观办案经验在侦查活动中的作用有所削弱。”[21]这是一种非此即彼的不当说法,大数据运用于侦查并不当然地削弱侦查人员的主观意志,尤其是大数据企业协助侦查,反而会出现科技工作人员的主观意志替代侦查人员主观经验的情况。整个数据的收集与分析过程看似自动运算,却无时无刻不体现人的思想与意志。而算法设计者,多为理工科人才,不仅缺少法律人的思维,也对国家的法律法规不甚了解,对法律现象抱有个人偏见,其偏向技术线性思维与逐利心理。这可能导致算法设计人员将个人的价值观编入算法当中,且不为人知,使算法产生偏见。在美国,Compass等犯罪预测软件已经暴露了算法偏见问题,并由此引发了民众对司法不公的担忧。该类软件依据犯罪嫌疑人过去的犯罪历史等多维度数据计算并预测其人身危险性。尽管大数据计算方法使之看似客观公正,但是,在算法、模型及测试问题的设计中,几乎都隐含着种族歧视、性别歧视等偏见。[22]威斯康星州诉卢米斯案中(Wisconsin v.Loomis),被告人卢米斯针对评定其危险性的Compass软件算法提起上诉,认为算法具有歧视性。[23]虽然最终被告人上诉失败,但是这体现出在算法缺乏透明性的情况下,很难不让人怀疑其正当性。[24]在我国,大数据企业参与侦查正在兴起,对侦查机关及大数据企业规制尚且不足,公民对技术给法律带来的威胁认识程度不高,算法偏见很难被察觉。大数据企业手握算法的绝对解释与控制权,算法偏见难以被发现并消除。
第二,数据质量参差不齐。数据量大不等于数据价值大,相反可能意味着数据垃圾泛滥,数据分析结果受制于数据质量。[25]数据的质量受制于形成的环境及目的。如果数据的生成环境污浊,将影响数据的质量,进而影响数据分析与挖掘结果的质量。低质量的数据结论不具有说明问题的价值,是不值得采纳的。若数据质量得不到保证,盲目依赖数据算法结论,可能出现数据泡沫,结论便经不起推敲。
第三,算法黑箱暗不可测。许多学者对大数据作为证据使用持积极接受态度。比如有学者认为,“未来的证据法当中,大数据分析报告有必要单列出来作为独立的证据种类,而大数据中那些跟案件相关的数据信息,可以纳入‘电子数据’这一既有的法定证据种类范畴。”[26]另有学者认为,“首先,依靠大数据证明案件事实已经成为一种客观需要,其次,其符合降低司法证明难度的导向,最后,大数据用作证据具有独到的价值。”[27]然而,不能忽视的是大数据的分析与挖掘过程犹如一个黑箱(Black Box),其具有不透明、不可解释、不可追踪的特点。“算法隐藏在人们难以获取并理解的代码面纱后面。”[28]将数据收集、分析、挖掘工作交由大数据企业,不仅被收集或分析挖掘数据的对象对算法一无所知,甚至侦查人员对其中的样本来源、质量以及算法编程等也不得而知。若再将算法纳入商业秘密或知识产权的保护范围[29],侦查机关本已稀缺的技术型侦查人员也将陷入无尽茫然之中。此时,不仅辩护权难以得到充分保障,侦查权的行使也将面临正当性危机,大数据企业可能干扰侦查职权的行使,甚至操纵侦查。
大数据企业协助侦查,为侦查机关警情监控、犯罪预测、证据收集等带来技术与法律制度层面的优势,同时也潜藏隐患与风险。前面所述隐患一旦失控,造成的损失无法挽回。立法、司法机关需要找到功能发挥与隐患防范、犯罪治理与权利保护之间的平衡点。《数据安全法》第21条要求分类分级建立数据保护制度,各地方、部门确定本地区、本部门以及相关行业、领域的重要数据具体目录,重点保护被列入目录的数据。当前各地方陆续制定数据条例,其立法目标主要是推动数据作为生产要素服务经济发展,规制侦查机关的数据调取活动并非其主要目的。①如已经生效的 《深圳经济特区数据条例》《上海市数据条例》《浙江省公共数据条例》《重庆市数据条例》等均未针对刑事侦查中数据调取进行数据分类分级,《贵州省大数据安全保护条例》第40条,仅规定大数据企业协助公安机关建立技术接口。不以“知情同意权”为核心进行分类,与当前重视数据安全与个人信息保护的立法趋势②2021年9月1日《中华人民共和国数据安全法》正式生效、2021年11月1日《中华人民共和国个人信息保护法》正式生效、2021年8月1日《最高人民法院关于审理使用人脸识别技术处理个人信息相关民事案件适用法律若干问题的规定》正式生效、工业与信息化部于2021年9月30日发布的《公开征求对〈工业和信息化领域数据安全管理办法(试行)(征求意见稿)〉的意见》等均体现出保护个人信息与数据安全的立法趋势。是相悖的。此外,大数据企业可能通过数据共享接口反向爬取侦查机关或其他企业的数据,导致侦查机关数据泄露,企业商业秘密遭受侵犯等隐患严重;还可能将个人与企业的偏见编入算法,利用黑箱效应干扰甚至操纵侦查,破坏侦查的客观、公正。我们不能忽视或无视这些隐患,需要从侦查机关与大数据企业两个角度入手,寻找一个恰当的机制予以规制。
有鉴于此,笔者提出一种制度构想,即建立统一的大数据企业智库。其核心在于数据调取规则统一、数据单向供给、算法结论严格审查。该机制相较于其他学者仅提出某一种数据分类分级调取规则而言,不仅能解决个人信息、个人隐私泄露的问题,还能解决侦查信息泄露、侦查职权受到干扰、商业秘密遭受侵犯等问题,整体解决大数据企业协助侦查带来的隐患。
在开始对大数据企业智库进行构建之前,需要对智库概念进行简要介绍,形成基本共识。“‘智库’又称思想库,是一种相对稳定且独立运作的政策研究和咨询机构。”[30]智库本是科学化公共政策或决策的孵化器。“智库可以发挥政府理性决策外脑的职能,对政府面临的公共政策难题进行相对独立的、科学理性的分析,并提出各种备选方案,供决策者选择。”[31]将公共决策机制当中的“智库”理念与制度,引入刑事侦查决策是一种借鉴,亦是一项探索。大数据企业作为大数据企业智库中的“专家”,在智库的统一规则约束下,利用大数据技术,提供科学的咨询建议,协助侦查。
个人信息逐渐脱离权利人控制似乎是大数据时代无法避免的缺陷,以个人信息换取产品或服务类似于以物易物的交易模式。但双方之间发生这种交易,并不代表权利人放弃对个人信息的控制,大数据企业对侦查机关的调取有求必应,可能对个人信息、隐私权造成侵害。大数据企业智库的核心之一是统一分类分级数据调取规则。统一的含义包括地域统一与规则统一。地域统一要求从国家层面建立统一的数据分类分级调取规则,而不是各地方建立不同标准、设置不同类别的规则。建议由公安部牵头,工信部等其他个人信息保护职责部门协调制定侦查机关调取数据的分类分级规则,这和《数据安全法》及各地方制定的旨在服务于经济发展的“因地制宜”模式有所不同。打击犯罪与保护个人信息之间的关系不会因地域的不同而呈现出极大差异。规则统一是具体分类分级规则的统一,这也是本部分的重点。下文将视野短暂投入美国与欧盟,借鉴域外优良之处,制定适合我国的,以知情同意为核心的分类分级调取规则。
美国已经形成了相对完整且成熟的分类数据调取规则。不仅体现在立法层面,还体现在大数据企业制定数据调取申请的审查标准等规定当中。立法层面,美国通过《宪法第四修正案》及相关判例,确定了以合理期待的隐私权与第三方原则作为确认数据调取的边界。凯茨(Katz)案中,斯图尔特(Stewart)大法官写道:“一个人故意向公众公开的内容,即使是在他自己家中或办公室,也不受第四修正案保护。但他寻求保护的私人物品,即使在公众可以进入的区域,也可能受到宪法保护。”[32]前半句表达的是第三方原则,后半部分则是对隐私权合理期待原则的形象阐释。通过《存储通信法》将电子记录大致分为三类,包括基本的用户和会话信息[33]、非内容数据[34]、内容数据[35],《电子通信隐私法》针对数据分类确立了包括传票、法庭命令、搜查令三种令状,而传票又可分为传票和传票加事先通知订阅者或者用户两种,法庭命令分为法庭命令和法庭命令加事先通知订阅者或者用户两种。前述令状共同构成美国三类五种数据调取分类分级令状制度。大数据企业方面,苹果公司、谷歌公司、微软公司等均制定了不同的审查标准,对于侦查机关的不同令状,大数据企业限定了提供数据的范围,可接受或者拒绝,亦可提出异议。从各公司的规定当中可以看到,“大数据企业在配合执法机构提供信息时区分了数据的类型,对隐私性强的内容信息保护力度也更大。”[36]
欧盟通过《新电子证据调取规则》(New EU Rules to Obtain Electronic Evidence),将数据分为用户数据(subscriber data)、接入数据(access data)、交互数据(transactional data)和内容数据(contentdata)四类。根据调取数据的请求主体不同,又分为三类调取规则,具体为:第一,法官能够直接调取用户数据、接入数据、交互数据、内容数据四类数据;第二,检察官能够直接调取用户数据、接入数据,调取交互数据、内容数据需要经法官批准;第三,警察调取四类数据均需要经过检察官或法官批准。[37]但是根据欧洲刑警组织2021年发布的SIRIUS项目第三次报告,当前欧洲各国向企业调取数据的一大障碍即在于响应时间过长。[38]
由上可见,美国和欧盟均对数据进行分类,并将该分类对应数据调取规则,形成了统一的分类分级数据调取规则。但是对个人隐私保护要求更高的欧盟存在响应时间过长的问题,且根据数据主体区分数据调取规则的模式,并不适合我国以侦查机关为数据调取主要主体的情形。因此,建议借鉴美国的数据调取规则,以知情同意权为核心,建立统一的分类分级数据调取规则。
我国的规定尚不具体,调取规则未根据数据分类进行细分。虽然《公安机关办理刑事案件程序规定》①《公安机关办理刑事案件程序规定》第62条:“公安机关向有关单位和个人调取证据,应当经办案部门负责人批准,开具调取证据通知书,明确调取的证据和提供时限。被调取单位及其经办人、持有证据的个人应当在通知书上盖章或者签名,拒绝盖章或者签名的,公安机关应当注明。必要时,应当采用录音录像方式固定证据内容及取证过程。”《公安机关办理刑事案件电子数据取证规则》②《公安机关办理刑事案件电子数据取证规则》第41条:“公安机关向有关单位和个人调取电子数据,应当经办案部门负责人批准,开具《调取证据通知书》,注明需要调取电子数据的相关信息,通知电子数据持有人、网络服务提供者或者有关部门执行。被调取单位、个人应当在通知书回执上签名或者盖章,并附完整性校验值等保护电子数据完整性方法的说明,被调取单位、个人拒绝盖章、签名或者附说明的,公安机关应当注明。必要时,应当采用录音或者录像等方式固定证据内容及取证过程。公安机关应当协助因客观条件限制无法保护电子数据完整性的被调取单位、个人进行电子数据完整性的保护。”对数据调取所需的手续有所规定,但是又规定了手续缺失的补救措施,如允许公安机关注明替代被调取对象盖章或签字,且该规则未制定分类的数据调取标准。《数据安全法》第21条③《数据安全法》第21条:“国家建立数据分类保护制度,根据数据在经济社会发展中的重要程度,以及一旦遭到篡改、破坏、泄露或者非法获取、非法利用,对国家安全、公共利益或者个人、组织合法权益造成的危害程度,对数据实行分类保护。国家数据安全工作协调机制统筹协调有关部门制定重要数据目录,加强对重要数据的保护。”虽然将数据分为核心数据、重要数据和一般数据,但是没有将该分类与侦查当中的数据调取活动进行衔接,设置相应的分类规则。大数据企业方面,《数据安全法》第35条④《数据安全法》第35条:“公安机关、国家安全机关因依法维护国家安全或者侦查犯罪的需要调取数据,应当按照国家有关规定,经过严格的批准手续,依法进行,有关组织、个人应当予以配合。”为大数据企业设定了配合义务,而大数据企业对于调取申请未设置分类的审查制度。甚至出现了大数据企业制定的标准与法律不适配的现象,如腾讯的隐私政策规定“为遵守有效的法律程序条款,如传票、法院命令或搜查令,我们可能在获得或未获得您同意的情况下做出这些披露。”腾讯的隐私政策对不同的令状文书进行了区分,但我国侦查制度却未予以配套,企业行为似乎已经走在了立法机关的前面。统一的大数据企业智库将以知情同意权为核心,建立分类明确、标准统一的数据调取机制。
第一,统一分类分级的数据调取规则。根据数据是否匿名,将其分为匿名数据与非匿名数据,收集匿名数据无须权利人知情并同意。一方面,匿名数据难以对应权利主体,个人信息权利主体不明确;另一方面,《个人信息保护法》第4条明确将匿名处理后的信息排除在个人信息以外。收集非匿名数据需要权利人知情并同意,因为非匿名数据可以精准对应权利人,更容易侵犯个人信息。非匿名数据又可以被调取对象在侦查中的角色为标准,区分为被追诉人一方的数据、被害人一方的数据、其他参与人数据。⑤其他参与人数据:其他参与人包括但不限于证人、鉴定人、翻译人员、其他用以数据比对碰撞的权利主体。对被追诉人及其密切关系人的数据进行收集,应当设置较低限制。为了侦破犯罪,免受外界因素影响,甚至可以不通知被追诉人及其密切关系人,对此可以参照美国“第三方原则”,即“主张公民在自愿移交给第三方机构的记录中没有隐私利益”[39];对被害人一方的数据收集,则应有较严格的限制,应该知情但是无须同意,即只需通知相关人员其数据被收集即可。其原理在于适度收集被害人及其密切关系人的数据信息的价值追求之一,正是保护或救济被害人的更重要权利。对其他参与人的数据进行收集,则应当设置最高的门槛,侦查机关必须通知被调取数据对象,并经其明确同意。因为,其他参与人的数据信息往往仅是辅助侦查的信息,其并非核心数据。即便任何人都有配合打击犯罪的义务,也应当遵循比例原则,尽量做到对公民合法利益侵犯最小化。后两种被调取对象,在侦查终结或刑事诉讼程序结束以后,可以要求侦查机关删除其收集的数据及分析结论。此外,根据数据包含个人信息的内容,还可以区分为注册信息数据、交互信息数据、元数据、内容数据。调取元数据(如通话时间、汇款地点)与注册信息(如用户名、注册时间与地点)的门槛应当较低,即不需要被调取对象知情并同意。调取交互信息应当设置高门槛,即需要被调取对象知情,但无须其同意。调取内容数据则需要设置最高的门槛,不仅要知情,还需要同意。最后,应当将比例原则①第一,侦查中的数据收集行为应满足目的正当性;第二,收集手段需符合妥当性,即审查收集行为的合法性;第三,审查是否符合损害最小原则,重点考察收集数据的范围,时间范围、空间范围、对象范围等;第四,把握狭义的比例原则,对收集行为对个人信息侵害的程度与侦破犯罪所保护的法益之间进行权衡。贯彻始终(见表1)。
表1 数据分类调取规则表
第二,统一令状审查制度。自由权演进的历史恰是法律程序性保护演进的历史,程序层面的令状制度是规范政府信息获取的有效手段。“在美国,《宪法第四修正案》就是通过搜查令状制度对抗‘非法搜查及扣押’,保护公民隐私权的。”[40]除了搜查令以外,美国还形成了传票、法庭命令、搜查令三种调取令状形式。传票可以由执法机关签发,法庭命令和搜查令则必须由法官签发。我国尚未形成分级令状制度。对于大数据是否可以作为搜查的对象亦无明确规定。调取通知书是当前运用最多的一种文书。《关于办理刑事案件收集提取和审查判断电子数据若干问题的规定》第13条规定,调取或提取电子数据时应当制作调取通知书,并对调查通知书应当包含的内容加以列举,取得该文书仅需办案机关内部审批即可。
有学者认为,可以考虑以检察机关作为令状的批准机关,优势在于将令状的核准权交由检察机关,不仅可做到事前控制,而且可在后续的批捕决定、审查起诉阶段对侦查机关收集的证据进行合法性审查,对非法搜查所得证据限制适用,还有助于实现“控辩平等”。[41]笔者认为,可以结合上述数据分类,根据对公民隐私等权利干预的程度,对应不同级别的令状。但由法官批准令状在我国尚不具备制度土壤。因此,可以考虑规定调取通知书继续由侦查机关批准,但是其能收集数据的范围应当受到限制,比如只能调取匿名数据、被追诉人一方数据、元数据及注册信息数据。而搜查令状由检察官决定批准,其所能收集的数据种类更多、范围更广,具有更强的强制性,比如,非匿名数据、被害人一方数据、其他参与人员数据、交互数据及内容数据。
学界呼吁建立数据共享机制已久,但并未对数据共享机制相关理论进行深入探讨。盲目使用数据共享概念,可能带来数据共享主义泛滥的隐患。侦查机关与大数据企业之间建立数据共享机制,可能加剧个人信息脱离权利主体控制,增大个人信息保护的难度,同时带来侦查数据泄露,企业商业秘密遭受侵犯的风险。大数据企业智库另一核心机理能够恰当地应对上述隐患,即以数据单向供给服务替代双向共享机制。
大数据企业智库是智慧咨询组织,不能脱离智库的本质,其仅是为侦查机关提供智慧咨询的“思想库”。一方面,各大数据企业只能为侦查机关提供数据收集与技术分析服务,而不能从侦查机关获取数据或信息,用以服务其商业目的。另一方面,大数据企业智库成员之间的数据并不共享,大数据企业不能通过共享机制获取其他企业的商业数据甚至商业秘密。大数据企业智库这种单向供给数据的机制与众多学者倡导的数据共享机制相比,限定了数据的流动方向与轨迹,即只能从大数据企业向侦查机关单向流动,而不具有分享特点。简而言之,大数据企业智库中的企业成员是大数据服务的提供者,侦查机关是大数据服务的接受者,地位与角色不得颠倒。大数据企业无法也不能获取侦查机关自建数据库的内容,也无法通过侦查机关的自建平台与其他大数据企业设置接口,窥视或侵犯大数据企业之间可能构成商业秘密的数据。
如上分析,大数据企业与侦查机关之间不能出现数据换数据的现象,数据只能从大数据企业流向侦查机关,反之则不能。那么侦查机关用什么来换取大数据企业的数据协助服务呢?完全寄托于社会责任感而保持大数据企业协助侦查的想法,让人不安。必须对两种风险有所警惕,第一,大数据企业设置难以为人发现的“秘密接口”,获取侦查机关储存的大数据;第二,大数据企业通过算法干扰侦查,将其偏见植入算法,以操纵侦查。如何激励大数据企业积极协助侦查,并能防范上述两种风险,是必须回答的衍生问题。
笔者认为,应当以政府购买数据服务的模式建立数据智库。我国现有的政府采购制度能够为数据采购业务提供制度基础。“通过购买数据服务为侦查决策提供帮助应当成为大数据侦查时代的常态化警务模式。目前,天津、北京、上海、山东等地经侦部门都已尝试购买数据服务来提高办案质量与效率,专业化的技术团队为侦查工作注入了新的活力。”[42]但是,政府采购的激励机制并不能对所有大数据企业都奏效。对于一些头部公司而言,政府采购为其带来的收入是极其微薄的。他们更在意协助侦查带来的名誉增值,甚至本就希望以此获取侦查机关的内部数据。名誉增值可以满足,数据获取不能让步。侦查机关可以协同有关部门给予大数据企业更高的社会评价,考虑将其提供大数据服务、协助侦查的工作情况,与征信制度挂钩,对大数据智库成员企业予以更高的征信评价。
大数据企业智库除了建立统一分类分级数据调取制度、设置数据单向供给机制以外,还着重关注对数据、算法、结论可靠性的审查。其原理在于,智库是仅提供咨询的组织,而不是决策机构,智库提供的服务是咨询报告,并非决策方案。接受服务的侦查机关应当对提供咨询的主体、程序、算法、结论等严格审查筛选,不能将咨询意见直接作为决策依据,以免侦查活动中决策权的流失。对于数据、算法、结论的审查需要从两个维度进行。一方面,对大数据企业资质、能力、技术条件进行审查,决定是否赋予大数据企业进入智库,提供咨询服务的资格。以此,保证数据质量,提高算法中立自觉性,保证算法结论不被更改。另一方面,也是更为重要的一方面,对于已经调取的数据或已经获得的智库咨询,建立统一的审查、甄别机制。对于算法偏见、数据质量、数据黑箱始终保持警惕,设置严格的审查机制,提高数据审查装备水平,并着重培养数据审查人才队伍。就建立统一的审查和甄别机制而言,提出以下三点设想:
第一,建立统一的算法审查标准与程序。算法偏见是大数据企业干扰、误导,甚至操纵侦查的弊病之源。技术人员可能将自己、企业实际控制人的思想倾向编写到算法当中。有学者提出,可以“建立算法备案机制,指算法研发结束投入应用前,应按照一定程序将算法有关材料向行业自律组织报送备案,接受备案的组织依法对其合理性等进行审查与处理的一种事前监督制度。”[43]笔者认为,最重要的是强调审查标准与审查程序的建立,当前各地方自建“智慧警务”是普遍状态,而各地设置的数据审查标准与审查程序存在不同。各地区思想意识、人才队伍、基础设施、开发技术等条件存在差距,不同的大数据企业也存在数据收集与分析能力差异。通过大数据企业智库机制的建立,从国家层面设置统一的审查标准,可以缓解大数据技术基础不同的问题。
第二,提高清洗数据能力。大数据企业智库应当定期对数据进行清理与整理,将该工作作为常态化工作。与大数据企业相比,侦查机关收集与分析的硬件设施与装备水平不高,审查设备与系统也不如前者。这使得大数据企业提供的数据质量难以得到审查和保证。大数据企业提供的数据咨询报告如果基于次等数据而做出,那么结果将受到质疑。因此,提高审查装备与系统,更新硬件与软件水平,对保证数据质量非常必要。
第三,验证大数据企业提供的算法。大数据智库的本质是咨询机构,而非决策机构,不能直接以大数据企业提供的数据分析结果作为决策依据,必须建立严格的数据审查步骤,逐步进行检验。比如,还原算法、更换数据训练集等方式,验证算法与结论的科学性。侦查机关应当要求大数据企业提供数据资讯结论时,附带对其算法设计进行解释、说明,有条件的情况下,应当对大数据企业提供的算法进行验证。另外,侦查机关还应当重视培养大数据技术型侦查人员,自建专门的数据审查部门。再者,也可筹划建立第三方中立数据审查机构,但是,对于该机构的性质、制度、规则等,是否可以参照鉴定机构进行设计还有待进一步实践与讨论。
大数据企业协助侦查已经成为新时代侦查工作的新常态。大数据企业在为侦查工作提质增效的同时,也隐含着个人信息脱离权利主体、共享主义泛滥、过度依赖算法结论等隐患。为应对隐患,建立统一的大数据企业智库有以下优点:第一,能够整合技术、制度等要素,实现对协助侦查的大数据企业统一监管与规制;第二,能充分发挥大数据企业带来的技术与法律制度优势,将大数据技术之价值最大限度地开发并为侦查机关所用;第三,能降低数据共享主义泛滥给个人信息安全、侦查数据安全、商业秘密安全等带来的不确定性;第四,能避免过度依赖数据算法结论,而使司法陷入数据独裁的灾难发生。需要说明,构建统一的大数据智库仅是应对大数据企业协助侦查隐患的一种制度设想,其必要性、可行性、操作性尚需更多理论探讨与实践检验。笔者愿以此抛砖引玉,引起学界与实务界对大数据企业参与侦查的隐患这一问题的高度重视,并提供多元的解决思路。