隐私计算在大数据侦查中的应用研究

2024-01-03 02:35韩关锋

韩关锋,陈 刚

(1.中国政法大学,北京 100088;2.中国人民公安大学,北京 100038)

一、隐私计算与大数据侦查融合应用的起源背景

数据经济推动人类进入“数据-信息-知识”为核心资源的社会形态,各行各业把完善数据建设、保障数据安全、营造良好生态视为基础性和先导性工程,在刑事司法领域也亟须数据利用和数据安全一体化发展,为数字法治保驾护航。2022 年6 月22 日,习近平总书记在中央全面深化改革委员会第二十六次会议中强调:“要维护国家数据安全,保护个人信息和商业秘密,促进数据高效流通使用、赋能实体经济”[1]。同年6 月23 日,国务院发布《国务院关于加强数字政府建设的指导意见》中,把“坚持改革引领、数据赋能、整体协同、安全可控”作为数字政府建设的基本原则[2]。在大数据侦查中,同样也强调共享不同行业、不同层级、不同区域的数据对案件进行全方位、多角度扫描和分析[3],大数据已然成为侦查的“生产要素”,其对内为调查取证、案件侦破赋能,对外为监测预警、社会治理助力。

但是,随着《网络安全法》《数据安全法》《个人信息保护法》的颁布实施,逐步构建起我国个人信息和隐私保护的法律监管框架,从制度、组织和程序保障上为国家、数据处理者规定了积极和消极的保护义务[4],再加上数据权属、利益分配、价值估算、保密协定等原因,数据被限制了流动范围,这种“数据孤岛”效应对大数据侦查的实施性能和效率造成严重的负面影响:从公安内部来看,大数据的孤岛效应来自制度性的权限设定,高级权限并不掌握在经常、直接的办案人员手中,因此现有的数据共享多数存在于重大、复杂、多发案件的合成作战中,对于基层民警办理的“小案”并不能直接享受该“共享红利”,疫情环境的影响下,跨省调证已经成为制约基层公安机关办案的重要因素。从公安外部看,一方面,部分网络信息业者和行政机关的数据难以被侦查机关直接利用,需要线下人工调证,而线下调证时不可避免涉及人名和案由,容易泄密或对侦查对象造成负面影响。另一方面,公安数据资源还处于休眠状态,未将网络信息业者的实时数据和公安掌握的基础性、标识性数据联合深度开发和综合应用,开展前端预测和风险防范。因此,如何在现有制度框架内打破“信息的牢笼”,在保障数据安全使用的基础上尽可能地推进信息交互、减少信息泄露和滥用成为大数据侦查时代的重要命题,策略性地调适信息保护与价值挖掘之间的冲突,从而实现企业数据二次利用和警务数据共享的价值再延伸。

国内现有研究的解决思路是将数据匿名化,依照《个人信息保护法》第4 条:“个人信息不包括匿名化处理后的信息”,不是个人信息即可自由流动,也就不存在侵权或泄密的威胁。由于国内制度规范对匿名标准的缺失,学者们在比较欧盟“所有合理可能性”标准、美国“个人信息去标识化”标准、英国“蓄意侵入者检验”标准后[5],创造了我国匿名认定的两种路径:一种是功能性匿名[6],在具体环境中检测数据再识别风险,强调特定环境对匿名认定的影响。另一种是流程性匿名[7],在风险控制理念下,开展全流程风险评估,达到预定的匿名阈值视为匿名。两种方法相互取长补短,大有融合之势。总体而言,这两种方法均是以法治完善为出发点,摒弃静态节点管控思维,由虚无的结果导向转为具象化的操作流程,用动态的评估结果弥补现有的规则缺失。

数字时代的法律规则,需要放弃传统习惯上强行干预的方式,重视技术主义路线和策略,从单轨的法治逻辑转化为技术逻辑与法治逻辑并重的法治范式[8]。因此本文期冀从科技治理的角度来弥补数据流通中法律供给不足以及法律治理下的场景化、精细化缺失,将前沿技术工具——隐私计算嵌入现有法律框架,通过技术治理和法律治理之间的内嵌、牵连、塑造以及互释[9],实现数据融合应用和个人信息保护的更优平衡,使数据的利用技术性契合现有法律规范,为行业数据和警务数据之间的互联互通提供可借鉴范式。

二、隐私计算与大数据侦查融合应用的技术论证

(一)技术原理

隐私计算是指通过对所涉及的隐私信息进行描述、度量、评价和融合等操作,形成一套符号化、公式化且具有量化评价标准的计算理论、算法及应用技术[10]。隐私计算并不是一个特定的技术,而是为了实现特定功能的一组技术的统称,通俗而言是指在保护数据本身不对外泄露的前提下实现数据分析计算的一类信息技术。从技术原理上看,隐私计算是包含人工智能、密码学、数据科学等众多领域交叉融合的跨学科技术体系。作为一种新兴技术,隐私计算的技术流派复杂多样,根据其在数据计算过程和结果中采取的技术不同,可以划分为以下三种:以多方安全计算(MPC)为代表的基于密码学的隐私计算技术;以联邦学习(FL)为代表的人工智能和隐私保护融合衍生技术;以可信执行环境(TEE)为代表的基于可信硬件的隐私计算技术。

多方安全计算的核心思想是基于加密算法和协议,在参与方不共享各自数据且没有可信第三方的情况下安全计算约定函数,数据的计算过程和结果均不会泄露原始数据。其底层技术包括秘密分享、不经意传输、混淆电路等密码学技术。其特点是安全性强、去中心化、可以支持通用计算,但是开发难度大、计算效率低[11]。

联邦学习是多方协同训练机器学习模型的新范式,在保证数据不出域的情况下,只传输学习模型的梯度信息进行信息交换、模型聚合,通过“只动模型、不动数据”防止参与方数据泄露。2016年谷歌通过联邦学习利用用户手机本地数据训练键盘输入预测模型,该模型的研发提供了生动的理论研究和实践模板,联邦学习因其在打通多方数据孤岛、增强数据融合的同时防止数据外泄,被称赞“领跑人工智能最后一公里”。

可信执行环境是基于硬件实现隐私计算,在CPU 中打造一个与操作系统分开并行运行的执行计算的独立区域,数据和代码的执行与外部环境隔离,保证机密性和完整性。主要技术特点是能实现隔离执行、远程证明、内存加密、数据封印。其优点是兼顾安全性、通用性、高效性,缺点是信任链与CPU 厂商绑定。

三种技术的共同特点是实现数据的“可用不可见”,对隐私信息的所有权、管理权和使用权分离,保证数据在不出域的情况下安全使用。不同的隐私计算技术在性能、安全性、可信度、通用性上存在差异,需根据场景核心需求选择合适的技术方案,甚至搭配使用不同技术以实现多重功能。

(二)法律定位

隐私计算是一种加强数据安全的技术措施[12]。在现行法律框架下,隐私计算为数据流通与数据保护间的价值平衡提供了一种可行的技术解决方案。传统的数据流通方式有查询、交换、共享、调用、交易五种方式,而数据本身具有可复制、易传播的特性,在传统流通方式下,数据一旦出域则不受所有者掌控,极易导致数据的滥用。隐私计算则通过将数据的所有权、管理权、使用权分离,在不转移或者泄露原始数据的前提下实现数据融合使用,达到数据“可用不可见”的效果。对于网络信息业者其有助于履行安全保障义务,《网络安全法》第42 条、《数据安全法》第27 条、《个人信息保护法》第51 条均对信息处理者提出安全保护义务,通过隐私计算技术可以证明信息处理者已经采取必要措施而不存在过错;对于侦查机关其有助于履行保密防范义务,基于密码学的隐私计算技术不仅不需要可信任的第三方协调运算,数据的所有者在执行指令的过程中也不知悉命令的内容,这种隐匿查询双盲方案有效降低了调查取证过程中涉案人员和证据泄露的风险。

隐私计算是一种准匿名化技术措施。根据《个人信息保护法》,匿名化是无法识别特定自然人且不能复原的过程,绝对的匿名是不存在的也是没有价值的,个体颗粒度的完全丧失会导致数据的使用价值大大降低[13]。在相对匿名的前提下,匿名标准的制度供给不足,而且技术上还存在转译偏差、剩余风险、恶意投毒、推理攻击等漏洞,因此对该技术还需持审慎的态度,不宜过早将其认定为标准化的匿名措施。我国现行制度缺失的情况下,欧盟的《通用数据保护监管法》提供了临摹范本,其将匿名的判定关键——可识别性——明确为“合理识别可能性”,即要综合考虑进行识别的成本、信息处理的目的与具体方式、现有的识别技术及其可能发展,以及信息处理者所采取的组织或技术保护措施失灵的潜在风险等因素[14],而隐私计算的安全性是有严谨的数学推理证明的,只要是经过评估符合安全假设的模型,隔离、关联、推断风险都是可以忽略的,即在“合理可能”的情况下泄露风险近乎为0[15],在可实现的算力和时间条件下达到相对匿名。因此,经过严格的安全风险评估后,当其去标识化程度、算法设计、重识别风险等指标满足隐私的安全要求时,可以将其作为匿名化技术方案的组成部分,这也是摒弃匿名认定的静态取向转为动态把握的必然要求。

(三)安全保障

技术逻辑的本质是社会组织的自我规制,通过隐私技术设计制约公权力的滥用,但技术本身也会存在算法黑箱、算法歧视等问题,需要法治逻辑抑制技术主体的垄断和偏好。现有的理论研究和技术标准对隐私计算只明确了起点和终点,实施过程还欠缺清晰完整的安全保障措施,但主流观点认为应摒弃一劳永逸的“静态认定”方法[16],强调动态化、场景化安全审查,主张从“一体主义”走向“区别规制”[17]。这种动态评估理念的优位,是在理念层面摆脱制度填充的现实诉求和静态判断的机械思维,以可行性的视角,为网络信息业者和侦查机关的数据共享与安全保障提供机制弥合的思维进路。动态评估主要是通过事前评估、事中监测、事后审计,建设闭环式数据流通共享与协同应用风险管控机制。事前通过对模型的性能、安全、基础能力的专项评估,衡量该模型在关键风险节点上的安全性和核心使用场景下的性能表现[18]。事中对数据保护效果持续跟踪评价,从可逆性、延伸控制性、偏差性、复杂性、信息损失性等角度度量使用效果,尤其要关注恶意第三方服务器通过梯度或参数信息反推原始数据或数据方恶意投毒影响整体计算和全局模型走向等行为,虽然网络信息业者、其他行政机关与侦查机关数据共享模型的实质是区域模型:信息并不完全公开,而是在组织内部流通,主体间传播受契约调整和内部章程约束,但仍不能排除内部个体行为。事后要对各参与方的操作日志和结果存证进行审计,对于违背约定的数据提供方、计算方和结果使用方通过存证、审计等方法进行发现、追踪。

除此之外,业界还利用区块链技术数据透明、不易篡改、可追溯的特性,解决隐私计算的信任和安全问题。隐私计算可保护数据安全,但在数据确权与定价、可信存证、恶意节点探查、算法公开等方面存在技术困境;区块链则能通过共识机制在参与方之间建立信任基础,并通过智能合约实现链上数据真实性验证和审计,拥有难以篡改、可溯源等优势,但不能保护数据隐私。区块链具有“可见不可用”的特点,与隐私计算“可用不可见”的特点完美互补,为数据共享提供新的技术路径,实现1+1>2 的效果,尤其是区块链分布式记账和存证能力可以保障隐私计算可信授权管理和可控数字流转,例如在联邦学习中,区块链可以代替联邦学习的中心服务器,为其提供一个安全的数据交换环境[19];在多方安全计算中区块链可以实现原始数据的链上存证核验、计算过程关键数据上链存证,确保数据全生命周期的安全性和计算过程的可检验性[20];操作日志上链存储极大地提高了恶意方造假成本,减低监管难度。

(四)国际趋势

在日趋严格的合规监管、日渐强化的政策引领和日益旺盛的市场需求等多重背景下,隐私计算因从技术角度实现数据价值的共享应用和安全保护,有效促进了数据这一新型生产要素经济价值最大程度的开发而备受世界各国关注[21]。各发达经济体一方面在跨区域对外协定中强势约束数据流动,另一方面兴起技术性数据安全保护方法的政策探索[22]。

英国的解决方案是通过“隐私设计”(Privacy by design),即通过技术+制度的方法实现数据开发利用和保护隐私的平衡,隐私设计通常与匿名技术的实现有关[23],英国信息专员公署(ICO.)在2022 年9 月起草的《匿名、假名和隐私增强技术指南》草案中把隐私计算(privacy enhancing technologies)视为一种有助于匿名的技术,包括但不限于数据聚合、同态加密、差分隐私,这些技术可以实现数据使用最小化原则,并将数据风险降至最低[24]。制度措施是指“数据保护影响评估”(DPIA):一种动态的结构化的方式评估对权利和自由的风险,有助于系统地分析、识别和最小化项目或计划的数据保护风险,它并不强调消除所有风险,只是最小化并确定最低的可接受风险水平,同时证明已经遵守应尽的数据保护义务[25]。

欧盟通过发布技术指南肯定隐私计算在数据安全保护和价值利用中的积极作用。2018 年生效的《通用数据保护条例》(GDPR)是世界上最为严格的数据保护条例,着重强调对个人隐私的保护,在2020 年欧盟法院判定欧盟-美国隐私保护盾无效后,美国无法根据GDPR 从欧盟不经授权获得个人数据,为寻求合规和发展平衡,2021 年1 月,欧盟网络安全局发布《数据保护和隐私中网络安全措施的技术分析》,将安全多方计算确定为数据共享方案的高级技术解决方案[26]。同年6月,欧洲数据保护委员会通过的《数据跨境传输补充措施的最终建议》2.0 版本中,将以加密技术为代表的多方安全计算视为企业已经采取安全保护措施,可以确保为转移的数据提供基本上等同于欧盟内部保证的保护水平[27]。

美国与欧盟截然不同,严格的隐私保护政策不利于美国科技巨头的市场扩张和数据汇集,美国更倾向于采用宽松政策鼓励企业对个人数据的收集和利用,重视个人数据底线保护之上的价值释放。因此在加强对个人信息保护的同时,更加强调为大数据开发利用开辟可能的路径[28]。2022年5 月11 日,美国众议院正式通过了《促进数字隐私技术法案》,该法案认可隐私计算在处理个人隐私时的可预测性、可管理性、可分离性和保密性功能,并通过美国国家科学基金会支持对隐私计算的研究,鼓励公共和私营部门参与技术标准、准则的制订。

三、隐私计算与大数据侦查融合应用的增益助力

“非此即彼”已是明日黄花,“亦此亦彼”才是新时代特征[29]。传统侦查的思维方法和线索情报来源于有限的物理空间和侦查个体经验,侦查过程以侦查机关和犯罪嫌疑人双方互动为主。在数字时代的大数据侦查中,需要依据犯罪时空场景的转换在虚拟和物理社会中来回穿梭,严重依赖网络信息业者所拥有的技术机理和数据基础,现代侦查已经逐渐演化为网络信息业者、侦查机关和犯罪嫌疑人的三方互动,侦查过程还需考虑网络信息行业自身的特点和价值追求,网络信息行业所遵守的不仅是社会和国家制裁的压力,还有源于统治该空间的代码和架构,因此选择恰当的技术手段嵌入法律治理中,不仅有利于延伸网络社会中法律治理手段——事前控制和行为预防,还能迎合主体间不同利益诉求——个人信息保护和数据开发利用。

(一)克服有限理性

网络信息业者、其他行政机关、侦查机关之间的数据流通主要依靠契约调整和内部章程约束,这种理想主义的制度约束追求的是“精致主义”价值观,即现有制度和社会实践暂未实现该价值观,因此在实践中往往会忽略影响制度运行的现实因素,尤其是参与方内部主体因素,这会导致现行规划的执行效果偏离预定目标,具体而言有两方面特征:一是不同程度上背离正式制度,例如,当网络信息业者中内部工作人员收到公安机关发来的查询指令涉及亲友的利益时,在好奇心的趋势下向相关人员核实案由。二是选择更加契合主体现实需求的执行手段,例如基层办案的过程中会把不同权限的数字证书交由同一侦查人员保管使用。这种法教义学式的制度设计会忽略现实中“人”的利益、能力、价值观因素,由此导致了产品的功用与实践需求之间的偏差[30]。制度和规范的牢笼越扎越密,但始终不能克服法教义学的现实弊病,随着网络社会的迅猛发展,有必要对法律制度进行“扩张解释”——“代码即法律”,隐私计算也有与制度类似的规训效果。相较于制度是依靠“软文化”来约束内部人员禁越雷池,隐私计算则通过“硬代码”来限定操作人员的执行范围,其改变了数据交互融合的模式,利用算法或硬件保障数据源、计算过程、计算结果和数据流通环节的安全,防止内部人员泄密,降低数据使用风险、免受隐私泄漏指责,从而实现数据“刚性合规”。

传统的数据流通是基于公开、共享、交易等方式,由于数据可被无限复制传播,数据的权属难以准确鉴定,数据所有者在流转数据价值的过程中丧失对数据的控制,极易造成数据滥用、侵权和不当竞争。隐私计算的核心优势是分离数据所有权、使用权和管理权,开创数据特定用途使用权流通的新范式,把数据的使用权从所有权中分离,通过目的和方法控制,使得数据特定使用权成为有限供应和有限需求,创造数据要素“唯一性”,至此数据流通主体就不再是明文本身,而是数据特定的使用价值[31]。这种特性是大数据侦查中AI 能力的重要补充与延伸,大数据侦查中风险监测和智能预警高度依靠数据基础,规模化且多样化的高质量数据能训练出效果更好的模型,依托于隐私计算技术平台化数据协同应用服务模式的安全保障能力,可以为算法持续进化提供数据补充。

(二)助力数据合规

隐私计算与大数据侦查融合应用的实质是侦查机关通过技术手段扩展外源性数据,强化对公民个人信息的获取和干预,使用不当会造成全景式监控风险、流转风险、失控风险[32]。为应对数据收集和处理中的各类风险,我国构建了一套以“知情-同意”为核心,以“合法公平”“目的正当”“公开透明”“目的限制”“最小必要”“安全可信”为原则的制度保障体系,隐私计算作为一种具有“目的锚定”“机器可读”“访问控制”“输入保密”“结果准确”等特点的技术供给,具有限定数据处理目的、处理范围、保障数据安全、保证数据质量的原生特质[33],有助于推动刑事侦查活动满足“目的限制”“最小必要”“安全可信”的数据合规要求。

“目的限制”即处理目的明确合理且处理行为与处理目的直接相关,传统的数据共享以明文形式交互,侦查机关从第三方主体获得数据后,原数据处理者丧失对数据的有效控制,侦查机关可以超出初始目的的限制进行多场景利用,侦查活动中常见的违规现象就是将刑事侦查获取的大数据用于治安案件或者社会治理,还有超出授权或未经授权使用数据的滥用行为。现有的制度约束主要以增设保密义务、开展事后安全审计、强化检察监督的形式为主,对风险控制效果有限,且具有滞后性和违规黑数,缺少对数据处理“后链路风险”的强制控制能力。隐私计算技术基于“共识处理框架”,在限定数据处理目的和使用范围方面具有原生优势,可以通过技术手段限定计算目标、计算逻辑和计算对象,确保数据流转后被固定在特定初始处理目的和使用范围,侦查机关被强制接受事先约定的技术方案,一旦脱离该方案设定的初始目标,数据难以被二次利用,这就显著降低侦查机关调取数据后一劳永逸的重复使用数据风险。

“最小必要”即对数据的处理应当秉持必要的“谦抑性”,侦查机关应当在打击犯罪与保障人权之间遵循比例原则中的最小侵害原则。隐私计算技术可以使其从数据提供方处收集更少的数据来达到相同的数据处理目的,将“实现处理目的的最小范围”进一步缩小,因此隐私计算技术对最小必要原则的现实落地有着明显的支撑作用。一方面作为一种数据共享措施,可以化解因参与方缺乏沟通共享机制而产生的重复收集、多头收集现象。另一方面隐私计算的原始数据始终储存在数据方的控制域内,不相互传输,计算时只会使用与查询指令有关的数据而不会扩大至无关数据,计算结果与计算指令具有唯一匹配关系,“超范围数据”或“无关数据”由于不符合事前参与方共同设定的计算函数目标而在最开始就被“舍弃”,即在功能可实现的前提下最小范围利用数据。

“确保安全”即具备与所面临的安全风险相匹配的安全能力,并采取足够的管理措施和技术手段,保护个人信息的保密性、完整性、可用性。《数据安全法》和《个人信息保护法》均要求个人信息处理者需要采取相应的技术措施和其他必要措施保障数据安全。传统侦查活动在调取个人信息时采用明文数据的形式,将当事人以及与案件相关人员的信息直接或间接暴露在多方侦查主体之下,极易引发数据泄露、篡改和滥用的安全风险,最常见的就是辅警泄露在履行职责过程中获得的居民身份证记载的公民个人信息,另外传统的风险防范措施,如依靠规章制度、协议约束、应急响应机制等,面临着愈发严峻的挑战。隐私计算技术可以保证原始数据不出域,从源头上减少数据泄露的可能性,以联邦学习为例,侦查机关和第三方企业通过约定的算法协议来进行机器学习,将数据控制在“静态域”中不发生实际交互,只交换“向量化”数据和模型梯度数据来优化各方的模型,不直接共享原始数据,有效保障各方联合处理数据过程中的数据安全。另外,隐私计算通过数据加密处理实现访问限制,只有经过授权的、与计算过程紧密相关的参与方才能获取计算的结果数据,确保数据不会无端扩散至其他无关人员。

(三)提升决策能力

大数据时代的犯罪面临着多元化转变、再生力增强、匿名性提升等特点,传统侦查的滞后型打击、经验型决策、孤岛型情报[34]模式逐渐向以数据空间为场景、以数据为载体、以算法为工具、以数据价值为目的的大数据侦查模式转变[35]。但是现有大数据侦查还面临信息壁垒、挖掘不深、时效性差等技术问题。

隐私计算可在数据维度、数据时效、数据挖掘方面提升大数据侦查能力,通过一体化、合成化、集成化价值分析为大数据侦查插上自动化决策的翅膀。在数据维度方面,隐私计算通过技术设计消解数据泄露和政府监控疑虑,从而满足企业国外创建和上市的合规条件,尤其是针对现行大数据侦查中需要线下调证的互联网企业和保险股票等金融行业,这些多源异构型数据可以从更丰富的侧面为犯罪嫌疑人画像。在数据时效方面,当线下数据可从线上直接利用时,整体数据的产生、整理和联结在短时间内完成整合,统计数据的时效性得以充分的显现,犯罪控制的时间节点不断前移,以风险监测和智能预警为代表的侦查人工智能将更加准确、及时。在数据挖掘方面,以联邦学习为代表的多方协同训练机器学习模型将使公安实践中查询和搜索功能转向数据间关联分析,促进从单一碎片化的静态数据分析到整体集约化的实时数据处理,并在更广阔的领域和其他行业数据结合形成新的轨迹分析,加速解构同一主体在线性时间或空间下的行为特征,实现原有数据附加值的整体跃升。例如社会危险性评价:通过隐私计算打通各单位和企业数据壁垒,综合利用通信记录、征信、行政违法记录、社会消费记录、出入场所等数据,不断补充犯罪嫌疑人个性信息,通过特定算法,多维度评价犯罪嫌疑人实时的人身危险性指数,为强制措施适用和变更的提供辅助判断依据。

(四)增进人文关怀

当前大数据侦查实践中过于追求秩序和效率,通过智能技术的应用提升侦查效能,但缺乏对其有效的规范和限制,致使侦查的工具理性不断扩张而价值理性式微[36],大数据侦查要迈向智慧侦查就要实现“智”和“慧”均衡发展,促使科技和人文互动平衡,防止因为“技术异化”而给个人信息安全和伦理道德带来不容忽视的风险。

基于履行法定职责的豁免,侦查机关不需取得个人的同意即可收集个人信息,在公权力的背书下,公安机关汇聚与个人日常生活密切相关的行业数据,数据库的不断汇聚消解了私人空间和公共空间的界限,实现了对人无时无刻地监视,现代社会就如波斯特描述的一座在规训权力控制下的超级全景监狱。同时数字技术和平台商业模式的共同驱动下,隐私的个人管理难以回应数字时代的规模化问题,个人主义的控制模式受到全方位挑战[37]。再加上个人信息保护在刑事侦查中的缺位,侦查权利边界的不断扩张极易引发个人隐私权焦虑。

隐私计算的人文理性在于能将侦查权关在技术的牢笼里,从产品设计的角度强行划定禁区,使用代码限缩侦查权行使的边界,具体而言,在技术设置和应用过程中能不同程度缓解这种忧虑。从技术设置角度来看,现有的大数据侦查需要公安机关将从各方收集的信息裸输至一个处理中心,查询时遍历犯罪嫌疑人所有数据甚至密切关系人的数据,而隐私计算只能获得与查询结果直接相关的数据。原始数据不出域和最小必要原则通过代码的方式嵌入算法设置中,保证侦查权对个人隐私的最小侵害,用技术治理技术的手段保障数据处理安全。从应用过程角度看,隐私计算采取动态评估的方式持续监管,保证参与方履行算法披露义务和查询结果第三方审计追踪,相当于确立了透明可信原则和责任与安全原则[38],用规范来填充、认知、评价算法运作情况,即通过制度治理技术的手段约束数据不被滥用。

四、隐私计算与大数据侦查融合应用的路径分析

对于大数据侦查而言,数据就是养料,需要通过海量的数据进行收集、共享、清洗、比对和挖掘,从而发现案件线索和证据信息。这一系列过程不仅对数据的数量有要求,更重要的是数据的种类必须丰富,能从不同方面刻画行为人的特征,这意味着数据一定是从属于多方。通过隐私计算技术能解决多方数据跨域融合时的信任诉求,基于技术方式构建各方之间的安全信任基础,保证数据在融合计算过程中的安全。即在解决数据隐私保护问题的时候,也解决不同主体间数据孤岛问题,为大数据侦查的数据采集和数据应用提供一种合规的解决方案。

(一)个案查询

查询措施是描绘行为人特征、搜集犯罪证据的主要措施,在侦查过程中,传统查询的实现方式有两种:一种是数据储存在其他单位内部,通过发起协查调回所需要的数据;另一种是数据在单位和公安机关之间共享,通过数字平台查询及时反馈。第一种方式容易向单位泄露侦查目标和侦查思路,第二种方式的实现依赖全数据共享,容易侵害无关人员的个人隐私,因此传统查询方式存在数据泄露和侵权的风险。隐私计算技术下的信息查询是指多方数据集隐私求交和融合,使用非对称密码、秘密分享、差分隐私等技术手段,实现能够支持隐私数据联合查询的应用功能,保护查询过程中查询方查询条件和隐私性以及数据方除查询结果外的数据隐私性,达到数据不出门而能计算,从而杜绝数据缓存、数据泄漏、数据贩卖的可能性,侦查实践中可用于反洗钱、反欺诈等场景。这种信息查询的实现路径有两种,一种是通过算法协议实现匿踪查询,另一种是通过搭建可信执行环境实现。实现的效果有三种,第一是查询方只和数据方进行隐私集合求交(PSI),查询方隐藏被查询对象的关键词或客户id 信息,数据服务方提供匹配的查询结果却无法获知具体对应的查询对象。第二种是查询方不仅获得与数据方的信息交集,还能获得交集元素对应的拓展信息,例如查询对象对应的生理特征或工资收入。第三种是查询方和数据方的隐私双向保护,着重保护了数据方查询结果以外的数据隐私。

(二)联合统计

任何违法犯罪都有一个信息链条,孤立看链条上的每个信息点很难发现异常,运用大数据筛查、比对、碰撞,信息点之间就有了交集、串联,问题线索就能展现出来[39]。因此,大数据侦查需要打通公安机关和其他单位的数据平台,实现数据共享和办案一体化,但是其他单位的数据信息服务平台呈现散落分布状,并未融合至统一的共享体系,甚至整个政府和社会数据产业链处于比较无序的状态,个别地方政府尝试建设大数据共享中心,但其实质只负责建设基础系统,并不重视数据安全保障,导致数据共享的权责界定不清和信任危机,这种中心式的跨机构数据融合方法已经无法适应个人信息保护的新理念。隐私计算为此提供了解决思路,利用多方安全计算技术在建立分散存储标准化数据库的基础上,可以实现分布式的联合统计分析,在数据不出域本地的情况下对多个机构的数据求和,获得其他政法单位甚至政府部门和社会企业的数据库,解决线索维度不足、分布不均无法为数据分析挖掘提供可信结果等方面的问题,同时还能保障数据传输过程和联合计算结果的安全性,不被参与方之外的其他方获取。在抗击新冠肺炎疫情过程中,地方卫健部门就利用安全多方计算技术,实现联合统计并共享结果,实现对病毒流行病学情况的实时追踪和对未来毒株演化的预测。

(三)类案建模

大数据侦查要实现“办一案”到“牵一串”的跨越性目标,就必然需要通过挖掘个案背后存在的共性问题,分析出数据需求和碰撞方向,创建大数据侦查模型,有的放矢地开展比对、碰撞,批量输出问题线索。从落地应用层面来看,基于传统数据联合的人工智能,通常采用简单的数据交互模式,即各个单位和企业提供自己收集的数据,具有建模技术的第三方提供服务,在侦查机关的意愿和目标下构建并训练得到模型。这样会导致两个问题:第一是数据方提供的是全数据,容易对非涉案人员的隐私造成侵害;第二是司法机关因执法活动而获得个人信息使用时“知情-同意”的程序豁免,但第三方企业在建模、运营和维护模型的过程中并不自然延伸获得该豁免,存在数据合规风险。隐私计算可以在数据多元保存的基础上提供分布式的学习环境,实现数据密文传输和隐私保护,将传统的机器学习升级为“带有隐私保护机制的分布式机器学习”,第三方企业只提供技术服务而不需要接收个人数据,相当于只处理模型而不处理个人信息,具言之,在联邦学习或者多方安全计算等技术下,不泄露原始数据、梯度、模型参数,仅通过交互模型中间参数进行模型联合训练,实现数据可用不可见,数据不动模型动的效果,有效解决非涉案人员隐私、第三方数据合规和数据方积极性问题。现有隐私计算技术在数据建模方面可以实现三种功能:各参与方在共有样本的特征维度进行信息扩充的纵向联邦学习;各参与方在相同特征空间中通过样本维度扩充提升模型性能的横向联邦学习;应用于各参与方特征维度、样本维度重叠均很小的联邦迁移学习。

五、隐私计算与大数据侦查融合应用的潜在风险

科学技术的发展进步往往对传统规范体系的基础认知和逻辑、具体规则架构乃至新的制度建构产生重要的影响[40]。隐私计算能够在一定程度上促进数据流通、保护个人信息,有望消弭数据流动和隐私保护的根本性矛盾,但其本质上是一类与其他人工智能技术深度融合的底层技术,对现行法律体系带来的潜在风险也不可忽视,除了因安全、性能、效果等技术问题对法律认定带来的不稳定性,以及算法黑箱、算法歧视、数据投毒等人工智能的通病,隐私计算还会对刑事侦查活动带来独特的挑战。

(一)权属分离减损证据能力

隐私计算能实现数据保护的内在机理在于分离数据的使用权、所有权和管理权,但这又会对证据的证据能力产生负面影响。

一是通过隐私计算技术收集的数据从原始证据变为传来证据。以密码学为代表的隐私计算技术为保证数据传输安全和保密,数据提供方会对原始数据进行加密后发送给侦查机关,侦查机关解密后获得目标数据,数据经过加密和解密过程还是原始证据吗?原始证据和传来证据的本质区别在于是否经过传抄、复制、转述等信息传播中间环节,因为技术设备、主观理解、转述能力等因素的影响,可能会使经过转述的内容发生偏差。数据在加密和解密过程中,存在因技术缺陷和算法设定导致的失真风险,因此更宜认定为传来证据。在刑事诉讼中原始证据具有优先性,传来证据需经过核实无误后才具有与原件同等的证明力,因此通过隐私计算收集的证据其证据能力在初始状态处于能力待定。

二是通过隐私计算技术收集的数据其真实性难以认定。根据《关于办理刑事案件收集提取和审查判断电子数据若干问题的规定》,电子数据在收集过程中应当以扣押存储有涉案电子数据的原始存储介质为原则,其目的是起到固定和保全电子证据的效果,防止证据损毁和篡改。隐私计算权属分离的特征注定侦查机关只能拿到数据的使用权,所有权和管理权仍然保留在第三方平台,数据存在丢失和篡改的潜在风险,容易对电子证据的真实性造成威胁。

(二)技术壁垒冲击正当程序

隐私计算技术服务于查明案件事实这一实体性刑事司法价值的同时,在更深层次对刑事诉讼中控辩平等原则造成了挑战,技术壁垒将进一步拉大控辩双方能力差异,基于形式平等的审前取证与庭审质证所建立起来的刑事诉讼规则将名存实亡。一方面双方收集数据的能力差异导致控辩不平等。隐私计算的核心功能是破除数据孤岛,将分布式储存的数据进行集中式管理,极大缩短侦查机关调取数据所需的时间和精力,这与辩方所面临的人力调取形成鲜明对比,在隐私计算的帮助下,控辩双方的对抗将上升为辩方与司法行政部门和第三方平台整体的对抗。另一方面,数据分析能力差异导致控辩不平等。碎片化信息越多,社会真相就越模糊,个人也就越难以全面还原案件事实,即使政府和社会充分履行证据开示义务,辩方也难以在有限时间内从数据库中有效查找和提取文件。侦查机关可以利用隐私计算技术缩短处理数据信息的时间,指数级的加快它们“向生产力转化的速度”[41]。这种数字鸿沟源于技术治理对工具理性的过度追求,是技术治理在效率和秩序方向上持续扩张的负效应[42],隐私计算使得司法机关与企业缔结了更加紧密的合作关系,而辩方在技术手段方面的非均衡性参与使其更加陷入边缘化境地,这种缺少制约的侦查权运行方式容易导致新型 “侦查中心主义”的复辟。

(三)逻辑差异引发合规争议

在数据合规问题上技术标准不等于法律标准,隐私计算仅仅是侦查机关保护个人信息的一种技术手段,不能和数据合规画等号,武断地认为使用了隐私计算就达到了安全保护目的。而且使用隐私计算进行数据聚合时,仍然无法完全规避法律风险,例如基于联邦学习的交换数据里面含有梯度,梯度仍然可以揭示出一些个人信息的特征,因此隐私计算的使用不能作为逃避法律的挡箭牌,技术只是某种程度上降低了产生后果的风险,归根到底其实还是要看它的情景设置是否合规,数据来源是否合法,数据的授权和使用目的是否正当。其实无论是隐私计算技术还是人工智能技术的使用,法律都不会从合法性上给出确切的定义,法律只关注是否侵犯相关的法益,关注隐私计算在实践中能否很好地落实比例原则、能否显著降低数据泄漏风险。从中国现有法治理论与实践基础来看,技术治理是法律治理的下位概念,是新型的法律治理手段,与传统法律治理手段共同涵摄于法律治理之下[43]。因此隐私计算只是从技术的角度为刑事侦查活动强行划定底线,至于能否达到法律预设的保护目标,还需在具体情境下分析。

结 语

在数据作为核心生产要素的数字时代,大数据侦查的价值显现来源于多元数据的碰撞融合。传统数据利用存在零和博弈的尴尬处境,而这种无法完美的缺憾不应成为禁锢数据流通的理由,隐私计算作为一种新形态的数据连接方式,可以技术性调适数据利用和保护之间的矛盾,在大数据侦查中有广阔的应用场景。对于大海上一艘迷失航向的船来说,任何方向的风都可能是顺风,面对数据价值利用和安全保护这个两难命题,隐私计算不失为一种“技术解”。