赵精武 周瑞珏
(北京航空航天大学法学院,北京 102206)
在国家治理体系中,数据治理能力已经成为衡量治理能力现代化的重要标准。数据经济需要充足且可用的数据资源解放潜在的社会生产力,数据资源的商业价值远超于以往任何一个时代,用户行为习惯分析、产品服务精准推送和投放等新型商业模式极其依赖海量的用户数据集合,现代商业竞争实际上也可以理解为商业数据资源的争夺。在市场与日俱增的数据流通需求背后,则是监管者和社会公众对数据安全的担忧。依托数据挖掘和清洗技术所形成的“一键式服务”和“推送式服务”看似提供了更为优质的便利化服务,殊不知这些服务优化的基础乃是对用户行为和私密空间的“窥视”。个人数据过度收集、非法收集以及违法买卖等问题推动我国数据安全保护立法活动进程,《网络安全法》《个人信息保护法(草案)》《数据安全法(草案)》等专项立法构建了我国数据安全保护体系的雏形。然而,“一刀切”式的监管方式无助于解决数据流动与数据安全之间的内在冲突,诸如动态监管理论、分类化数据处理规则、全生命周期监管等学说主张试图提供具体可行的解决方案,但或多或少都存在以减损数据流动为代表实现数据安全的倾向。
面对用户数据、隐私信息在流动中难以定量描述和准确定位的治理困局,隐私计算(Privacy Preserving Computing)的概念应运而生,通过对各方主体个人数据处理行为的中和和计算,量化隐私的安全状态,避免大数据关联分析和深度挖掘过程中可能导致的隐私泄露问题,以技术流程平衡确保数据流动与数据安全的同向性[1]。这种兼具隐私保护和数据融合双重功能的新兴技术在金融风险评估、智能医疗问诊和政府数据开放等领域具备广泛的应用前景,但隐私计算带来技术红利的同时也为数据治理提出新的问题:现有法律规范如何评价该项技术应用方式的法律特征?差异化技术路径和多类型主体参与形成了何种法律关系?该项技术如何嵌入现有的数据保护规则体系之中?
在现有的研究成果中,各学科领域有关隐私概念范畴和保护方式的讨论非常常见,但大部分研究成果多是针对隐私保护存在的风险和问题提出定性式的解决方案,鲜有学者对隐私保护的具体方式进行定量研究。国外学者提出过隐私演算理论(Privacy Calculus),该理论依托于假设个人将会考虑其行为对应的未来结果的“行为演算”学说,在经济学层面,当个人选择公开其个人信息时将会权衡相关的成本(风险)和收益。隐私演算理论通常与效用最大化理论、动机期望理论和期望价值理论相结合,本质上是考察隐私信息披露的实际效果[2]。
鉴于现有研究视角的不足和量化研究的实践需求,我国国内学者提出了“面向隐私信息全生命周期保护的计算理论和方法”的隐私计算概念[3]。该项技术依循隐私信息产生、隐私感知、隐私保护、隐私发布/存储/交换、隐私分析、隐私接受者以及隐私销毁等隐私信息全生命周期,整合了所有参与这些活动的行为主体及其具体处理行为,“对隐私信息的所有权、管理权和使用分离时隐私的描述、度量、保护等内容”构建可计算的评估模型。在商业实践领域,隐私计算技术应用模式主要是以量化隐私信息或个人数据处理行为的商业效益和合规评价为核心[4]。一方面,以底层技术架构的形式打破“数据孤岛”的僵局,在加密和保护隐私信息的同时融合不同数据方的数据资源,提升数据要素的使用效率;另一方面,借助区块链技术的可验证性和存储内容不易更改性等技术优势,隐私计算过程可以确保隐私信息全生命周期在存证环节的可回溯,增加数据处理行为的合规性。故而该项技术在医疗、金融、政务、广告营销等领域存在广泛的应用空间,如微众银行FATE平台以名为“联邦学习”的加密分布式及其学习技术为架构,能够在保持参与数据融合处理的法律主体之间相互独立,在同步实现数据隔离和数据无损处理的功能基础上,建立小微企业信贷风控模型,有效控制小微企业的不良贷款率[5]。
现阶段的隐私计算技术仍然存在技术本身尚不成熟、缺乏可靠技术标准以及多方协同数据融合处理需求不明晰等实践问题,需要从技术标准和法律规则两个层面进行预先引导和规划。2021年4月公布的《个人信息保护法(草案二审稿)》明确规定最小化处理、个人信息无损处理、知情同意等个人信息处理规则,但如何认定信息处理者已经充分合理履行了相关法律义务成为立法过程中争论不止的焦点问题,而隐私计算的出现则为数据安全保障义务的履行提供可操作的监管标准。结合现有应用实例和技术路径来看,隐私计算技术对现行数据安全立法体系最大的冲击表现为数据安全保障义务履行认定标准的量化以及创设方向的转型。所谓的认定标准量化是指信息处理者的义务履行认定不再是监管机构和司法机关逐一根据个案特殊情况进行定性分析,而是借助隐私计算与区块链技术相互结合的技术方案,能够对所有参与主体的数据处理行为进行回溯和存证。此外,为了确保最小化处理规则具备足够的可操作性和可预见性,监管机构先后颁布《常见类型移动互联网应用程序必要个人信息范围规定》《APP违法违规收集使用个人信息行为认定方法》等规范性文件,细化个人信息处理活动的“合法、必要且正当”的抽象标准,以信息服务类型和个人数据类型等要素引导信息处理者调整适当的数据收集范围。隐私计算则能够填补最小化处理规则和必要原则在数量层面的标准缺失,在有效记录隐私信息处理的数据数量、类型、来源、范畴等内容的同时,通过预设的隐私安全评估算法评估每项数据处理行为是否属于“满足业务需要的最小数量”。所谓的义务创设方向转型则是指在数据安全保障义务体系的框架内,隐私计算在技术层面为立法者提供有关数据安全原则的诸多解释可能性。以往的数据脱敏、匿名化处理、差分隐私和同态加密等数据保护技术手段往往因为技术的不成熟性而被质疑是否能够真正做到融合处理数据的同时完全祛除“可识别性”,而隐私计算则完全抛弃这些以直接抹除个人数据中身份信息内容的技术逻辑,而是在数据流动和共享过程中记录所有数据处理流程,预防和遏制相关隐私信息的泄露。
在商业实践中,隐私计算主流的技术路径主要包括联邦学习、多方安全计算、可信计算3种,并且具体应用场景也并不是完全以隐私计算作为单一的底层技术,还包括人工智能、区块链等辅助技术[6]。不过,隐私计算以隐私信息处理的全生命周期为优化对象,无论在讨论何种技术路径下的法律关系必然会涉及三类法律主体,一是使用数据的客户,如金融机构、政府部门、医疗机构等需要数据服务来优化和调整实体业务;二是提供隐私计算服务的服务提供商,所有数据处理活动均在其架设的独立系统中进行;三是数据提供方,即持有海量数据的征信机构、保险协会、互联网企业等。典型的隐私计算应用场景可以总结为数据提供方在原始数据不流动的前提下,在服务提供商构建的系统平台处理数据提供方加密处理发送的私密信息,之后再通过系统平台预设的算法向客户提供满足其业务需求的数据处理结果。现阶段的隐私计算技术尚未达到完全成熟的程度,服务提供商所能提供的系统平台同样未曾达到该项技术架构所预期的安全水平。因此,在三方法律关系中,服务提供商并非以第三方平台的身份为客户和数据提供方提供平台化信息服务,而是承担高于一般网络平台的数据安全保障义务。对于数据提供方而言,在数据本地化处理的前提下将加密且无再识别可能性的用户数据上传至隐私计算平台,其法律责任承担的起点是以这些上传数据是否确实采取合理、正当且必要的技术措施,而无需对隐私计算平台内数据泄露或大数据关联分析再次析出用户数据承担法律责任。当然,绝大多数“客户”属于现行立法所规定的“信息处理者”或“网络运营者”,其法律责任的承担范围还需要根据信息处理者的身份进行分类讨论:如果信息控制者(隐私计算服务的客户)是互联网企业等非国家机关或承担行政职能的法定机构时,则根据《民法典》第1038条规定,信息控制者可以在未经自然人同意的情况下,直接向他人提供“经过加工无法识别特定个人且不能复原”的用户数据。此时,倘若信息控制者未尽合理注意义务选择不恰当的隐私计算服务提供商而导致用户个人数据泄露或被再识别,则用户数据显然没有达到“无法识别”和“不可复原”之要求,信息控制者则需要与隐私服务提供商共同向用户承担连带责任。如果信息控制者是国家机关或承担行政职能的法定机构,结合《民法典》第1039条规定的保密义务来看,在选择隐私计算服务时,其承担的注意义务远高于前一类主体,原因在于其获得个人数据或隐私信息的渠道依托国家公权力,相较于平台与用户之间的主动式提供用户数据,自然人实为“被动式”地提供个人数据和隐私信息。
法律对新兴信息技术的回应方式主要包括两类,一是在既有法律规则框架下明确该技术应用场景下的法律关系及其法律责任;二是关注技术本身的发展趋势,在监管层面创设新型法律规则调整技术创新可能产生的新生风险。诚如前述,隐私计算背后的法律关系主要内容是围绕加密后的用户数据权益归属以及法律义务予以展开,基于信息控制者和隐私计算服务客户的双重身份属性,其选择服务提供商仍然受到“平台-用户”这一基础法律关系的影响。事实上,个人数据权益具体内容和行使范围对隐私计算的商业模式和技术路径具有“塑形”作用。数据作为全新的法律客体,打破了“一物一权”式的主客体对应关系,同一个数据之上往往承载数个法律主体的数据权益主张,如企业的数据竞争权益、个人的数据安全权益等。尽管三类法律主体之间的权利义务关系可以依托信息服务合同关系予以解释,但无助于解决“个人数据-加密用户数据-隐私计算处理后数据结果”这三类数据的权益归属。首先,个人数据权益归属于自然人,隐私计算的应用始终应当是以不公开个人数据为优先事项,且数据提供方所提供的用户数据应当删去身份信息的部分;其次,加密用户数据是个人数据技术处理后的形式,本质上不再属于为个人数据范畴,数据提供方可以自由处理;最后,隐私计算处理后数据结果的“收益权”成为难题,在数据提供方与服务使用方不是同一主体时,两类主体是否对数据享有同等水平的数据权益难以定论。最关键的是,能否真正做到匿名化处理一直饱受质疑,加密数据究竟能否完全杜绝再次识别特定自然人的可能性关系到隐私计算技术的应用模式选择。单纯通过创设专项新条款对隐私计算技术所涉及的数据处理活动进行义务限定并不能圆满解释这些义务的正当性基础,因而需要相对灵活的技术标准对隐私计算各阶段的数据处理活动进行技术层面的“监管”。在“知情同意”和“目的性”的个人数据保护规则要求下,数据处理目的或将成为法律规则与技术标准的交汇点(见图1)。一方面,法律规则需要明确隐私计算各阶段所涉及的数据建模行为是否属于“最初的处理目的”以及隐私计算的商业目的正当性边界两个基础问题;另一方面,技术标准则需要明确“匿名化”过程所需要满足的技术要求,保障数据处理目的在技术层面的正当性,即已经采取合理技术手段预防大数据关联分析可能导致的“再识别”风险。
图1 技术标准与法律规则的耦合
隐私计算产业的良性发展离不开法律与技术的互动与回应,而隐私计算技术兼顾商业盈利和合规管理的双重属性,这也决定了互动与回应的基本逻辑并不是单纯的“自上而下”的强监管模式,而是以技术模式嵌入法律规则,将法律义务的履行与技术标准的遵守有机整合。这并非法律人的凭空臆想,而是立足于我国数据安全法律体系的必然结果。
(1)数据安全协作机制需要隐私计算技术补充数据处理活动安全性的监管不足。近期公布的《数据安全法(草案二审稿)》第9条规定了有关部门、行业组织、企业、个人等多方主体共同参与数据安全保护的协作机制,隐私计算与区块链技术的结合应用既能够提升监管机构对信息控制者数据处理业务的监管效率,也能够不可篡改地记录所有数据处理环节,便于在个人数据侵权之诉中提供直接证据。
(2)《个人信息保护法(草案二审稿)》第54条规定了个人信息处理者的个人信息处理活动的定期合规审计义务,这显然与隐私计算的技术特征天然契合,信息控制者可以根据隐私计算记录和评估数据处理活动的合规性,及时甄别是否存在内部违规操作,且自动化处理模式不至于提升信息处理者定期合规审计的经济成本,可谓是优化安全审计义务的重要技术工具。
(3)《民法典》《网络安全法》以及前述草案均提及了保障数据安全和促进数据合理利用并重的立法目标,隐私计算技术的双重属性能够消弭立法者对信息处理者对第三方提供相关数据的安全担忧,因为数据融合使用的过程本身即是数据安全保障义务的履行,非原始数据的加密数据以“数据隔离”的方式保证第三方只能获得用户群体的行为趋势、重大疾病罹患率与其他基础疾病的概率学分布等商用数据结果,而非个体的私密信息。
隐私计算技术终究只是一个技术层面的统称,主流的联邦学习、多方安全计算、可信计算由于基础技术架构的差异性决定了监管规则的设计需要结合技术路径特征分别调整内在的权利义务关系[9]。
在联邦学习模式中,数据商业化处理方式不再是直接针对原始数据进行分析,而是在原始数据本地化的前提下多方主体分别利用本地数据集合优化数据模型和算法结构,之后在系统平台进行整合。该模式绕开了传统机器学习对数据异地处理的直接需求,实现数据安全和开发的融合式应用,但这并不意味着每一次的建模优化和上传均能保障个人数据和隐私信息的不可识别,故而需要监管机构结合技术标准和法律义务强化对隐私计算过程中解密密钥业务处理流程的监管。
在多方安全计算模式中,各方参与主体在无可信任第三方的情况下,分别保密地输入自己所“持有”的数据共同计算某一个模型,并且各自只能获得自己约定的输出结果,而无法获得其他参与者的输出结果。在技术层面,参与主体的输入原始数据行为不会丧失其对数据的控制能力和泄露原始数据,但在“知情同意”的规则层面,输入原始数据行为是否构成超越收集数据目的的“未经同意提供个人信息”仍有存疑,故而监管重心应当置于该技术路径的“隐私属性”,即任何参与主体均不能获得超出其预期的输出结果。例如,多个保险公司意图开发新的车损险险种,但各方持有的原始数据不足以获得恰当的风险评估结论,各保险公司在参与隐私计算过程后仅能获得自己想要预定的车损类型风险水平。
在可信计算模式中,各方主体实质上创设了一个数据隔离平台,基于硬件的访问控制权限实现数据处理活动限定于特定的“可信任执行环境”(Trusted Execution Environment,TEE)中,没有授权代码将无法执行访问数据等操作。TEE环境的搭建以数据完整性、保密性作为根本要求,不过理想的技术状态并不等同于隐私计算的实际状态,同样需要监管机构细化有关TEE环境的安全性以及数据处理和数据加密同步处理的义务性规定,尤其是该技术在涉及敏感的个人数据处理时,需要采用高于一般数据处理活动的技术标准。
隐私计算技术之所以受到如此关注,一个重要原因在于该技术在数据权益归属问题未决的情况下提供了兼顾安全与使用的技术方案,有关个人对数据处理结果的“收益权”、信息处理者的“数据权益买断”、个人数据权益用尽等争议问题也因为处理过程中原始数据的本地化、加密化和非直接接触而不再影响到数据使用行为的正当性评价。但是,联邦学习、多方安全计算和可信计算等技术模式依然不能保证绝对的数据安全,不能排除某些情况下技术处理后的用户数据仍然存在被重新识别的风险,并且隐私计算参与主体的“身份”对外实质构成了“共同信息处理者”。所以,不同的法律主体各自享有何种权益的传统争议开始延伸至全生命周期中数据形态的法律评价以及匿名化、去标识化的法律义务的承担方式等具体问题。对此,立法者有必要从技术整体架构的角度构建相应的监管规则,涵盖数据收集、数据建模、数据分析、隐私感知与保护等诸多环节,评估采用不同技术路径的隐私计算技术是否增加或降低了数据安全风险,以能否实现“可用不可见”“可见不可触”的数据处理目的作为具体法律义务创设的理论依据[10]。此外,在现行的数据安全立法框架下,隐私计算服务提供商的算法模型是否属于“明示处理信息方式”的范畴同样需要加以明确,各方参与主体作为“共同信息处理者”或许将有必要在收集个人数据时告知用户有关隐私计算的安全性,保障用户有关个人数据处理活动的知情权。
从近年来的立法活动来看,数据安全与数据使用并重的立法趋势越发显著,全生命周期保护更是个人数据安全规则创设的立足点,而隐私计算技术作为能够描述、评价和融合隐私信息或个人数据的重要技术创新,能够绕开现行立法无法直接回答数据权益归属的困局直接促成数据安全与数据使用双重目标的实现,有着广阔的应用场景。但技术创新总是伴随着新的安全风险,法律必然需要对此进行及时回应——在技术标准与法律规则的一体化进程中,将隐私计算技术作为数据安全保障义务履行的重要监管技术工作和隐私权、个人数据权益保护的技术型义务。