原 浩,胡柯洋
(1.江苏竹辉律师事务所,江苏 苏州 215128;2.公安部第三研究所,上海 200031)
随着我国数据安全立法进程不断加速,数据安全合规需求日益增长,隐私计算技术也于近年迎来快速发展。中共中央、国务院于2022年12月2日下发的《关于构建数据基础制度更好发挥数据要素作用的意见》(下称“数据二十条”)提出“原始数据不出域、数据可用不可见”,将进一步激发包含隐私计算在内的安全技术的应用与发展。
作为平衡数据利用与安全保护的有效手段,隐私计算在未来有望成为数据流通的底层基础设施,为数据流通创造条件并保障数据隐私和安全。但由于我国在法律层面尚未对隐私计算的法律属性、法律地位及适用条件等问题进行明确,隐私计算技术缺乏规范性指引,也面临不确定性与合法性风险。
隐私计算是一套融合密码学、数据科学、人工智能、安全硬件等众多领域的跨学科技术体系,基本逻辑是在挖掘、分析、整合数据的过程中维持原始数据的保密性和本地化等安全指标[1],保障数据在流通与融合过程中的“可用不可见”。目前,国内主流观点认为,隐私计算大致分为以安全多方计算为代表的密码学路径、以可信执行环境为代表的硬件路径及以联邦学习为代表的人工智能路径3大技术路径。安全多方计算,即非信任主体在数据相互保密的前提下进行高效融合计算的技术;联邦学习,即在不共享本地数据的前提下,实现机器学习模型多方协同训练的技术;可信执行环境,即通过硬件形成隔离环境以兑现隐私保护承诺的技术[2]。以上不同技术路径下均有相应的密码学或信息学安全理论假设、算法和技术支撑以及标准化推动和厂商支持。
根据数据流动性、计算集中度的不同,隐私计算可以划分为4个不同的象限,即数据流出、集中计算,数据流出、协同计算,数据不流出、协同计算和数据不流出、集中计算。在以上“象限法”的不同路径组合下,安全多方计算是数据流出、协同计算的代表,联邦学习是数据不流出、协同计算的代表,而可信执行环境则是数据不流出、集中计算的代表。
在将“可用不可见”视为隐私计算圭臬的帝王原则下,基于“象限法”的路径必然致使数据不动程序动、模型动等对原则的进一步解释。但是以“数据不动”作为个人信息和隐私安全与否的一个基本前提和评价依据,可能并不符合隐私计算的初衷,也与正在制定中的《信息安全技术 网络数据分类分级要求(征求意见稿)》有关的数据分类分级的构想和未来数据交易产业的发展不完全协调,并会对隐私计算的发展产生自我限制。因此,有必要对隐私计算的对象——数据,重申其基于分类分级产生的特性,以及分类分级对包含隐私计算在内的创新技术产业发展的基础意义。
《信息安全技术 网络数据分类分级要求(征求意见稿)》根据数据加工程度的不同,将数据分为原始数据、脱敏数据、标签数据、统计数据、融合数据。其中,脱敏数据、标签数据、统计数据、融合数据均属于衍生数据。而对原始数据进行脱敏、标签化、统计或融合后产生的衍生数据的安全级别,较之原始数据的安全级别并非必然降低。对数据分类分级的基本认识如下:一方面,不能想当然地认为可以在衍生数据基础上进行数据流动下的集中或协同计算,因此,期待基于衍生数据并在其上架设隐私计算的一般模型和生态可能存在基础性的法律合规风险。另一方面,由于对隐私计算缺乏法定边界的约束,法律也并未强制性地禁止对原始数据进行隐私计算,甚至隐私计算本身就是作为一种降低原始数据敏感程度,并以此提升其安全性而引入的将原始数据衍生化的方法,并不依赖或必须以对数据的分类分级为前提条件。针对原始数据的利用问题,“数据二十条”明确规定:“在保障安全前提下,推动数据处理者依法依规对原始数据进行开发利用,支持数据处理者依法依规行使数据应用相关权利,促进数据使用价值复用与充分利用,促进数据使用权交换和市场化流通。审慎对待原始数据的流转交易行为[3]。”上述原始数据可以依法依规进行开发利用的这一基本立场,也为能否对原始数据进行隐私计算留下了讨论空间。
因此,从根本上,隐私计算需要对原始数据和衍生数据的安全性做出可以经过司法判例验证的回应,论证其是作为一种降低原始数据敏感程度的现有“安全技术”方法,而不是仅对已经脱敏等处理后的非原始数据进行“共享使用”的解决方案,否则其适用性将局限于有限场景而无法成为《个人信息保护法》下的去标识化保护机制,这最终将导致一部分隐私计算被吸纳为密码技术,另一部分隐私计算则弱化为辅助性的支持技术。换言之,需要将隐私计算作为一种法律确认的独立的“个人信息处理”活动,该活动不仅体现在数据使用、交易环节,还在个人信息的形成、收集环节得到了充分考虑和设计。
上述隐私计算的法律定性问题,实际上也是隐私计算相关产业发展现状的反映。当然,厂商和从业者已经注意到隐私计算应用场景特定化的局限性,并从产业、平台等层面开始寻求对整体市场建设的突破。本文认为未来的考虑可能包括在各类数据交易服务商层面整合各类隐私计算技术和路线,形成对数据交易的底层支撑。这就要求隐私计算能够给出数据权属等法律难题的解决方案,或至少能够缓解该等法律问题可能引发的风险。
目前,国内外对数据权属是否作为数据交易的基本前提存在争议,对数据这一“物化”对象,如何构造权利或权能成为摆在法学界和科技哲学界面前的一道难题。尽管通过知识产权的权利构造和无形资产的国际贸易体系,基本解决了现代知识体系的权利和价值问题,但对于如何以及是否需要大费周章对数据进行类似的设计,与数据权属学说相对的部分学说,即数据交易学说认为:即使权属问题不解决,也不会严重影响数据的流通和交易,通过加密、去标识化等方法可以实现对非原始数据的操作,从而实现数据的规模化交易。该观点隐含的前提主要在于社会人的信息交互性和持续性导致的权利对象的固定困难。
如果从这一观点出发,隐私计算可以作为摆脱数据确权这一前提的技术解决方案,但却与本文上述数据分类分级的基本观点存在分歧,同时也无法解决对数据价值的界定和分配问题。例如,目前已知的部分司法案例确认了平台对数据增值部分的权益,但对数据原始贡献方的权益却选择了回避。对于数据原始贡献方,如各类个人信息主体,是否真的不需要通过让渡个人信息获取直接收益,或者收益比例如何确定,仍是真实存在的问题。这一问题如无法得到解决,就可能会导致个人因缺少定价机制而以无法评估其合理性的价格出卖个人信息,以及海量个人信息在暗网平台低价抛售的荒谬个案。进一步则可以预见未来深入虚拟场景下的身份盗用、滥用等复杂问题。
针对数据权属问题引发的困境,“数据二十条”明确规定:“根据数据来源和数据生成特征,分别界定数据生产、流通、使用过程中各参与方享有的合法权利,建立数据资源持有权、数据加工使用权、数据产品经营权等分置的产权运行机制,推进非公共数据按市场化方式‘共同使用、共享收益’的新模式,为激活数据要素价值创造和价值实现提供基础性制度保障[3]。”“数据二十条”以解决市场问题为导向,探索数据产权结构性分置制度,提出数据资源持有权、数据加工使用权、数据产品经营权三权分置的思路,针对当前数据权属问题无法解决,而数据流通合规需求迫切的现状进行了回应。
对于隐私计算是否可能成为支撑数据权属的技术基础之一,或者说是否可以论证隐私计算是“亲和”权属学说的方法以缓和权属学说的焦虑。本文认为,如果将隐私计算作为独立的保护个人信息的数据处理活动,结合目前业界强调的“数据不动”原则,隐私计算具有突显数据权属的法律价值。尽管“数据不动”原则仍有待讨论,隐私计算事实上也可以处理原始数据。因为,如果数据确权不必要,则强调和捍卫数据不动原则就不重要,模糊数据权属和加速流动的增值才更为重要。最终,价值的演化增值和分配差异(如果有分配的话)形成个人主体的落差感,并导致数据供给不足的根本风险。
即使暂时无解,数据权属问题的保留反过来也构成了隐私计算存在的法理基础。换言之,数据尽管不能套用有形物权、知识产权或人格权的法律保护体系,但因其存在传统法律上的权利的某些共同特征,需要通过包括隐私计算在内的安全技术进行必要的保障,对原始数据、衍生数据的各个处理环节进行保护体现数据主体之间的个体身份差异,维系传导中的契约价值关联。这不仅是对数据原始贡献方的价值确认的必要,也为阐释隐私计算的合理性提供了依据。
如上,本文认为隐私计算是否可以同时处理原始数据和衍生数据,进而成为一种独立的数据处理活动,以及隐私计算与数据权属的亲和或排斥的相互作用,构成了其存续合法性的基础问题,也将深刻影响隐私计算产业发展前景。
除合法性问题外,隐私计算还需要解决《网络安全法》《数据安全法》和《个人信息保护法》上的安全问题,在信息论的安全、密码学的安全和安全法上的安全之间形成一种可解释的一致性。
隐私计算技术存在单一技术和复合技术的复杂情况,使得不同安全认识和层级之间需要建立一种互认机制,并最终得到安全法律的认可。例如,可信执行环境作为隐私计算的硬件路径,其中以密码技术作为底层支持;差分隐私作为相对独立的技术,同时也在联邦学习等人工智能场景中广泛运用。但差分隐私构建在信息论的安全基础之上,又与密码学的安全认识存在不同,因此在不同技术安全之间,技术安全与法律安全概念之间达成共识并非易事,最终需要法律解释“一锤定音”。
本文试以端到端加密为例,就密码安全与法律安全间的差距与弥合展开讨论。之所以选取端到端加密,部分原因在于其是真实示例,而且端到端加密与隐私计算的一些基础技术,如差分隐私之间存在微妙的互斥关系,这实际上对立法解释和司法判例均构成潜在困难。如欧盟《通用数据保护条例》(General Data Protection Regulation,GDPR),其本身并未强制要求端到端加密,但根据GDPR第34(3)条规定:“当满足如下情形之一时,不要求控制者告知数据主体其个人数据被泄露的信息:(a)控制者已经采取合适的技术及组织保护措施,并且此类措施已经应用于那些被数据泄露所影响的个人数据中,特别是已经应用那些使得任何未经授权访问的个人都无法辨识个人数据的措施,例如加密技术[4]。”由于端到端加密的核心是限制除接收方外的所有人对传输数据进行访问,其密码学理论和技术解释可以得到GDPR认可,即如果端到端加密得到技术安全验证,则可以豁免或降低运营者的个人数据泄露通知义务。
类似条款在《个人信息保护法》中也有体现。《个人信息保护法》第57条规定:“发生或者可能发生个人信息泄露、篡改、丢失的,个人信息处理者应当立即采取补救措施,并通知履行个人信息保护职责的部门和个人。”但是,“个人信息处理者采取措施能够有效避免信息泄露、篡改、丢失造成危害的,个人信息处理者可以不通知个人。”类似这些条款在隐私计算等安全技术中的具体适用,迫切需要法律的澄清和解释,但目前就单一技术问题或技术间关系的法律解释并非中国法律体系自有要求,因此该工作未来将更多地通过司法个案形式进行回应。通过叠加《信息安全技术 个人信息去标识化效果评估指南》等可量化和可解释指标,为司法个案评价隐私计算《个人信息保护法》规定的最小必要、去标识化或者匿名化法律安全效果提供了更多可能。
由此可知,法律化评价隐私计算的安全性、主动性在于法律本身,但法律,特别是司法不会主动提出和解决不明确、不特定的安全问题。这就需要隐私计算产业界发现和提出安全性验证的法律需求,推动法律回应这些安全问题。从个人信息安全(推广至数据安全、网络安全也基本一致)的本质来讲,信息安全的技术属性意味着不存在绝对的、充分的安全,但法律安全则可以通过司法个案确认在某一时间点和情形下,个人信息处于确定安全的状态——这一“切片”状态对个人而言是需要接受的“绝对”和“充分”的客观安全,也是个人主体的安全主观感受。
基于对隐私计算底层构造基础风险和隐患的意识,国内外行业层面正在进行一些尝试,力图通过数据交易平台建设、标准化技术推动等方式,在发展中解决或降低隐私计算的法律风险。正如本文所述,隐私计算技术和产业确有较其他单一安全技术更多的数据安全前置考虑,其发展可能会反哺或重塑安全法律体系,从宏观层面上涉及对数据权属的评判,以及对数据分类分级的影响等问题,从微观上则包括如何确定隐私计算在《个人信息保护法》提出的“加密、去标识化等安全技术措施”中的定位、个案匿名化评价,以及是否将其纳入算法监管等问题。
对于隐私计算的安全技术措施定位,本文前述认为实务中更多的是多种技术的复合,但整体上倾向于将其界定为一大类去标识化技术,这也与《信息安全技术 网络数据分类分级要求(征求意见稿)》对数据脱敏进行界定的思路一致,但需要指出的是,《信息安全技术 网络数据分类分级要求(征求意见稿)》中“个人信息去标识化、匿名化处理后的数据属于脱敏数据”这一说法本身并不正确。根据《个人信息保护法》,匿名化是指个人信息经过处理无法识别特定自然人且不能复原的过程,匿名化后的数据由于丧失识别性而不属于《个人信息保护法》的规制范畴,而去标识化技术则仅是降低个人信息安全风险的措施,并不会使个人信息丧失识别性进而自动转化为非个人信息。将去标识化、匿名化和脱敏等同解释,实际上不符合《个人信息保护法》的规定,也会给包括隐私计算在内的后续执法、司法带来隐忧。
对于隐私计算会用到多种复杂的密码学算法,面对是否应对其进行算法监管等问题,本文认为应暂缓将其纳入算法备案监管的范畴。这不仅是算法知识产权保护的需要,也是对隐私计算中的算法部分作为一项保护性的安全技术而非推荐性算法的确认,是对隐私计算在《个人信息保护法》下“安全技术措施”的功能确认。
值得注意的是,隐私计算所展现出的蓬勃态势也存在当前技术水平和时间的限定。已有研究表明,隐私计算中的某些底层技术在面对量子计算机时存在安全性问题,如零知识证明是否可以证明安全、全同态加密是否可以实现抗量子,都是呈现出的新风险、新问题。如果能从法理逻辑和平台范式上进行突破,隐私计算或可成为一类整体性的安全技术措施,如若忽视或最终无法解决这些问题,则可能意味着隐私计算大类的拆解,成为其他密码或去标识化技术的细节支撑。