大数据视角下的个人信息匿名化规则构建

2021-12-03 06:40:53王立梅
关键词:识别性个人信息信息

王立梅

(中国政法大学 刑事司法学院,北京 100089)

在数字技术及网络应用高速发展的信息时代,网络空间与传统社会的交融互嵌已经成为不争的事实。这使得通过部分信息识别到特定自然人成为可能。由个人信息集合构成的原本是虚拟的东西也更多地被我们当做现实的东西加以接受,现在的信息社会更容易被视为一种新的制造业社会,其中的原材料和能量已经被数据和信息所取代,(1)[英]卢恰诺·弗洛里迪:《信息伦理学》,薛平译,上海:上海译文出版社,2018年版,第23页。这都影响到了当前形式下对个人信息的定义方式。伴随着技术的进步,信息处理活动会不断发生变化,对社会产生的影响也会有所不同,所以应当从法律规范的目的出发对个人信息的处理进行界定,使得真正危害到其他人权利的处理行为得到必要的规范。(2)高富平:《个人信息处理:我国个人信息保护法的规范对象》,载《法商研究》2021年第2期。在以互联网重塑信息传播、大数据赋能信息应用等为代表的技术冲击下,个人信息的处理形态已经发生了巨大转变,生成了传统个人信息保护规范所无法妥当评价与规制的风险。

一、个人信息的“可识别性”判断呼唤匿名化处理规则登场

(一)个人信息的定义

个人信息具有载体依赖性,其呈现及传播受制于技术发展的程度与阶段。不同国家和地区对个人信息的定义都有所不同,但是共同点是基本上都认可了个人信息“识别性”为其本质特征,认为通过个人信息可以勾勒出个人的“信息化形象”(3)张新宝:《从隐私到个人信息:利益再衡量的理论与制度安排》,载《中国法学》2015年第3期。。

1968年,联合国国际人权会议首次提出“数据保护”的概念。在探索阶段的立法实践中,有些立法例选择使用“个人数据”(或译为“个人资料”)的用法(4)1970年德国《黑森州个人数据保护法》、1973年瑞典《个人数据法》和1995年欧盟《数据保护指令》。,有些则选择使用“个人信息”(5)1994年韩国《公共机关个人信息保护法》和2003年日本《个人信息保护法》都是对个人信息在数字技术增速发展阶段的法益识别与立法回应。来表达,而对于个人数据或者个人信息的定义,则主要是纯定义式(6)例如德国《联邦数据保护法》(以下简称“BDSG”)以及英国《数据保护法案》(以下简称“DPA”)。或者定义加列举的方式(7)例如欧盟《一般数据保护条例》(以下简称“GDPR”)、美国《2018年加州消费者隐私法案》、日本《个人信息保护法》 。进行界定。

我国对于“个人信息”的定义也主要采用的定义加列举方式,例如《网络安全法》将“个人信息”定义为“以电子或者其他方式记录的能够单独或者与其他信息结合识别自然人个人身份的各种信息,包括但不限于自然人的姓名、出生日期等”(8)《网络安全法》第76条。。《民法典》基本沿用了《网络安全法》的规定,将“个人信息”定义为“以电子或者其他方式记录的能够单独或者与其他信息结合识别特定自然人的各种信息,包括自然人的姓名、出生日期等”(9)《民法典》第1034条第2款。而在《个人信息保护法》“个人信息”的定义中,在“以电子或者其他方式记录的与已识别或者可识别的自然人有关的各种信息”之外,增加了“不包括匿名化处理后的信息”的表述。(10)个人信息保护法》第4条统观各国的立法实践,个人信息的判断标准主要是集中在是否“可识别”,而这一标准面临着文义解释的困境。

(二)个人信息的“可识别性”判断

诚如阿尔希波夫所述,“平衡法律概念的形式确定性与技术发展的问题是个人信息界定中的核心问题”(11)ARKHIPO V, NAUMOV V, The Legal Definition of Personal Data in the Regulatory Environment of the Russian Federation: Between Formal Certainty and Technoligical Development, Computer Law & Security Review, 868(2016).,个人信息的可识别既是一项规范判断,具有规避侵权风险的制度性功用,但因其根植于数字技术的发展,又使得不可识别性的满足条件处于技术前提之下,使得个人信息“可识别性”这一概念所本应具有的相对稳定性被数字技术的发展持久冲击。

个人信息可识别,强调信息与信息主体之间被直接或间接“认出来”的可能性。(12)齐爱民:《大数据时代个人信息保护法国际比较研究》,北京:法律出版社,2015年版,第136页。可识别性观点是对个人信息具有个人权益与社会权益、人格属性与经济属性紧密聚合的外观判断。我国《民法典》和《网络安全法》对个人信息的界定即体现了此种界定方式。该界定方式以概括式描述聚焦识别的效果,并以适当列举作为补充解释,考量可能因技术跃升带来的识别能力突破,基本能够灵活应对日后可能出现的新型个人信息,是一种较为科学的方法。但是“可识别性”这一概念的边界到底在哪里,信息的识别区分度应当如何考虑,信息的结合性识别如何判断等问题,(13)苏宇,高文英:《个人信息的身份识别标准:源流、实践与反思》,载《交大法学》2019年第4期。也都需要以相关分级制度、分类方法,或者通过反方向的阻断达成思路来加以配合。另外仍然需要考虑,当个人信息的“可识别性”已经作为个人信息的通行定义类型并被立法实践采纳后,究竟要以何种标准判断“可识别性”之阻断的达成呢?

(三)个人信息匿名化处理的制度性补位

信息的个人识别属性是天然的,只是在数字技术尚未深度广域应用前,浅层化、碎片化的信息无法聚合起来产生个人识别的效用,故而不生成因个体识别而引致的侵权风险,这是以前的技术发展水平带来的限制所决定的。数字技术广泛应用以后,因个体被识别从而导致的侵权风险随之增加,知情同意原则便是用来解决这一问题,通过数据主体表示知情并且同意的做法,让个人去判断是否要让渡自己的信息以获取某些服务。这是传统的“知情同意”架构,要求网络服务提供者在收集用户的个人信息之前,必须要告知用户他们的信息处理情况,表现出来通常就是以发布隐私声明的方式,让用户在阅读之后作出其同意的意思表示,作为一种合法授权。(14)范为:《大数据时代个人信息保护的路径重构》,载《环球法律评论》2016年第5期。这也是“信息自决权”的一种体现,信息主体对自身信息要拥有控制和选择权,可以决定自身信息要在何时、何地以何种方式被处理。(15)姚岳绒:《论信息自决权作为一项基本权利在我国的证成》,载《政治与法律》2012年第4期。

然而随着技术的发展,信息的数据形态越来越多样,借由信息传达或被解读出来的个人需求越来越深层,指向性越来越明显。信息收集的过程也从个人登记提交为主转变为授权自动提取为主,在移动终端、可穿戴设备等信息提取追踪硬件的发展和大数据等信息分析软件的赋能下,数据的控制者和处理者往往会比信息主体更“了解”信息主体,形成越来越精准的用户画像和行为轨迹。并且在大量应用场景中,信息主体无法意识到自己的授权导致数据控制者和提供者获取了哪些信息,数据的控制者和处理者获取信息并提供服务被概括授权,机构会列出冗长的隐私声明让信息主体同意,这种授权方式对控制者和处理者来说简单快速并且成本非常低。

这样就导致,在传统的知情同意机制的框架之下,点击同意成为了用户获取网络服务之门的唯一钥匙,而发布隐私政策成为网络服务提供者获取用户知情同意时降低风险的首选手段,而实际操作中进行概括授权的时候,信息主体根本不会确切了解到自己提供了哪些东西,因为用户往往会直接越过隐私声明而直接点击同意,既不去阅读也难以理解其中的内容,(16)范为:《大数据时代个人信息保护的路径重构》,载《环球法律评论》2016年第5期。或者即便是了解到了也少有根据自己的需求选择提供信息量大小的权利,导致这一机制事实上被架空。同时,信息的海量聚合生成了社会的整体性风险,单纯以个体同意之名对信息集合不予规制显然是失当的。

对此种处境的反思,可以归纳为在知情同意原则下,数字经济对信息收集及处理的海量征询与真意表达成本的制度性挑战;以及数字技术发展之下,个人信息可识别性会因技术突破而导致其内涵动态扩张的技术性挑战。这些挑战使得个人信息的匿名化成为信息流通和数据再利用的必然之选。例如欧盟《一般数据保护条例》(GDPR)第26条就规定了匿名信息的定义和法律效果:数据保护原则应适用于与已识别或可识别自然人有关的任何信息。因此,该数据保护原则不应适用于匿名信息。同时我国《网络安全法》第42条规定,“网络运营者不得泄露、篡改、毁损其收集的个人信息;未经被收集者同意,不得向他人提供个人信息。但是,经过处理无法识别特定个人且不能复原的除外。”其中的但书部分已经成为了我国个人数据流通中的法律基础,匿名化的信息无需得到个人的同意就可以处理,因为个人信息的特征在于可以识别出特定的自然人,而经过匿名化处理后的信息已经无法识别特定的自然人并且不能复原,所以已经不再属于个人信息。(17)程啸:《论我国民法典中的个人信息合理使用制度》,载《中外法学》2020年第4期。

然而个人数据和非个人数据之间的界限正在变得越来越模糊,关键的原因在于匿名化技术缺乏稳健性,以及将数据分析应用于非个人数据(匿名数据)时被重新识别的风险。并且,经济价值和隐私保护之间的平衡也很难保持,因为重新识别的可能性和识别度似乎正在增加,匿名化的数据越多,数据的用处就会越少,数据共享策略的效果也就越差。我们希望释放出大数据的力量,因为它可以为经济和社会带来改善,但是任何数据都不可能永远是完全匿名的,效用上的微小收益可能会导致更大的隐私损失。(18)Policy Department for Economic, Scientific and Quality of Life Policies, European Union data challenge, European Union(Aug.5,2021),https://www.europarl.europa.eu/RegData/etudes/BRIE/2020/658206/IPOL_BRI(2020)658206_EN.pdf.

对上述双重挑战的制度回应,应以各归其位的思路进行治理:对个人信息进行匿名化处理,建立个人信息匿名化的规范体系,以对知情同意机制在数字经济中的无力进行补位,将个人信息所附着的经济属性剥离于人格属性之外,去除信息的个人识别性,允许其以数据资源的生产要素之样态参与收益分配与市场交换。然而目前存在的匿名化标准尚不完善,还存在一些需要解决的问题。

二、个人信息的匿名化标准及存在的问题

在个人信息匿名化处理过程中,应该注意到,首先,匿名化并不是绝对可以实现的,匿名化本身是在降低再识别风险和保持数据可用性之间寻找平衡的过程,如果数据数量过少;个体数据差异过大导致某些个体有显著特征;或者数据中含有大量人口统计属性或位置数据时,都可能导致匿名化无法实现。其次,匿名化的过程和它的技术实现方式会对重新识别的风险产生直接影响。可以要求匿名化流程将重新识别的风险降低到某个值以下,从而能够实现对该个人信息匿名化的程度进行分析和衡量。任何匿名化流程都应该能够评估风险,并且在一定时间能够对这些风险进行管控。因此,匿名化流程本身具有个性化特征。最后,匿名化后的数据仍然可用,但是必然会对结果数据的利用方式产生影响,同时匿名化数据的再识别风险客观存在。

无论是过于极端的匿名化过程实施标准还是缺乏变动性的认知都是有局限性的。需要在不确定性当中寻求数据安全与数据利用的平衡。应该寻求不同的匿名化技术手段,同时从制度上对参与匿名化过程、匿名化数据处理过程的各个主体都进行规制。

(一)我国的个人信息绝对匿名化标准

2010年,在我国《电子病历系统功能规范(试行)》中运用了匿名化处理的概念,其指出“提供对电子病历进行患者匿名化处理的功能,以便在必要情况下保护患者健康情况等隐私。”但是当时的规定并没有进一步指出匿名化处理的具体要求,因此其与本文所称匿名化处理的概念并不相同。2014年《互联网企业个人信息保护测评标准》第4条规定的“本标准不适用于经不可逆的匿名化或去身份化处理,使信息或信息集合无法合理识别特定用户身份的信息”,则将匿名化与去身份化同等考虑。根据我国《网络安全法》第42条以及《民法典》第1038条的规定,个人信息经过匿名化处理后,如果已经达到无法识别出特定的主体并且无法还原的标准,那么这一信息流通无需征得自然人的同意,这应当成为个人信息匿名化处理的标准。 《信息安全技术 个人信息安全规范》在前述法律规定的基础上进一步进行了应用上的规定,指出匿名化是指“通过对个人信息的技术处理,使得个人信息主体无法被识别出来,并且处理之后的信息不能被复原的过程”(19)《信息安全技术 个人信息安全规范》第3.14条,个人信息经过匿名化处理之后所得到的信息不再属于个人信息,由此便可以脱离《网络安全法》的规制范围。(20)我国《网络安全法》第76条第5款规定,“个人信息,是指以电子或者其他方式记录的能够单独或者与其他信息结合识别自然人个人身份的各种信息,包括但不限于自然人的姓名、出生日期、身份证件号码、个人生物识别信息、住址、电话号码等。”

这一规范体系是对“识别性”个人信息定义模式的应用,同时也是对知情同意原则的补位。只有符合了“不可识别信息主体”以及“无法进行逆向复原”两个标准,才能实现我国个人信息匿名化标准所要追求的法律效果。在个人信息匿名化处理之外,我国还有“去身份化”(21)《中国互联网定向广告用户信息保护去身份化指引》第1条:去身份化是指通过对某项信息或信息的集合(例如数据集)进行变更,以达到去除或模糊个人身份关联信息目的的过程,……但是,去身份化后的信息在某些情况下,仍可能通过数据集或信息进行匹配,重新识别出身份关联信息。“去标识化”(22)《个人信息保护法》第73条第3款:去标识化,是指个人信息经过处理,使其在不借助额外信息的情况下无法识别特定自然人的过程。“假名化”(23)欧盟《一般数据保护条例》(GDPR)第一章第4条第5款规定,“假名化”是指,使通过这样一种方式处理的个人信息,无法再单独识别特定个人的过程。这意味着可以将数据链接到个人的某些标识符会被删除,此类附加信息要被单独保存,并遵守技术和组织措施,以确保个人数据不适于已识别或可识别的个人,但假名数据仍然属于个人数据,要适用GDPR的规定。的概念,对其区别性的明确,有利于聚焦匿名化处理规则的设置目的与潜在问题。匿名化是指个人信息经过处理无法识别特定自然人并且不能复原的过程。而去身份化只是删除或模糊与特定个人有关的信息的过程,经过去身份化处理的信息仍然可能属于个人信息。有学者认为个人信息去身份化最终要实现的是数据的匿名化状态,要确保数据不再具有可识别性,不能识别到或者联系到该个人,(24)金耀:《个人信息去身份的法理基础与规范重塑》,载《法学评论》2017年第3期。这样就模糊了去身份化和匿名化在法律上的区别。对于去身份化而言最大的挑战还是个人身份的再识别行为,是其始终会面临的风险。去标识化并没有强调不能复原,而且还特别指出“在不借助额外信息的情况下无法识别到特定的自然人”,(25)《个人信息保护法》第73条第3款这表示去识别化只是实现了将直接个人信息转化为间接个人信息,依然存在实现个人信息再识别的可能。综上所述,假名化数据、去标识化数据仍然属于个人信息,要适用个人信息保护的规定。

可见,个人信息匿名化指通过技术处理,使得信息不能指向到特定自然人,同时保证信息不能被还原的过程。匿名化技术主要有两种类型,即随机化和一般化。随机化技术可以修改数据的真实性,随机化会使数据本身的属性不太准确,同时保留下它们的整体分布,会排列交换不同主体之间的属性,打破数据和数据主体之间的链接;一般化则意味着主体的数据可以通过改变规模或数量级(例如从城市到国家级别)来进行泛化,K-anonymity 、 L-diversity 、T-closeness 、differential privacy 是一些泛化技术的类型。(26)Dr. F.B. Brokken, Prof. dr. G.R. Renardel de Lavalette, Data Anonymisation in the light of the General Data Protection Regulation, university of Groningen(Aug.5,2021), https://fse.studenttheses.ub.rug.nl/15709/1/thesisDataAnonymisation.pdf.

经过匿名化处理之后的信息不再受到关于个人信息保护法律的调整,因此匿名信息应当有严格的法律标准,即在现有的技术水平和合理成本的限制之下,任何一方使用匿名信息本身或者结合其他一切可以获得的信息都无法再识别出特定的个人,(27)韩旭至:《大数据时代下匿名信息的法律规制》,载《大连理工大学学报(社会科学版)》2018年第4期。这就给个人信息的匿名化过程提出了更高的技术要求,可以避免遗留的身份再识别的问题, 在信息处理的自由度上会大大提升,同时由于不可再识别到个人,其商业价值可能会有所减损。

(二)个人信息绝对匿名化标准面临的风险

我国所设定的绝对匿名化标准已经超越了其自身确立所要解决的挑战,即数字技术发展引发个人信息“可识别性”的动态变化,绝对意义上不可被逆向或追溯的信息提取与处理技术过于理想化。另外,这种在技术上的理想化导致制度安排上的不周全,即并没有对匿名处理之后的剩余风险作出妥当的衔接,没有对大数据视角下信息治理风险链路的延长作出必要的关注。

数字科技的发展变革式地降低了产业链延长所要求的边际成本,使得数据作为一种新兴的生产要素,呈现出新的应用样态:个人对网络服务的消费不必然以金钱为对价,但往往要让渡个人信息,并且无需用户辅以额外的劳动。海量的个人信息成为了网络服务提供者的生产资料,并且该生产资料并不会因为使用或者流转而折损其价值,反而会因聚合与利用而衍生出更多价值。对经过匿名化处理的个人信息不划入个人信息的规制范畴,并在为个人信息匿名化设置了较高的标准之后,还应对剩余风险进行制度安排。

个人信息收集后再利用的三种常见方式包括:在收集初始目的之外使用个人信息、对经过处理后的个人数据形成的增值数据进行使用以及与第三方进行数据的流通。(28)张建文,高悦:“我国个人信息匿名化的法律标准与规则重塑”,载《河北法学》2020年第1期。其中,剩余的风险主要包括以下两类:

第一是处理过程中的泛基准风险。在“技术为王”的数字时代,数据控制者或受委托的数据处理者并不具备同等的技术能力,仅通过规范的方法也无法从事实上改变数据控制者和数据处理者的技术水平。规范层面上需要解决和明确技术准入标准,这有待法律明确,以防止处理者以技术能力不足为借口转嫁责任。该标准判断应该是任一主体采用可能合理的手段是否可以将其识别。(29)以欧盟的实践为例,衡量信息是否可识别的标准即是,“数据控制者及任何第三方”采用“所有可能合理采用的手段”是否可以将其识别。参见欧盟《一般数据保护条例》(GDPR)第26条序言。即以任意主体的识别能力为基准,以合理可能为客观标准。

第二是处理完成后的再识别风险。如果缺乏其他的数据源,很多数据将保持匿名的状态。然而在大数据的推动之下,有越来越多的数据集产生并且被公布。软件算法和分析学的发展使得数据更容易被关联和聚合,这大大增强了人们识别匿名化信息的能力。具体而言,已经匿名化的数据跟其他数据相结合,有可能被重新识别;识别技术的进步也有可能使已经匿名化的信息再次被识别(30)谢琳:《大数据时代个人信息边界的界定》,载《学术研究》2019年第3期。。因此,匿名化已经从一个静态概念演变成一个动态概念,这种识别风险的变化将会对匿名化处理后的数据不再受个人信息保护这一制度设计产生巨大冲击。同时绝对的匿名化与技术发展和社会活动进步相违背,因此匿名化规则必然应当是动态可变的,及时根据现实中技术水平的发展和具体情况的变化作出调整。

(三)匿名化规则构建的必要性

个人信息匿名化因其技术依赖性具有很强的动态波动,无法在技术上形成内在的风险约束。无论采用哪种匿名化技术,都需要从制度设计上既能促使数据控制者和处理者主动完成匿名化任务,又使其依旧保持交换和处理数据的积极性,这可以通过设置数据控制者和处理者主体义务的方法来完成。但是,匿名化的动态变化导致要求有所提升,比如要求数据控制者定期评估剩余风险;评估对识别风险的控制手段是否足够并且匹配;监控并控制识别风险,及时发现新的识别风险;如果有新的识别风险,则需要重新进行匿名化处理。(31)例如在云服务领域,具体守则可以包括:“(1)促进服务提供者以结构化、通用和机器可读的格式转换和传输数据的最佳做法;(2)如果专业用户希望切换到另一个服务提供商或将数据传输回自己的IT系统,确保专业用户在签订合同之前,能够获得足够详细和明确的信息,以了解过程、技术要求、时间框架和收费等最低信息要求;(3)提供认证方案的方法,以更好地比较云服务;(4)提供沟通线路图,以便提升对行为守则的认识。”参见:Article 29 Data Protection Working Party, Opinion 05/2014 on Anonymisation Techniques, WP216, p.4.

例如欧盟的《非个人数据自由流动条例》(以下简称《条例》),为非个人数据自由流动制定了规则体系,其中包括一些对数据控制者和处理者的自我监管要求。为了保证企业之间数据的可携性,(32)可携权的目的是使数据可以从一个IT环境移植到另一个IT环境,可能出于数据处理、利用和保护的目的。《条例》第6条规定了委员会应该鼓励和促进欧盟层面的自我监管行为守则的制定。(33)胡苗苗,胡代芳,崔若雨,等译:《欧盟非个人数据自由流动框架条例指南》,载《北外法学》2020年第1期。除了为促进可携性进行的规范,也包含了为促进个人数据保护而制定的行为准则和认证方式。

在大数据背景之下,必须建立匿名化规则,并依此作出个人信息之上多方权益的平衡。个人信息的风险层级即依据识别性和相关性的程度来确定个人信息的风险程度,已识别的敏感信息风险程度最高,反之匿名化的一般信息则风险程度最低。风险路径就是依据风险程度的高低确立相应的合规义务。(34)周汉华:《探索激励相容的个人数据治理之道——中国个人信息保护法的立法方向》,载《法学研究》2018年第2期。

将个人信息匿名化规则在合规视野下展开探讨,将“权利的控制”转向“情景的识别+风险的控制”以实现“合规的达成”,是一条平衡个人信息利用与数据效益的新进路。同时还要注意强调多元主体之间的合作,加强政府的保护和监管职责,这样配合企业的自我治理和合规手段,才有利于展开更加有效的治理实践。(35)郭春镇,马磊:《大数据时代个人信息问题的回应型治理》,载《法制与社会发展》2020年第2期。

三、个人信息匿名化规则的制度路径

(一)个人信息匿名化处理的差别原则

1.从信息性质出发划分层级

我国目前对匿名化处理的治理思路是,在整体上对侵犯公民个人信息的行为设置了入罪路径,但以比较高的匿名化标准作为门槛,排除了对已经经过匿名化处理之后的信息的涵盖,对再识别行为予以了行政责任框架下的原则性禁止,形成了规制闭环。

从教义学的角度出发,理想化的规制闭环自然需要匹配分类差别化处理的层级标准,否则将会因为标准的模糊性而整体性地侵犯以权限控制为基础的信息自决的个人需求,或者侵犯以数据流动为基础的效益聚合的社会需求。对此,有学者提出两头强化的思路,即“强化个人敏感信息的保护”和“强化个人一般信息的利用”,以期最大限度调和个人信息保护与企业利用信息之间的关系。(36)张新宝:《我国个人信息保护法立法主要矛盾研讨》,载《吉林大学社会科学学报》2018年第5期。

对个人信息匿名化处理的差别考量,根植于对信息个人指向性程度的界限划分。根据信息的个人指向性,个人信息可以分为无个人指向信息、一般个人信息、敏感个人信息。对于个人指向性完全无涉的信息,其流通和利用显然不具备值得法律予以保护的权益关联,故而有学者认为,对于此类信息不需要进行匿名化处理即可流通。(37)张建文,高悦:《我国个人信息匿名化的法律标准与规则重塑》,载《河北法学》2020年第1期。对于敏感个人信息,则聚合了个人的隐私属性和整体的安全属性,比如医疗健康信息,因其匿名化处理对个人指向性的阻隔被复原,将产生被歧视的风险或者紧迫的人身、财产威胁,显然需要施以最为严格和审慎的力度,对于显现为生物特征的基因信息,其流通和聚合分析具有巨大经济价值,但具有极强的人格侵犯风险和种族安全风险。由于当前匿名技术还不完善,应该全面禁止处理特殊类别的敏感数据,比如与基因、种族等有关的数据。

随着信息个人指向性的增强,其隐私挖掘潜能、匿名化解构风险也随之提升,在流通环节,从不需要匿名化处理即可流通,逐渐严格为经过匿名化处理也不可以流通,在这两个极限之间分级分类化的判断,既依托于技术背景的客观判断,也依托于规范背景的价值判断,是一个层级明确的动态体系。为加强规范的明确性,在对于分类差别化原则的应用中,鉴于个人信息的内涵在法律体系中有待统一而明确的界定,以及个人信息可识别性的变化,可采用清单的方式确立匿名化规则的差别对应范围,同时引入个人信息安全影响评估制度,将匿名化处理明确归入信息的处理行为,为我国匿名化标准的剩余风险进行评估。

同时,还要考虑数据控制者所采用的保障措施与其可能引发的风险是否相匹配。当风险过高时,数据控制者还应该进行专业的隐私风险影响评估 ,采取额外的保障措施。(38)可参考英国的“场景中合理使用”作为判定是否合规的标准,而欧盟立法中所贯穿的比例原则也体现了这一点。谢琳:《大数据时代个人信息边界的界定》,载《学术研究》2019年第3期。隐私风险影响评估是一种早期预警系统,其采用的评估措施也应当根据评估对象的风险水平而有所差别,同时并非所有数据都要进行隐私风险影响评估,例如根据澳大利亚的《隐私影响评估准则》,其政府机构需要对所有“高隐私风险项目”(39)“高隐私风险项目”是指,涉及处理个人信息的新方法或改进的方法,而且可能会对个人隐私产生重大影响的项目。杨婕:《澳大利亚信息专员办公室发布〈隐私影响评估准则〉》,载微信公众号“CAICT互联网法律研究中心”,2020年10月20日。进行评估。

需要注意的是,从这一角度进行区分则不仅需要考虑到匿名化技术的再识别风险大小与匿名化信息的应用目的差别,同时也需要从最根源的信息类型出发,即结合信息性质划分层级 ,即便是在同一领域内的不同利用场景也可能会对信息保护方式产生重大影响。

2.从应用目的出发确定场景豁免

匿名化规则的确立是对在信息受到目的性等限制而收集后,因超越初始信息处理阶段的前提性限制,后者根植于前者但有所不同,如果将匿名化规则限制在目的性原则之下的话,不仅抽离了匿名化规则的设置功能,也妨碍了既经匿名化处理信息的流通价值的发挥。可见,个人信息匿名化所追求的是一种对信息再利用的使用前提限制,由此形成风险规避,对信息再利用的需求主体显然主要是以营利创收为驱动的商事主体和以管理服务为驱动的公权主体。实践中,“匿名化”的技术处理过程一般会分为两个步骤,首先针对直接标识符进行技术脱敏处理,主要是进行假名化处理、信息加密、抑制或者屏蔽等;之后是对间接标识符进行泛化或者随机化,随着泛化或者随机化程度的提高,安全性随之提高,但是该信息的可用性会随之下降。(40)王春晖,程乐:《完善〈个人信息保护法(草案)〉的建议》,载《人民邮电》2020年11月6日。

在商事活动中,对信息处理行为的选择是违规成本与再利用收益的博弈的产物,并且会在算法共谋等技术应用的效用被放大后,成倍地扩展对信息主体的侵权风险。有学者指出,基于匿名化处理是助益于风险规避的有效手段的考虑,经过了匿名化处理的大数据产品,不属于个人信息,按照“法无禁止即自由”的基本原则,经过匿名化处理的大数据当然可以被交易,(41)张晨原:《数据匿名化处理的法律规制》,载《重庆邮电大学学报(社会科学版)》2017年第6期。匿名化处理个人数据并不需要征得用户的同意。(42)王融:《数据匿名化的法律规制》,载《信息通信技术》2016年第4期。

在公权主导的场景之下,因为其实质上是一种个人权益的聚集,具有特殊的应用场景,不存在因为追逐利润而侵犯个人信息权益的动机,适宜有限度地尝试特殊数据(如医疗数据、司法公开、政府数据开放)使用场景的豁免,这也是在一些情况下有限考虑国家利益和社会公共利益的要求,即便是不直接豁免其进行匿名化处理的义务,也可以将义务调整为采用诸如假名化的方式保护信息安全。

在匿名化处理的过程中,信息控制者可能会采用不同的匿名化处理技术,不同技术的处理效果以及可能导致的再识别风险会存在一定的差异。因此,可以将该再识别风险的概率进行分级,并在此基础上确定经过不同技术处理所得到的匿名信息的披露范围。(43)张建文,程海玲:《破碎的隐私陈难过之防范:匿名化处理再识别风险法律规则研究》,载《西北民族大学学报(哲学社会科学版)》2020年第3期。

(二)个人信息匿名化处理的责任体系

个人信息匿名化处理的制度设置是对于信息主体和信息收集及利用主体的持续性的信息不平等关系(44)丁晓东:《个人信息权利的反思与重塑 论个人信息保护的适用前提与法益基础》,载《中外法学》2020年第2期。的制衡与调和,其价值是追求“去识别性”,以实现个人指向阻断与数据流动利用之间的平衡,将信息所具有的生产要素价值从信息主体中剥离出来并聚合起来,打破信息孤岛,也能避免全民“裸奔”。但是绝对意义上的“去识别性”是不存在的,其总是面临着剩余风险的威胁。大数据利用和个人信息保护是一个硬币的两面,匿名化技术能够在数据发布环境之下防止用户敏感数据被泄露,同时又能保证发布数据的真实性。(45)王平水,王建东:《匿名化隐私保护技术研究综述》,载《小型微型计算机系统》2011年第2期。个人信息匿名化的现实目的在于通过设置一定义务的方式控制处理风险、安排答责主体,从而实现需求调和的设计目的,这同时也是实现以构筑有效的外部执法威慑为保障,并与激励机制相融合(46)周汉华:《探索激励形容的个人数据治理之道——中国个人信息保护法的立法方向》,载《法学研究》2018年第2期。的重要步骤。然而,任何制度的设计精妙性都应辅以救济功能,主要包括通过围绕可诉性展开的民事责任,以及面向再识别展开的刑事责任。

1.明确匿名化处理的责任主体

《个人信息保护法》所规定个人信息处理者的范围,与《信息安全技术 个人信息安全规范》所使用的个人信息控制者(47)《信息安全技术 个人信息安全规范》第3.4条规定,个人信息控制者是指有能力决定个人信息处理目的、方式等的组织或个人。的概念有所不同,同时,我国《个人信息保护法》在明确个人在信息收集与处理环节享有诸多权利的同时,虽然也规定了信息处理者(48)《个人信息保护法》第69条规定处理个人信息侵害个人信息权益造成损害,个人信息处理者不能证明自己没有过错的,应当承担损害赔偿等侵权责任。前款规定的损害赔偿责任按照个人因此受到的损失或者个人信息处理者因此获得的利益确定;个人因此受到的损失和个人信息处理者因此获得的利益难以确定的,根据实际情况确定赔偿数额。的法律责任条款与之配套,但是根据《个人信息法》第69条 的规定,个人如果想要向信息处理者主张权利,就要证明自身存在损失或者信息处理者获得了利益。在民事诉讼中,这样的证明责任对于个人而言,无疑是不可承受之重。因此,个人信息侵权的构成应当予以适当的缓和,承认一些新型的损害,例如数据泄露、定向广告导致的人格损害等。在数据控制者采用了大数据技术的场合可以建立因果关系推定规则,侵害个人信息但是没有造成损害的时候,可以适用预防性侵权责任,还可以在过失帮助侵权、共同过失侵权以及不确定因果关系的场合新增连带责任,这一过程中民法典侵权责任编也可以发挥一些优势。(49)叶名怡:《个人信息的侵权法保护》,载《法学研究》2018年第4期。

2.明确再识别处理的入罪标准

《刑法》第253条规定了侵犯公民个人信息罪,但是此处的法益保护并不是个人法益中的隐私权,而是个人法益中的个人信息权。(50)刘艳红:《侵犯公民个人信息罪法益:个人法益及新型权利之确证——以〈个人信息保护法(草案)〉为视角之分析》,载《中国刑事法杂志》2019年第5期。大数据的产业应用正在全面嵌入社会生态,这意味着一旦既经匿名化处理的个人信息被再识别,即使后续采取补救措施,其扩散的影响也是不可逆的,并且其诱发的隐患也是不确定的。故此,当技术跃进而对人之自由与尊严造成潜在威胁时,需要对此种尝试再识别的行为设置入罪路径,吸纳技术应为人类正当使用的价值,以免该再识别行为仅仅被商业主体的“经营成本”所涵盖。

匿名化处理既为构成侵犯个人信息犯罪消除了一些构成要件属性,同时也为再次入罪提供了再识别这一标准。我国最高法、最高检发布的《关于办理侵犯公民个人信息刑事案件适用法律若干问题的解释》(以下简称《解释》)第3条就规定,“向特定人提供公民个人信息,以及通过信息网络或者其他途径发布公民个人信息的,应当认定为刑法第二百五十三条之一规定的‘提供公民个人信息’。未经被收集者同意,将合法收集的公民个人信息向他人提供的,属于刑法第二百五十三条之一规定的‘提供公民个人信息’,但是经过处理无法识别特定个人且不能复原的除外。”这就将匿名信息排除出了侵犯个人信息罪的构成要件。但是如前文所述,在大数据时代之下,绝对的匿名化是不可能做到的,这一方面使得已经被匿名化的信息被再识别并泄露以后依然充满风险,并且有可能使其行为重新该当于《解释》第1条中规定的“与其他信息结合识别特定自然人身份或者反映特定自然人活动情况的各种信息”,并构成犯罪;另一方面也给如何判定《解释》第3条第二款但书部分的“经过处理无法识别特定个人且不能复原的除外”带来了判断标准的确定问题。如果对匿名化的判断标准过高,则会导致《解释》第3条第二款的但书部分难以达到,使这一条从事实上无法适用;如果判断标准过低,也会导致一些行为在被该但书部分排除在罪名之外以后,又很容易因为再识别后的泄露风险而重新入罪,这样也就失去了该但书部分存在的价值。有学者指出,对于该条但书规定再进行解释时,不能以绝对的匿名化标准来理解,应该解释成经过处理无法在“合理的限度内”识别特定个人并且不能“合理”复原的除外。同时,对于某些无法进行匿名化处理,或者说一旦进行了匿名化就会导致其从根本上丧失价值的大数据,应当认识到匿名化是个人信息大数据利用的正当化事由之一而不是必经程序,例如医学上的“流程分析”过程中,如果能够征得患者的同意,自然也能得到合法化,不一定非要进行匿名化处理。(51)储陈城:《大数据时代个人信息保护与利用的刑法立场转换——基于比较法视野的考察》,载《中国刑事法杂志》2019年第5期。解决了这一前置问题,那么再识别的入罪标准问题也就自然而然得到了解决。

四、结论

随着人类社会全面进入以数据化、网络化和智能化为标志的大数据时代,数据成为了一种新的生产要素。作为新型生产要素的数据,只有在流动、分享、加工处理中才能创造价值。在数字技术嵌入个人信息之后,加大了对个人信息进行认识和定义的难度,对个人信息内涵和外延的不同定位和定义方法也会导致对非个人信息认识的差异, 对个人信息的定义离不开对“可识别性”的理解,“可识别性”则已经随着技术的发展进行了动态扩张,需要对个人信息进行匿名化处理。我国的匿名化标准确定为不可识别信息主体并无法进行逆向复原,但是无论采用什么样的标准,匿名化处理机制都不能达到完全的理想化,处理过程中的泛基准风险和处理完成后的再识别风险一直存在, 因此可以尝试从合规视角和标准下促进平衡匿名化数据运用的效益和个人信息保护。个人信息匿名化处理需要遵循差别原则,根据对个人信息的指向性程度进行匿名化处理的差别考量,并从不同的应用目的出发确定场景豁免。

猜你喜欢
识别性个人信息信息
如何保护劳动者的个人信息?
工会博览(2022年16期)2022-07-16 05:53:54
个人信息保护进入“法时代”
今日农业(2022年1期)2022-06-01 06:17:42
警惕个人信息泄露
绿色中国(2019年14期)2019-11-26 07:11:44
国产汽车标志设计批评
订阅信息
中华手工(2017年2期)2017-06-06 23:00:31
符号的识别性在广告视觉形式中的体现——以标志设计为例
新闻传播(2016年19期)2016-07-19 10:12:08
以改性松香为交联剂的甲硝唑磁性分子印迹固相萃取材料的制备、表征及分子识别性研究
展会信息
中外会展(2014年4期)2014-11-27 07:46:46
游乐场所安全标志识别性研究
个人信息保护等6项通信行业标准征求意见