摘 要:个人信息匿名化处理法律制度作为联通个人信息保护与个人信息流通利用的制度桥梁,能够以一种隐私友好的方式满足社会的信息需求。我国现行“无法识别特定个人且不能复原”的匿名化处理法律标准缺乏可操作性,难以有效规范匿名化处理实践。我国可以确立操作方法标准与识别风险检验标准协同的匿名化处理法律标准:关于操作方法标准,可以在技术领域确定适用于直接标识符和间接标识符的匿名化处理措施指南;关于识别风险检验标准,可以引入“蓄意侵入者检验”标准,明确规定侵入者的识别动机和识别能力。通过操作方法维度与识别风险检验维度的协同作用,最终实现“无法识别特定个人且不能复原”的匿名化处理法律效果。
关键词:个人信息;匿名化处理;法律标准;直接标识符;间接标识符;识别风险检验
中图分类号:D 912 文献标识码:A 文章编号: 2096-9783(2021)03-0026-10
引 言
人类社会形成以来,经历过多次世界性的技术革命[1]。从农业革命、工业革命到智能革命,人类的生产、生活和思维方式也不断发生着变化。在智能时代,互联网成为社会发展的基本工具,数据成为国家基础性战略资源。数据共享能激励创新,创造巨额财富,已成为推动当今社会发展的重要引擎[2]。与此同时,数据流通利用也可能损害数据主体的隐私和其他利益。
大数据时代,个人信息1保护问题被推到了风口浪尖。如何平衡个人信息保护与个人信息利用之间的关系成为横亘在我们面前的时代难题。为因应这一难题,个人信息匿名化处理技术应运而生,该技术旨在通过去除或者改变个人信息中的识别因子,满足社会的信息需求,并避免损害信息主体的合法权益。技术的发展与应用离不开法律制度的保驾护航,匿名化处理技术亦不例外,匿名化处理法律制度应至少包括匿名化处理法律标准、匿名信息流通利用规则、再识别风险防范规则等内容。而匿名化处理法律标准是匿名化处理法律制度的核心内容,直接关涉到匿名化处理制度的有效性和可行性,本文围绕该问题展开探究。
一、制度功用透视:平衡个人信息保护与个人信息流通利用
匿名化处理技术是信息时代的产物,旨在解决个人信息流通利用与个人信息保护之间的冲突,以一种“隐私友好(privacy-friendly)”的方式满足社会的信息需求[3]。重申匿名化处理的制度功用,对确立合理可行的匿名化处理法律标准至为关键。
(一)保护信息主体人格尊严和人身自由不受侵害
“与已识别或可识别的自然人有关的任何信息”,这一关于个人信息的国际主流定义,体现了个人信息的识别性和关联性特征。我国国家标准GB/T 35723—2020《信息安全技术 个人信息安全规范》(以下简称《个人信息安全规范》)也将个人信息界定为“以电子或者其他方式记录的能够单独或者与其他信息结合识别特定自然人身份或者反映特定自然人活动情况的各种信息”。个人信息的识别性和关联性特征是个人信息的首要特性[4],决定了其直接关涉信息主体的人格尊严[5]和人身自由。
基于人格尊严和人身自由乃人之基本权利的定性,为避免科技进步“对独立人格的维护和自由人格的发展造成难以弥补的损害”[6],我们必须贯彻“以人为本”的发展理念。个人信息所承载的信息主体人格利益应当是个人信息保护立法中的优先考量因素,信息主体权利及信息处理者义务的正当性基础也源于个人信息的人格属性。保护信息主体的人格尊严和人身自由是个人信息保护的基本目的[7]。
个人信息匿名化处理技术的相关措施包括删除标识符、替换标识符、泛化标识符、子抽样处理等,这些技术措施能够降低个人信息与信息主体之间的关联度,进而避免在流通利用匿名信息的过程中损害信息主体的合法权益。个人信息匿名化处理法律制度旨在保障匿名化处理技术的规范化、制度化运行,其首要目的与功用即规范对个人信息的技术处理以保护信息主体的人格尊严和人身自由不受侵害。
(二)提供大数据发展和应用的原材料,推动数据资源开发利用
大數据对国家发展的重要意义已为诸多国家和政府所肯认,并被视为“未来的新石油”,发展大数据被上升到借助信息技术提升国家竞争力的宏观战略高度[8]。全球范围内,运用大数据推动经济发展、完善社会治理、提升政府服务和监管能力正深入推进,各国相继制定实施大数据战略性文件,大力推动大数据发展和应用。
大数据的发展和应用离不开海量数据的喂养,海量数据的重要来源之一即个人数据。个人信息具有人格自由和人格尊严价值、商业价值和公共管理等多重价值[9],需要通过合理的制度安排实现个人对个人信息保护的利益、信息业者对个人信息利用的利益和国家管理社会的公共利益之间的平衡[10]。就信息业者对个人信息的利用而言,其正当性基础已为各国立法和社会公众所普遍认可,促进个人信息流通利用也已成为个人信息保护的重要立法宗旨之一。
个人信息匿名化处理制度补强了个人信息流通利用的正当性基础,能够提供数据开发利用所需的原材料,“是促进数据流通和共享的重要途径”[11]。通过对个人信息的匿名化处理,降低个人信息与信息主体之间的关联度,增强个人信息流通利用的适格性,以发挥个人信息蕴含的社会、经济价值,满足大数据时代对“新石油”原料的需求。个人信息匿名化处理法律制度的另一重要功用即提供大数据发展和应用所需的原材料,推动数据资源开发利用。
简言之,个人信息匿名化处理法律制度旨在规范对个人信息的技术处理,以保护信息主体的人格尊严和人身自由不受侵害,同时提供大数据发展和应用所需的原材料,推动数据资源开发利用,致力于实现“自然人的个人信息权益的保护与信息的自由流动这一对法律价值的权衡与协调”[12]。
二、现状检视:我国现行匿名化处理法律标准评析
我国匿名化处理法律制度滥觞于行业标准2,成形于《中华人民共和国网络安全法》(以下简称《网络安全法》)、《中华人民共和国民法典》(以下简称《民法典》)。前述规范或效力层级较低,或规范目的特定,致使匿名化处理法律制度虽已在我国正式确立,但规范内容极为简单,而体现于匿名化处理内涵之中的匿名化处理法律标准亦不清晰。
(一)匿名化处理法律标准:无法识别特定个人且不能复原
关于个人信息匿名化处理的内涵,按《中国互联网定向广告用户信息保护去身份化指引》(以下简称《定向广告去身份化指引》)的规定,去身份化是对某项信息(集)进行变更以去除或模糊个人身份关联信息的过程;《网络安全法》规定“经过处理无法识别特定个人且不能复原”3;《民法典》4基本沿用了《网络安全法》的规定;《数据安全管理办法(征求意见稿)》规定“经过处理无法关联到特定个人且不能复原”5;《个人信息安全规范》强调无法识别或关联到信息主体且不能复原6;《中华人民共和国个人信息保护法(草案)》(以下简称《个人信息保护法(草案)》)7亦采用了与《网络安全法》近似的规定。
前述关于匿名化处理基本内涵的各规定并无本质区别。《民法典》与《网络安全法》相比,在保持匿名化处理内涵不变的基础上,将处理主体从网络运营者调整为一切信息处理者。《个人信息安全规范》基于将关联信息纳入个人信息范畴的考量而将匿名化处理的法律标准调整为“无法识别或关联到信息主体且不能复原”,但该规范仅为推荐性国家标准,不具有强制适用的效力。综上,我国现行匿名化处理法律标准为“无法识别特定个人且不能复原”。
此外,关于匿名化处理的法律标准,依据《定向广告去身份化指引》的规定,在向非关联方转移信息时,单位应采取“运用‘有动机入侵者测试”8“全面查明是否能够重新识别”9“必要时委托专家评估”10的方式确认是否成功去身份化。此处规定的三个标准只是对域外不同国家和地区匿名化处理法律标准的简单借鉴,缺乏具体的适用规则,同时由于该指引效力层级及适用范围的局限性,此规定的实质意义远远小于其形式意义。
(二)匿名化处理法律标准的涵义
“无法识别特定个人”与个人信息的识别性特征相对应。匿名化处理力求在“技术的信仰与人身的信仰之间”寻找一个平衡点[13],以避免个人信息处理行为侵害信息主体的合法权益,因而匿名化处理的关键即弱化个人信息与信息主体的关联度。个人信息识别信息主体的方式包括直接识别和间接识别,根据体系解释的法律解释方法,匿名化处理法律标准中的“识别”同样包括直接识别和间接识别,是故,匿名化处理需要达到通过处理后的信息既不能直接识别,也不能与其他信息相结合而识别信息主体的效果。这就要求信息处理者在匿名化处理过程中既要去除直接标识符,也不能忽视了对间接标识符的处理。
“不能复原”即要求匿名信息不存在复原为个人信息的可能性。个人信息的认定离不开具体的场景,个人信息的场景性特征决定了其与匿名信息并非泾渭分明,而是可以互相转化的动态关系。特定场景下的匿名信息,在场景发生变化时,或许能够识别特定个人而成为个人信息。因此,有效的匿名化处理应当能够通过技术手段使得处理后的信息无法识别特定个人,并且增加匿名信息转化为个人信息的难度。然而,技术手段的可破解性内在地决定了技术层面的绝对不能复原是难以实现的,故此处的“不能复原”应当理解为法律层面的不能复原,即信息处理者和接收者不得对经匿名化处理后的个人信息进行再识别,從而保证匿名信息处于“不能复原”的状态。
(三)匿名化处理法律标准存在的问题
匿名化处理法律标准的明晰,关键在于“识别”标准的确定。在个人信息识别性认定问题上,除识别方式外,特别需要明确识别认定的主体基准。关于该主体基准,有“主观说”和“客观说”之别。“主观说”即“信息控制者说”,主张以信息控制者为基准判断信息是否能识别特定个人;“客观说”包括“社会一般多数人说”和“任一主体说”,前者主张以社会一般多数人为主体基准进行判断,后者主张将一切个人和组织作为识别认定的主体基准,即只要该信息能被某机构所识别,无论该机构是否已实际识别,都视为可识别[14]。如前所述,我国现行法律确立了“无法识别特定个人且不能复原”的匿名化处理法律标准,但是并未明确识别认定的主体基准。另外,“不能复原”的要求该如何理解、如何落实,是绝对的不能复原还是相对的不能复原,也存有很大疑问。
至于《定向广告去身份化指引》中所规定的“运用‘有动机入侵者测试”“全面查明是否能够重新识别”“必要时委托专家评估”的检验标准,其实是对英国“蓄意侵入者检验标准”、欧盟“所有合理可能性标准”和美国“专家判定法”标准的借鉴,文章第三部分将详细阐释这些标准。《定向广告去身份化指引》将前述不同标准简单并列,实质上是确立了识别认定的不同主体基准,这些规定本身即存在矛盾和混乱之处,具体该如何适用也不得而知。
我们必须认识到,个人信息的利用价值与其识别性特征密切相关,个人信息经匿名化处理后若变得过于“干净”,则其利用价值很有可能也随之丧失,正如有学者所指出的“匿名信息的有效性与实用性,二者永远水火难容”[15]。个人信息匿名化处理究竟应达到什么样的法律标准以兼顾匿名信息的有效性与实用性,进而实现个人信息保护与个人信息利用的妥当平衡,我国现行法律尚未提供行之有效的解决方案。
三、域外镜鉴:匿名化处理法律标准的域外经验及启示
(一)欧盟:“所有合理可能性”标准
欧盟个人数据匿名化处理相关规范主要体现在GDPR、欧洲委员会“108公约+”11及WP29《匿名化技术》意见书12中,GDPR前言第26段规定了识别的认定标准及匿名信息的概念。据此可知欧盟匿名化处理法律标准为“所有合理可能性”标准。
1.识别的内涵:挑出、关联和推断
WP29在《匿名化技术》意见书中指出,识别并非单纯指揭示某人的姓名和/或地址,还包括从数据中挑出当事人、产生关联或进行推断[16]。在进行匿名化处理时,需要着重考虑挑出(singling out)风险、关联性(linkability)风险和推断(reference)风险。若能够在数据集中分离出部分或全部能识别个人身份的记录,则构成挑出风险。若通过同一或不同数据集中的记录,能够在至少两项属于同一(组)数据主体的记录之间产生关联,则构成关联性风险。如果通过关联分析等能证明两项记录属于同一组数据主体,但不能挑出某一数据主体,则该技术只能有效避免挑出风险,但不能防范关联性风险。若根据一系列其他属性值推断出某一属性值的概率较高,则构成推断风险。匿名化处理方案应当能够防范这三种风险,以有效防止数据控制者和任何第三方通过最可能(most likely)和合理(reasonable)的手段重新识别数据主体。
2.识别认定的主体基准:数据控制者和其他人
如前所述,识别认定的主体基准有主观说和客观说之别。欧盟采用了客观说中的“任一主体说”,主张以一切个人和组织作为识别认定的主体基准,这与欧盟追求“具有广泛延伸性”[17]的个人数据定义之理念相吻合,能够更为充分地保护数据主体。在此基础上,欧盟将匿名数据作为非个人数据,为其营造了较为宽松的流通利用环境。《欧盟非个人数据自由流通框架条例》规定除非为了国家安全,非个人数据的流通应不受本地化限制[18];《欧盟非个人数据自由流通框架条例指南》进一步指出“匿名化处理后的个人数据”[19]属于非个人数据,并强调在个人数据被适当匿名化后,公民个人数据受保护的权利仍应受到尊重。
3.识别认定的方式标准:所有合理手段
在识别的判断上,利用数据识别特定主体的合理可能性是認定识别的关键。诚如阿尔希波夫(Vladislav A.)所言,“有足够的精力和时间,蛛丝马迹都能识别到个人,这就是世界上私家侦探的工作方式,但并不应当是法律的工作方式”[20]。欧盟将识别方式标准明确界定为“所有合理手段”,“合理”即要求综合考虑数据控制者和其他人进行识别所需的费用和时间,同时考虑到数据处理时可采用的技术及技术的研发。“如果对数据主体的识别被法律禁止,或由于需要在时间、成本和人力等方面付出不成比例的努力而几乎不可能,以至于被识别的风险在现实中是微不足道的”13,则应认为该数据不具有识别性。
识别的内涵、识别认定的主体标准和方式标准共同构成了欧盟匿名化处理的法律标准,即匿名化处理需达到数据控制者和任何其他人通过所有合理可能的手段(综合考虑进行识别的费用、时间、当时的可用技术及技术的研发等)都无法从数据中挑出个人、关联到个人或推断出个人身份的标准。
(二)英国:“蓄意侵入者检验”标准
英国信息专员办公室(Information Commissioners Office)(以下简称ICO)2012年发布了《匿名化:数据保护风险管理实践准则》14(以下简称《准则》),以指导英国企业的匿名化处理实践。《准则》规范了个人数据匿名化及数据披露的相关问题。在《准则》中,“匿名数据”指本身不能识别个人并且不太可能通过与其他数据结合而识别个人的数据;“重新识别”指通过数据匹配或类似技术将匿名数据转换为个人数据的过程[3]。ICO特别强调,“识别”并不必然意味着“知晓姓名(named)”,在特定数据和已知个体间建立可靠的关联(connection)也应认为构成识别。
ICO认为,多样识别方式导致了识别(在另一层面上也即匿名)认定的复杂性;同时,即使数据控制者自身确实无法通过处理后的数据识别任何个人,但其并不能确定是否有其他数据使得第三方能够重新识别,这就增加了匿名化处理的难度。鉴于英国现有数据保护规范并未对解决“发布匿名化处理后的个人数据是否会导致重新识别”“是否有人有动机进行重新识别”两个问题提供实质帮助,ICO提出了“蓄意侵入者检验(a motivated intruder test)”标准。
1.侵入者的识别动机
ICO将侵入者的识别动机拟制为希望通过来源于个人数据的匿名数据识别数据主体,有进行重新识别的主观积极性,追求重新识别结果的发生,也即所谓的“蓄意(motivated)”。为防范匿名化处理可能存在的再识别风险,数据控制者需要充分衡量通过匿名化处理后的数据重新识别特定个人的可能性,这就必然要求所拟制的侵入者在主观上具有充分的识别动机。
2.侵入者的识别能力
侵入者的识别能力直接决定着匿名化处理的难易程度,也是确定匿名化处理法律标准的关键。ICO假设侵入者具有相当的识别能力,并分别从积极方面和消极方面予以明定。在识别能力的积极方面,侵入者可以访问互联网、图书馆等所有公开资源,并可能采取技术调查措施(如询问可能对数据主体身份有更多了解的人,或发布广告寻找能提供信息的人等)[3];在识别能力的消极方面,侵入者不具有任何与匿名信息相关的先前知识,不具有专业知识(如掌握电脑黑客技能),不会使用专业设备,也不会诉诸犯罪手段(如通过入室盗窃获取安全保存的数据)对匿名数据进行重新识别。
3.“蓄意侵入者检验”标准的合理性
ICO认为,“蓄意侵入者检验”标准设置了一个高于“相对不熟练”的普通公众而又低于拥有较强专业知识、分析能力和先前知识的人所能达到的识别标准,因而是有效的[3]。在识别动机方面,假设侵入者具有充分的识别动机是保障匿名化处理有效性的直接要求;在识别能力方面,消极识别能力的拟制可避免匿名化处理法律标准过于严苛,但又不会造成对个人数据保护的疏忽,因为专业知识者(如医生、律师等)的执业规范中往往规定了相应的保密义务和伦理守则,而运用犯罪手段进行再识别者则将面临刑事制裁。由此可见,“蓄意侵入者检验”标准有助于实现个人数据保护与个人数据流通利用之间的适当平衡。
在蓄意侵入者检验标准的具体操作中,企业可能要进行网络搜索以检测是否可通过出生日期和邮政编码等数据的组合识别特定个人,或者使用社交网络查看是否可以将匿名数据与用户画像相联系等。此外,ICO还列举了一些常见的信息来源:图书馆、地方议会办公室、教会记录、族谱学网站、社交媒体、互联网、其他组织,尤其是公共当局发布的匿名数据[3]。
(三)美国个人信息去识别化15法律标准
NIST16于2015年10月发布了《个人信息去识别化》(De-Identification of Personal Information)报告,总结了近二十年来个人信息去识别化的研究和实践状况,对深入理解美国去识别化处理规范内容具有重大参考价值。美国在个人信息去识别化处理实践中,对直接标识符和准标识符采取了不同的处理方法,部分专门领域法律还规定了去识别化处理检验标准。
1.“专家判定法”与“安全港方法”标准
《健康保险可携性和责任法案》(以下简称HIPAA法案)17的隐私规则中描述了受保护的健康信息去识别化处理的两种标准。
第一,“专家判定法”标准。专家判定法即专家通过检查信息确定最大限度地降低再识别风险的适当去识别方法。专家乃具有知识和经验的人,掌握了公认的关于去识别的统计学科的原则及方法。专家运用这些原则和方法,判断单独使用处理后的信息或将处理后的信息与其他合理可用的信息结合使用时,信息预期接收者识别信息主体的风险是否非常小,进而认定是否达到了有效的去识别化。该标准还要求专家记录分析的方法和结果,以证明其作出的判定是合理的。
第二,“安全港方法”标准。安全港方法详细列举了姓名、地理分区18、日期19、电话号码、传真号码、电子邮件地址、社会保险号码、医疗记录号码、账号、生物识别码、任何其他唯一識别码、特征或代码等18项特定种类的识别符。数据控制者只有删除“个人或其亲属、雇主、家庭成员”的前述18项标识符,且并不实际知悉“处理后的信息可以单独使用或与其他信息结合使用,以识别作为信息主体的个人”时,方可被认为完成了有效的去识别化处理。
2.去识别化处理操作方法:区分处理直接标识符与准标识符
直接标识符(Direct-identification),也即直接识别变量或直接识别数据,是“直接识别单个个人的数据”,包括姓名、社会保险号码和电子邮件地址等。国际标准化组织发布的ISO 25237:2017(E)《健康信息学-假名化》(Health informatics-Pseudonymization)将直接标识符定义为“无需附加信息或通过与公共领域中的其他信息进行交叉关联即可用于识别个人的数据”[21]。NIST在《个人信息去识别化》报告中强调,建议将其他个性化信息(如医疗记录号码和电话号码)作为直接标识符,尽管这些标识需要借助附加信息才能与个人身份联系,但由于其被广泛使用,因此易于与个人身份联系[22]。
由于直接标识符与信息主体高度关联,在去识别化处理时须将其删除或通过其他方式加以转换。信息处理者可结合具体情形及预期使用目的,选择如下处理方法:第一,删除;第二,替换为明显通用的类别名称或数据,如“某人”“某市某区”等;第三,替换为符号,如“***”“……”等;第四,替换为随机值,若同一标识符多次出现,应替换为不同值,从而既保留原始数据形式以进行某些分析,又为数据与个人间的重新关联设置障碍;第五,系统地替换为假名(即假名化处理),允许引用同一个人的记录进行匹配等[22]。NIST指出,假名化是以假名替代直接标识符的一种特殊转换。若处理者保留了直接标识符与假名间的映射,或者使用易于发现参数的算法执行替换,则假名化处理容易被逆转进而导致重新识别;即使没有保留映射,跨多个数据集使用一致的假名,也可通过关联分析实现再识别。基于此,OHRP20指出,根据普遍规则,若假名化处理易于被逆转,假名化数据应被视为代码化的(coded)而非匿名的[23],但若存在禁止共享代码密钥的数据使用协议,则应被视为匿名的。
准标识符(Quasi-identification),也即间接标识符或间接标识变量,是指本身不能识别特定个人,但可与其他信息聚合和连接以识别数据主体的标识符[24],如生日、性别、邮政编码等。准标识符的存在对去识别化处理提出了重大挑战。尽管可以从数据集中将其删除,但由于准标识符通常能传递对后续分析相当重要的信息,删除可能有损数据集的实用性[22]。因此,信息处理者应谨慎对待准标识符,以协调去识别化的有效性与实用性。
对于准标识符,信息控制者可结合去识别化处理后的预期用途,选择如下处理方法:第一,抑制(Suppression)处理,即去除准标识符,可最大限度地保护隐私,但影响数据集的实用性。第二,泛化(Generalization)处理,将特定准标识符的值处理为在给定范围内或作为集合的元素,如将邮政编码123456泛化为在123000到123999之间的邮政编码,泛化处理可应用于整个数据集或特定记录。第三,干扰(Perturbation)处理,在给定的泛化级别内将特定值以保持个体一致的方式替换为其他值,如将数据集中的年龄统一随机上下调整2年,或者将入院、出院日期系统性地增减相同天数[25]。第四,交换(Swapping)处理,在给定的泛化级别内交换不同准标识符的值,但如需保留统计特性,则必须谨慎交换。第五,子抽样(Sub-sampling)处理,通过发布样本代替数据集以降低再识别概率[26]。
(四)匿名化处理法律标准的归纳总结
关于匿名化处理法律标准,欧盟“所有合理可能性”标准、英国“蓄意侵入者检验”标准及美国“专家判定法”标准均系基于识别风险考量而确立的风险检验标准,而美国“安全港方法”标准和“区分处理直接识别符与准标识符”操作方法都属基于处理手段确立的操作方法标准。
1.匿名化处理风险检验标准
风险检验标准旨在通过衡量重新识别风险的高低判定匿名化处理之有效性。其中,“所有合理可能性”标准最为严格,须数据控制者和其他人皆不能通过合理可能的手段实现重新识别,相当于“将匿名标准提高到数据公开之标准”[27]。在此基础上,欧盟将匿名数据界定为非个人数据,并为其营造了较为宽松的流通利用环境,实际上确立了“严进宽出”的匿名化处理规范路径。欧盟的规范模式能够较为充分地保护数据主体的合法权益,但对数据控制者的要求较高,且依该标准处理后的数据的实用性将有所降低,不利于促进数据流通利用。“蓄意侵入者检验”标准实为一种高于“普通公众”而低于“专家”的检验标准,通过对侵入者识别动机和识别能力的精巧拟制以尽可能充分地保护数据主体,同时又最大限度地确保匿名数据的实用性,该标准较好地平衡了数据主体保护与数据流通利用。“专家判定法”标准旨在通过专家衡量去识别化处理的有效性,但该标准较为笼统和模糊,缺乏可操作性,且须与配套规范结合才能发挥效用,如专家的认证规范、选择规范、操作规范、责任规范等,单独的“专家判定法”标准难以有效运行。
2.匿名化处理操作方法标准
美国“区分处理直接标识符与准标识符”的操作方法标准,强调类型化标识符并采用不同方法进行处理。直接标识符识别性较强,所关涉的信息主体利益与信息流通利用利益相比通常具有优先重要性,因此,在去识别化处理过程中必须将其删除或通过其他方式进行转换;而准标识符识别性相对较弱,同时可能对去识别化数据集更具实用性,故可通过删除以外的其他方式进行处理,从而在保护信息主体合法权益的同时尽可能地保留信息的实用性。整体而言,区分处理方法标准既能保护信息主体权益免受不当侵害,保证去识别化处理的有效性,又尽可能地保留了去识别化信息的实用性,有利于达致个人信息保护与个人信息流通利用之妥当平衡,为去识别化处理实践提供了重要操作指南。“安全港方法”标准列举的必须删除的18项标识符在世界立法中堪称最全[15],但该标准存在的缺陷也十分浅显。第一,试图周延列举标识符是不现实的,不能排除在18项标识符之外可能存在其他能够识别特定主体的信息。第二,试图周延列举标识符导致该标准缺乏灵活性,难以有效应对技术发展带来的挑战,也有悖于去识别化处理方案应根据个案情况设计的理念。美国联邦通讯委员会亦认为,安全港标准缺乏灵活性,现行列举的标识符随着数据技术的发展将不可避免被淘汰。第三,该标准可能无法有效满足数据利用的需要。其允许保留前三位邮政编码及大多数日期的年份以平衡去识别信息的有效性和实用性,但这些举措能否保留信息的实用性不无疑问。由于研究者在多数医疗研究中都需要获取病人的病史信息、用药时间和日期等信息[28],Fred H. Cate质疑去除18项标识符后信息能否满足医疗研究之目的。NIST在报告结论部分也指出安全港方法标准缺乏牢固的理论基础。
实际上,基于处理手段的匿名化处理操作方法标准与基于识别风险的匿名化处理风险检验标准乃从不同维度构建的匿名化处理法律标准。具体而言,前者系从技术手段维度确立的操作方法标准,后者系从风险考量维度确立的有效性检验标准,二者既非对立,也无冲突,且可以相互结合共同丰富匿名化处理法律标准。
四、双维重构:操作方法与识别风险检验协同的匿名化处理法律标准
我国现行“无法识别特定个人且不能复原”的匿名化处理法律标准主要是针对处理效果提出的要求,该标准较为笼统和模糊,缺乏可操作性,难以有效指引及规范匿名化处理实践。我国在完善个人信息匿名化处理法律制度的过程中,可以在借鉴英国和美国匿名化处理相关法律标准的基础上,另辟蹊径,构建匿名化处理操作方法标准与识别风险检验标准协同的双维匿名化处理法律标准,以最终实现无法识别特定个人且不能复原的匿名化处理法律效果。
(一)操作方法:区分处理直接标识符与间接标识符
匿名化处理操作方法标准的确定,应坚持保护信息主体人格尊严人身自由与保留匿名信息实用性促进个人信息流通利用相平衡的基本理念。“当抽象——一般概念及其逻辑体系不足以掌握某生活现象或意义脉络的多样表现形态时,大家首先会想到的补助思考形式是‘类型”。[29]不同标识符识别能力强弱有别,蕴含的经济价值也有区别,具有进行类型化区分的可行性和必要性。同时,不同技术手段的侧重点和处理效果各有不同,为区分处理直接标识符和间接标识符提供了技术支撑。如删除处理能够最有效地保护个人信息,但也使得个人信息蕴含的效用彻底丧失;泛化或者干扰处理等,通过降低个人信息的精确度削弱处理后信息与信息主体的关联,以保护信息主体的人格尊严和人身自由,同时也在一定程度上保留处理后信息的实用性。因此,可以将不同技术手段有针对性地适用于直接标识符和间接标识符的处理。
对于直接标识符,由于其能够直接识别特定个人,与信息主体的人格尊严和人身自由密切相关,基于人格尊严保护之目的价值应优先于个人信息利用之工具价值的基本理念[30],必须将直接标识符删除或者进行转换,从而尽可能地避免在流通利用处理后信息的过程中不当损害信息主体的合法权益。对于间接标识符,由于其与信息主体人格尊严和人身自由的联系相对疏远,同时其可能蕴含着个人信息的经济效用,对其进行挖掘分析能够产生巨大价值,因此可以主要通过删除以外的其他匿名化技术措施进行处理,如泛化处理或干扰处理等,以兼顾信息主体人格尊严人身自由的保护与匿名化处理后信息实用性的保留。据此,根据不同匿名化技术手段处理效果的差异,可以在技术领域确定适用于直接标识符和间接标识符的匿名化处理措施指南,供信息控制者在匿名化处理实践中参考。信息控制者在进行匿名化处理时,应结合具体场景及预期使用目的,在参考匿名化处理措施指南的基础上分别挑选适用于个案中直接标识符和间接标识符处理的技术手段。
(二)识别风险检验:“蓄意侵入者检验”标准
识别风险检验标准直接决定着匿名化处理的难易程度,检验标准若设置得较为严苛,则可能过分加重个人信息处理者的负担,不利于促进个人信息流通利用以发挥其蕴含的巨大价值;反之,检验标准若设置得较为宽松,则可能损害信息主体的人格尊严和人身自由,有违个人信息保护的基本价值理念。
确立识别风险检验标准的关键在于对识别认定主体基准和识别可能性的明晰。在识别认定主体基准方面,“任一主体说”(即数据控制者和其他人)要求过高,实际上将匿名化处理标准近乎提高至了信息公开的程度,不利于促进个人信息流通利用,不符合匿名化处理制度初衷;“专家判定法”标准具有一定的合理性,但该标准的实施较为复杂,需与专家认证规范、选定规范、操作规范及责任规范等配套制度相结合,且难以克服主观标准内在的不确定性;“蓄意侵入者”标准相对客观中立,通过法律明确拟制具有识别动机和特定识别能力的侵入者,能够兼顾匿名化处理的有效性与匿名信息的实用性,且易于通过法律规范进行调整,富有可操作性的同时,也不失灵活性和包容性。另一方面,法律拟制的“侵入者”虽然识别能力逊色于“专家”,但通过与其他法律规范(如职业伦理和信义义务规范等)共同作用,能够充分保护信息主体。在识别可能性方面,应強调识别的合理可能,如前所述,若识别为法律禁止或需付出明显不成比例的时间、精力成本,则应认为不能识别,否则将过分加重处理者的负担。法律关于侵入者识别能力的拟制也是要求合理识别可能的体现。因此,我国可以考虑采纳“蓄意侵入者检验”标准。
具体而言,信息控制者在参考匿名化处理措施指南完成匿名化处理后,应当评估处理后的信息能否通过“蓄意侵入者检验”,进而判定所进行匿名化处理的有效性。“蓄意侵入者检验”,即法律拟制了一个具有识别动机和特定识别能力的侵入者,若该侵入者不能通过匿名化处理后的信息识别或者关联至特定信息主体,则可认为匿名化处理是有效的,反之则是无效的,信息控制者应进一步处理个人信息或者采取其他措施。在“蓄意侵入者检验”标准中,侵入者在识别动机方面,试图通过匿名化处理后的信息识别信息主体,具有重新识别的主观积极性;在识别能力方面,侵入者能够获取一切公开的资源(如图书馆、互联网等),能够采取合理的调查措施以获取进行识别所需的信息,但其不具备专业技能,不具有關于信息主体的先前知识,也不会采用犯罪手段(如入室盗窃获取安全保存的信息等)获取信息以进行识别。
结 语
作为“平衡商业利益和个人利益的利器”[31],个人信息匿名化处理法律制度在大数据时代具有无可替代的重要作用。个人信息匿名化处理法律标准的优化是发挥匿名化处理制度功用的关键。匿名化处理的操作方法标准与识别风险检验标准是匿名化处理法律标准的两个维度,两者协同有助于增强匿名化处理法律标准的科学性和可行性。在操作方法标准方面,我国可以在技术领域分别确定适用于直接标识符和间接标识符的匿名化处理措施指南,供信息处理者在匿名化处理实践中参考;在识别风险检验标准方面,我国可以引入“蓄意侵入者检验”标准,明确规定侵入者的识别动机和识别能力,进而确保通过匿名化处理最终实现“无法识别特定个人且不能复原”的法律效果。当然,还必须指出,技术的可破解性、匿名化处理的场景性、匿名信息的实用性等因素决定了个人信息匿名化处理并非一劳永逸,匿名信息具有再识别风险[32],匿名化处理的再识别风险防范问题同样需要我们深入思考。
参考文献:
[1] 何星亮.智能革命与文明变迁——人类学的视角[J].中南民族大学学报(人文社会科学版), 2019(4):75-80.
[2] 刘颖,谷佳琪.个人信息去身份化及其制度构建[J].学术研究,2020(12):58-76.
[3] UK Information Commissioners Office. Anonymisation: Managing Data Protection Risk Code of Practice[EB/OL].(2012-11-20)[2021-03-05].https://ico.org.uk/media/1061/anonymisation-code.pdf.
[4] 韩旭至.大数据时代下匿名信息的法律规制[J].大连理工大学学报(社会科学版),2018(4) : 64-75.
[5] 王利明.人格尊严:民法典人格权编的首要价值[J].当代法学,2021(1):3-14.
[6] 张建文.隐私权的现代性转向与对公权力介入的依赖[J].社会科学家,2013(6):10-14.
[7] 高富平.论个人信息保护的目的——以个人信息保护法益区分为核心[J].法商研究, 2019 (1):93-104.
[8] 蔡翠红.国际关系中的大数据变革及其挑战[J].世界经济与政治,2014(5):124-143.
[9] 程啸.论大数据时代的个人数据权利[J].中国社会科学, 2018(3):102-122.
[10] 张新宝.从隐私到个人信息:利益再衡量的理论与制度安排[J].中国法学, 2015(3):38-59.
[11] 王利明.数据共享与个人信息保护[J].现代法学,2019(1):45-57.
[12] 程啸.我国《民法典》个人信息保护制度的创新与发展[J].财经法学, 2018(4):32-53.
[13] 黄道丽,张敏.大数据背景下我国个人数据法律保护模式分析[J].中国信息安全, 2015 (6):111-116.
[14] 谢琳.大数据时代个人信息边界的界定[J].学术研究,2019(3):69-75.
[15] Paul Ohm. Broken Promises of Privacy: Responding to the Surprising Failure of Anonymization[J]. UCLA Law Review,2010,57(6):1701-1777.
[16] Article 29 Data Protection Working Party. Opinion 05/2014 on Anonymisation Techniques[EB/OL].(2014-04-10)[2021-03-07].http://ec.europa.eu/justice/article-29/documentation/opinion-recommendation/files/2014/wp216_en.pdf.
[17] Article 29 Data Protection Working Party. Opinion 04/2007 on the Concept of Personal Data [EB/OL].(2007-06-20)[2021-03-07].http://ec.europa.eu/justice/article-29/documentation/opinion-recommendation/files/2007/wp136_ en. pdf.
[18] European Commission. Regulation on a Framework for the Free Flow of Non-personal Data in the European Union [EB/OL].(2018-11-14)[2021-03-09].https://eur-lex.europa.eu/legal-content/EN/TXT/PDF/?uri=CELEX:32018R1807& qid=1617248879534&from=EN.
[19] European Commission. Guidance on the Regulation on a Framework for the Free Flow of Non-personal Data in the European Union [EB/OL].(2019-05-29)[2021-03-09].https://eur-lex.europ-a.eu/legal-content/EN/TXT/PDF/?uri=CELEX:52019DC0250&from=EN.
[20] Vladislav A & Victor N. The Legal Definition of Personal Data in the Regulatory Environment of the Russian Federation: Between Formal Certainty and Technological Development [J].Computer Law & Security Review,2016,32(6):868-887.
[21] International Organization for Standardization. Health informatics – Pseudonymization [S]. (2017-01-20)[2021-03-10].https://www.iso.org/standard/63553.html.
[22] National Institute of Standards and Technology. De-identification of Personal Information [R].(2015-10-20)[2021-0313].https://nvlpubs.nist.gov/nistpubs/ir/2015/NIST.IR.8053.pdf.
[23] U.S. Department of Health and Human Services Office for Human Research Protections (OHRP). Coded Private Information or Specimens Use in Research[EB/OL].(2008-10-16)[2021-03-13]. http://wayback.archive-it.org/org-745/20160209155555/http://archive.hhs.gov/ohrp/hum
ansubjects/guidance/cdebiol.htm.
[24] Dalenius. Finding a Needle in a Haystack, or Identifying Anonymous Census Records[J]. Journal of Official Statistics,1986,2(3):329-336.
[25] US Department of Health and Human Services Office of Civil Rights. Guidance Regarding Methods for De-identification of Protected Health Information in Accordance with the Health Insurance Portability and Accountability Act (HIPAA) Privacy Rule[EB/OL].(2012-11-26)[2021-
03-15]. https://www.hhs.gov/sites/default/files/ocr/privacy/hipaa/understanding/coveredentities/Deidentification/hhs_deid_guidance.pdf.
[26] El Emam. Methods for the De-identification of Electronic Health Records for Genomic Research[J]. Genome Medicine,2011,3(25):1-9.
[27] 金耀.個人数据匿名化法律标准明晰——以《网络安全法》第42条为中心[J].网络法律评论,2016(2):72-87.
[28] UK Information Commissioners Office, Data Protection Technical Guidance Determining What is Personal Data [EB/OL].(2012-12-12)[2021-03-15].https://ico.org.uk/media/for-organi-sations/documents/1554/determining-what-is-personal-data.pdf.
[29] [德]卡尔·拉伦茨.法学方法论[M].陈爱娥译,北京:商务印书馆,2003:337.
[30] 胡文涛.我国个人敏感信息界定之构想[J].中国法学,2018(5):235-254.
[31] 江波,张亚男.大数据语境下的个人信息合理使用原则[J].交大法学,2018(3):108-121.
[32] 张建文,程海玲.“破碎的隐私承诺”之防范:匿名化处理再识别风险法律规则研究[J].西北民族大学学报(哲学社会科学版),2020(3):76-86.
Research on the Legal Standard of Personal Information Anonymization
Cheng Hailing
(School of Law, Chongqing University, Chongqing 400044, China)
Abstract: As a bridge between personal information protection and personal information circulation, the legal institution of personal information anonymization can meet the information needs of the society in a privacy friendly way. Chinese current legal standard of anonymization, namely "unable to identify specific individuals and cannot be reverted", lacks operability and is difficult to regulate the practice of anonymization effectively. We can establish the legal standard of anonymization in the coordination of operation method standard and identification risk test standard. As for the operation method standard, we can establish the guidance of anonymization measures applicable to direct identifier and indirect identifier in the technical field. As for the identification risk test standard, we can introduce "a motivated intruder test" by specifying the identification motivation and identification ability of the intruder. Through the synergy of operation method dimension and identification risk test dimension, the "unable to identify specific individuals and cannot be reverted" legal effect of anonymization will finally be achieved.
Key words: personal information; anonymous processing; legal standards; direct identifier; indirect identifier; identification risk test