个人信息去识别化的类型解构与治理方案

2021-09-08 06:08蒋洁兰舟祁怡然
图书与情报 2021年3期
关键词:数据治理个人信息

蒋洁 兰舟 祁怡然

摘   要:文章厘清长期混用的个人信息去识别化、匿名化、假名化、去标识化的内涵外延,结合域内外建规立制的发展脉络,搭建动态平衡个体隐私安全与数据充分利用的层级治理方案。充分论证迭代算法有可能重新识别严重不完整的零散数据集,客观上难以达致无法识别且不能复原的匿名状态,亟待有条件免除数据处理者在符合去标识化标准下的同意获取义务。通过基于风险管控搭建的个人信息规制模式、隐私保障方案和以数据利用为核心的权属机制,安全变现数据价值,助力后疫情时代数字经济有序发展。

关键词:个人信息;去识别化;匿名化;去标识化;数据治理

Abstract The purpose of the article is clarifying the concepts of de-recognization, anonymization, pseudonymization, and de-identification with the development path on making regulations, and promoting the dynamic equilibrium between the protection of personal information and the full use of data. Since iterative algorithms may re-recognize seriously incomplete anonymous data sets, it is objectively difficult to achieve an absolute state that cannot be recognized and cannot be recovered. It is necessary to ensure that completely anonymous data does not belong to the category of personal information, and conditionally exempt the processor from obtaining consent obligation under fully meeting the basic standards of de-identification. Through the governance mechanism and the protection mechanism of personal information de-identification based on risk controlling and management, and the ownership mechanism of rights and interests on personal information de-identification with data utilization as the core, rights and interests of specific natural persons will be protected, and the value of massive data will be fully realized. These will promote the harmonious development of economy and society.

Key words personal information; de-recognization; anonymization; de-identification; data governance

1   引言

網络的诞生源于对自由的追求,最初的开拓者以开源代码为己任,致力于搭建“终端对终端”的在线行为无法追溯的互联架构,试图营造一个摒弃真实身份的赛博环境[1]。直至频发的风险事件促使人们意识到表面隔离在现实世界之外的虚拟空间能够对科技进步、经济发展与社会稳定等产生实质影响,方才拉开个人信息可识别化的序幕。如多个国家和地区为了社会治理需要而责令网络服务提供商设置实名门槛[2];又如虚拟平台运营企业为了精准推送商业广告,迅速开发出能够揭示真实地理位置的地图程序以取代虚拟IP地址[3]。

回顾全球数字经济的发展历程,个人信息的可识别化曾是万物互联的核心动能。显名模式助力海量数据作为安全可信的生产要素参与市场交易,推动建设开放型世界经济,支撑信息化时代的科技文化和社会发展。问题在于,日新月异的物联网、大数据与人工智能共同营建的能够迅速挖掘零散数据微弱关联的复杂场景大幅加剧了个人信息全生命周期的风险。《欧盟通用数据保护条例》(GDPR)、《美国加州消费者隐私法案》(CCPA)、《新加坡个人数据保护法案》(PDPA)以及我国的《网络安全法》《密码法》《个人信息安全规范(2020版)》和《个人信息去标识化指南》(GB/T 37964-2019)等规范性文件不约而同地强调数据隐私保护,却在实际落地中暴露出诸多问题。如广泛适用的知情同意模式在运作中暴露出流程复杂、术语晦涩、成本高昂、成效不彰等弊端。

一方面,海量数据资源的分享与利用是信息经济迈向高阶智能化的核心支撑;另一方面,个人信息安全的充分保障是人格尊严与自由平等的重要表征。在我国培育和发展数据要素市场与全面加强数据安全规制之际,亟待及时总结域内外为个人信息处理建规立制的经验教训,厘清整个过程中涉及的匿名化、假名化、去标识化等概念,进而搭建既适应我国当前需要,又有能力引领全球数据治理的去识别化方案,迅速增强数字经济活力,提升全球影响力。

2   个人信息去识别化的类型解构

曾为网络经济发展立下汗马之功的个人信息显名化以“识别”为核心支撑,包括“被识别”(个人身份已被辨识)和“可识别”(有能力结合处理中的信息与其他信息进行尚未发生的识别)等情形。识别对象主要是特定自然人的直接标识符或间接标识符。前者指姓名、住址、身份证号等可以直接关联到特定自然人的信息;后者则指年龄、性别、邮编等本身不能识别特定自然人,但关联其他信息时可以识别的信息。

概之,个人信息去识别化是在尊重自然人正当权益的基础上摈除一定量的直接或间接标识符,以便将相关风险控制在合理范围内的复杂过程。个人信息去识别化主要包括匿名化和去标识化两大分支。由于两者存在一定的相似性,常被混用或误用。然而,两者实际上在去识别化的方式、过程、后果上存在显著差异。

2.1   个人信息匿名化

早在现代统计技术诞生之初,如何在达到数据采集目的之前提下,有序控制个人信息披露的范围与方式就是关键性研发子域。19世纪中叶,美国联邦人口调查局为了重新分配众议院席位、确定各州征税标准以及估算战时军事潜力等而开展的大规模人口普查中就删除了一些与数据采集目的无关的个人信息[4]。20世纪50年代,计算机交叉制表技术大幅提升從业人员的数据分析能力。能够反复设置复杂过滤条件的查询模式使得参与者可以通过检索唯一标识符来锁定特定自然人,在节约资源、促进发展与维护稳定等方面发挥积极效用,却也引起一些专家学者对于隐私和安全的忧虑,进而推进一系列旨在强化匿名性的技术创新。如采取多种技术增加元数据集的随机噪声以降低识别出特定自然人的概率。

事实上,个人信息匿名化是在整合数据集聚与数据共享的大数据处理模式兴起之前就广泛应用的数据处理方法,最初被用于指代各种去识别化的方式方法,“改变个人数据以致有关个人或客观情况的信息不能够确定为或必须付出相当大的时间、经费和劳动才能确定为归属于认定的个人”①。即只要达到难以识别或复原困难就属于匿名数据,而非“无法识别”或“不能复原”。

随着现代信息基础架构和大数据处理技术迅猛发展,消噪攻击行为等更为频繁、便捷与隐蔽,大幅加剧了个人信息处理中重新识别的风险[5]。各国基于动态权衡数据质量与数据安全之目的,不得不持续收紧匿名化标准。如美国国家标准与技术委员会(ANSI)将之表述为“信息控制者对数据集中可以识别个人身份的信息予以改变或者删除,从而使信息利用者不能再识别信息主体。”[6]又如《欧盟通用数据保护条例》(GDPR)写明“数据保护原则不应当适用于匿名化数据”,并将匿名化的内涵限定为“无法识别且不能复原”[7],试图实现包括推断预测在内的各种数据处理模式均无法指向特定个体。这一将绝对匿名化数据排除在个人信息处理规制之外的治理模式不仅有利于节约资源并促进数字经济发展,亦不会对自然人造成明显的负面影响,获得多个国家和地区认同。如《印度个人数据保护法案(草案)》(PDPB)将匿名化界定为“对个人数据进行不可逆的转化处理或转换为无法识别数据主体身份的格式,以符合监管机构的不可逆标准”[8]。又如我国的《个人信息保护法(草案)》第69条第1款第4项对“匿名化”的定义亦是“经过处理无法识别且不能复原”的绝对匿名化[9]。

因之,当前普遍使用的个人信息匿名化是指一个通过技术处理使得数据无法与任何已识别或可识别的特定自然人相关联、不能通过数据处理者与第三方协作直接或间接识别特定自然人的不可逆转的过程。

2.2    个人信息去标识化

2.2.1   必要性分析

信息技术广域应用的发展历程中充斥着个人数据重新识别与复原的风险,“数据处理可能永远无法确保完全不会泄露敏感信息”[10]。如哈佛大学隐私实验室主任拉塔妮娅·斯维尼(Ratanay Sweeney)早在1996年就运用“K-匿名”思路从海量健康数据中重新识别出时任马萨诸塞州州长的威廉·维尔德(William Weld)[11]。

21世纪以来,有关个人信息匿名化的技术验证如火如荼。令人遗憾的是,万物互联场景下不断丰富的复杂数据集、相关技术进展和算法迭代一再证明了“E-多元”、“T-保密”、差分隐私和通过联合系统进行保持隐私的共享数据分析等匿名化方法在实现数据基本可用的前提下无法避免重新识别,“数据可以是有用的,也可以是完全匿名的,但绝不能两者兼有。”[12]如阿尔温德·纳那扬(Arvind Naranayan)和维塔利·施玛蒂科夫(Vitaly Shmatikov)成功重识了Netflix发布的匿名数据集[13]。又如伦敦帝国理工学院的研究人员搭建出通过邮编、性别、出生日期等3个信息就能有81%概率在匿名数据库中准确追踪特定对象的机器学习模型(具有15个人口统计属性的匿名数据集的识别率高达99.98%),意味着较为先进的估算模式有可能成功重识严重不完整的匿名数据集,“即便采样量极大的匿名数据集也难以满足GDPR规定的现代匿名标准。”[14]

事实上,能够发挥最基本的数据价值的人口统计数据集必然包括特定自然人一定的属性点(少于3个属性点的人口集合数据毫无价值)。当前,大量数据集存在类似难题,尤其是生物特征数据具备海量独特因子。问题在于,经过处理的个人信息并不具有绝对不可识别性和无法复原性。美国AOL公开的用户搜索请求、Netflix的用户视频推送以及澳大利亚政府发布的数百万公民健康数据,均是删除或屏蔽了多项标识符的个人信息,却在万物互联化、零散数据海量化以及挖掘技术复杂化的现实环境中精准锁定到特定自然人。2019年,苏黎世的两位研究人员试图结合案情从瑞士联邦最高法院判决书中提及的匿名的制药公司和药品名称里评估哪些制药公司和医疗药物参与了针对联邦办公室的法律诉讼。结果显示,通过挖掘公开的匿名数据库,能够重新识别84%的案件[15]。

全球专家经过40年的技术验证已经就个人信息无法彻底匿名达成共识。随着元数据集越来越大、数据更新越来越快、数据库交互越来越多,匿名难度也越来越高。有关个人信息处理的治理机制不仅应当避免将绝对匿名化作为评判指标,也有必要完善去标识化分支的相关概念、标准、技术规制与风险评估,在维护自然人正当权益的基础上,建立科学合理、清晰友好的数据利用模式,促进居民健康、改善交通出行、提升教育质量、推动技术进步、助力经济发展、实现社会和谐。

2.2.2   概念界定

个人信息去标识化亦可称为“个人信息去标识化过程”,意指一个通过技术处理去除目标数据集中定量识别属性和数据主体之间关联并搭建充分防御重识别壁垒的过程。一般而言,去标识化过程是在保留个体颗粒度的基础上,采用假名、加密、哈希函数等技术手段替代对个人信息的直接标识或准标识,使得第三方在不借助额外信息的情况下无法识别或者关联特定自然人,从而能够安全地将目标数据集共享应用到外部系统。

一般而言,去标识化涵盖了绝对匿名化以外的全部去识别化的方式方法。如假名化就是去标识化的一种技术手段,即使用假名为特定自然人创建唯一标识符以替代原始的直接标识符,从而在不同数据集的相关记录之间建立不会泄露隐私的关联关系。

2.2.3   基本标准

目前,很多处理中的数据集源于多元信息整合。如医疗保健类数据集可能来自病患检查数据、可穿戴式传感器传输数据、临床试验数据、基因组数据、医患描述数据等。复杂的数据来源使得传统的知情同意原则难以有效执行且有可能影响数据价值变现,亟待有条件地免除个人信息处理者在充分满足去标识化基本标准下的同意获取义务。

个人信息去标识化是一个专业性很强的复杂技术处理过程且并非全程处于不可知状态,需要清晰明确的基本标准。对于直接标识符,应当予以删除或使用随机值或通用名称替换、采用系统化特定值一致替换信息系统中多个数据记录等。对于无法独立识别特定自然人的间接标识符,由于这些数据量级巨大、覆盖广泛且随着环境要素变化而调整,技术上无法全部彻底地删除或更改。实际操作中删除某种可能对后续分析非常重要的信息还有可能会损害整个数据集的效用[16],违背了去标识化合理权衡个人信息安全与数据充分利用的初衷。如以医学创新与医疗质量发展为例,技术进步使得人们能够从大量电子医疗记录和其他与健康相关的数据资源库中获得海量有用数据,迅速扩充临床医疗知识储备、增加协作平台的互操作性。有必要给予弹性较大的合理使用空间,推动人类健康存续与有序发展。当然,应当建立包括一系列基本标准和安全评估方案,督促个人信息处理者采用可证明的加密搜索、隐私计算、粒度访问控制、问责制、数据来源管控等增强型隐私系统和安全措施。

3   个人信息去识别化的域外治理经验和我国实践

3.1    域外治理经验

基于全球合理权衡个人信息安全与数据充分利用的共识,主要国家和地区纷纷为个人信息去识别化建规立约。整个发展脉络经历了从统一混用匿名化到以去识别化为上位概念,分别明确匿名化与去标识化的变迁。

3.1.1   欧盟

1995年,欧洲议会和欧盟理事会制定的《数据保护指令》(Data Protection Directive,95/46/EC)提到了个人数据匿名化处理,却由于规定过于宽泛模糊、缺乏可操作性, 一直未能有效落实。2014年,欧盟第29条工作小组(Article 29 Working Party,WP29)发布了《第05/2014号意见:匿名化技术》(Opinion 05/2014 on Anonymization Techniques),大致梳理了歐盟个人数据保护框架的正负效应并提出有关第三方评判匿名化状态的客观标准的建议。即基于个人数据的分离识别风险、关联性风险和推测风险等等,主张避免能够从数据集中分离出部分或全部可识别个人身份的记录、能够在两项或以上同属一个或一组数据主体却分散在不同数据集的记录之间产生关联以及避免能够以较高概率从一系列属性中精准推测某一属性的数值,试图通过规制具体行为以提升个人数据重新识别的难度、成本与可责性,却依旧无法回避个人数据无法彻底匿名的问题。

2016年,《欧盟通用数据保护条例》(GDPR)试图积极协调数据利用和隐私保护之间的博弈关系,既写入严苛的个人数据匿名化条款,又已经意识到难以确保经匿名化处理后的数据具有不可识别性和无法复原性,相关治理规则呈现出明显的矛盾性与模糊性,难以实际落地。

一方面,GDPR第4条将“匿名化”描述为“一种在个人数据被处理后不使用额外信息就不能指向特定数据主体的处理方式。该处理方式将个人数据与其他额外信息分别存储,并且使个人数据因技术和组织手段而无法指向一个可识别和已识别的自然人。”并在序言第26条中指出,本条例的数据保护原则不适用于匿名信息。也就是说,那些没有关联到一个已识别或可识别自然人的信息,或者通过技术方法使得个人数据呈现出匿名性的数据主体不能也不再是可识别的。但在对“可识别”的解释中将之界定为虽然经过假名化处理却在使用额外信息后仍然能够关联到特定的数据主体。

另一方面,GDPR亦为个人数据匿名化设定了“合理可能”的规制标准。既强调考虑识别时间和成本、处理时现有技术与技术发展等客观要素,却又在确定自然人是否可识别时,要求数据控制者或第三方应当“穷举”直接或间接识别自然人的一切“合理可能”的手段。即“可识别”是“数据控制者或任何其他人”等识别主体采用“所有合理可能使用之方法”以“直接或间接地识别该自然人”。

然而,这一旨在通过复合技术使得个人数据在不能被识别的基础上充分发挥合理利用价值的匿名化规则难以实现。个人数据固有的动态特征和识别技术的持续提升使得匿名化数据不可避免地存在被再识别的剩余风险。虽然GDPR也提及了删除明显标识符并替换为代码的数据假名化是不使用额外信息就无法关联到特定数据主体的去识别化方式,却并未在严格监管的前提下给予一定的同意豁免,不利于数据价值的充分实现,抑制了数据市场的活力。

3.1.2   美国

1996年,美国出台的以个人隐私为中心的《健康保险便携性与责任法案 》(HIPAA)探讨了个人信息匿名化的实现路径。2012年,时任美国总统的奥巴马签发了《隐私权法案》(Privacy Act),强调个人数据收集、使用和披露的场景应当与消费者提供数据的场景相一致,进一步细化匿名化的具体要求。

2018年的《加州消费者隐私法案》(CCPA)在权衡数据价值利用与个人数据保护的基础上,认为数据单独或与其他数据相结合无法识别到特定自然人的绝对匿名状态不仅难以实现且可能会大幅降低数据价值,进而搭建了去标识的相对匿名状态下免除个人数据处理者知情同意义务,但不减轻侵权损害赔偿责任的治理模式。对于个人数据去识别化的要求集中体现在控制者必须采取合理措施删除或更改能够识别特定自然人的直接标识符。控制者不仅应当公开承诺不会重新識别数据,在与第三方数据接收者或使用者签订的合同中也应当禁止二次识别[17]。

3.1.3   日本

日本的《个人信息保护法(修订)》(APPI)规定,任何包含“个人信息识别符号”的数据都属于个人信息。并将之归纳为,“属于下列各项规定的情形之一的、由法令规定的文字、号码、记号及其他符号:(1)为了将特定个人身体的某一部分特征用于电子计算机而将其变换为文字、号码、记号及其他符号,并且能够识别该特定个人;(2)利用提供给个人的服务或购买出售给个人的商品时被分配或发行的用户号及其他材料中记载的或者以电磁方式记录的文字、号码、记号及其他符号,能够识别特定购买者或使用者等等。”既包括脸型、步态、声纹、掌纹等生理信息, 也包括护照号、保险号、身份证号等社会信息。

这一治理模式同时对个人信息去识别化的匿名化分支和去标识化分支做出了规定,既肯定了彻底匿名的数据不再属于个人信息的范畴,又对去标识化的概念、方式、影响及其权责关系做出了规定[18]。

3.2    我国的治理实践

我国有关个人信息去识别化的治理方案散见于《民法典(总则)》《网络安全法》《电子商务法》《信息安全技术个人信息安全规范》以及《个人信息保护法(草案)》等。主要采用概括规定和部分列举并用的“可识别说”挖掘单独或与其他信息结合识别特定自然人的信息。如《网络安全法》既将遵循知情同意原则作为获得个人信息处理权的一般性合规基础,又在第42条的条款中规定,个人信息匿名化的要件是信息必须经过技术处理、处理后的信息无法识别特定个人且不能复原[19]。《个人信息安全规范》不仅强调控制者应当采用技术手段和管理措施进行个人信息去标识化,还具体规定了分开存储可用于恢复识别特定自然人的信息与去标识化后的信息、通过界面展示个人信息时建议采取去标识化处理措施、个人信息安全影响评估应当包括去标识化处理后的数据集重新识别出特定自然人或与其他数据集汇聚后重新识别出特定自然人的风险等等。同时,以促进数据安全与数据利用为宗旨,指出“共享、转让经去标识化处理的个人信息,且确保数据接收者无法重新识别或者关联个人信息主体的”不再需要“向个人信息主体告知共享、转让个人信息的目的、数据接收方的类型以及可能产生的后果,并事先征得个人信息主体的授权同意。”特别强调了“将所收集的个人信息用于学术研究或得出对自然、科学、社会、经济等现象总体状态的描述,属于与收集目的具有合理关联的范围之内”,不再需要“再次征得个人信息主体明示同意”,但“对外提供学术研究或描述的结果时,需对结果中所包含的个人信息进行去标识化处理。”[20]

近几年,我国数据治理部门和研究人员开始意识到难以实操且较为严苛的传统匿名化处理规则导致相应社会关系长期处于不稳定状态,严重阻碍数据合理开发利用。如早先的《数据安全管理办法(征求意见稿)》第27条重申了《网络安全法》的匿名化处理规则,将之表述为“网络运营者向他人提供个人信息前,应当评估可能带来的安全风险,并征得个人信息主体同意。下列情况除外:(三)经过匿名化处理”。2020年的《数据安全法(草案)》却以“保障数据安全、促进数据开发利用”为主旨,强调个人信息控制者应当建立健全流程化的数据安全管理制度,并未具体提及个人信息的匿名化处理问题。如《个人信息安全规范》将匿名化数据处理的应用场景限定为需要删除个人信息、注销个人账户、停止产品或服务运营等,作为数据清除的同质手段。

此外,中国国家标准化委员会立足我国现状、参考《ISO/IEC20889:增强隐私数据去识别化术语和技术分类》等颁布的《个人信息去标识化指南》中确立了防御重识风险的量化保障,初步搭建起系统性的个人信息去标识化过程范式。问题在于,这一指导性国家标准的效力层次较低、体系不够完善、内容疏漏明显,亟待创建科学高效的高位阶去识别化治理机制。

4   聚焦隐私安全的治理方案

积极聚焦个人隐私安全的有效治理,反思匿名处理的实操难度与负面影响,构建在实践中能够切实达致个人信息保护与数据充分利用动态平衡的去识别化治理方案,不仅具有重要的现实意义,亦将进一步推高我国在全球个人信息去识别化建设中的位次并提升在国际治理模式构建中的话语权。

4.1    搭建基于风险管控的去标识化框架

“去标识化”作为“个人信息去识别化”的主要分支,制定具体规则时有必要围绕降低再识别风险的必要过程展开框架设计,明确个人信息处理者在去除直接识别符的情形下有条件豁免知情同意的前提是处理者综合考量了个人信息类型与敏感程度、数据集流转方式与目的、避免再识别的技术和协议保障等。

同时,信息技术迭代发展的外部环境之下,严格的个人信息去标识化实践基本可以应对恶意攻击和泄露行为,却不能确保不会出现数据安全事件。去标识化并不意味着彻底无法复原个人信息,而是需要花费巨额物力、人力和时间精力才能确定信息内容。寻求个人信息安全与数字经济发展之间动态平衡的关键在于严格监管擅自实施个人信息再识别的主体,甚至将之纳入社会信用黑名单,使得个人信息违法侵权面临高昂代价,强力威慑肆意还原行为,使得特定自然人能够得到充分补偿和完整救济。

4.2    完善去识别化的保障机制

首先,亟待释明个人信息去识别化的概念与分支,区分标识符、直接标识符、准标识符、微数据、重标识等等,强调广义的去识别化就是通过分离、删除或变换直接标识符和准标识符,避免攻击者依据这些属性直接识别或结合其他信息识别出特定自然人,并根据可获得的数据情况和应用场景选择合适的模型和技术,确保增加新信息或信息接收方的私下通谋不会增加隐私风险,且确保去识别数据集尽量满足预期目的。

其次,有必要细化个人信息去识别化的主要技术指标。详细描述数据抽样和数据聚合等统计技术,同态加密、同态秘密共享、保留加密、保留格式加密等密码技术,屏蔽、局部抑制、记录抑制等抑制技术,选择属性并创建假名等假名化技术,取整、顶层与底层编码等泛化技术,添加噪声、微聚集和置换等随机技术,具体展示K-匿名模型和差分隐私模型等。

最后,应当持续监管个人信息去识别化的全生命周期。依据政策法规、业务需求和数据用途等要素确定去识别化的对象范围、具体目的、操作人员、实施方案和进度安排,描述查表识别法(预先建立包括多属性的个人信息元数据表格并逐项对比待识别信息)、规则判定法(通过建立自动化程序分析个人信息规律并发掘需要去识别化的标识符)和人工分析法(通过人工发现和确定需要去识别化的标识符),通过预处理、选择模型、实施去识别化等处理各种隐私标识,评估重识风险、预期可接受风险阈值、完善验证审批机制等。

4.3    建立去标识化个人信息的具体利用范式

数据作为新型生产要素的重要价值已经得到广泛认可,但在培育和发展数据要素市场的过程中,缺乏以促进数据利用为核心的权益归属模式严重阻碍了海量数据创造价值与参与价值分配。亟待立足国家数字经济发展战略,建立去标识化个人信息的具体利用范式,加快实现数据有序开放与协调共享,切实提升数据要素参与价值创造的效率并保障价值分配的公平性,实现数据有效利用和个人隐私保护的有机平衡。

4.3.1   构建以数据利用为核心的权属机制

复杂的數据产权问题一直是各界焦点,在一定程度上已经成为阻滞数据资源充分利用的主要障碍。具体到去标识化的个人信息领域,经过高投入的技术加工的输出数据集是企业的重要资产。但数据要素固有的非排他性与非竞争性特质为竞争对手提供了巨大的恶意使用的空间。集合数据剥离困难及其对结果稳健性的负面影响使得个人信息处理者急需明确去标识化的输出数据集的权益归属。根据此类数据创造的过程与性质,基于不同的数据利用场景建立差异化的数据权能配置方案。

迅速建立以数据利用为核心的去标识化个人信息的权属机制,严格限制使用范围,避免重新识别风险。同时,面对时代发展为个人信息增添的公共属性,肯定个人信息处理者对去标识化输出数据集的基本权能,提升处理者主动分析和利用数据的动力,有利于避免大量数据资源处于休眠状态,推进多业态创新和社会和谐的良性互动。

4.3.2   搭建“三全”透明的使用规则

使用规则应当是全面覆盖去标识化个人信息使用全流程、全模式、全响应的透明体系。通过积极建设科学的共享流程,完善政企数据开放协调机制,肯定企业在公共卫生、环境保护、社会保障、征信认证等公益领域内充分使用信息的权利,建立企业运用去标识化数据集分析计算消费者选择倾向、需求偏好、退换货情况等改善服务场景和优化企业整体生态系统中的合理使用准则,使得各部门、各地区、各行业、各领域能够在去标识化个人信息全生命周期的不同场景中合规开展高质量的数据处理,加快数据开放共享,提高产业创新能力。

4.3.3   兴建去标识化数据资产有序交易的市场保护机制

去标识化个人信息有效参与价值创造与分配的前提是营建一个合理有序的数据交易市场。依据去标识化数据资产所属行业的特点、数据资产自身特征、应用环境与商业模式等,在深入分析去标识化数据资产价值维度的基础上,运用提取的量化指标形成不同行业的数据资产价值评估模型,建立具有一定共识基础的交易价格标准,刚性约束相关资金、技术、物质和人才的统筹衔接与条块结合,实现跨地区、跨部门、跨层级、跨系统的数据资源有序交换与业务协同,加快培育和发展数据要素市场。

5   结语

随着第五次科技革命和产业变革深入推进,智慧时代的经济社会发展愈加依赖数据价值的充分挖掘。亟待厘清个人信息去识别化的内涵与外延,建立聚焦数据隐私的治理方案,平衡个人正当权益与数据高效利用。同时,有必要通过鼓励相关研发工作和创新人才评价、合理保护信息共性关键技术应用、加强去标识化数据利用的宣传教育,营建整个社会正确认识、积极参与和全面监督去标识化个人信息合规、合理、充分利用的良性生态,进而支撑后疫情时代国家数字化发展战略。

参考文献:

[1]  Jerome S.End-to-end arguments in system design in: Integrated broadband networks[M].Boston:Artech House,1991:30.

[2]  Jack G,Timothy W.Who controls the internet:illusions of a border-less world?[M].Oxford:Oxford University Press,2006:44.

[3]  MRC location-based advertising measurement guidelines[EB/OL].[2017-03-20].http://www.mediaratingcouncil.org/MRC%20Location-Based%20Advertising%20Measurement%20Guidelines%20Final%20March%202017.pdf.

[4]  A history of census privacy protections[EB/OL].[2019-10-14].http://www.census.gov/history/pdf/history-privacy-protection102019.pdf.

[5]  Naren R,Benjamin K,Batul M.Privacy risk in recommender systems[J].Personalization and Privacy,2011(12):56.

[6]  Jules P,Omer T,Kelsey F.Shades of gray:seeing the full spectrum of practical data deidentification[J].Santa Clara Law Review,2016(3):596.

[7]  Recital 26:not applicable to anonymous data[EB/OL].[2016-04-27].https://gdpr-info.eu/recitals/no-26/.

[8]  Bill No.373 of 2019.The personal data protection bill,2019.[EB/OL].[2019-06-12].http://164.100.47.4/Bills Texts/LSBillTexts/Asintroduced/373_2019_LS_Eng.pdf.

[9]  中华人民共和国个人信息保护法(草案)[EB/OL].[2020-10-22].https://www.sohu.com/a/426584424_780954.

[10]  William B,Dorothy D.Security capabilities,privacy & integrity[M].Computers,Freedom & Privacy,1991:65.

[11]  Daniel B.The“re-identification” of governor william welds medical Information:A critical re-examination of health data identification risks and privacy protections,then and now[EB/OL].[2012-06-18].https://fpf.org/wp-content/uploads/The-Re-identification-of-Governor-Welds-Medical-Information-Daniel-Barth-Jones.pdf.

[12]  Paul O.Broken promises of privacy:responding to the surprising failure of anonymization[J].UCLA Law Review,2010(4):57.

[13]  Bruce S.Why“anonymous”data sometimes isnt[EB/OL].[2007-12-13].https://www.schneier.com/essays/archives/2007/12/why_anonymous_data_s.html.

[14]  Luc R,Julien H,Yves M.Estimating the success of re-identification in incomplete datasets using generative models[J].Nature Communication,2019(10):3069.

[15]  Researchers use big data and AI to remove legal confidentiality[EB/OL].[2020-10-29].https://www.forbes.com/sites/forbes-personal-shopper/2020/10/29/best-black-friday-tv-deals-2020/?sh=223f5dd77a0b.

[16]  Self-regulatory principles for online behavioral advertising and multi-site data[EB/OL].[2011-11-05].https://digitaladvertisingalliance.org/sites/aboutads/files/DAA_files/Multi-Site-Data-Principles.pdf.

[17]  Protecting consumer privacy in an era of rapid change[EB/OL].[2012-03-29].https://www.ftc.gov/reports/protecting-consumer-privacy-era-rapid-change-recommendations-businesses-policymakers.

[18]  Janpan:overview of the act on the protection of personal information[EB/OL].[2019-01-15].https://www.researchgate.net/publication/331462459_Japan_Overview_of_the_Act_on_the_Protection_of_Personal_Information.

[19]  中华人民共和国网络安全法[EB/OL].[2016-11-07].http://www.cac.gov.cn/2016-11/07/c_1119867116.htm.

[20]  信息安全技术个人信息安全规范[EB/OL].[2020-03-27].https://www.secrss.com/articles/17713.

作者简介:蒋洁,女,南京信息工程大学法政学院、中关村智用人工智能研究院教授,研究方向:信息规制与数据治理;兰舟,女,中关村智用人工智能研究院助理研究员;祁怡然,女,南京信息工程大學法政学院硕士研究生。

猜你喜欢
数据治理个人信息
个人信息保护实务大全(上)
保护死者个人信息 维权要不留死角
敏感个人信息保护:我国《个人信息保护法》的重要内容
浅论非法使用个人信息的刑法规制
主题语境九:个人信息(1)
高校数据融合路径及其治理框架的探讨
基于本体的企业运营数据治理
云端数据治理初探
刊评调查
大数据治理模型与治理成熟度评估研究