彭宁波
(岭南师范学院图书馆 广东湛江 524048)
当今数据成为国家和企业重要的战略资源,大数据时代已经来临。大数据在各个领域为人们的生活提供便利、创造经济效益和社会效益的同时,也对数据安全和隐私保护提出了新的挑战。众多案例表明,数据大量收集后存在暴露用户隐私的风险,互联网更是增大了隐私泄露的可能性。2013年的“棱镜门”事件加剧了人们对隐私泄露的担忧。近年来,数据隐私泄露事件频发,隐私泄露问题日益凸显,如何防止数据隐私泄露和保护数据隐私引起了国人的广泛关注和重视。笔者在2021年3月16日利用中国知网(CNKI),以“数据隐私”与“保护”作为“篇名”检索词进行精确检索后得到81篇北大核心期刊和CSSCI期刊论文、91篇中文学位论文,并通过国家图书馆馆藏目录检索到相关著作8部。虽然国内已发表数据隐私保护技术相关研究综述[1],但缺少数据隐私保护的整体研究综述。文章主要从数据隐私保护相关概念、数据隐私泄露、数据隐私保护技术与方法、数据隐私保护法律、数据隐私保护对策五个方面进行梳理和综述,以期为数据隐私管理与治理以及国家大数据战略的实施提供一定参考。
了解什么是数据隐私和数据隐私保护,是开展数据隐私保护的前提。
对于什么是数据隐私,目前学界没有形成统一的认识,出现了如下几种代表性的定义:①数据隐私是数据拥有者不愿意被他人披露的敏感数据,包括数据本身以及这些数据所表现出的相关特性[1];②数据隐私是数据中包含的可能会泄露组织或个人秘密信息的部分[2];③数据隐私是个人、组织机构等实体不愿意被外部知道的信息,如个人的行为模式、位置信息、兴趣爱好、健康状况、公司的财务状况等[3];④数据隐私是个人希望得到保护、不愿公开被他人知晓的敏感数据,以及经过数据处理后,识别出的用户不愿被他人知晓的隐私内容[4]。可见,敏感数据和数字行为都是数据隐私的重要组成部分。
数据隐私可依据不同分类标准分为多种类型。从隐私所有者角度出发,数据隐私可分为个人隐私和共同隐私[5];根据数据来源的不同,数据隐私可分为监视带来的隐私、披露带来的隐私、歧视带来的隐私[3];根据数据对象所处时空,数据隐私可分为位置数据隐私、签到数据隐私、轨迹隐私[6];根据用户隐私的保护需求,数据隐私可分为身份隐私、属性隐私、社交关系隐私、位置与轨迹隐私等[7]。
数据隐私特征主要包括:①数据隐私权的主体一般是自然人[8];②具有推断性,可以推断个人某方面的特质,如购买偏好、出行习惯等[9];③具有范围不可辨、权限不可控、泄露后果不可知的特点[4];④具有隐私主体多元化、全生命周期、隐私保护粒度化和多重评价指标的特点[10];⑤具有边界难以鉴定的特征[3]。正因为数据隐私存在上述特征,对数据隐私边界的厘清以及对数据隐私权利的界定和保护才显得更为复杂和棘手。
数据隐私保护是在将隐私泄露风险最小化的同时使数据的可用性最大化[11]。在云计算中,数据隐私保护是指采取相应的措施防止个人信息被跟踪、暴露以及存储在云中的敏感信息被泄露,涉及对云中数据的共享、搜索、计算、完整性验证、删除等各种操作以及数据自上传到销毁的整个生命周期[12]。
根据隐私保护对象的不同,数据隐私保护可分为面向用户的隐私保护和面向数据的隐私保护,前者从用户角度出发为其提供隐私信息保护,在用户访问数据的隐私信息或者对隐私信息进行增删改等行为时提供技术上的保护;后者基于数据库管理系统对信息的使用来对数据信息进行保护,即将一些隐私保护技术应用于相关敏感数据中,防止用户隐私泄露等问题[13]。根据保护策略,数据隐私保护可分为面向数据的隐私保护和面向上下文的隐私保护,前者又分为数据融合隐私保护和数据查询隐私保护,后者又分为身份隐私、位置隐私、时间隐私和路由隐私(时空隐私)等[14]。
保护数据隐私安全的基本需求包括数据的机密性、完整性、可用性、查询隐私保护、可控性,以及可审查性、真实性、数据的完备性8个方面[15]。数据隐私保护的基本目的是保护敏感数据不被泄露[1],具体目的包括:①保护数据隐私的同时要保证数据的有用性[16];②保护用户的隐私不被窃取、篡改和公开[5];③实现数据可用性和隐私性之间的良好平衡[7]。
数据隐私泄露是数据隐私保护的诱因。数据隐私泄露的原因、表现和危害等主题引起了学者们的广泛关注。数据隐私泄露的原因主要包括五方面:①用户数据逐渐成为企业的核心资产,成为企业竞相追逐的目标[4]。为获取巨大的商业价值,企业可能滥用个人数据以牟利,将隐私信息非法出售[17];或采取不当措施追踪、搜集甚至窃取用户个人数据以牟取不正当利益[9]。②日益增多的个人数据、数字行为和数据外包存储等增大了数据隐私的泄露风险[4,12]。③大数据包含大量个人信息甚至个人敏感信息,使隐私泄露变得更加容易[18];大数据技术如数据挖掘使得隐私泄露范围广、数量大、传播快[17]。④用户个人信息安全意识淡薄或技能不高,容易造成隐私无意识外泄[19];个人不当的网络行为也可能造成数据隐私泄露[9]。⑤用户与服务方信息不对称、缺乏个人数据使用的“知情同意”、社交媒体助推用户隐私过度自我披露,都会造成数据隐私泄露和被跟踪的风险[20]。
数据隐私泄露可能出现在数据生命周期的每个阶段,这体现在以下五个方面[3,21]:①在数据收集中,如果个人数据被不可信的第三方收集,则个人隐私很有可能被泄露或卖给恶意攻击者;②在数据集成融合与存储中,可能存在不可信外包服务攻击、无加密索引、记录连接攻击等;③在数据分析过程中,可能存在频繁模式支持度攻击、分类与聚类攻击、特征攻击等;④在数据解释过程中,可能存在前景知识攻击、通过数据溯源图挖掘元数据之间的依赖关系等;⑤在数据交互过程中,可能出现窃听者盗取用户的通信数据、攻击者通过恶意软件突破保护或观察用户的请求从而非法访问或间接获得用户的数据信息、攻击者发起内部攻击获得用户留在服务器上的数据信息等情形。
数据隐私泄露的危害主要包括:①可能造成数据的滥用和扩散,侵犯个人隐私权[22];②可能造成个人信息被非法收集和反复传播,损害公民的知情权和信息自决权[23];③侵犯实体生活,造成经济损失、个人的生命安全以及国家基础设施安全威胁[24];④给个人生活造成极大困扰,激化社会矛盾,损害公共利益等[9]。
在数据生命周期管理过程中,如何采用技术确保隐私不泄露,在最小化隐私泄露风险的同时保证数据的可用性成为众多学者关注的问题。根据防止隐私泄露的不同实现方式,数据隐私保护技术与方法主要包括如下三类。
基于数据失真的技术即数据扰动技术,是通过扰动原始数据实现隐私保护,使扰动后的数据同时满足两个条件:攻击者通过发布后的失真数据不能重构出真实的原始数据、失真后的数据仍然保持某些性质不变[25]。其中,差分隐私是应用最广泛的数据隐私保护技术,与差分隐私相关的数据隐私保护方法尤其受人重视。差分隐私是一种通过添加噪声使原始数据失真的隐私保护技术,在数据集中添加或删除某一个记录之后并不会影响查询处理的结果,且所加入的噪声大小与数据集大小无关,对于大型数据集仅需添加少量噪声即可达到很好的隐私保护效果[26]。目前与差分隐私相关的隐私保护方法主要包括:①基于MapReduce模型引入差分隐私保护的决策树生成算法DPMR[27];②基于非交互的差分隐私保护模型的社交网络图扰动方法dp-noisy[28]、基于Skyline计算的个性化差分隐私保护算法[29];③基于自适应ω-事件差分隐私(Re-ADP)的实时流式数据隐私保护算法[30];④面向查询的四叉树差分隐私混合分解算法和面向挖掘的差分隐私四叉树密度聚类算法[31];⑤基于二分关联图的群组差分隐私保护方法[32];⑥基于差分隐私的位置数据隐私保护LQ-Trie-DPK算法[33]、联邦学习数据隐私保护方法[34]、时空数据实时安全发布方案E-RescueDP[35]等。这些方法在保证数据可用性的基础上实现了对数据隐私的保护。
基于数据加密的技术是通过加密的方式对数据进行隐私保护,对原始数据施以加密操作,从而达到隐藏敏感数据的目的[36]。其实现的常见方式分为对称加密和非对称加密,对称加密如序列加密算法、AES、3DES算法等,非对称加密如RSA算法、椭圆曲线(ECC)密码算法等[37],典型应用技术为安全多方计算和同态加密。当前关注重点主要是云平台中的数据隐私保护。
云平台下的数据隐私保护方法主要包括:①在云存储方面,采用位拆分与位合并的高性能数据隐私保护方法BSBC[38]、基于数据分割与分级加密的云存储数据隐私保护机制[39];②在云计算方面,采用基于随机数的动态数据隐私密码机制[40]或基于改进概率公钥加密的隐私保护方法[41];③在云数据安全方面,采用无链接性的细粒度跨云访问控制机制PCAC、面向高级数据查询的可搜索加密方案GPSE、面向字符串模式匹配处理的安全外包计算技术SOPM[37]等。此外,其他相关方法如基于双重加密的区块链交易数据隐私保护方法[42]、基于移动节点的数据隐私保护算法[43]、基于同态加密的社会化推荐方法[44]等,都可以在不泄露原始数据的前提下实现隐私保护的目的。
基于数据匿名的隐私保护技术主要是通过数据匿名化实现,在权衡隐私泄露风险和数据精度基础上,对敏感数据和可能泄露的敏感信息进行有选择的发布,从而达到降低隐私泄露风险的目的[11]。k-匿名、l-多样性和t-接近是典型的数据匿名化技术代表,其中,关于k-匿名的数据隐私保护方法的研究备受关注。
k-匿名通过修改准标识符的值,使匿名数据集中的任何个体与至少k-1个其他个体无法区分[32]。目前提出发布数据时关于k-匿名的隐私保护方法包括:①基于非敏感信息分析的轨迹数据隐私保护发布算法(TP-NSA),以实现轨迹数据集k-匿名[45];②基于属性分类加权的k-匿名数据隐私保护算法ACW[46];③采用(alpha,k)方法改进的基于有损分解的数据隐私保护方法Alpha+[47];④根据敏感属性的敏感等级对等价类中不同敏感属性的敏感值实施的个性化(p,α,k)-匿名隐私保护算法[48];⑤基于k-匿名扩展的、抵御具有知识背景攻击的隐私保护模型X-km-匿名[49];⑥基于距离聚类的(d,α)k-匿名算法,以防止数据发布后的共享数据不因属性之间的依赖关系而泄露个体身份[50];⑦采取从顶至下的局部重编码算法可防御相似性攻击并保护具有敏感属性值的类别和级别的数据发布的隐私保护算法模型(A,B,k)-匿名[51]等。这些方法满足了用户在数据发布时的隐私保护和数据可用性的多层次需求,在避免数据隐私泄露的同时保证了数据的真实性、高效性。
除隐私保护技术以外,法律法规是隐私保护的重要手段。该主题研究可分为国外数据隐私保护法律研究与国内数据隐私保护法律研究两部分。
国外数据隐私保护法律研究主要集中于欧盟和美国等地区或国家。目前全世界拥有全国性统一个人数据保护法律的国家和地区已达到120个[52],其中一些主要国家和国际组织颁布的数据隐私保护法律如表1所示。
欧盟《一般数据保护条例》在诸多方面做出重大变革[55]:①首次增加了“域外适用”情形;②采用“原则指引+高额罚款”的策略;③赋予公民广泛的个人权利,以实现数据全生命周期的可控,包括扩展和完善原有的权利,赋予数据主体以新的权利——数据删除权和可携带权;④由隐私权保护升级为个人数据保护;⑤首次增收“被遗忘权”提法;⑥设立完善的数据保护监管机制;⑦建立了完善的救济机制。美国的数据隐私保护法律法规纷繁芜杂,呈现出分散立法的特点,以行业自律为主、法律保护为辅[53]。美国没有一部规定个人数据收集和使用的独立、综合性法律,但有20多个特殊或较为特殊的隐私数据行业法规,以及50个州与地区各自制定的数以百计的隐私数据法规,仅加利福尼亚州就有25部以上的隐私和数据安全法,其中以2018年通过的《加州消费者隐私法》为代表[53]。
国际组织和主要国家 代表性法律 特点联合国 1990年发布《电脑处理数据文件规范指南》明确了电脑处理个人数据的基本原则经合组织1980年提出《关于隐私保护和个人数据跨境流动指南》及《OECD个人资料保护指针》为经合组织成员国的个人数据保护确立了基本原则亚太经合组织2004年签署《亚太经合组织隐私保护框架》,建立了APEC跨境隐私规则(CBPR)确立了个人数据处理与流通的指导原则欧盟1995年颁布《欧盟个人数据保护指令》,2016年制定《一般数据保护条例》,2018年5月正式生效是国际社会有关个人数据保护最全面、最有影响的法律文件之一美国 1974年制定《隐私法案》 规定了公共机构对私人信息采纳和使用的边界德国 1977年颁布《联邦数据保护法案》对个人数据保护统一规范法国 1978年实施《数据保护法案》规定个人数据使用行为的限制措施澳大利亚 1988年颁布《隐私法案》 适用于所有联邦成员的个人数据保护英国 1998年颁布《数据保护法案》增加对手动和电子数据记录的保护加拿大 2001年实行《个人信息保护和电子文件法》规范收集、使用和公开个人信息的行为日本 2003年通过《个人信息保护法》适用于数据控制者的个人信息处理行为,是日本数据保护的核心法律
对比欧盟和美国的数据隐私保护法律,一种观点认为,欧盟是理想主义的“数据主体”模式,赋予数据主体一系列权利,看重个人数据处理过程的规制;美国是实用主义的“消费者”模式,利用既有法律身份和监管机制进行隐私保护,倚重消费者权益保护机制[56]。另一种观点认为,欧式立法是“权利话语”下的数据保护,美式立法是“市场话语”下的隐私保护[57]。两者之间存在价值分歧和制度差异,欧盟倾向于将数据隐私视为基本权利和自由的一种,法律制度力图从基本人权角度保护数据隐私;美国倾向于将数据隐私视为市场利益的一种,法律制度将数据隐私放置在市场的环境内考虑,美国无意制定一部综合性的数据保护法,采取随机立法的方式,通过产业自治保护隐私的体制与欧盟通过综合立法保护隐私的体制形成了鲜明对比[58]。
该主题研究主要集中于保护法律的现状及问题等。目前,港澳台地区隐私保护法律走在国内前列。台湾在1995年正式出台电脑处理个人资料保护有关规定,在2010年正式通过个人资料保护有关规定;香港在1996年出台《个人信息(隐私)条例》,明确了个人信息的收集、存储、适用等规范;澳门在2005年出台《澳门个人资料保护法》,并于2006年颁布实施[54]。我国内地(大陆)尚未出台个人隐私信息保护方面的专项法,关于数据隐私安全与保护的规章制度散见于宪法、法律、法规及部门规章中[59]。我国《网络安全法》《民法总则》《信息安全技术 个人信息安全规范》分别于2017年6月、2017年10月、2020年10月正式生效[4],《个人信息保护法》和《数据安全法》也正在规划中。我国已然从多角度寻求保护公民作为信息主体的个体权益,数据隐私保护逐步规范化、法治化。
然而,目前我国数据隐私立法还存在一些问题,总体表现为[53]:①立法较为分散,不成体系,且立法位阶不高;②没有明确隐私权在法律中的地位,对隐私权以间接保护为主,直接保护较少,尤其是对电子隐私信息的法律保护力度不够;③相关规定过于笼统,对主管部门的职权范围和相关措施的规定较为模糊,对违法者的惩罚措施没有明确提及,执法不具可操作性,如《网络安全法》中“个人信息权”条文不够细化且与个人数据隐私保护问题无直接关联;④隐私保护让位于国家安全和经济发展。由此看来,我国虽然颁布了《网络安全法》《信息安全技术 个人信息安全规范》等法律法规来完善对数据隐私的保护,但长期以来对个人数据和个人信息保护力度偏弱的局面还有待突破。我国需要充分借鉴国外数据隐私保护法律经验,加快数据隐私立法步伐,提高隐私保护水平,才能实现与国际接轨。
数据隐私保护对策来自法律、技术和管理层面。对数据隐私保护的法律措施包括:①制定数据隐私专门法,内容结构应包括涉及目的、定义概念、基本理念等的总则;国家及地方政府责任;保护个人信息举措;个人信息处理机构义务;其他不适用情况规定;惩罚规则及附则[59];②完善隐私保护法规制度体系,明确个人数据保护范围,从收集、处理、交易、应用、举报、溯源等环节进行全流程的机制建设,确保个人数据使用安全规范[60];加快制定数据产权归属、保护以及采集、存储、加工、传递、检索、授权应用等法律法规,明确数据拥有者、使用者、管理者等各方的责、权、利[61];③尽快完成商业数据隐私权的立法,选定合适的隐私权保护执行机构[62];④加强发展与建设“刚”性有执行力的法律机制,政府监管机构、监管机制和监管义务是制定个人信息保护法的规范重点;梳理现有法律机制,充分利用和发展包括消费公益诉讼在内的法律机制对抗大型互联网企业大规模侵犯数据隐私的现象;在未来立法中做好顶层设计,逐步规范隐私身份法律术语,重点加强具有执行力的大数据隐私保护机制的设置[56]。
数据隐私保护的技术措施包括:①加强数据安全技术研发及技术标准制定,从技术手段寻找突破口,包括数据层、应用层、数据发布层等针对各数据层次的不同技术手段[23];②支持隐私保护技术及标准体系研发,包括隐私保护及溯源管理技术、隐私数据收集、交易、处理以及应用流程标准等,支持行业协会进行个人数据匿名或化名处理标准体系制订,支持企业与科研机构进行个人数据溯源技术研发[60];③加大技术控制,完善计算机安全技术,建立一个安全的计算机系统;引进新的数据安全技术,净化网络信息环境[63];④融合与创新,通过构建智能网络和数据管理平台,为数据的安全管理提供技术融合平台,推动各种安全技术和计算方法的融合与创新,为数据隐私及其安全管理提供创新动力[64]。
数据隐私保护的管理措施主要体现在国家、企业和个人层面。基于国家层面的管理措施包括三个方面。一是加强行政干预,具体包括:①建立数据隐私保护倒逼机制,采取第三方独立机构监督[59];②构建多方参与的举报机制,给予举报奖励、支持协会组织、降低举报成本[17];③制定行业规范,加大泄露个人隐私的惩罚力度等,对信息收集方做出严格的限制[23];④制定专门的大数据安全行业标准,由政府牵头,联合工业界和科研院所组成第三方安全评审仲裁机构,建立完备的数据管理制度[61]。二是参与国际隐私治理,推进行业自律机制与全球行业标准,发展隐私认证机构,引入国际先进的隐私影响评估(PIA)标准和隐私保护设计(PbD)标准[52]。三是重视数据跨境流动的治理,具体包括:①考虑加入区域性数据隐私规则体系,积极推进中国加入APEC跨境商业个人隐私权保护规则体系[62];②择机采取跟随、协作和引领策略,妥善处理贸易法与数据隐私法之间的关系,采取“原则+例外”的规制框架来缓和数据跨境自由流动与数据隐私保护之间的冲突[58];③进行安全评估与安全审查,坚持不危害国家安全利益、不危害企业商业利益、不危害个人信息三个“不危害原则”[55]。
基于企业层面的管理措施主要有三点。一是企业要自律,保护数据源头,具体包括:重视隐私条款政策的制定和规范性;承担起保护用户个人数据信息的责任,加强员工安全培训、严格控制访问权限、定期开展信息安全影响评估;将管理和技术手段结合,与时俱进,加强大数据环境下的网络安全防护技术建设[55]。二是企业必须将个人信息保护放在首位,可以尝试设定危险权限、规范应用隐私条款、设立数据安全官[55];给予用户更多的个人数据控制权,给用户更多的选择权、保障用户的知情权,合理使用用户数据[65];将隐私数据划分成不同等级,对隐私数据进行分级保护[65]。三是企业需要构建数据隐私保护的管理体系,包括[66]:①建立隐私保护政策总纲,在管理层达成共识;②建立隐私保护的组织和团队,负责隐私保护监管、审计以及与监管机构沟通;③建立隐私保护的政策与框架;④确定适用的法律法规;⑤建立PIA或数据保护影响评估(DPIA)的方法论与操作流程;⑥隐私生命周期的管理与落地(如隐私声明、数据收集、数据主体同意、流转审批流程、有效期管理与数据清理等);⑦建立数据目录以及隐私运营支撑系统,用于对隐私风险进行度量,支撑隐私保护工作的例行开展,并可用于向监管机构证明自身的合规性;⑧建立数据主体请求的相关流程和系统(用于支撑用户查询、修改、删除、撤回同意等);⑨隐私数据泄露事件的响应与报告机制。
基于个人层面的管理措施包括:①要加强隐私教育与培养保护意识,树立与时俱进的隐私观,开展数据隐私伦理的道德教育[23,63];②要提高应对大数据时代的媒介素养,对数据隐私辩证看待、分层保护,将数据及时脱敏[4];③可以联合其他数据主体,形成数据隐私保护共同体,让数据隐私保护意识成为社会共识[4]。总之,每位公民要认识到数据隐私信息泄露的严重后果,加强自我保护意识和提升保护技能,了解相关的法律法规,做到知法懂法、守法用法。
在大数据时代,数据的安全问题日趋凸显,数据隐私保护引起各界的关注。纵观国内研究,笔者发现:①人们已经意识到数据隐私保护的重要性,对数据隐私及其保护的概念以及数据隐私泄露问题有了一定程度的认识;②对数据隐私保护侧重从技术方法和法律法规视角进行研究,针对基于数据失真、数据加密和数据匿名的隐私保护技术与方法以及国内外数据隐私保护法律有了广泛而细致的研究;③虽然一些文献提出了数据隐私保护对策,但是我国对数据隐私安全和保护的研究尚处于起步阶段,对于数据隐私保护理论(如保护框架、政策标准、能力评估等)尚未有深入而体系化的研究,也缺乏数据隐私保护的实践研究,数据隐私保护研究的深度和广度还有待拓展。总之,数据隐私保护是大数据时代数据治理的一项重要内容,也是一项系统化工程,需要各环节、各主体、多角度协同开展,多方联动,才能创造良好的数据隐私保护环境,实现更安全高效的数据利用,推动技术创新和社会进步。
(来稿时间:2021年4月)