刘洪岩 唐 林
自上世纪70年代以来,伴随着西方国家福利国家的建设和福利政策的推行,政府出于管理者和福利提供者的角色合理合法地获取和掌握了大量公民个人信息;另一方面,出于警惕公权力对公民隐私的干涉,立法者以规范、限制政府收集、处理个人信息行为作为立法宗旨,世界各国纷纷加快个人信息保护立法的步伐。①参见蒋舸:《个人信息保护法立法模式的选择》,《法律科学》2011年第2期。在个人信息保护方面,目前全球范围内主要存在两种制度实践:一是以美国为代表的个人隐私制度,其将个人信息作为个人隐私的一部分来进行保护;二是欧盟的识别性观点,其将是否能够识别出信息主体作为界定个人信息的标准。②参见《通用数据保护条例》第2章第5条。在个人信息保护领域内,正是由于这两种不同的制度实践,学术界在对个人信息的分类上也产生了分歧:其一是将个人信息分类为直接个人信息与间接个人信息;其二是依据是否涉及隐私分为敏感个人信息与一般个人信息。③参见廖宇羿:《我国个人信息保护范围界定——兼论个人信息与个人隐私的区分》,《社会科学研究》2016年第2期。
近年来,在我国社会有关个人信息保护立法的诉求和呼声日趋强烈。2020年第十三届全国人民代表大会第三次会议通过了《中华人民共和国民法典》(以下简称“《民法典》”),其中第四编第六章第1034条规定:“自然人的个人信息受法律保护。个人信息是以电子或者其他方式记录的能够单独或者与其他信息结合识别特定自然人的各种信息,包括自然人的姓名、出生日期、身份证件号码、生物识别信息、住址、电话号码、电子邮箱、健康信息、行踪信息等。”①参见《中华人民共和国民法典》第4编第6章第1034条。学术界虽然对个人信息究竟是法益还是权利存在争论,但是,在《民法典》中关于个人信息的规定已经表明个人信息保护刻不容缓。《全国人大常委会关于加强网络信息保护的决定》第1条规定,“国家保护能够识别公民个人身份和涉及公民个人隐私的电子信息”。该规定明确将识别公民身份的信息和隐私区分开来。这里能够识别公民身份的信息,是“作为个人人身、行为状态的数据化表示,是个人自然痕迹与社会痕迹的记录”②杨立新:《个人信息:法益抑或民事权利——对<民法总则>第111条规定的“个人信息”之解读》,《法学论坛》2018年第1期。。在《民法典》颁布之前,我国对个人信息的保护主要是通过隐私权来实现的。隐私权的客体既包括个人隐私也包括识别身份的个人信息。但是,随着信息化社会的发展,单独依靠隐私权保护的方法来对个人信息提供支持是远远不够的,尤其是隐私权的损害救济赔偿只限于精神损失赔偿,完全无法顾及个人信息的财产属性。通过以上的分析可以得出,作为个人信息权客体的具有身份识别性的信息与作为隐私权客体的隐私之间是有着明显界限的。
合理明确的个人信息法律分类是个人信息保护的基础与前提,但我国目前已有的针对个人信息保护的法律法规依然未能明确给出统一的个人信息分类标准。2019年由中国人民大学张新宝教授发布的《<个人数据保护法>专家建议稿》,其中第1条对“个人信息”进行了定义,“是指以电子或者其他方式记录的能够单独或者与其他信息结合识别自然人个人身份的各种信息,包括但不限于公民的姓名、出生日期、身份证件号码、个人生物识别信息、住址、电话号码等”③参见《个人信息保护法(专家建议稿)》,https://www.civillaw.com.cn/lw/l/?id=36127,中国民商法律网,2020年7月20日访问。。根据该条规定可以看出,专家建议稿明确了个人信息的识别性本质。面对信息化与大数据飞速发展的时代,一方面,不能因为加强个人信息保护而阻碍信息的流通;另一方面,亟须通过相关立法来保障公民个人信息安全,维护公民人格尊严和个人权利。目前,我国在个人信息保护领域出台了大量的法律、行政法规、规章与司法解释用以规范和管理发展迅猛的信息化社会,但由于个人信息保护的立法较为分散,没有形成对“个人信息”概念与标准的统一共识。④参见高富平:《个人信息保护:从个人控制到社会控制》,《法学研究》2018年第3期。由于“个人信息的本质在于其能够单独或者结合其他信息识别特定个人身份的属性”⑤张新宝:《<民法总则>个人信息保护条文研究》,《中外法学》2019年第1期。,并且是“能够区分特定自然人的一套符号系统。⑥王利明:《论个人信息权的法律保护——以个人信息权与隐私权的界分为中心》,《现代法学》2013年第4期。因此,当立法上对个人信息保护进行规范之时,应当准确把握个人信息的本质,从“识别性”角度上加强对个人信息的保护。
我国目前关于个人信息的界定,可分为三个不同的法律规范位阶。从法律的位阶角度,目前只有2017年6月1日施行的《中华人民共和国网络安全法》从互联网安全的角度对“个人信息”首次做出明确的法律界定:“个人信息,是指以电子或者其他方式记录的能够单独或者与其他信息结合识别自然人个人身份的各种信息,包括但不限于自然人的姓名、出生日期、身份证件号码、个人生物识别信息、住址、电话号码等”。①参见《中华人民共和国网络安全法》第76条。该规定提出了法律意义上的“结合识别”的概念,其余涉及个人信息保护的法律主要是在具体领域中作出大量的列举;从行政法规的位阶角度,2013年施行的《征信管理条例》是从征信管理角度制定的保护个人信息的专门性规定,但未对个人信息给出明确的定义。其余有关个人信息保护的行政法规,主要是扩大了涉及个人信息保护的行政管理范围;从部委规章的位阶角度,2013年针对电信与互联网行业施行的《电信和互联网用户个人信息保护规定》将个人信息被定义为“电信业务经营者和互联网信息服务提供者在提供服务的过程中收集的用户姓名、出生日期、身份证件号码、住址、电话号码、账号和密码等能够单独或者与其他信息结合识别用户的信息以及用户使用服务的时间、地点等信息”。②参见《电信和互联网用户个人信息保护规定》第4条。在《侵害消费者权益行为处罚办法》的第11条中,对受保护的消费者个人信息进行列举的同时,作出了“结合识别”的相关规定。
有关个人信息保护的标准,目前,我国工信部推动建立了个人信息保护的第一个国家标准,即《信息安全技术公共及商用服务信息系统个人信息保护指南》(以下简称“《指南》”),其中将个人信息分类为个人一般信息和个人敏感信息。③参见《信息安全技术公共及商用服务信息系统个人信息保护指南》。依据该《指南》,个人敏感信息要根据信息主体的意愿与业务特点来确定,可以包括身份证号码、手机号码、种族、政治观点、宗教信仰、基因、指纹等。可以看出,《指南》关于个人信息分类的标准相当模糊,其将个人信息的定义与分类割裂开来,忽略了个人信息的“识别性”与个人信息分类之间的联系。个人敏感信息之所以是敏感信息是因为其与隐私的关联程度,身份证号码、手机号码等与隐私相去甚远。欧盟的《数据保护指令》(Data Protection Directive)中将个人敏感信息明确列举为种族、政治观点、宗教信仰、工会成员信息以及涉及个人健康和性生活的信息,这些都是与隐私息息相关的。④同注②。个人信息的分类标准是建立在对个人信息内涵的界定基础之上,其目的是为了给相关法律的适用提供可操作的依据。如果个人信息的分类有悖于个人信息的本质,分类也就失去意义,甚至会产生阻碍个人信息保护的不利影响。
当下国内学术界关于个人信息分类的主流观点是将个人信息划分为个人敏感隐私信息与个人一般信息,其主张与《指南》的分类标准(即个人一般信息和个人敏感信息)较为相似。有学者指出,由于信息技术的发展,网络世界里个人留下的“数据痕迹”会被聚合造成个人隐私暴露问题,“后信息时代个人隐私保护面临更多威胁,数据隐私问题也成为数字经济时代的顶层问题”⑤张新宝:《从隐私到个人信息:利益再衡量的理论与制度安排》,《中国法学》2015第3期。,故而对个人信息进行类型化区分,提出了个人敏感隐私信息的概念。“个人敏感隐私信息是指关涉个人隐私核心领域、具有高度私密性、对其公开或利用将会对个人造成重大影响的个人信息,如有关性生活、基因信息、遗传信息、医疗记录、财务信息等个人信息”①参见《信息安全技术公共及商用服务信息系统个人信息保护指南》。,也就是说,个人敏感隐私信息的衡量标准是该类信息与个人隐私的关联度大小,并且“资料敏感性的高低不同,资料处理对个人资料隐私造成风险的大小各异”,换言之,个人敏感隐私信息分类设置的最终目的是为了降低个人隐私的披露风险。
综上,目前我国对于个人信息保护主要存在以下问题:
其一,绝大多数的规范性文件未给出个人信息的定义,其具体内容过于分散;
其二,即使有数个规范性文件给出了个人信息的定义,其中不断出现的“识别性”概念也没有得到进一步的解释与发展。
个人信息保护的基础性前提是个人信息的准确定义,而个人信息的本质是围绕“识别性”发展的。下文将在审视欧盟与美国的个人信息相关立法的前提下,从个人信息的可识别性角度出发,试图重新建构个人信息分类制度新标准及与之相应的管理新办法,从而进一步推动和加强个人信息的立法保护。
欧盟与美国的个人信息立法是截然相反的二条建构路径:欧盟作为统一的政治经济联合体,个人信息保护是根植于公民基本权利保护的统一立法,对公民个人信息的保护力度与保护范畴远高于美国,既包括可直接识别个人的信息,也包含任何可组合起来间接识别个人的信息;而美国的个人信息保护法案是由分散式的多部门立法组成的,对个人信息有着多样的定义。个人信息保护立足于各部门领域,会导致美国个人信息法案中对“个人信息”的界定较为狭窄。
欧盟在2018年之前,关于个人信息保护的法律是1995年的《数据保护指令》(以下简称“《指令》”),而于2016年通过的《通用数据保护条例》(以下简称“《条例》”)已于2018年正式生效。不同于当下施行的《指令》,《条例》的生效不要求欧盟成员国再另行立法,而是对各成员国直接产生法律约束力。
1.欧盟法中关于个人信息的界定与“识别性”
出于基本人权保护的考量,欧盟对于个人信息的保护比较全面和彻底。《指令》与《条例》都对个人信息作了全面的规定,其中,《指令》第2条第1款将个人信息定义为任何能够直接识别或者可识别自然人的信息,同时对“可识别”给出了进一步的解释,即能够通过有关个人的相关信息,直接或者间接地识别。②参见《EU Data Protection Directive 95/46/EC》第2条。而相较于《指令》,《条例》还增加了个人信息种类的列举,包括位置信息、互联网标识信息以及基因信息等。③参见《EU General Data Protection Regulation Final》,http://www.eugdpr.,2020年7月20日访问。此举充分体现欧盟对于当下个人信息保护的态度,扩大个人信息的保护范围,充分强化信息化时代科技变革与个人信息保护之间的衔接关系。
自2016年4月14日,欧盟议会通过《条例》最终版本之后,个人信息保护的制度开始逐渐呈现出一定程度的灵活性,即引入“场景分析”(context analysis)方法来判断该信息是否足以构成“可识别性”。《指令》引言的第26条也曾指出,在判定已有的信息是否足以识别他人时,所有合理的能够为个人信息管理者所利用来识别信息主体的方式都应当纳入考察当中。①参见高富平:《个人信息保护:从个人控制到社会控制》,《法学研究》2018年第3期。之后在《条例》中又再次重申这一观点,并且在2012年欧盟《条例》草案引言的第26条②参见《EU General Data Protection Regulation Proposal》,http://www.eugdpr.org.,2020年7月20日访问。,2014年欧盟《条例》修正版引言第26条③参见《EU General Data Protection Regulation Amended》,http://www.eugdpr.org.,2020年7月20日访问。,以及2015年欧盟理事会《条例》修订本引言第26条④参见《EU General Data Protection Regulation Council Text》,http://www.eugdpr.org.,2020年7月20日访问。,皆提出个人身份识别号码、位置信息、互联网识别信息,以及其他特殊种类信息在所有的场合下,并不一定被视为个人信息。
2.欧盟法中对个人信息分类的局限
随着信息技术的高速发展,欧盟也逐渐意识到即使面对匿名化处理的个人信息,也存在通过众多个人信息碎片来重新组合去识别个人信息主体的可能性。因此,欧盟的《指令》与《条例》皆强调要把所有能够为管理者所利用来识别信息主体的方式都应当纳入考察当中,并且还进一步提出了“场景分析”法来确认个人信息,而不是在任何情形下都僵化地按照文件中对于个人信息的定义来认定。对此,美国Netflix公司于2006年对上述方法的科学性进行了实验,对其网站的50万名用户在过去6年时间里的影评信息进行匿名化处理之后,在网络上公布。然而研究者发现,在获取某用户6部影评发布时间与具体分数后,便能够识别出该网站数据库的99%的用户⑤金耀:《个人信息去身份的法理基础与规范重塑》,《法学评论》2017年第3期。;2010年,研究者还发现互联网用户在网络上发布的信息,很容易被他人通过收集他的其他个人信息碎片以及背景信息来识别该信息发布主体,即使用户发布的信息是经过匿名化处理后的。研究者通过引入“结构化知识参数模型”来匿名化处理互联网数据,实验结果表明能够有效地避免信息主体被第三方识别出来。⑥Hay M, “Resisting structural re-identification in anonymized social networks”19(6) Vldb Journal(2010).通过上述研究结果可以看出,针对个人信息的再识别与匿名化是个人信息处理领域两大核心的焦点。欧盟也清楚认识到,个人信息再识别技术的发展对于强化个人信息保护的重要意义,因而强调通过扩展“所有能够为管理者所利用来识别信息主体的方式”的场域范围,及引入“场景分析方法”来应对当下的个人信息再识别可能带来的个人信息安全隐患。
从《指令》和《条例》中可以看出,欧盟对于个人信息的范畴定义得太过宽泛,将直接可识别的个人信息和间接可识别的个人信息都归入一类并做同等处理。然而对于这两种类型的个人信息来说,其识别信息主体的风险不同,进行匿名化处理的要求也不同,故而武断地将上述两类个人信息同质化地归入同一类调整范畴,将会极大地限制信息的沟通交流与转换利用。
欧盟在《指令》与《条例》中都强调,在确认信息是否构成法律所调整的“个人信息”从而能够识别出信息主体,需要把所有能够为管理者所利用来识别信息主体的方式一并纳入考察当中。这一立法的核心要义是要实现动态地考察、检验和识别个人信息。正如欧盟第29小组(Article 29 Data Protection Working Party)①该工作小组是根据欧洲《数据保护指令》(Directive 95/46/EC)设立的,是欧盟关于数据、隐私保护的独立组织。第29工作小组的主要任务在《数据保护指令》的第30条中有明确规定:1.工作组应:(a)审查根据本指令通过的国家措施的适用问题,以促进这些措施的统一适用;(b)就共同体和第三国的保护水平向委员会提出意见;(c)就本指令的任何拟议修正案、保障自然人在处理个人数据方面的权利和自由的任何额外或具体措施以及影响这些权利和自由的任何其他拟议的共同体措施向委员会提出建议;(d)就共同体层面制定的行为准则提出意见。2.如果工作组发现各成员国的法律或实践之间出现了可能影响在共同体处理个人数据方面同等保护的分歧,它应相应地通知委员会。3.工作组可主动就与在共同体处理个人数据方面对人的保护有关的所有事项提出建议。4.工作组的意见和建议应转交给委员会和第31条中提到的委员会。5.委员会应将其针对工作组的意见和建议所采取的行动通知工作组。它应在一份报告中告知工作组,该报告也应转交给欧洲议会和理事会。该报告应予公布。6.工作组应就在共同体和第三国处理个人数据方面保护自然人的情况起草一份年度报告,并将其转交委员会、欧洲议会和理事会。该报告应予以公布。主张的,要从保护个人的基本权利与自由出发,适当地限制个人信息的定义范畴。②Article 29 Data Protection Working Party, “Opinion 4/2007 on the Concept of Personal Data” 136 WP(2007).在此基础上,欧盟第29小组进一步强调,如果信息管理者的最终目的是要去识别信息主体,那么该信息就应当被认定为具有可识别性的。如此一来,此种分析方法就将原本对个人信息识别性的评估,提前到自收集处理信息之时的目的上,这样的法律技术设计和规定,对于欧盟基于保护个人基本权利与自由的个人信息保护立法目的的预设而言,有些矫枉过正。
欧盟第29小组在《关于个人信息概念的意见》(Opinion 4/2007 on The Concept of Personal Data)中列举了可能导致个人信息被识别的两个实例:其一,当下互联网相关监控工具可以十分容易地识别计算机的行为,在不需要知道个人的姓名和地址之时,已经可以在根据其相关社会经济方面等信息的基础上识别出该信息主体;其二,是关于临床医药实验的密钥加密信息。③Schwartz P M, “Reconciling Personal Information in the United States and European Union.” 366(9) Ssrn Electronic Journal(2013).欧盟第29小组认为,当未获授权的第三方得到密钥便可以根据解密的信息来识别信息主体,因而,应当将此类密钥加密的医疗信息归类为个人信息。素以隐私法领域研究闻名的美国乔治华盛顿大学法学院Daniel J. Solove教授在研究上述实例时,提出不同的见解。
针对第一处实例,Solove教授指出,确实在有些情形下,足够的个人信息碎片能够导致信息主体被第三方识别出来。但是,类似于互联网上的商业广告,虽然收集了消费者的社会经济方面的信息,并且针对特定消费人群的定向投送,然而却不会导致信息主体被识别出来,因此,不能将此类个人的社会经济信息都归类为个人信息,甚至这类信息都不具有可识别性;在第二处实例中,密钥加密信息的密钥是掌握在管理者手上。一般而言,这类密钥都会配有严密的安全保卫措施防止任意第三方侵入盗取密钥。虽然第三方有可能取得加密的信息,但是在没有密钥的前提下,想获得解密信息并识别信息主体的可能性微乎其微。在此种情形之下,依然将密钥加密信息归类为个人信息也就不合乎常理,极大地影响了信息的沟通交流。
对于个人信息的认定需要考察所有能够为管理者所利用来识别信息主体的方式,但同时也需要避免“ 矫枉过正”的问题,即不适当地扩大个人信息认定标准。过于严苛地控制信息流动将会对社会生产生活造成极大的负面影响。
相比于欧盟统一的个人信息保护制度,美国对于个人信息的保护立法较为分散,这也导致在美国,对于个人信息的保护无法形成统一的法律界定。如前文所述,欧盟的个人信息保护的出发点是基于公民的基本权利与自由;与之不同的是,美国的个人信息保护则更多地强调商业利益之间的平衡,解决个人信息与商业利益之间的矛盾。美国众多关于个人信息保护的部门法往往都是规制特定领域,针对的个人信息范畴也相对狭窄。
1.美国法中个人信息的界定与分类模式
美国各个部门法对于个人信息保护的规定较为分散,概括起来,主要有三种独立的界定模式:其一是“同义反复”(tautological)模式;其二是“非公开个人信息”(non-public)模式;其三是“特殊类型”(specific types)模式。“同义反复”模式是将个人信息定义为能够识别个人的信息。例如1988年,美国国会通过《录像带隐私保护法案》将个人可识别信息(personally identifiable information)定义为能够识别他人的信息。①参见《录像带隐私保护法案》(Video Privacy Protection Act),18 U.S. Code § 2710.1998年美国国会通过的《儿童在线隐私保护法》中,就将个人信息(personal information)定义为能够识别他人的网上信息。②参见《儿童在线隐私保护法》(Children’s Online Privacy Protection Act),15 U.S. Code § 6501.
“非公共个人信息”模式则不再遵循正面定义什么是个人信息,而是去关注哪些信息是可以面向公众的,可被大众获取的纯统计数据。除此之外的信息都是不能公开的。这类法律界定标准的代表是1984年美国国会通过的《有线通讯政策法案》的第六部分杂项条文中的规定,个人可识别信息为除去不能识别特定个人的综合数据。③参见《有线通讯政策法案》(Cable Communications Policy Act),47 U.S. Code § 551.
第三种“特殊类型”模式,一般而言,通过列举个人信息的种类,使法律具有更加明确的指导性和确定性,从而不会产生法律适用上的任何模糊。例如,《儿童在线隐私保护法》在对个人信息进行“同义反复”的定义之后,又给出了7个列举,包括姓氏与名字、家庭住址、电子邮箱地址、电话号码、社会保险号码、任何其他能够物理或者网上接触特定个人的识别符号,以及在互联网上的儿童处收集到的,可与识别符号结合识别出该儿童或者其父母的信息。
2.美国法中“个人信息”界定与分类的局限
综上所述,美国关于个人信息保护的法案很多,对于个人信息的界定方式亦不相同。美国立法中有针对性的着重于相关领域背景的个人信息定义模式,难免会带来个人信息定义较为狭窄的弊端,且三种个人信息的界定模式会带来法律实施上的极大不确定性。同一个信息在不同定义模式下可能会导致不一致的法律结果,这就给相关法律适用带来一定的困难。
首先,“同义反复”模式在面对界定个人信息的具体内容时,没有起到任何指引性的作用,不具有可操作性。其次,关于“非公共个人信息”模式,Solove教授指出,其从根本上混淆了信息的公开性与信息是否具有可识别性的关系。就如同个人的姓名与家庭住址往往是属于公开领域的信息,比如通讯录,但是此种信息可以直接识别信息主体。
而“列举式”模式的最大弊病在于有限性与僵化性。法案中列举的个人信息的种类是有限的,往往是能够直接识别信息主体的个人信息。但是对于可间接识别信息主体的信息,往往是不能覆盖的。正如欧盟第29工作小组对于个人信息的再识别技术的高度关注,将碎片化的间接可识别性的个人的信息组合起来,对于信息主体具有极高的识别性风险。
此外,伴随着信息化时代科技的迅猛发展,个人信息内涵的变迁也日新月异,列举式的规定极大地限制了法律对于个人信息的定义范畴。法律本身的滞后性,再加上“列举式”的僵化性,将对个人信息保护带来巨大的冲击。
美国采取上述三种模式的立法例都要求个人信息中包含公民的姓名或者姓名的首个字母,其对于个人信息的定义要求过于狭窄。目前,美国只有寥寥数个州的法律加入了补充条款,延伸了对于不直接包含公民的姓名或者姓名的首个字母的个人信息的保护:如佐治亚洲法律第10部分商业与贸易第1章中关于个人信息的定义,“本款(A)至(D)项中所载的任何与个人的名字或姓氏的首字母或姓氏不相关的项目,如果泄露的信息足以实行或企图实行对信息泄露的人进行身份盗窃”①Ga. Code Ann. § 10-1-911(6): "Personal information" means an individual's frist name or first initial and last name in combination with any one or more of the following data elements, when either the name or the data elements are not encrypted or redacted: (A) Social security number; (B) Driver's license number or state identification card number; (C) Account number, credit card number, or debit card number, if circumstances exist wherein such a number could be used without additional identifying information, access codes, or passwords; (D) Account passwords or personal identifciation numbers or other access codes; or (E) Any of the items contained in subparagraphs (A) through (D) of this paragraph when not in connection with the individual's frist name or frist initial and last name, if the information compromised would be sufficient to perform or attempt to perform identity theft against the person whose information was compromised.;缅因州法律第十部分商业与贸易第三编贸易规定中关于个人信息的定义,“第A至D段所载的任何与个人的名字或首字母和姓氏不相关数据元素,如果泄露的信息足以允许某人欺诈性推知或试图推知身份信息受损的人”②Me. Rev. Stat. Ann. tit. 10, §1347(6): "Personal information" means an individual's first name, or first initial, and last name in combination with any one or more of the following data elements, when either the name or the data elements are not encrypted or redacted: A.Social security number; [2005, c. 379, §1 (NEW); 2005, c. 379, §4 (AFF).]; B. Driver's license number or state identification card number;[2005, c. 379, §1 (NEW); 2005, c. 379, §4 (AFF).]; C. Account number, credit card number or debit card number, if circumstances exist wherein such a number could be used without additional identifying information, access codes or passwords; [2005, c. 379, §1 (NEW);2005, c. 379, §4 (AFF).]; D. Account passwords or personal identification numbers or other access codes; or [2005, c. 379, §1 (NEW);2005, c. 379, §4 (AFF).]; E. Any of the data elements contained in paragraphs A to D when not in connection with the individual's first name, or first initial, and last name, if the information if compromised would be sufficient to permit a person to fraudulently assume or attempt to assume the identity of the person whose information was compromised.;俄勒冈州法律第646A章贸易规定中关于个人信息的定义,“在本款(a)段中描述的任何数据元素的组合,如果没有消费者的名字或者姓氏的首字母或姓氏:(A)加密,编校或其他方法未使数据元素或数据元素组合不可用; 和(B)数据元素或数据元素的组合将使个人能够对消费者进行身份盗用”。③Or. Rev. Stat. § 646A.602(11): (b) Any of the data elements or any combination of the data elements described in paragraph (a)of this subsection without the consumer’s first name or first initial and last name if: (A) Encryption, redaction or other methods have not rendered the data element or combination of data elements unusable; and (B) The data element or combination of data elements would enable a person to commit identity theft against a consumer.然而,美国绝大部分州的法律依然将个人信息的判定聚焦于能够直接识别身份的名字或姓氏以及姓氏首字母上,而对于不包含名字、姓氏以及姓氏首字母但是具备识别个人身份可能性的信息不在法律的规制范围之内。这就导致美国关于个人信息保护上较欧盟的实践方式过于宽松,很多间接可识别身份的信息得不到有效的法律保护。
欧盟与美国的个人信息立法都存在着个人信息界定或者分类上的局限问题。欧盟由于个人信息保护为统一成文法的立法模式,且基于公民基本权利与自由保护这一指导性思想,立法保护的个人信息范畴过大,既包括可直接识别个人的信息,也包含任何可组合起来间接识别的个人信息。而美国的个人信息保护法案恰恰与欧盟的制度相左:美国分散式的多部门法对个人信息有着多种的不同定义,且立足于部门和领域,导致法案中个人信息的定义相当狭隘。
2013年,美国华盛顿大学Solove教授提出了PII2.0(Personal Identifiable Information 2.0)的个人信息划分的新标准,将个人信息划分为三大类:即直接识别的个人信息、间接可识别的个人信息和非个人识别性信息。直接识别的个人信息就是通过该信息可将特定主体从他人之中辨别挑选出来。欧盟第29小组认为,特定主体被辨别出来是指“在一群人内部,他/她与组内所有其他成员有区别”。欧盟的《通用数据保护条例》第9条单独列出对于特殊类型数据的保护,在已经被替代的《数据保护指令》中被称之为敏感数据。特殊类型数据主要包含揭示种族或民族、政治观点、宗教或哲学信仰或工会会员资格的个人数据,遗传、生物特征的个人数据,以及有关健康、性生活、性取向的个人数据。在PII2.0中继续保留此特殊类型个人数据,并且原本属于直接识别的个人信息将受到同等强度的保护。
间接可识别的个人信息是指可能识别出特定主体的信息,并且能够通过该类信息的组合,以及合理的技术手段达成识别信息主体的目的。针对间接可识别的个人信息,其处理方式将对信息的流动性造成最直接的影响。非个人识别性信息具有极小或者没有识别信息主体的可能性,要么是经过信息不可逆的匿名化处理,要么是信息本身就不具有识别性。例如,纯粹的数字统计信息或者海量数据,以至于无法提取单个数据来进行区分识别。PII2.0是依据识别出信息主体的风险大小进行确定的。至于如何衡量信息本身识别出信息主体的风险性大小,目前,学术界也已经设计出一套指标体系来评估相关信息可能识别特定主体的可能性,根本原因在于,拥有信息的各方控制程度,以及外部相关联人员的动机与处理信息的能力具有不确定性。
反观我国个人信息保护的制度,在缺乏统一的个人信息保护立法的前提下,各个规范性法律文件对于个人信息的定义纷繁复杂:既有列举式的规定,也有抽象的兜底性条文。有鉴于此,国内现阶段个人信息碎片化的管理模式亟需规范调整,个人信息的法律保护力度更需科学规范地强化。
前文提及到Solove教授提出的个人信息划分的三大类标准,即直接识别的个人信息、间接可识别的个人信息和非个人识别性信息。首先,直接识别的个人信息和非个人识别性信息是比较容易处理的,故而不在本文的讨论范畴,前者可直接进行匿名化处理,后者因为其不具有识别性也就无需进行额外的规制。间接可识别的个人信息相较于上述两者而言,依然是一个非常宽泛的模糊概念,有必要进行进一步的细化和处理。
本文认为,间接可识别的个人信息可以进一步划分为两类:基于描述的信息和基于度量的信息。基于描述的信息关注信息中文字意义部分,包含文字、传递文字意义的图像、字母等等;基于度量的信息关注信息中数值意义部分。如前文所述,个人信息含有个人普通社会交往信息、医疗信息、财产信息、生物特征信息,等等。举例来说,医疗信息中包含的诊疗记录,身体健康状态等属于基于描述的信息。与之相对的医疗费用支出,有关诊疗方面的指标数据、计量数据则属于基于度量的信息。
基于描述的信息与基于度量的信息的分类依据在于,若干信息碎片的组合识别信息主体的风险,往往取决于信息碎片组合对于信息主体覆盖范围的大小。譬如,当信息碎片组合能够多方面地体现出信息主体的社会交往、财产、生物特征、以及医疗方面等状况时,那么该信息主体能够被识别出来的风险将会较大提升。一般而言,医疗信息既包含基于描述的信息,也会包含基于度量的信息。如果第三方仅仅只是掌握了医疗方面基于描述的信息,由于信息面较为单一,几乎无法准确识别出信息主体。同理,如果第三方仅仅只是掌握医疗方面基于度量的信息,通过单纯的数值比较也不能识别出信息主体。但是,当未授权的第三方同时掌握若干基于描述的信息与基于度量的信息,通过对上述信息基本组成部分的完整组合分析,便有较大的可能性对信息主体做出准确的识别。
此外,需要强调的是,基于度量的个人信息往往含有丰富的研究价值与商业利用价值。出于促进信息流动传播的目的,实践中,在立法上可将基于度量的信息部分分离出来,减少由于加强个人信息保护而带来不必要的信息阻碍。举例来说,2008年11月谷歌公司启动了“谷歌流感趋势”项目,其通过大众在谷歌搜索引擎上的与流感相关搜索建立起数学模型来预测流感的爆发。2009年谷歌该项目团队在《自然》杂志上发表研究报告指出,通过数10亿个搜索数据的分析,就能够比美国疾控中心提前两周预告2008年度的流感发病率。①Ginsberg J, “Detecting influenza epidemics using search engine query data.” 457(7232) Nature(2009).然而,从谷歌公司该项研究中所采用的数据和数学分析模型来看,都是属于个人信息中基于度量的信息部分,不具有个人识别性的风险。从商业利用角度来看,互联网中大规模的广告定向投放,往往是收集消费者大量的社会经济和消费方面的信息。采用基于描述和基于度量的信息分类方法时,可以单方面地将商家限制在基于度量的信息部分的利用范围内,个人主体被识别性的风险就会被极大地降低,同时,也不会阻碍信息的流动与规模庞大的网络电商产业的发展。
基于描述的个人信息和基于度量的个人信息的分类,本质上是为了降低信息碎片组合的信息主体的再识别风险。通过将两者隔离开来,使得第三方无法同时获得大量的基于描述的个人信息和基于度量的个人信息。在个人信息管理规制道路的建构方向上,本文将在个人信息的存储和转移两大主要核心命题上做重点阐释。
个人信息分层处理的法律规制主要针对依法取得个人信息的网络服务提供者,以及国家机关、承担行政职能的法定机构。值得关注是,当下如雨后春笋般涌现的大大小小互联网公司、电商企业等网络服务提供者,客观上具备直接收集个人信息的先天优势,在无立法保护的前提下,无数消费者、互联网用户的大规模信息资源供其发掘和利用的同时,上述服务提供商天然地负有对用户个人信息不可推卸的管理和保护职责。对于上述互联网和电商企业来而言,其是否具有搜集、存储、利用和管理个人信息的资质,最终应当由政府相关管理部门来认定。至于如何认定上述企业收集个人信息的合法性与资质问题不是本文讨论的重点,此处不再赘述。
在个人信息的存储方面,作为个人信息直接收集的主体——互联网、电商企业存储个人信息时,除了对直接可识别性的个人信息进行初步的匿名化处理外,还需将个人信息中基于描述的信息部分与基于度量的信息部分分开存储,提高信息系统存储和利用上的安全性。即使信息存储系统遭受攻击,丢失其中某一类信息,也会极大降低可识别性信息主体的信息被恶意利用的风险。此外,个人信息数据提供商的下游企业,在通过商业手段获得信息收集主体转移的部分存储信息时,也需要继续遵循这一管理制度。对于数据转移的风险控制问题,则应遵守如下规则。
第一,对于信息收集主体,应针对基于描述的信息收集数量设定一定的风险阈值,在不严重阻碍的信息自由流通的前提下,给予信息收集主体一定的自由来收集信息。对于基于度量的信息,即主要是与数值有关的信息,则一般不施加额外的控制。当信息收集主体开始同时收集基于描述的信息与基于度量的信息,鉴于两者结合对于识别性信息主体的高风险性,应当予以较为严格的数量控制,提高监管力度甚至要求其提供收集的正当理由。例如,当信息收集主体收集一定量消费者购买的物品种类,以及消费地点的信息(匿名化处理的基于描述的信息)时,应当给予信息收集主体一定程度上的自由限制。
伴随信息化时代的发展,尤其是网络电商的崛起,已彻底颠覆了人们的生存方式和消费模式,网络购物已经成为日常消费的一大主流趋势。无数消费者在网络购物时,对外暴露的个人信息,会汇聚在网络平台之上,因其本身的规模和复杂度被概称之为“大数据”。但如果对消费者购买物品种类、消费地点等仅具有间接可识别的个人信息作出过于严苛的限制,将会造成与此类信息本身的“识别性”风险不成比例,同时,对于信息沟通交流的过度限制也将会对网络电商产业造成极大的冲击。①Anita L., “Protecting One’s Own Privacy in a Big Data Economy”,130(2) Harvard Law Review Forum(2016).正是由于信息收集主体能够收集消费者购买物品的种类,消费地点等信息,电商产业才能通过“大数据”挖掘获得信息背后的价值,来为消费者提供更加优良的服务体验。
第二,若信息收集主体进一步收集其购买物品的数额、具体时间以及支付账号等基于度量的信息,则可能极大提高了信息主体被识别出来的风险性。故此,针对上述信息的收集,则应当采取有别于前者的规制措施。此处并不是说对于同类的信息组合会造成个人识别的风险一定比跨类信息组合的个人识别风险低,而是从数据的整体性角度来规制个人信息风险发生的可能性大小。故此,对于同类信息(比如基于描述的信息)的收集也需要设定数量上的安全阈值,从而降低个人信息泄露的风险。但同时,也需要考虑对信息搜集的过度监管是否会造成阻碍信息流通、妨碍信息产业发展的不利后果。对于同时收集基于描述的信息与基于度量的信息的信息收集主体,需要加强对其数量上较之前者更为严格的措施限制,同时还要加强其收集信息之后,在处理信息阶段的后续监督和监管。
第三,当合法的信息管理者收集的间接可识别性的个人信息需要转移给第三方,且基于描述的信息与基于度量的信息数量超过设定的安全阈值时,需交由独立官方或社会评估机构来确定收集信息主体的信息利用目的与其收集的信息数量和范围是否匹配。双方还需额外签署协议,保证上述信息不被用来识别信息主体,同时,合法的信息管理者负有监管该第三方信息收集主体是否合法利用信息之义务。对于合法的信息管理者,在向第三方转移数据时,应当告知个人信息主体相关转移事实,并征得个人对于信息转移的许可。此外,如果个人信息处于间接可识别状态,信息管理者不得采取逆向再识别手段,来识别特定主体信息。
在信息技术高速发展、互联网广泛普及的当下,信息的获取已经变得唾手可得。“大数据”时代背后所隐藏的商业价值驱动着企业、个人不断地借助数据挖掘等现代科技手段实现其商业利益的最大化。同时,“大数据”中所包含的海量个人信息在被大规模的处理加工的同时,个人信息主体也正面临着由于信息被非法泄露可能带来的人身和财产损害。2016年8月19日,徐玉玉电信诈骗致死案件就是典型的由于个人信息管理不当、被第三方非法利用所导致的人间悲剧。诚然,对个人信息法律保护的规制标准和界限范围应当是对信息主体可能带来风险隐患、“可识别”的个人信息。当某种信息不具有可“识别性”时,或运用现有技术手段无法识别出信息主体时,也就不属于个人信息法律规制的对象范畴,自然不会触发一系列的个人信息主体的权利保护,信息管理者的义务监管,以及与之相应的措施救济等延伸性法律问题。
与隐私保护强调事后救济不同的是,个人信息保护则更关注事前预防。正是基于个人信息风险的“可识别性”,本文试图探讨一种基于描述的信息和基于度量的信息为分类标准的个人信息类型化保护的模式建构,并以此作为个人信息法律规制的逻辑起点,根本性地降低个人信息的“可识别性”风险,从而将个人信息保护提前至信息收集的前端预防,而不是信息主体被识别披露或恶意利用的事后救济。