个人信息概念的反思:以“识别”要件为中心

2021-03-27 22:33
信息安全研究 2021年8期
关键词:标识符识别IP地址

李 黎

(北京大学国际法学院 广东深圳 518000)

个人信息事关自然人的尊严与隐私,也与数字经济和国家安全有着密切联系[1].个人信息概念的界定决定了个人信息保护法(1)本文中的“个人信息保护法”泛指一切与个人信息保护相关的法律、法规或其他规范性文件.的适用范围,因此其重要性不言而喻.但究竟何为个人信息,这在学理上仍存在很多争议.我国学界对其探讨也络绎不绝,不过大多从个人信息与隐私权的异同、个人信息概念的立法模式和拆解“识别”与“关联”要件等角度进行分析,鲜有学者深入刨析“识别”要件存在的问题.即使有少部分学者开始深入研究“识别”要件,也是在探讨“识别”要件产生个人信息范围无限扩张的困境.但“识别”要件带来的问题远不止于此.

在当今网络世界,定向广告大行其道,其通过收集用户与企业交互过程中的信息,进行大数据建模,生成特定用户的精准画像,从而有的放矢地向用户推送符合其喜好的广告.但是以IP地址、Cookie和IMEI号等唯一标识符为基础构成的用户画像信息是否是个人信息,或者,是否能识别特定自然人存在的不同的观点.在著名的“朱烨诉百度案”中,一审法院与二审法院对于Cookie +“网络活动轨迹及上网偏好”能否识别到特定自然人产生了不同的观点(2)参见江苏省南京市鼓楼区人民法院(2013)鼓民初字第3031号,江苏省南京市中级人民法院(2014)宁民终字第5028号..一审法院认为其属于个人信息,与之相反,二审法院认为这些信息无法识别特定个人身份,因此不属于个人信息.基于此,究竟何为“识别”,以及何为“识别身份”似乎并无定论.而厘清这些问题的意义,不仅仅是为司法实践提供清晰的分析思路,更在于为我国完善个人信息保护法律体系提供理论基础.

1 个人信息概念立法与理论现状

1.1 个人信息概念的立法现状

欧盟于2016年正式通过了对成员国具有直接法律效力的《通用数据保护条例》(General Data Protection Regulation, GDPR).GDPR第4条第(1)款对个人信息的概念进行了界定:“个人数据是指与已识别或可识别的自然人(“数据主体”)相关的任何信息;可识别的自然人是指可以直接或间接识别的人,特别是可以参考诸如姓名、识别号码、位置数据、网络标识符之类的标识符,或者是参考特定于该自然人的1个或多个身体、生理、遗传、心理、经济、文化或社会身份.”GDPR前序26条指出,是否能够识别应考虑所有可能合理地由控制者或任何其他人用来识别的手段.

相比欧盟,美国并没有统一的个人信息保护法,而是分散在不同的具体行业立法中.传统上,美国对个人信息主要有识别模式(the tautological approach)、非公开模式(the non-public approach)和列举模式3种[2].但近年来,美国各州也逐渐转向以识别为中心的个人信息界定模式.比如2018年公布的《加利福尼亚州消费者隐私保护法案》(California Consumer Privacy Act of 2018,CCPA)1798.140条第(o)款规定,个人信息是指能够识别、关联、描述,能够与特定消费者或家庭直接或间接关联或合理链接的信息.

中国目前同样没有一部独立的个人信息保护法,对于个人信息的定义因此散落在不同的法律法规中.早在2005年,《中华人民共和国个人信息保护法(专家建议稿)》第9条就将个人信息定义为“个人姓名、住址、出生日期、身份证号码、医疗记录、人事记录、照片等单独或与其他信息对照可以识别特定的个人的信息[3].”随后直到2016年《中华人民共和国网络安全法》(以下简称《网络安全法》)的出台,中国才首次在法律层面正式定义个人信息,其第76条第(5)款规定:“个人信息,是指以电子或者其他方式记录的能够单独或者与其他信息结合识别自然人个人身份的各种信息,包括但不限于自然人的姓名、出生日期、身份证件号码、个人生物识别信息、住址、电话号码等.”2020年颁布的《中华人民共和国民法典》中采取了类似的定义.

1.2 “识别”要件的理论辨析

基于上述梳理,无论是欧盟、美国还是中国语境下的个人信息,身份识别都是核心要件.识别包括“已识别”和“可识别”2种情况.根据WP29工作小组 (Article 29 Data Protection Working Party)的观点,一般而言,当自然人在某一人群中与该群体的所有其他成员“有区别”时,可以被视为“已识别”[4].而“可识别”是指尽管该自然人尚未被识别,但是后续存在被识别的可能性[4].“可识别”往往是决定信息是否成为个人信息的争议焦点所在.换言之,本文讨论的“识别”即为成功识别一个“可识别”的自然人的过程.通说认为,“可识别”可以分为直接识别与间接识别2种路径[5].所谓直接识别,是指根据单个信息即可直接识别特定自然人;而间接识别是指单独通过该信息无法识别特定自然人,但是该信息结合其他信息可以识别个人信息主体[5].

以电子方式记录的个人信息通常存储在数据库系统中,其存储形式类似于Excel表格.在计算机科学领域,每一列数据为一个属性(attribute),如姓名、性别和年龄等,1行数据则为1条记录(record),代表1个自然人,若干条记录最终组成1个数据集(dataset).属性又可称为标识符(identifier),标识符分为直接标识符(direct identifier)和准标识符(quasi-identification)2类[6].直接标识符是指能在特定场景下单独识别个人信息主体标识符[6],比如身份证号码、电话号码和车牌号码等;而准标识符需结合其他信息才能唯一识别特定个人信息主体[6],比如性别、年龄和职业等.如仅基于上述分析,那么通过直接标识符识别个人信息主体身份属于直接识别,而准标识符与其他信息结合识别则属于间接识别(下文将详细论述该结论正确与否).

2 “识别”要件的实践困境

2.1 定向广告引发的问题

早在1972年,学者Miller[7]就预言:“电子计算机将使得预测个体或群体行为的虚拟活动成为可能.”这一预言如今已经成真.2007年11月,美国联邦贸易委员会(Federal Trade Commission, FTC)邀请消费者代表、网络广告行业代表、技术专家和学者举行了一场有关网络定向广告的研讨会议[8].会上,隐私倡导者们认为基于用户信息而生成的定向广告正在侵犯公民的隐私,而广告行业的代表们却声称他们收集的信息并不是个人信息,因此定向广告并不违法[8].与“朱烨诉百度案”中的争议类似,何为“识别”,以及定向广告涉及的信息又能否识别特定自然人是争议的核心.

在进行下一步分析之前,首先对定向广告的原理进行简要介绍.中国广告协会2014年发布的《中国互联网定向广告用户信息保护行业框架标准》规定,定向广告是指“通过收集一段时间内特定计算机或移动设备在互联网上的相关行为信息,例如浏览网页、使用在线服务或应用等,预测用户的偏好或兴趣,再基于此种预测,通过互联网对特定计算机或移动设备投放广告的行为[9].”在传统个人电脑中,企业通常使用Cookie(3)通常企业会在设备终端上存放一个Cookie文件,文件内存有一个企业采取一定规则生成的唯一“字符串”用以唯一标识该设备,为了行文方便,下文统一用“Cookie”代替该唯一“字符串”.或者IP地址(4)IP地址分为静态IP地址与动态IP地址,静态IP地址通常不会变化,而动态IP地址则在每次连接时都会变化,本文在没有强调“动态”的情形下均指静态IP地址.作为用户(设备)的唯一标识,即一个Cookie或者静态IP地址代表一个特定用户.在移动设备中,企业会使用移动设备的唯一标识符(通常为IMEI号、IDFA号、Android_id或Mac地址等)作为标识.基于此,企业在与用户交互的过程中将收集到的各种信息通过用户唯一标识符关联起来,这些信息包括但不限于浏览器历史记录、搜索记录、移动应用列表等.最后经过算法建模生成特定用户的个性化画像(以用户标签的形式存在,比如性别标签、年龄标签、职业标签等),以实现定向精准广告推送.可以看出,定向广告整个过程涉及Cookie、IP地址、移动设备标识符等信息(以下简称“网络唯一标识符”)、浏览器历史记录、搜索记录、移动应用列表等网络行为信息和用户画像标签信息.而这些只和设备产生直接联系的信息是否属于个人信息,抑或是否能够“识别”出特定自然人,都首先需要厘清“识别”的含义.

2.2 实践中的争议

需要注意的是,很多国家的个人信息保护法已经明确在个人信息定义中列举了IP地址、设备标识符等信息.例如在CCPA 第1798.140条第(o)(1)(A)明确规定了IP地址属于个人信息,中国《个人信息安全规范》的附录A的个人信息示例表中也列出了IP地址、设备号和上网记录信息,GDPR第4条第(1)款也将网络识别符列入其中.但这只是法律对于个人信息概念抽象界定的具象化举例,而不能因此就认定其是个人信息[10].是否属于个人信息,仍需从个人信息的“识别”要素出发,在具体的语境下进行个案判断.正如CCPA条例中指出,如果企业收集了其网站访问者的IP地址,但未将IP地址链接到任何特定的消费者或家庭,并且无法合理地将IP地址链接到特定的消费者或家庭,则该IP地址不是个人信息[11].

传统上,网络唯一标识只有结合真实姓名等信息才能够识别特定自然人.比如香港个人信息隐私委员(Privacy Commissioner for Personal Data,PCPD)在一份意见答复中提到,IP地址单独不构成个人信息,因为其既无法揭示终端设备的精确位置亦无法得知该设备背后用户的身份[12].但是,PCPD认为如果企业能够获得互联网服务提供商(Internet Service Providers,ISPs)手中的IP地址使用时间和IP地址分配日志(包含用户姓名、地址和联系方式等信息),IP地址即可以认定为个人信息[12].欧盟WP29工作小组同样认为企业结合ISPs手中的IP地址分配数据可以识别出特定自然人[13].

但有人提出了不同观点.比如新加坡数据保护机构(Personal Data Protection Commission,PDPC)在一份指引中同样提到,IMEI号和IP地址虽无法单独直接识别出特定个人,当用户的大量网络行为信息都关联到一个IP地址或IMEI号时,可形成该IP地址或IMEI号所指向的设备(即设备背后的用户)的上网习惯或位置画像,从而与这些画像信息可以一起识别特定自然人,从而成为个人信息[14].英国信息委员会办公室(Information Commissioner’s Office,ICO)持同样观点,即如果企业基于特定IP地址建立了该IP背后设备的用户画像,那么该IP地址与画像信息结合起来能够识别特定自然人,从而属于个人信息[15].显然,“朱烨诉百度案”中的终审法院否认了这一观点,其认为“百度基于Cookie收集和利用的网络用户偏好信息不能与网络用户个人身份对应识别,亦无法通过Cookie和相关信息确定该偏好信息的归属主体,因而不满足个人信息的‘可识别性’要求”.

2.3 “识别”要件面临的困境剖析

上述争议的根本原因在于对“识别”的不同理解.PDPC与ICO的观点认为网络标识符加上用户画像即可构成“识别”,而不用从物理世界中定位到该自然人或者得知该自然人的真实姓名.对于这一类无需关联物理世界的识别,本文将其称为“虚拟识别”.欧盟WP29和香港PCPD的观点认为IP地址需要结合ISPs所掌握的用户姓名、住址和联系方式等信息才属于成功“识别”.即只有成功关联到物理世界中具体的自然人才能满足“识别”的要求.对于这一类识别,本文称其为“物理识别”.基于此,“识别”要件的第1个争议点在于个人信息的定义是否需要承认“虚拟识别”.

其次,无论是“虚拟识别”还是“物理识别”的语境,都亟待厘清“直接识别”的含义.依据上文,直接识别是指不借助额外信息的情况下,单独识别个人信息主体的行为,这类信息也被称作“直接标识符”.显然,直接识别必须基于场景,在没有给定具体场景的语境下讨论识别没有任何意义,因为信息在不同的使用场景,其性质可能发生变化[16].譬如姓名这一最典型的直接标识符,如果没有给定场景就无法单独识别特定个人,因为大概率全国会有重名的人,而如果将场景限制在某某班级,那么姓名可以单独识别出特定个人.但从这个角度来看似乎存在“单独识别”的悖论.一方面我们要求单独识别不能结合其他信息,另一方面又需要特定的场景信息.在上述例子中,“某某班级的某某”本质上就可以理解为“某某”和“某某班级”2个信息,因此实质上这里的直接标识符姓名借助了其他信息“某某班级”.再者,即使是个人生物信息、电话号码和身份证号码等可以唯一对应到特定自然人的直接标识符,这种对应只是一种简单且空洞的指向性,只能表明该类信息对应着唯一一个特定自然人,但对该自然人的其他情况仍然是一无所知,更无从谈起识别该自然人的身份[17].

最后,需要考虑究竟何为“身份”,如何才是识别了特定自然人的身份.在虚拟识别的路径中,网络唯一标识符加上用户画像被认定为成功识别特定个人身份.而问题在于并没有清晰地阐述“画像”的具体范围,性别、年龄、爱好、住址和职业等等信息都属于个人画像的一部分,究竟需要达到什么程度的画像才能被认定为成功“识别”并没有明确的标准.同样,在物理识别的语境下,姓名、社会安全号码和手机号码是否单独满足或者结合信息才满足识别的要求,如果需要结合其他信息,那么其他信息又是哪些信息.比如美国有判例认为社会安全号码(5)社会安全号码(social security number, SSN)是美国联邦政府发给公民、永久居民、临时(工作)居民的1组9位数字号码.社会安全号码的主要目的是为了追踪个人的赋税资料,但近年来已经成为实际上的国民辨识号码.结合相应的姓名即可认定为识别出特定自然人的身份.中国司法实践对此也存在争议,有的法院认为手机号码单独即可识别特定自然人,如浙江省武义县人民法院(2018)浙0723刑初377号案例和北京互联网法院(2019)京0491民初16142号案例;而有的法院认为手机号码结合姓名才能识别特定自然人,如山东省沂南县人民法院(2018)鲁1321刑初89号案例和广东省深圳市福田区人民法院(2017)粤0304刑初1716号案例.因此,厘清“识别”的具体含义具有急迫的理论与现实意义.

3 个人信息概念的反思与完善

3.1 个人信息保护的法理基础及规范目的

上述问题的回答决定了个人信息的范围,其实质上是一个价值权衡的过程.如何科学地对个人信息保护范围进行取舍,或许可从个人信息立法目的出发,探寻个人信息保护立法的法理基础,从根源上对问题进行探讨.个人信息保护立法的法理基础主要是有欧盟的“基本人权保护”理论和美国的“隐私保护”理论[18].

1949年联合国发布的《世界人权宣言》和1950年签订的《欧盟人权公约》都将私生活、家庭、住宅和通信自由视为值得法律保护的对象,这被普遍视为欧洲个人信息保护法律的渊源.1981年欧盟发布的《个人数据自动化处理中的个人保护公约》(以下简称《公约》)前言提到,“人权和基本自由”的保护是其立法目的之一.1995年发布的《数据保护指令》和GDPR前序都有类似“基本权利和自由”的表述.基于此,高富平教授[19]将个人信息中值得保护的基本权益分为个人信息自治、身份识别利益和防止歧视3种.个人信息自治,又称“个人信息自决权”,由德国学者泰姆勒首次提出,并先后在德国、日本和中国盛行[20].简言之,个人信息自决意味着个人信息主体有权决定何时、何地以及以何种方式处理和向何人披露关于其自身的信息.身份识别利益实质上保护的是附着于身份上的个人利益.过去的身份评价是以姓名为核心并建立在生活交往的事实中,而在网络空间中,身份是基于企业与用户交互过程中产生各种记录而产生的各种标签形成的,如果算法得出的标签不正确,那么会对用户的身份产生错误的认知,并可能损害相应个人的人身和财产权利[20].最后是防止歧视,其中防止歧视最重要的在于确保每个人被平等对待,这主要体现在大数据和算法价格杀熟、教育和就业歧视等[20].

保护个人隐私也是个人信息保护立法的重要目的.这一法理基础盛行在美国的个人信息保护立法中.这一点从美国个人信息保护法律的名字也能看出,比如第1部专门规制个人信息处理的法律即名为《隐私法》,作为一部规范联邦政府进行个人信息收集、存储、使用和传播的法律,美国司法部明确其规范目的在于保护个人的隐私免受无端侵犯[21].虽然美国的隐私保护最早起源于沃伦和布兰戴斯提出的“独处权(the right to be let alone)”[22],但目前已扩充至包含了大陆法系中的人格权、姓名权和肖像权等具体人格权内容[19].

事实上,欧盟和中国的个人信息保护也包含对个人隐私的保护,比如《数据保护指令》前序中提到,除了“基本权利和自由”,“隐私”也是在其中.全国人大法工委在《关于〈中华人民共和国个人信息保护法(草案)〉的说明》中明确提到,《个人信息保护法》制定目的之一就是为了回应“侵扰人民群众生活安宁”等问题.王利明教授[23]认为隐私包括生活安宁和生活秘密2部分内容,其中生活安宁是指自然人拥有不被他人打扰而正常生活的权利,主要包括排除他人对私人正常生活的干扰、禁止非法入侵私人空间和对个人自主决定的保护.

正如德国学者艾曼所述,个人信息之立法保护目的类似于道路交通法规之保护目的,违反道路交通法规不意味着一定造成交通事故及人身和财产损失,同样,违反个人信息保护法规也不意味着必然对个人信息主体的权益造成损害[23].实际上,个人信息保护立法是一种事先的风险防范,而防范的风险就是个人信息滥用可能给个人信息主体带来的财产和人身损害.

综上所述,个人信息保护立法之目的在于赋予个人信息主体对于其个人信息的自治权利和防范个人信息滥用给自然人带来的人身与财产权益的伤害,这些权益包括但不限于隐私中的生活安宁与生活秘密、防止歧视等等.

3.2 明晰“识别”的内涵

3.2.1 “虚拟识别”是“识别”的应有之义

本文认为“识别”应包括“虚拟识别”.个人信息保护法中的“识别”一词滥觞于欧美个人信息保护法中的动词“Identify”,其名词形式为“Identity”,这也是我们常说的“识别身份”.在英文的语境下,身份“Identity”一词应作广义的理解,即除了我们中文语境下的“你是谁”或 “你是什么身份”,还应包括生理、心理、基因、文化和社会身份等[24].通过相关信息勾勒出该个人独一无二的“画像”,从而可以将该特定个人从群体中分辨出来.因此,“Identify”本质上应该包含个人身份与个人特征2个维度,个人身份用来表示“你是谁”;而个人特征用来描述“你是什么样”[19].

在传统物理世界,人与人之间的交往都必须通过有形的接触才能发生.在这一场景下,要达到了解或识别某一个人的目的,首先通常需要通过姓名或身体特征(面容、身高等)来标识该个体,再在互动的过程逐渐获取特征信息形成该个体的画像.可以说,物理世界中个人利益与传统的个人身份直接挂钩.而在网络空间中,身份识别远不及特征识别重要.企业感兴趣的是基于你过去的行为与特征,从而预测你未来的行动与偏好,这也是大数据时代数字经济的价值所在.在网络空间中,将特定个人的历史行为、偏好和其他特征关联起来的正是IP地址、Mac地址和IMEI号等唯一标识符.这些唯一标识符在网络空间的作用与姓名在物理世界中起着相同作用,甚至更加重要(姓名可能重名,但网络唯一标识符是唯一的).

从某种意义上来说,基于网络唯一标识符而形成的个人特征就是与物理世界中“现实身份”相对应的“数字身份”.其次,将对数字身份的虚拟识别纳入“识别”的含义中也与个人信息保护立法的目的相契合.如上文所述,个人信息保护法是防止个人信息主体因个人信息滥用而遭受人身与财产损失的前置规范.而基于网络标识符生成的虚拟身份的确会给个人信息主体带来伤害,譬如算法依据数字身份的消费水平产生价格歧视(同样的服务或产品,不同人不同的价格)、基于数字身份的偏好进行精准推送导致并加剧“信息茧房效应(information cocoons)”(6)“信息茧房”的概念最早由凯斯·桑斯坦在其著作《信息乌托邦——众人如何生产知识》提出的.他认为,随着计算技术的高速发展,未来人们可以在网络上选择阅读并关注自己感兴趣的话题,久而久之,人们最终因这种“选择”被困在“信息茧房”之中.精准推送技术的出现,会进一步加剧这一情况,并形成一个死循环.关于“信息茧房”的相关内容可参见王妍:《警惕网络“信息茧房”效应》(载《人民论坛》2020年第11期,第126-127页).和错误推算自然人的“画像”带来的人格损害等等.此外,自个人信息保护立法之初,其主要规制范围即为网络空间(7)德国1983年“人口普查案”中,法院提出“没有不重要的个人信息”的观点正是基于个人信息自动化处理的背景之下.本案的详细内容可以参见 杨芳:“个人信息自决权理论及其检讨——兼论个人信息保护法之保护客体”(《比较法研究》2015年第6期,第28页).经合组织(OECD)在1981年发布的《关于保护个人数据隐私和跨境流动的指导方针》同样在前言中提到,该指导方针正是基于计算机通信技术的迅速发展(参见 OECD:《OECD Guidelines on the Protection of Privacy and Transborder Flows of Personal Data》,http://www.oecd.org/digital/ieconomy/oecdguidelinesontheprotectionofprivacyandtransborderflowsofpersonaldata.htm).中国《关于〈中华人民共和国个人信息保护法(草案)〉的说明》中也多次提到,本法的制定目的在于保障网络时代的个人信息合法权益(参见全国人大法工委:《关于〈中华人民共和国个人信息保护法(草案)〉的说明》,http://www.weic.gov.cn/html/xywc/zcfg/202011/57278.html)..在网络空间中,自然人的大多活动都是基于“数字身份”开展,比如社交网站、购物网站和游戏用户账号,至于用户账号背后对应着现实世界的谁,大多数企业并无兴趣.综上,本文认为“虚拟识别”是“识别”的应有之义.

3.3.2 “识别”含义之厘清

究竟何谓“识别”.有学者指出,“识别”即只需要标识符单独或者结合其他信息可唯一指向特定个人即可,例如身份证号码、手机号码和姓名(没有重名的场景下)等[25].也有学者反对这一观点,认为唯一指向与识别是2个不同的概念,虽然身份证号码和手机号具有唯一性,但其缺乏“外显性”,因而无法直接识别特定自然人[26].换言之,身份证号码和手机号码,虽都能唯一标识一个自然人,但是这些信息本身只是一串无意义的字符,在没有与其他信息结合的情况下,不具有任何身份信息.显然,从上文提到的案例来看,司法实践更加支持第2种观点.但笔者认为第1种观点更加恰当,理由如下:

首先,观点1给出了清晰明确且易于操作的标准.第2种观点要求信息能够透露出个人信息主体的身份信息(外显性),而不应该仅仅是一串无意义的字符.基于该逻辑,那么姓名似乎也无法透露出个人信息主体的身份信息,因为其本身也只是一个标识符,无法透露出更多关于个人信息主体的信息,但该结论显然与我们的常识相悖.其次,“身份”概念非常模糊,而模糊必定导致法律适用的不确定性增加,如上文所提到的,网络唯一标识符需要结合多少信息才能算作识别并无定论.而反观观点1,只要能唯一标识一个数据主体,将其从群体中区分出来,即满足要求,从而避免陷入“究竟何为识别身份信息”的困境.

其次,观点1可与匿名化制度完美衔接.匿名化制度基本上在所有个人信息保护法中都有规定,虽然不同法律中存在些许差异,但总体来说差异不大.以《网络安全法》为例,第42条将匿名化信息规定为“经过处理无法识别特定个人且不能复原的信息”.换言之,个人信息与匿名化信息的界限在于能否识别特定自然人,因此在判断信息是否属于个人信息的同时,实质上也是在判断是否属于匿名化信息.目前匿名化技术方案与标准都是基于直接标识符与间接标识符的基础而展开的(8)国内和国际上相关匿名化技术标准中都以直接标识符和间接(准)标识符作为处理的最小颗粒(相关匿名化标准文件参见 GB/T 37964—2019《信息安全技术 个人信息去标识化指南》;PDPC, GUIDE TO BASIC DATA ANONYMISATION TECHNIQUES, https://www.pdpc.gov.sg/-/media/Files/PDPC/PDF-Files/Other-Guides/Guide-to-Anonymisation_v1-(250118).pdf; NIST, De-Identification of Personal Information, https://nvlpubs.nist.gov/nistpubs/ir/2015/NIST.IR.8053.pdf; ICO, Anonymisation: managing data protection risk code of practice, https://ico.org.uk/media/for-organisations/documents/1061/anonymisation-code.pdf; IPCO, De-identification Guidelines for Structured Data, https://www.ipc.on.ca/wp-content/uploads/2016/08/Deidentification-Guidelines-for-Structured-Data.pdf)..因此,个人信息概念中“识别”的含义如能与计算机技术中的“识别”保持一致,这对促进匿名化制度的规范化有着重要意义.如上文所述,直接标识符是指能够单独识别特定自然人的信息,而准标识符为结合其他信息可以识别特定个人的信息.基于此,匿名化处理中首先需要去除数据集中的所有直接标识符[27],再综合考虑对准标识符的处理方案,以达到防止重识别的目的.在匿名化技术语境下,“识别”的含义可以从直接与间接标识符的定义一窥究竟.如《ISO/IEC 20889:2018》规定,直接或间接标识符是指可以单独或与其他信息结合“唯一标识(unique identification)”或从群体中“单独挑出(single out)”个人信息主体的信息[28].该标准进一步指出,“单独挑出”是指通过观察一系列可以单独标识一个数据主体的属性,将该特定个人的记录从数据集中区别开来[29].可以看出,在计算机科学领域,或匿名化的语境下,识别并不要求获知数据主体的特征信息,其核心在于能够将特定个人与其他人区分开来,而这一目的在信息系统中正是通过唯一标识符达到.

最后,观点1可以解决“直接识别”的困境.如采取第2种观点,单个姓名、身份证号码等信息似乎也无法透露该自然人的任何身份特征,从而,无法直接识别特定个人.那么到底是否存在能够直接识别的信息都将存疑,直接识别与间接识别的二分模式似乎并无意义.如采取“唯一指向”的观点,那么直接与间接识别区分的困境将迎刃而解.简言之,能单独唯一指向特定自然人即为直接识别,诸如身份证号码、手机号码和网络唯一标识符等;而需要结合其他信息才能唯一指向特定个人则是间接识别,如性别无法单独唯一指向特定个人,因为在一个数据集中可能存在数个相同性别的个体,但假如该数据集中只有一个25岁的男性,那么该性别加上年龄即可唯一指向该特定自然人.

3.3 个人信息分级分类保护的进路

建立个人信息分级分类制度,并分别予以不同的法律保护是一个老生常谈的话题.比如依据能否单独识别特定个人划分为直接个人信息与间接个人信息,依据信息敏感度将个人信息划分为一般个人信息与敏感个人信息.此外,在理论上,个人信息的分级分类也被很多学者提出,譬如:美国学者Schwartz等人[29]根据数据的识别程度将数据划分为已识别数据、可识别数据和不可识别数据3种;荷兰数据科学家Leenes[30]将个人信息分为“查找型标识符”和“认知型标识符”.

然而上述分类方式没有考虑到个人信息的滥用能否影响到现实世界中特定自然人的问题.比如,基于敏感度的分类方式将个人信息划分为一般与敏感个人信息,因为敏感个人信息泄露通常会严重损害个人信息主体的人身或财产安全.然而在虚拟识别的语境下,即使收集、处理医疗健康、宗教信仰和精确位置等敏感个人信息,对个人信息主体似乎并无过分影响.我们惧怕医疗或者宗教等信息泄露的根本原因在于我们周围的人因此而对我们产生歧视.因此如果仅仅将这些信息与虚拟的唯一标识符连接(数字身份),而无法影响到物理世界的特定个人,那么在法律上区别对待的意义并不大.反之,如果能关联到真实姓名、住址等物理身份信息,那么可能对个人信息主体产生重大的人身与财产损失,如位置信息被用于暴力催收致人伤亡和电话号码被用于电信诈骗等.

基于此,在上述分类基础上,本文主张基于信息能否“现实识别”进行区分.首先,依据上文划分的身份识别与特征识别,个人信息可划分为“身份识别信息”与“特征识别信息”.身份识别信息是指能够单独或者结合其他信息唯一标识一个特定个体的信息,但其无法外显该自然人的任何特征,该类信息有姓名、学号和网络唯一标识符等;而“特征识别信息”则是描述个人信息主体特征的信息,如年龄、性别和爱好等.在这一基础上,“身份识别信息”可划分为“现实身份信息”与“数字身份信息”.现实身份信息是指可与现实身份直接关联,从而识别出物理世界中特定自然人的信息,该类信息的典型有姓名、精确位置信息、身份证号码等等;数字身份信息则无法关联到现实世界的自然人,除非与现实身份信息结合,譬如IP地址本身只能识别出特定电脑,但是一旦与姓名或者住址等信息结合,可以识别出现实身份.基于该分类方法,法律应该给予现实身份信息更多的重视,同时减轻企业处理数字身份信息.从而在确保个人信息主体权益的情况下,促进数据自由流动.

4 结 语

定向广告中相关个人信息争议的根源在于“识别”含义的模糊.本文主张将虚拟识别纳入识别的含义之内,从而解决网络世界中个人信息滥用可能损害个人数字身份的问题.其次,“识别”有“识别身份”和“唯一标识区分”2种解释,采取“唯一标识”的解释路径不但可以简化法律适用,与匿名化制度保持衔接,亦可解决直接识别的理论困境.最后,本文提出现实身份信息与数字身份信息的分类方案,给与不同的保护力度,在保护个人信息主体合法权益的同时,以确保数字经济的繁荣发展.

猜你喜欢
标识符识别IP地址
基于底层虚拟机的标识符混淆方法
基于区块链的持久标识符系统①
铁路远动系统几种组网方式IP地址的申请和设置
IP地址切换器(IPCFG)
基于SNMP的IP地址管理系统开发与应用
公安网络中IP地址智能管理的研究与思考
青岛市中山公园园林树木易混淆品种识别
论犯罪危险人格的识别
科研人员唯一标识符的理论研究现状剖析
数字图书馆推广工程唯一标识符体系构建研究*