金元浦
大数据时代个人隐私数据泄露是一个当代全球共同的重大社会问题。互联网技术的发展为当代世界人们的生活和工作带来了更多的便利,但同时也让个人隐私泄露事件频繁发生。过去三年中,在全球各地发生了大量情节严重的个人隐私泄露事件,其引发的后果为各国政府、企业及企业用户、患者带来了巨大损失。我国由于互联网监管加强和对违法案件的侦破与打击力度增加,整体形势有所好转,但对个人隐私数据的认识和实践关切依然存在众多问题。
目前,从个人隐私数据的泄露的现状来看,通过黑客等手段攻击获取信息的主要目标是大型企业的服务器、网站,包括相关政府管理的网站,到2020年,这一攻击仍未停止。在过去三年中,世界许多知名企业遭遇了重大泄露事件,其中最大规模的泄露是美国Facebook应用程序数据泄露达5.4亿条;①Jason Silverstein,Hundreds of Millions of Facebook User Records were Exposed on Amazon Cloud Server,https://www.cbsnews.com,April 4,2019.单次攻击是美国市场营销及数据聚合企业Exactis公司所泄露的个人信息高达3.4亿条;②Andy Greenberg,Marketing Firm Exactis Leaked a Personal Info Database with 340 Million Records,https://www.wired.com,June 27,2018.持续泄露数据量最大的是美国雅虎公司的账户泄露事件,全球30亿个雅虎账号均惨遭泄露最终导致公司破产,被Verizon收购。③Yahoo 2013 data breach hit“all three billion accounts”,https://www.bbc.com,October 3,2017.
除了常见的企业攻击外,基于不同目的,针对不同目标受害者的危害行为也在不断升级。在网络社交领域,因为平台持有数据方的失误,导致数千万Facebook用户的隐私信息被泄露。
本报告参考近三年来全球发生的重大个人隐私泄露事件,进行归类总结分析,以期对当前全球不同地区的数据安全防护进行交叉式对比和借鉴,为中国的个人隐私保护机制提供有效建议。
隐私的概念在不同国家、文化和管辖范围间存在很大差别。隐私主要是由公众期望和法律解释所形成的,因此很难有统一的定义。隐私的权利或义务与个人数据的收集、使用、披露、存储和销毁方面相关。总体来说,隐私是关于企业对于数据所有者所负有的责任,以及关于机构对个人信息的业务活动的透明度。
关于个人数据到底包含哪些内容也没有普遍的共识。1890年《哈佛法律评论》第4期的《论隐私权》是全球关于个人隐私权最早的论述,其中提到,将隐私视为是“个人有权保持个体私密以防止被呈现于公众之前,这是隐私权外延中最简单的情形。保护个人不成为文字描述的对象、私生活不受媒体指指点点,将是一种更为重要、范围更广的权利。”①Warren and Brandeis,The Right to Privacy,Harvard Law Review,Vol.IV,December 15,1890,No.5.
学界通常将隐私界定为一种免受外界干扰的独处的权利(right to be alone),即个人具有不可侵害的人格,对其思想、情绪和感受等自身事务的公开、揭露具有决定的权利。从这个角度来看,保护隐私的目的是为了保护人的尊严。②Warren and Brandeis,The Right to Privacy.经济合作与发展组织(OECD)的定义是:任何与已识别的或可识别的个人(数据所有者)相关的信息。③OECD,The OECD Privacy Framework,2013,http://www.oecd.org/sti/ieconomy/oecd_privacy_framework.pdf.美国注册会计师协会(AICPA)和加拿大特许会计师协会(CICA)在公认隐私原则(GAPP)标准中提出的个人数据定义是:个人或机构有关收集、使用、保留和披露个人信息的权利和义务。④AICPA/CICA,Records Management:Integrating Privacy Using Generally Accepted Privacy Principles,2009,https://www.aicpa.org/content/dam/aicpa/interestareas/informationtechnology/resources/privacy/downloadabledocuments/10252-346-records-management-pro.pdf.
何为公民个人信息?2017年5月9日颁布的《最高人民法院、最高人民检察院关于办理侵犯公民个人信息刑事案件适用法律若干问题的解释》指出,刑法第253条之一规定的“公民个人信息”,是指以电子或者其他方式记录的能够单独或者与其他信息结合识别特定自然人身份或者反映特定自然人活动情况的各种信息,包括姓名、身份证件号码、通信通讯联系方式、住址、账号密码、财产状况、行踪轨迹等。⑤《最高人民法院、最高人民检察院关于办理侵犯公民个人信息刑事案件适用法律若干问题的解释》,最高人民检察院网上发布厅,https://www.spp.gov.cn/xwfbh/wsfbt/201705/t20170509_190088.shtml,2017年 5月 9日。
借鉴欧美国家的相关原则及中国法律对公民个人信息的定义,本报告将个人隐私数据界定为基于公民信息所产生的一切个体活动(动态)数据及静态数据的总和。所有与此相关的数据泄露,均视为个人隐私数据泄露事件。
为深入分析个人隐私数据泄露问题,本报告将个人数据进行以下维度的划分:
首先,参考2011年世界经济论坛编制的数据研究报告,本报告将个人数据分为自愿提供、被观测数据和被推断数据三类。一是自愿提供的数据,即用户自愿提供的一系列数据,如微博发表的各种言论及照片、向某些网站注册时提交的信息等。二是被观测到的数据即用户在使用信息设施或者软件时,被记录和观察到的一系列行为数据,如上网记录、购物记录、搜索记录等。三是被推断的数据即根据用户的各种信息推测的个人数据,如个人信用评级、消费需求、购物偏好等。本报告中采集的案例中不包含第三类来源数据,被推断的数据更多地被用于公开发布或供企业在进行商业决策时进行参考时使用,其数据的保密属性极小,缺乏被盗取或泄露的事实操作性。
第二,按照是否涉及隐私,本报告将个人数据分为敏感性和非敏感性个人数据。敏感性个人数据涉及个人隐私,法律给予特殊保护,某些数据会有专门法律进行规制,如个人征信数据。非敏感性个人数据指不涉及个人隐私的数据,一般没有特殊保护。
关于非敏感性数据的归因说明:社交网络上的用户偏好,网约车用户的出行轨迹,用户账户等级,浏览历史记录,快递轨迹等并非敏感性数据,这一归纳的考量标准为单一数据值的获利价值极低。独立的非敏感数据几乎没有商业价值,但积累到一定量级后,通过大数据分析和维度比对,可获得可观的商业趋势参考。
第三,个人数据的内容复杂多样,本报告按照内用和用途将频繁使用的主要数据划分为交易数据、电子邮件数据、社交媒体数据等。一是交易数据。交易数据中的用户账户、支付记录、消费商品记录及电子账户余额等均为重要的个人数据。二是电子邮件数据。电子邮件中,用户隐私数据和商务机密数据较多。不仅可能包括用户对某一热点事件的看法,而且可能包括用户的年龄、爱好和学历等重要基本信息。三是社交媒体数据。社交媒体数据则包括了位置信息、行为特征甚至与意识形态相关的重要数据等。这些重要的个人数据不仅蕴涵着较大的商业价值,而且对于经济组织乃至国家而言,极具战略性意义。四是位置信息/数据。随着移动终端的普及并成为生活必需品,个人的位置信息无所遁形,都被移动终端记载下来。五是医疗信息。世界上不少国家已经应用了电子健康记录。随着电子健康记录的逐步推广,个人的病史、健康状况、医疗保险等也将成为重要的个人数据。六是身份信息数据,大量泄露事件中,用户身份是首先被暴露的。
在大数据技术的背景下,绝大部分泄露的数据来自于用户自愿的提供(图1)。
采集案例中,仅Facebook数据泄露事件、Gearbest跨境电商网站数据泄露事件、亚马逊S3服务器泄露患者隐私事件的数据中,包含或部分包含由企业观测到的数据信息。其他均为用户在注册登记等过程中自愿提供的信息,或者为了正常使用功能而不得不接受某些条款而“自愿”提供的数据。
在Facebook事件中,第三方数据分析公司的用户性格测试App在收集数据时采集了大量Facebook用户的个人信息,在这些个人信息中,除基础信息(ID、个人资料)外,还包括用户在使用Facebook过程中的偏好及行为特点等观测数据。
在Gearbest事件中,泄露数据中除客户个人信息外,还包括订单轨迹及付款记录等观测信息。
2018年10月亚马逊服务期泄露患者隐私事件中,被泄露的患者数据中,除基础个人信息外,还包含具有更多商业价值的医生病例管理笔记等内容。
在近三年全球重大数据泄露事件中,绝大多数数据源自用户自愿(主动)提供,这类数据的大部分内容为个人隐私信息,不包含任何主观倾向性,因此具有最强的数据稳定性。
从Facebook案来看,观测数据的商业价值更高,但属于经过人工处理后的二次数据,不具有普遍适配性,因此,观测数据的泄露或被盗取存在强目标动机和使用场景。从Gearbest案、亚马逊服务器案来看,观测数据可能被包含在用户原始数据之中。即使在用户自愿提供数据的情况下,亦有大量案例中,企业在提供收集数据的方式时,利用强制性法律条款等途径,仅提供“同意条款”“接受协议”等选项,用户如拒绝公开信息或被收集信息,将无法正常使用企业提供的服务或相关功能。
如图2所示,近三年的重大数据泄露事件中,商业数据依然是重灾区,尤以连锁企业、跨国企业为主。医疗机构的数据泄露事件共3起,学校数据泄露事件仅1起(普渡大学案),均发生在海外地区。
各国政府数据的安全性也存在问题。值得注意的是,在本报告采集到的8例政府数据泄露案中,包含美国、澳大利亚、南非、印度、土耳其等国,其中有4例发生在美国各级政府的数据泄露事件。较其他国家,美国作为世界上大数据技术和信息存储技术最发达的国家,其数据泄露的几率更大。
近三年,在媒体公开披露的政府重大数据泄露事件中,未发现涉及中国各级政府的相关案例,原因有三:首先,一些地方政府网站曾出现小范围数据泄露事件,但规模和涉及人群数量很小,未能形成重大舆情热点;其次,与欧美发达国家相比,中国在基层政府层面的大数据建设和数据库积累上依然存在较大差距,缺乏有效的数据泄露可能性;第三,受限于中国政府的舆论政策,也有一些确曾发生的政府数据泄露事件可能未被公开。
图2 数据持有方性质分布
图1 泄露数据来源分布
在本报告采集到的企业数据泄露事件中,基本涵盖了所有主流商业领域,如图3所示。
图3 企业所处行业分布
酒店业成为数据泄露事件的高发区,近三年的5例酒店重大泄露事件,涉及酒店均为国际大型连锁酒店,包括中国的华住酒店集团,英国的洲际酒店集团,美国的万豪集团、丽笙酒店、凯悦酒店集团,泄露内容涵盖了客户基本资料和信用卡信息等核心数据。
在零售业中,优衣库的网上商城遭黑客攻击,资生堂用户数据泄露,屈臣氏旗下药妆店用户信息遭黑客劫持,美国最大面包连锁店Panera用户数据泄露。
通讯业的泄露事件包含T-Mobile信息失窃,加拿大贝尔公司消费者信息泄露,瑞士电信用户信息遭破坏,印度通讯运营商Reliance Jio用户资料泄露。
重大数据泄露事件的特征包含数据的关键性指标(个人隐私信息)流失、数据量巨大、引发重大负面影响。
上市公司的发展规模成熟,商业数据可利用价值更高,因此成为黑客入侵的最大目标(见图4)。同时一些上市公司在运营中对数据安全的重视程度不高,也是引发事件发生的诱因。
在近三年发生重大数据泄露事件的非上市公司包含丽笙酒店(被A股上市公司锦江股份旗下锦江国际收购)、印度板球管理委员会(商业机构)、菜鸟驿站(菜鸟网络旗下产品)、面包连锁店Panera bread(退市)、Acfun网站、obike(创业公司)、Quora(美国问答社交网站)、深网视界、Exactis。
牵扯到数据泄露的非上市公司,所涉及业务亦属于连锁店模式、全球化布局或区域内行业顶级水平。
图4 企业发展状态分布
如前所述,由于美国在数据库建设、大数据技术发展等方面处于全球领导地位,该国企业或政府机构所遭遇到的数据攻击或泄露事件也较为频繁,如图5所示。
图5 数据所属企业所在地域分布
涉及中国的数据泄露事件共11例,涉及企业包括华住酒店集团、国泰航空、Gearbest(跨境通旗下电商网站)、趣店、58同城、菜鸟驿站、Acfun网站、数据堂、圆通快递、瑞智华胜(新三板上市公司)、深网视界(东方网力旗下公司)。
非敏感性数据泄露事件中包含Facebook数据泄露事件、Uber遭黑客攻击事件、Gearbest泄露资料事件、丽笙酒店泄露事件、五角大楼泄露社交用户信息事件、贝尔公司信息泄露事件等。
在非敏感数据泄露事件中,涉及数据多为个人用户非核心身份数据,以及部分基于用户习惯得出的商业分析数据。
在被泄露数据的用途属性分析中(图7),部分案例中涉及的数据可能包含多种用途,故分写结果并非单一样本选项。身份数据依然是隐私泄露中的重点部分,共有33例事件涉及身份数据的泄露。交易数据也是隐私数据中较有商业价值的部分,共有10例事件涉及此项数据内容的泄露。社交数据泄露的事件共有9例,其中以Facebook泄露事件影响最大,还包括Ins名人账户泄露事件,五角大楼泄露社交用户信息事件,美国成人网站账号泄露事件,领英账号泄露事件等。涉及医疗数据泄露的事件共有4例,邮件数据共3例,位置数据共1例。
图6 数据敏感性分布
图7 数据用途属性分布
在数据泄露事件中,部分事件并非单一归因,例如因企业操作失误导致黑客入侵的事件亦有发生。故本维度可能存在同一事件的多个选项。黑客入侵是泄露归因中最主要的一项,共30例(见图8),在企业操作失误导致的事件中,很大一部分均与云存储技术(包括AWS)有密切关系。
关于泄露原因的具体解析,在本报告二中会有更详细的解读。
图8 数据泄露归因分布
泄露的数据量在一定程度上可以衡量事件的影响度,如图9,本报告采用的案例中,泄露数据量或涉及用户超过10亿人/条的事件共有5起,分别是雅虎泄露30亿账户信息、印度政府网站泄露10亿公民信息、五角大楼泄露18亿社交用户信息、圆通10亿快递信息泄露、瑞智华胜窃取30亿用户信息。
涉及天量数据泄露的均为大国政府或大型企业。
超过1亿人/条的数据泄露事件较多,共12例,超过1千万人/条的数据泄露事件共11例。
微信抽奖平台结合图创各个系统的优势,与图书馆的微信公众绑定在一起,可嵌入由图书馆(其他单位机构也试用)举行任一面向大众的活动。不仅帮助图书馆活跃现场气氛,提供参与者的积极性与热情,从而,达到举办活动的终极目标,提升举行活动的意义。而且,能够为微信公众号带来粉丝量,提高微信粉丝活跃度,从而提升图书馆微信公众号的品牌影响力。
在互联网普及的当下,泄露事件所波及的用户/账户越来越广,但数据量并不是考量事件严重程度的唯一指标,也与泄露事件的持有方企业规模、持有方机构权势、数据内容的关键性指标有密切关系。如美国政府健康保健官网的敏感信息泄露事件中,虽然仅涉及7.5万人,但遭到黑客攻击的系统实际上是一个直接登记渠道,它允许代理人和经纪人帮助个人申请联邦便利交易所的保险。
图9 数据泄露量级分布
按照数据泄露对企业或政府造成损失的程度不同,在数据泄露事件中,主责方的损失通常并非表现为单一损失,故存在同一事件包含多个选项的可能性。图10所示,在公开媒体披露中,股票下跌成为泄露数据的企业最常见的损失,相较于此,大部分发生数据泄露事件的企业/机构并未披露损失。
另一点值得关注的是,在公开披露的媒体信息中,绝大多数涉及数据泄露的企业,在法律层面及赔偿方面均未受到影响。这进一步说明,数据安全保护的监管层面依然有待加强。
绝大部分数据一旦泄露,就成为被曝光的隐私,毫无追回的可能性。
如图11所示,在本报告采集到的案例中,仅有2例事件的数据被追回,包括华住事件、Ins名人账户数据泄露事件。这进一步说明了数据安全的重要性,因为这种错误几乎是不可挽回的。
图10 数据泄露导致损失类型分布
图11 数据泄露方追回数据结果分布
数据泄露的危害性与破坏性十分严重。随着数据价值的提高,黑客越来越多地将攻击目标转向企业内部存留的用户、员工数据,当企业发生数据泄露,损失的不仅仅是经济利益,还会产生更多严重的社会问题,造成难以挽回的损失。从企业来看:
首先,数据泄露会严重导致企业公众声望受损,并进而造成企业形象和企业品牌下滑。雅虎邮箱被曝出泄露事件后,大批用户弃用,正在商谈的收购事宜的雅虎甚至一度难以卖出。可见,企业数据泄露事件的发生,让公众产生了不信任感,从而影响他们的选择,并因此影响到企业的整体运行。
其次,企业经济利益受损。数据是企业财产的一部分,泄露的数据资产相当于拱手让给别人,对企业竞争力产生威胁,间接提高了成本且减少收益。另外,也会导致企业股价下跌、用户流失,甚至如雅虎一样公司贬值,而不得不低价出售。
再次,企业可能将面临诉讼等法律指控。数据泄露后必定会有受害者,则必然受到法律的追究。在本报告中,有相当一部分收据泄露事件的涉事企业被政府或用户起诉,最后承担了巨额赔偿。
第四,内部容易产生不和谐因素。数据泄露的原因有很多种,可能是黑客攻击也可能是内部管理不善造成,而内部原因会让员工对企业产生不信任感,影响公司人员之间的团结协作。企业数据泄露还可能引发高层震荡,产生一系列连锁效应。如数据泄露发生后,通常会有高管被政府或相关机构传唤、举证、说明等。如马克·扎格伯格在美国和欧洲被传唤。更有甚者,引起相关高管引咎辞职。
本节报告调查中个人隐私数据的提供均是自愿的,但这个自愿是一种“被自愿”。你要获得服务,就“必须”提供个人信息,你提供了个人信息又必然成为数据获取方(企业、政府、机构)的资源、资本和运营基础。这就形成了个人信息与信息获取方(企业、机构、政府、研究者、大数据分析师)之间的悖论关系。个人隐私保护到什么程度,个人信息中哪些信息可以提供,哪些信息的提供是一次性的,信息获得方是否超出需要搜集个人信息,它如何使用、保存和保护这些信息,是一次性使用还是多次使用,使用是否受到监管等,形成了一个全球性的重大理论、法规和监管方式的决策、比较和讨论。它牵涉到互联网时代个人信息保护与互联网运行(大数据、云计算、人工智能)发展二者之间的协调、平衡、创新发展的动力机制。隐私保护过严可能造成互联网大数据等的发展形成某种掣肘,过于放松则带来隐私数据的大量泄露或滥用,带来对个体的不同程度的伤害和安全威胁。从相关案例来看,发达国家的隐私保护普遍较为成熟,一些国家和地区如欧盟等更为严格,但互联网的创新发展相对显弱,而美国则对互联网创新发展给予更多助力,而数据保护则相对松弛。Facebook信息泄露之后,Facebook总裁马克·扎格伯格在美国和在欧盟的不同对待就是一个明显的案例。如何寻找一个信息保护与互联网运行二者间的良性发展机制,是我国当前互联网发展的重大课题。运用中国传统文化的“执两用中”“致中和”的理念,建立二者基础上的对立中介的第三生成物——信息保护与发展的文化间性,是未来进一步发展的方向。
本报告以理性逻辑为指导,以案例调研为依据,对泄露数据的内容属性、泄露数据的来源及其分布、数据持有方的性质分布、数据泄露的原因、数据所属企业所在地域分布、数据泄露的归因及其分布、数据泄露的量级及其分布、数据泄露导致损失类型及其分布进行了分析,其框架构成对隐私数据泄露的调研和研究具有启示意义。
个人信息数据泄露的最大受害者是普通公民隐私权受到侵害。前些年我国大面积发生的电话和网络诈骗均起于个人信息数据的泄露。近三年来,随着打击力度的增强得到了一定程度的遏制。而根本原因在于公民隐私保护意识的加强和企业开始对信息安全运行的监管加强。
数据泄露的危害性与破坏性是十分严重的。但中国公民对个人(企业)隐私数据泄露的危害性与破坏性没有充分的认识。这不仅在中老年群体中表现突出,而且在其余各类群体,包括青年人群中也是如此。公民对隐私的自我保护意识不强,对“被自愿”的个人隐私提供缺乏应有的防范意识。这与我国长期形成的制度形态和社会机制有关,也与长期形成的朴素善良的传统人际关系理念有关,而未与大数据时代市场化的当代新现实接轨,否则就不会有大面积受骗上当的人群和大量数据泄露案件发生。
因此,隐私保护和数据泄露防范需要我们进一步深化改革,在新的历史条件下从制度、机制、传播与教育诸方面推进治国理政进入新高度,达到新境界。
本报告技术支持:网智天元科技集团股份有限公司
附件1 本报告样本采集
本报告提取的数据泄露事件样本总量为55个,时间跨度为2016年1月至2019年5月,地域涵盖亚洲、欧洲、美洲、非洲、大洋洲,涉及国家包括中国、日本、印度、新加坡、美国、英国、澳大利亚、南非等。
本报告中所采用的案例,基本涵盖了近三年来涉及个人隐私损失的全球重大网络数据泄露事件,涉及企业中包括Facebook、雅虎、华住、万豪等全球知名企业,还涉及大量政府部门。
需要说明的是,样本中不包含未经官方确认的泄露事件,亦不包含最终确认所泄露数据并非对应企业持有的案例,即,非有效数据泄露事件。
综合公网所能查询检索到的新闻事件及学术报告中采集到的数据泄露事件,本报告中所采纳的55个案例,已经可以较全面地反映近三年来全球数据泄露的整体趋势及状态,因此,藉此样本所得出的指标分析,具有足够的行业参考性。
本报告在对相关数据维度进行统计时,会附列当前维度下的重点事件梗概,更详细的事件分析,参见报告二。
样本采集关键词:
一级关键词:大数据、数据泄露、个人隐私、黑客、暗网;
二级关键词:全球知名企业名称,参考《财富》世界五百强排名2018年版,中国知名企业名称,参考2019年中国独角兽榜单;
三级关键词:中国法律、中国企业、中国政府、地方政府、政策法规、欧盟、美国法律、GDPR、医疗机构、政府网站、数据保护、隐私保护、密码;
四级关键词:赔偿、索赔、诉讼、起诉、市值、股价。附件2 各地区主要数据泄露事件一览
表1 北美地区案例
(续表1)
表2 欧洲案例
表3 亚洲及非洲、澳洲案例
表4 中国案例