蓝培源
大数据研究是否会侵犯个人隐私?这个问题一直饱受争议。一方面,加强个人信息安全的呼声从未减少;但另一方面,越来越多掌握海量个人数据的机构开始向公众开放数据源,以推动学术研究,提升企业的商业表现,或是为用户的日常生活提供便利。
为了保障个人信息不被泄露,数据提供方常使用随机ID代替个人身份信息。敏感的个人身份识别信息——如名字,住址,手机号码等——因而得以隐藏。但是,匿名ID并不是万全之策,更何况在大多数情况下,公开数据只能做到某种程度上的匿名。通过极其少量的外部确认信息,比如时空数据点,数据使用者就能够反向识别某个具体的个人。
在最近发表的一项研究中,MIT的Yves-Alexandre de Montjoye等学者分析了100多万用户在3个月内的信用卡消费数据。他们发现,仅仅需要4个外部确认信息,数据使用者就能以超过90%的几率识别特定用户。所谓外部确认信息,也就是跟用户相关的时空数据点,比如带有定位信息的Twitter,在Google上对某地的评价,Netfliex上的电影评分等等。
反向识别的大致流程是这样的:比如说,数据使用者想找到用户S的消费记录。他们由外部确认信息得知,S曾经在9月23号在某甜品店消费,并于9月24号在某餐馆就餐。经过在信用卡数据集中的筛选,只有一位ID为“7abc1a23”的用户完全符合上述条件。于是,只通过两条外部确认信息,研究者们就在海量的信用卡数据中找到了S,并通过ID获取了ta的所有相关记录。
尽管上诉个例略显极端,但是也为我们敲响了警钟:大数据时代,个人的日常生活轨迹极易被各个平台记录在案,它们可以互相参照,并成为其它数据集的外部确认信息。心怀不轨的攻击者,可以轻易地使用不同数据集进行比对,并定位目标个体。
在不同类型的数据中,个体被识别的可能性差别很大。相对而言,财经类数据,比如研究者们所使用的信用卡消费信息,能更准确地对个体进行反向识别。这些数据不仅仅包含了时间,地点,还额外加上了一重识别信息:消费金额。除此之外,手机移动数据信息、网络浏览信息、交通通勤信息等等,也都属于风险较大的类别。对于生活在网络时代的我们来说,只要曾在生活中留下过电子痕迹,个体隐私便难免遭受侵犯,甚至连匿名都无法提供足够的保护。
事实上,关于身份信息的记录早已有之,包括人口普查、选民登记、医疗信息等等。而这些数据常常在经过简单匿名处理之后,就直接向公众开放。1997年,MIT的学者Latanya Sweeney就曾质疑马萨诸塞州保险委员会公布的匿名医疗记录无法保护个人隐私。她借助该州的选民信息,成功反向识别了病患身份,并将研究结果发给州长加以警示。所以,匿名个体遭到定位的风险倒并非今天所独有。
然而,计算机技术的成熟以及大数据时代的到来,让情况变得更加糟糕。许多提供匿名用户数据的公司,都在隐私保护方面栽过跟头。2006年,美国在线(AOL)公布了65万用户在三个月内的匿名搜索数据。纽约时报依据外部信息进行对比,成功识别了部分用户的身份。在随后的法律诉讼中,AOL被迫付出了500万美元的赔偿金。
Netflix在2008年也曾陷入类似的争议。Netflix在2006年举办了著名的算法竞赛,奖励能预测用户观影偏好的最佳算法。大量的匿名用户评分数据因而被公布,并由参赛者任意使用。来自德克萨斯州大学奥斯汀分校的Arvind Narayanan 和 Vitaly Shmatikov两位学者,将Netflix的数据和IMBD的数据进行匹配,并由此识别了一些用户的身份,以及包括政治偏好在内的敏感信息。一年后,四位用户以侵犯隐私权为由将Netflix告上了法庭。
意识到匿名ID的脆弱和不可靠,学界和业界也在不断发明新的方法,以提升个人身份被识别的难度。Yves-Alexandre de Montjoye等研究者提供的一种解决方案是降低数据精度,比如将特定咖啡馆转换为某一区域内的餐馆,将具体时间转换为某个时间范围。但是他们承认,如果有足够多的外部确认信息,即便数据精度较低,某些个体仍旧很容易被辨识。
上文提到的Latanya Sweeney教授,则早在2002年就提出了k-匿名(k-anonymity)隐私保护模型。其它的方法还包括 l-多样化(l-diversity)、t-closeness、 差 分 隐 私(differential privacy)、同态加密(homomorphic encryption)、 零 知 识 证 明(zero-knowledge proof)等等。但是这些匿名方法都不可避免地存在局限性,无法完全阻止反向识别的实施。
比如说,所谓差分隐私,就是向原始数据中加入噪声,在增加识别难度的同时,保持数据的原有属性。一个例子是,Chrome 浏览器会首先对用户上传的数据进行随机化修改(randomized response),通过使用布隆过滤器加入噪声,再上传给服务器。苹果在2016年的世界开发者大会(WWDC)上也宣布使用类似的差分隐私方法。不过,差分隐私还是无法避免多个相关数据上报而导致的隐私泄露。更何况,道高一尺魔高一丈,匿名方法推陈出新的同时,攻击者们也会采用更为强力的识别工具。
唯一可以让我们稍许感到宽慰的是,学者们的不断努力提醒了政府,并推动了相关领域的立法行动——Latanya Sweeney就医疗隐私做出的警告,使得美国政府在2003年更新了健康保险便利和责任法案(HIPAA),进一步限制了医疗数据的披露。
但即使在美国,立法方面的进展仍旧远远落于实践之后。美国现有法律强调,只要数据被提前模糊化,个人的身份信息得以隐藏,便可以被视为“安全”的匿名数据集,从而数据拥有者可以开放其使用权限。
至于数据被公开之后的使用限制,在现有法律框架中基本无迹可寻。更令人担忧的是,并不是所有数据公司都有保护隐私的良知,或者掌握了完备的匿名处理方法。很多时候,匿名数据被公开之后,公司就无法再通过后续手段加强其安全性。相比之下,攻击者能够不断升级技术手段,并收集其他数据来进行对比。
随着技术的普及和大数据的发展,使用者从公开资料中挖掘出个人敏感信息的难度不断降低。2014年,一名在Neustar实习的数据科学家在获取了纽约出租车轿车协会提供的出租车行车记录后,结合八卦信息网上找到的名人出行街拍图,成功识别了多位名人的上下车地点、车费、行车路径,以及其他一些出行记录,一时引发了舆论的关切。
越来越多的事例及研究表明,匿名能给个人隐私提供的保护十分脆弱,反向识别正变得愈发普遍。但是在当前的司法体系下,数据提供者依旧没有义务上报可能遭受了反向识别的数据集。攻击者们也甚少被追究责任。于是,公众很难得知,某个公开数据的匿名性是否已被攻破。无论是技术层面还是法律层面,大数据时代的隐私保护都还任重道远。