牛晨晨,周 畅,张 昪
(兰州财经大学 信息工程学院,甘肃 兰州 730000)
大数据背景下的个人隐私保护研究
牛晨晨,周 畅,张 昪
(兰州财经大学 信息工程学院,甘肃 兰州 730000)
随着互联网、物联网、云计算等信息技术的快速发展,数据的规模呈爆炸式增长,标志着大数据的时代已经来临。大数据在带来巨大商业价值的同时,也不可避免地会侵犯到个人隐私。首先就大数据与个人隐私的概念做了说明,其次分析了大数据对个人隐私造成的威胁,最后讨论了个人隐私保护的技术和法律规范。
大数据;个人隐私;隐私侵犯;隐私保护
大数据的概念最早出现在《Nature》杂志于2008年开办的Big-Data专栏中。在“Big data:science in the petabyte era”一文中,大数据被定义为“代表着人类认知过程的进步,数据集的规模是无法在可容忍的时间内用当前的技术、方法、手段和理论来获取、存储、管理和处理的数据”[1]。但是到目前为止业界对大数据依旧没有统一的定义。
针对大数据的特征比较有共识的主要有三点:规模性(Volume)、多样性(Variety)和高速性(Velocity)[2]。除此之外国际数据公司(International Data Corporation,IDC)还提出了4V的特征,即在原来3V的基础上又加入了价值性(Value)这一特性[3]。大数据的这些特征具体表现在以下几个方面:
(1)数据量:数据规模是巨大的,数据的出现往往是PB或ZB级的;
(2)数据多样性:数据的来源不仅多,而且呈现不同的结构特征,除了结构化数据之外,也产生了半结构化以及非结构化数据;
(3)数据速率:不仅数据的产生速度快而且传播的速度也是非常迅速的,并且呈现流式的特征;
(4)数据价值:数据的价值总量是巨大的,但从中提取的价值密度却是非常稀疏的。
1890年,Warren和Brandeis在《哈佛法律评论》上发表了《隐私权》一文,最早提出了隐私的概念。他们认为公民的个人隐私权是一项独特的权利,神圣不可侵犯,理应受到应有的保护,以防他人无根据地发布个人想要保守的秘密[4]。
在大数据时代,我们常常将个人隐私与个人信息联系起来,但是它们是完全不同的两个概念,个人隐私包含在个人信息当中。个人信息中除了那些被保护的信息外,其他的信息是可以在法律允许的情况下被开发利用的,而那些被保护的信息就是个人隐私。这里我们就把个人隐私定义为公民个人不想让他人获知的一些个人信息,比如个人身份信息、个人收入情况以及身体健康状况等。Banisar等人把个人隐私分成了四类[5]:
(1)信息隐私:主要是个人的一些基本信息,包括个人的身份证号、收入状况、婚姻情况以及身体健康状态等;
(2)通信隐私:主要是个人与他人使用不同的通信方式进行交流的情况,包括QQ、微信以及邮件等;
(3)空间隐私:主要是个人所拥有的特定空间,比如个人的具体家庭地址以及所出入的场所;
(4)身体隐私:主要是个人的身体受自己支配,保证不被他人或机构进行损害,比如药物测试等。
大数据的发展是一把双刃剑,它带来巨大商业价值的同时也不可避免地对个人隐私造成了侵犯。就大数据所带来的隐私威胁,主要牵涉以下几个方面:
3.1 个人隐私信息非自愿上传
大数据时代背景下,大部分的数据并非个人自愿上传的,特别是在网上的一些行为数据。比如在互联网上的一些浏览及搜索记录等都被服务商所监控,并将采集到的这些信息存储起来,可能服务商利用这些信息用作他途,而这些却都是在当事人不知情的情况下发生的。
3.2 侵犯个人隐私行为难以认定
由于侵犯个人隐私行为的方式是多样的,而现有的法律又不是很完善,对于有些行为是否属于侵权很难确定。比如用户出于保护隐私的角度采用了匿名的方式,而一旦被侵权就很难收集到对自己有力的数据,想找到真正的侵权人则更增加了难度。
3.3 个人隐私信息管理难度增加
由于信息技术的高速发展,人们所能获得的数据也更加复杂,这就使得个人对于自己的隐私信息管理难度也增加了。具体体现在:在收集个人信息时,面对这些海量的数据怎样确保所收集到信息是完整的;而在存储所收集到的个人隐私信息方面有什么更好的方法来防止他人的窃取;在使用这些个人信息时,如何在不增加过多管理工作量的基础上,使不同的人能够访问到不同级别的数据;在信息发布时如何在保证数据有效的同时不会泄露自己的隐私。
3.4 个人隐私保护技术难度增加
当人们逐渐意识到要保护自己的隐私,并试图将自己在网上的信息进行藏匿时,殊不知自己的行为,特别是在社交网络上已经留下了太多足迹[6]。大数据下,可以把那些单点看似不相关的信息连接起来,那么那些所谓的隐私就将不再是隐私了。单纯的从技术层面就可以通过对数据的抽取和集成来获取个人的隐私信息,现实中的“人肉搜索”就是典型的例子。对于那些动态的海量数据即流数据如何来构建隐私保护而不影响到数据的有效使用。这些问题都使得大数据下对于个人隐私保护技术的难度增加了。
3.5 多维灵活的个人隐私保护政策仍在摸索
现实生活中企业为了能够提供更好的服务常常要求用户提交自己的一些敏感信息,而用户为了获得更好的体验效果也会按照要求填写,但是在数据的使用方面往往出现欺诈和隐私泄露的问题,这就使得用户在注册信息时会填写虚假信息,但是虚假的信息就不能获得服务商的一些特殊服务,由此造成了恶性循环。因此如何来构建多维灵活的个人隐私保护政策是大数据时代背景下的一个亟需解决的问题。
如果是仅仅为了保护个人的隐私信息而把有关自己的数据全部藏匿起来,远离大数据时代,就有点因小失大了。因此,针对大数据背景下的个人隐私保护本文提出了几种技术来解决。
4.1 社交网络匿名保护技术
社交网络是大数据的重要来源之一,其所产生的数据里面包含了大量的个人隐私信息。社交网络中产生的数据不同于以往的结构化数据,它包含了大量的半结构化和非结构化数据。社交网络中最常用的匿名技术主要是点匿名和边匿名,其中点匿名采用的是在数据发布时隐藏用户的基本特征和属性,而边匿名则采用的是隐藏用户间的关系。侵权者常常会利用各节点的属性进而识别出用户的个人信息。目前的边匿名方案实现有效匿名的方式主要是基于边的增删。Zhang L J等主要是根据节点的度数不同来进行分组,然后再从这些度数相同的节点中进行边的交换[7]。这种方法的最大弊端就是随机增加的噪声点过于离散稀疏化,存在边匿名保护不足。另一个对社交网络实现匿名保护技术的方法就是基于超级节点来对图结构进行切割和聚集操作,这种匿名方案尽管能够实现边的匿名,但却是以数据可用性的牺牲为代价。
4.2 数字水印技术
数字水印技术指的是将标识信息直接嵌入到数字载体中,并且不影响原来载体的使用,也不容易被察觉和篡改,这种方法常被用于对多媒体版权的保护。现在也有针对数据库和文档的水印保护方案。但是由于数据的特性而有所不同,对数据库和文档的水印保护方案要求数据中存在多余的信息并且能够容忍一定程度的误差。Agrawal等人提出了在数据误差允许的范围之内,可以将少量水印信息嵌入到那些随机选取的数据中相对不重要的位置上[8-9]。另外,还有一种方法可以通过将数据库指纹信息嵌入到水印中[10],就可以识别出拥有该信息的对象,这种方法还能够实现在分布式环境下追踪到泄密者。Agrawal等人提出的数据水印技术所具有的特性在大数据时代背景下前景非常广阔,例如,大数据的起源证明就可以通过强健水印来实现。
4.3 差分隐私保护技术
现在人们对于自己隐私的保护越来越重视,因此,便出现了根据节点信息来推测个人信息的针对性的隐私获取方法。2006年Dwork首次提出了一个统计隐私模型,也就是差分隐私保护来解决这个问题[11]。差分隐私保护最大的优势是它提供了更多的语义保证,无论侵权者采用怎样的手段,都只能从个人数据中得出有限的结论。因为差分隐私保护有一个健壮的攻击模型,而且还对隐私泄露的风险进行了量化表示,也就是侵权者不能通过已有的信息来推断未知的信息即使仅剩一条未知,这样差分隐私保护使泄露的风险微乎其微。在差分隐私保护的模型中任意的添加或删除一条记录并不会改变输出的结果,它的目的就是使隐私泄露的风险最小而使数据获得最大化的利用。而且差分隐私保护技术由于自身具备与特定领域无关的特性,因此它能很好地与其他领域结合,目前已经广泛应用于机器学习与密码学等。由于差分隐私保护技术是基于数据失真技术的,其所加入的噪声点与全局敏感性有关而与数据集的大小无关,因此可能加入少量的随机噪声点就能够达到很好的隐私保护目的。
4.4 数据访问控制技术
目前已有服务商提供了一些方法让用户自己控制所发布的信息以及对哪些人可见,用户可以自己制定约束权来限制所访问的数据的多少。比如在腾讯公司的QQ即时通讯中,用户就可以通过设置“所有人可见”“仅好友可见”“仅自己可见”来保护自己的隐私。现在的企业所提供的软件应该对这些隐私进行更细粒度的划分,让用户自己来决定自己所发布的信息可以被哪些人看到,能被看到的信息有多少,这是大数据时代背景下对个人隐私保护的一种趋势。
个人隐私保护除了先进的技术手段之外,也需要有相应的法律规范与其配套实施,这样才能在隐私受到侵犯时有法可依、有法可循。
5.1 法律法规层面
截至目前我国还没有专门针对公民个人隐私信息的立法,一些隐私保护的条文散见于宪法及其他法律中。但是随着大数据时代的发展,相关立法也会在不久的将来出台。本文以为法律的制定应该从以下几个方面着手:
(1)数据的收集:任何企业或组织对于公民个人信息的收集必须是正规的,而不是通过欺骗的手段获得,在数据收集传输的过程中要保证公民个人信息不被泄露。
(2)数据的使用:用户信息的使用者为其行为承担相关的责任,不能滥用公民的个人信息,而且在使用过程中应该建立严格的访问机制,确保隐私数据不被泄露。
(3)数据的发布:对发布公民个人信息,要有明确的界限,确保没有泄露其隐私,而且发布的数据也是真实有效的。
(4)数据的共享:公民个人能够与企业共享信息,但前提是必须签订有效力的法律合同或协议,确保个人隐私信息不被泄露,一旦泄露就可以通过签订的合同或协议追究其刑事责任。
5.2 行业规范层面
用户是企业创造利润的来源,为了能够吸引到更多的用户,企业应该在相应的行业规范内保护用户的隐私信息不被泄露。行业规范应该从以下几个方面着手:
(1)数据访问机制:数据的访问应该具有灵活性并且能够确保访问的数据质量。
(2)遵守行业内的隐私规范:不同的行业对于隐私的保护不同,有些行业可能会获取到更多的用户信息,这就要求行业内建立更完善的规范制度来保障公民的个人隐私。
(3)企业与用户间的信任:用户只有对企业充满信任,才会放心地提供自己的信息,因此企业自身应该完善隐私保护机制,这样企业才能良性地发展。
[1] GRAHAM-ROWE D,GOLDSTON D,DOCTOROW C,et al.Big data:science in the petabyte era[J].Nature,2008,455( 7209):8-9.
[2] BRYANT R E,KATZ R H,LAZOWSKA.Big-data computing:creating revolutionary breakthroughs in commerce,science,and society[R/OL].(2008-12-22)[2016-11-16].http:∥cra.org/ccc/wp-content/uploads/sites/2/2015/05/Big_Data.pdf.
[3] BARWICK H.The"four Vs"of big data.[EB/OL].(2011-12-12)[2016-11-20].http:∥www.computerworld.com.au/article/396198/iiis_four_vs_big_data/.
[4] WARREN S D,BRANDEISr L D.The right to privacy[J].Harvard Law Review,1890,4(5):193-220.
[5] BANISAR D,DAVIES S. Global trends in privacy protection:an international survey of privacy,data protection,and surveillance laws and developments[J].Journal of Computer&Information Law,1999,18(1):3-111.
[6] 孟小峰,慈祥.大数据管理:概念、技术与挑战[J].计算机研究与发展,2013,50(1):146-169.
[7] ZHANG L J,ZHANG W N.Edge anonymity in social network graphs[C]∥Proceedings of the International Conference on Computational Science and Engineering,Aug 29-31,2009,Vancouver,Canada.IEEE,2009:1-8.
[8] AGRAWAL R,HAAS P J,KIERNAN J.Watermarking relational data:framework,algorithms and analysis[J].The International Journal on Very Large Data Bases,2003,12(2):157-169.
[9] AGRAWAL R,KIERNAN J.Watermarking relational databases[C]∥Proceedings of the 28th International Conference on Very Large Data Bases,Aug 20-23,2002,H K,China:155-166.
[10] GUP F,WANG J M,LI D Y.Finger printing relational databases[C]∥Proceedings of the 2006 ACM Symposium on Applied Computing,Apr 23-27,2006,Dijon,France:487-492.
[11] DWORK C.Differential privacy[M]//BUGLIESI M,PRENEEL B,SASSONE V.Automata,Languages and Programming.Berlin:Springer,2006:1-12.
[责任编辑、校对:李 琳]
Research on Personal Privacy Protection under Big Data Background
NIUChen-chen,ZHOUChang,ZHANGBian
(Department of Information and Engineering,Lanzhou University of Finance and Economics,Lanzhou 730000,China)
With the rapid development of the Internet, Internet of Things,cloud computing and other information technology,the scale of the data grows in an explosive way, which marks the advent of the era of big data.Big data bring great commercial value,but it will inevitably violate personal privacy.At first,this paper describes the concept of big data and personal privacy,then analyzes the threat of big data to personal privacy,and finally describes and discusses some of the personal privacy protection technologies and legal norms.
big data;personal privacy;privacy violation;privacy protection
2016-12-09
牛晨晨(1989-),男,河南周口人,硕士研究生,主要从事数据挖掘研究。
TP309
A
1008-9233(2017)01-0073-04