张永兵
摘要:近年来,以云计算为基础平台的大数据时代正式到来,大数据因蕴藏有巨大的商业价值而使不法分子想方设法盗取个人隐私数据,从而影响用户的正常生活。本文通过分析大数据时代个人隐私安全面临的严峻挑战,对个人隐私保护所采用的技术措施进行总结,并提出了个人或企业应遵守的法律和行业规范,最后探索了个人隐私保护的进一步研究方向。
Abstract: In recent years, the era of big data based on cloud computing platform officially arrived, and big data contains a huge commercial value and makes the criminals try to steal personal privacy data, thus affecting the normal life of the user. By analyzing the challenges faced by the privacy security in the era of big data, summarize the technical measures adopted in the protection of personal privacy, put forward the laws and industry standards the individual or enterprise should abide by, and finally explore the direction of further research on the protection of personal privacy.
关键词:大数据;个人隐私保护;匿名化技术;数据加密;数据访问控制
Key words: big data;personal privacy protection;anonymity technology;data encryption;data access control
中图分类号:N37 文献标识码:A 文章编号:1006-4311(2016)35-0187-02
0 引言
随着物联网、云计算等技术的兴起,全球范围内出现了网络数据的爆炸式增长。国际数据公司(IDC)发布的研究报告称,预计到2020年全球数据总量将超过40ZB,这相当于从2011年开始的10年内数据量增长22倍。大数据中的主要数据是个人信息,一些企业在强大价值利润的驱使下,大量收集、处理、使用和发布用户信息,这种操作行为在给企业带来商机的同时,造成的用户个人隐私泄露,威胁到个人的生活安全和社会的治安稳定。据统计,2012年北京中关村派出所全年接报的电信诈骗占立案的38%,诈骗分子都是准确获取了用户的个人隐私信息后实施诈骗的。
因此,在大数据环境下,无论个人还是企业都需要提高警惕,加强个人隐私的保护。隐私是指用户不愿意公开、不想让别人知道的自身敏感信息。个人隐私可以分为4类:①信息隐私,主要指个人数据,如电话号码、身份证号、银行账号、收入等。②通信隐私,主要指个人通信方式,如电话、微信、QQ、E-mail等。③身体隐私,指个人的身体状况信息,如体检信息、病情报告、药物测试等。④位置隐私,指个人的活动场所,如工作单位、住址、交通工具、当前位置等。可见,个人隐私所包含的内容是多方面的,任何个人隐私信息的泄露都会给我们的生活带来一定影响。
近年来,大数据的安全和隐私保护成了人们研究的热点问题,本文在前人研究的基础上,对大数据时代个人隐私保护措施进行了总结和研究。文章首先介绍了大数据时代个人隐私保护的相关概念,通过分析个人隐私保护面临的主要问题,从数据加密、数据匿名化和数据访问控制三个方面叙述了个人隐私保护所使用的技术措施,并提出了个人隐私保护的相关法律和行业规范,最后提出了大数据个人隐私保护的进一步研究方向。
1 大数据时代个人隐私安全现状
当前,隐私安全遭到破坏是大数据时代个人信息安全的主要威胁。例如,苹果公司的“隐私门”事件,泄露了大量用户的行踪;腾讯QQ的朋友圈,曝光了用户真实姓名和一些社交关系;AOL公司曾公布了匿名处理后的3个月内部分搜索历史,供人们分析使用等等[1]。网站经营者在没有征得当事人同意的前提下不正当地搜集和存储个人数据,或者有意无意地将计算机系统保存的信息没有即时删除导致用户的个人信息泄露等,这都是侵犯用户的隐私权。泄露后的个人信息往往会被违法犯罪分子获得,并从事一些违法犯罪活动,主要表现在以下方面:
①电话、QQ或邮箱等通信方式泄露造成电信、网络诈骗。如2016年5月,甘肃秦安县某教师被诈骗分子以“犯了案”为由,骗去了其23万元血汗钱。同年,临沂市接连发生至少3起电信诈骗学生案件,3名学生银行卡内资金被骗,其中两名学生猝死,引发社会关注。
②直接实施抢劫、敲等重暴力犯罪活动。如2012年初在广州,犯罪分子冒充快递,根据个人信息资料直接上门抢劫,造成了户主一死两伤的恶性案件。
③非法实施商业竞争。不法分子以各类咨询、免费服务为借口,非法获取个人的信息资料,进行收买客户、恶意打压竞争对手。
④信息非法传播。不法分子获得公民个人信息后,通过维信、微博等工具在网络中大肆传播,恶意攻击,或通过网络人肉搜索、信息曝光等行为影响民众生活。
⑤影响民事诉讼。不法分子通过各种途径得到公民个人信息,并通过得到这些信息进入一些民事诉讼中,对群众日常生活和个人财产利益造成困扰。
由于个人信息具有一定的商业价值,贩卖公民个人信息已经成为一条灰色产业链。据国内调查报告显示,2011年地下信息产业链的盈利规模估计超50亿元,监测到超过9万人参与地下黑市运作,8%的网友曾在网上遭遇欺诈或被盗。隐私被侵犯的影响是全球性的,斯诺登引爆了美国的“棱镜计划”(PRISM)的内幕消息,更是将大数据隐私保护的必要性和紧迫性引向一个新的高度。大数据下个人隐私安全所面临的形势日益严峻,当前,对于大数据隐私信息的保护,既要加强隐私保护的技术措施,还要不断完善相关法律法规。
2 大数据环境下个人隐私保护的技术措施
目前,个人隐私保护技术主要有:数据加密技术、数据匿名化技术和数据访问控制技术。
2.1 数据加密的个人隐私保护
数据加密技术是一种传统的对敏感信息保护的方法,其作用是防止重要数据被入侵者窃取或者篡改。数据加密可分为对称加密算法和非对称加密算法。对称加密算法主要用于保证数据的机密性,加密和解密时使用相同的密钥。该算法加密速度快、效率高、是目前主要采用的信息加密算法。但这种算法中通信双方使用相同的密钥,安全性很难确保,并且密钥数据量的不断增长使密钥管理成本太高。非对称加密算法,也称公开密钥算法,其加密和解密使用不同的密钥,它主要用于身份认证和数字签名等信息交换领域。非对称加密算法可以适应网络的开放性的要求,且密钥管理较为简单。但非对称加密中的算法复杂、效率低。在此基础上,研究人员提出了针对HDFS(Hadoop分布式文件系统)的混合加密技术[2],该技术很好的融合了对称加密和非对称加密技术,实现对大数据隐私信息的存储保护。
2.2 匿名化方法的个人隐私保护
为了从大数据中获益,数据所有者需要公开发布可能包含一定用户信息的己方数据,服务方则需要对数据进行处理之后再进行发布,从而避免用户隐私的泄露。匿名技术就是通过隐藏用户的身份和敏感数据达到隐私保护的目的,匿名化操作在数据发布前主要有泛化、压缩、分解、置换和干扰。其中,泛化和压缩主要是隐藏准标识符,通过识别用户属性集的一些细节,用一个通用的值将一个具体的值替换;分解和置换是主要对敏感属性分组和混排,使用解耦的方法将准标识符和敏感属性之间的关联分离;干扰主要是通过添加随机噪声干扰敏感数据。最初,服务方通过删除数据表中用户身份的属性而实现匿名化隐私保护,但攻击者可以通过获得含了用户标识符的数据集,并重新建立起用户标识符与数据记录的对应关系,从而造成链接攻击(linking attack)[3]。为了解决这个问题,可以通过匿名化方法避免攻击者使用属性链接、记录链接和表链接。避免记录链接的方法主要有k-anonymity,以及(X,Y)-anonymity和MultiR k-anonymity等;避免属性链接的方法有l-diversity,-anonymity,t-closeness等;避免表链接的方法δ-Pesence。
2.3 数据访问控制的个人隐私保护
当前,企业提供了一些个人敏感信息的控制机制,包括自身信息是否对外发布、对哪些人发布、以及编辑许可访问约束限制条件等。如在最常用的QQ通信中,包括“仅自己可见”、“仅好友可见”、“所有人可见”等权限设置,每项个人信息都根据你公布的意愿选择访问权限。又如Facebook中,有 “仅朋友”、“私人”、“指定人”、“朋友的朋友”、“每个人”等5种权限设置。2011年Google推出的Google+在设置上对隐私功能进行了细粒度划分[4],用户可以在不同的朋友圈里分享信息。并且,由用户自己决定他们比较关心的自身信息,信息可以被哪些人看到,这是今后大数据个人隐私保护的发展趋势。因此,企业应该更新和完善现有的软件,根据用户的设置确定信息的保护范围和保护级别,为用户提供更加科学合理、更加人性化的服务。
3 健全个人隐私保护的相关法律法规
3.1 隐私权的立法与宣传
目前,我国还没有具体的隐私权法律法规,但是对于个人隐私的法律保护近年来在不断加强。我们要通过立法和宣传教育,使不法分子充分认识到侵犯他人隐私所带来的严重后果,并要承担法律责任和付出相应的代价。
3.2 网络身份证(VIEID)的推广和普及
根据目前网络虚拟社会的管理和个人隐私保护等方面的急切的需求,我国成功研发了“虚拟身份电子标识”,即“网络身份证”技术,并且组建我国“公安部公民网络身份识别系统”。网络身份证(VIEID)是互联网中用来标识用户身份的一种有力工具。网络身份证使用以后,互联网会变得更加安全、高效。
3.3 提高个人信息保护意识
个人信息保护需要社会各界共同来维护,公众也需要加强个人信息保护意识,例如:不能给第三方轻易提供涉及隐私信息的资料;加强电脑和手机等电子设备系统的安全保护;定期清理可能暴漏隐私的数字信息;提高对邮件的警惕性等。
3.4 加强企事业单位信息数据的监管
目前,很多的信息的流出都与企事业单位有关,这就要求企事业单位需要加强数据库的监管,避免不法人员对个人数据查看、复制,严防个人信息的泄露;加强数据管理人员职业道德和技术的培训,做到数据库专人专管,提升管理人员的技术水平。
4 结语
大数据环境下的个人隐私保护是当前研究的热点问题,本文介绍了数据隐私的基本概念,通过对当前大数据时代个人隐私安全面临的严峻形势的分析,对个人隐私安全保护通常所采用的技术措施进行了总结,并提出了个人或企业在个人隐私保护方面应遵守的法律和行业规范,最后探索了个人隐私保护的进一步研究方向。
参考文献:
[1]冯登国,张敏,李昊.大数据安全与隐私保护[J].计算机学报,2014,37(1):246-258.
[2]刘雅辉,等.大数据时代的个人隐私保护[J].计算机研究与发展,2015,52(1):229-247.
[3]Song, Yi, et al. "Sensitive label privacy protection on social network data."International Conference on Scientific and Statistical Database Management. Springer Berlin Heidelberg, 2012.
[4]Chen M Y, Yang C C, Hwang M S. Privacy protection data access control[J]. IJ Network Security, 2013, 15(6): 411-419.