◆陈国威
大数据时代的个人信息安全研究
◆陈国威
(惠州工程职业学院 广东 516001)
大数据时代的到来,在带给人们生活和工作便利的同时,潜在的隐私和安全问题也日渐凸显,如何确保大数据时代个人信息安全成为一个迫切需要解决的课题。本文从大数据时代个人信息面临泄露安全威胁出发,提出应从个人信息保护立法、加强信息安全防护和提高个人信息安全意识等方面保护个人信息安全。
大数据;个人信息;数据加密;安全保护
随着信息技术的迅猛发展,移动互联网、云计算、物联网、人工智能等技术的广泛应用,以Web 2.0技术为基础的博客、微博、微信为代表的新型社交网络的不断涌现和快速发展,全球数据量急剧呈指数式爆炸增加,大数据时代已经到来。大数据发展已从概念推广到全面落地,世界各国发布各种战略措施,积极推动大数据的发展。全球大数据市场规模保持了高速增长势头。个人信息大量在网络上被采集、存储、生成、传输、交换和使用。一方面,极大地方便了人们的生活和工作;另一方面,每个环节都会带来潜在的个人信息安全威胁。个人信息是指以电子或者其他方式记录的能够单独或者与其他信息结合识别特定自然人身份或者反映特定自然人情况的各种信息,包括但不限于自然人的姓名、出生日期、身份证件号码、个人生物识别信息、住址、电话号码等[1]。因此,我们在大力促进大数据发展应用的同时,如何保证个人信息安全已经成为大数据时代人们迫切需要解决的问题。
最早提出"大数据”时代到来的是全球知名咨询公司麦肯锡。2011年5月,麦肯锡全球研究院发布《大数据:下一代具有创新力、竞争力与生产力的前沿领域》,提出"大数据”时代的到来[2]。根据计算机科学公司发表的最新一份研究报告显示,2020年的数据产生量将会大致是2009年时的45倍。国际数据公司(IDC)在2012年的年度报告中指出,全球数据量在2011年已达到1.8ZB(1ZB 等于10000亿GB),而这个数据大约以每两年翻一番的速度增长,预计至2020年全球数据量总量将达40ZB[3]。不久前发布的《数据时代2025》报告中,IDC预测到2025年,全球数据将暴涨至163ZB(1ZB =1万亿GB),相当于2016年所产生 16.1ZB数据的十倍。同时,IDC认为,到2025年,在全球创造的所有数据中,近90%的数据需要某种程度的安全保护,但得到安全保护的数据将不到一半。
什么是大数据,大数据目前没有公认明确的定义。百度百科对大数据的定义是:指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合[4]。大数据通常具有5V特征:Volume(大量)、Velocity(高速)、Variety(多样)、Value(低价值密度)、Veracity(真实性)。
近日,社交媒体巨头面临5000万用户数据泄密事件,站在舆论的尖端,引起全球对大数据时代个人信息安全的关注,维护用户数据安全已成为全球互联网面临的主要问题。人民网此前曾对个人信息泄露进行过调查,结果显示,90%的网民遇到过个人信息泄露。手机软件、免费WI-FI、搜索引擎、电子商务平台......这些流行的互联网工具很可能成为个人信息中最重要的漏洞。更为严重的是由于个人信息的泄露引发骚扰、诈骗、绑架,甚至造成人财两空的案件频发。大数据时代海量的个人信息主要面临黑客攻击、政府和企业非法收集、恶意软件和病毒的入侵、内鬼等泄露威胁。
黑客在利益的驱使下,通过攻击破坏实施敲诈勒索、盗取账号密码、制作钓鱼网站、入侵网站盗取公民个人信息。例如,2007年全球折扣零售业巨头TJX公司宣布其被罪犯盗取了数据,9000万张银行卡数据和个人信息遭到泄露。2014年7月,icloud 云数据库遭受黑客攻击,众多明星的账号、照片、视频等隐私信息遭到泄露[5]。雅虎2016年9月宣布黑客在2014年盗取至少5亿用户的帐户信息,被盗取的信息包括用户名、电子邮件地址、电话号码和以及部分用户安全识别的问题和答案。2017年月9月,美国征信巨头Equifax表示,公司网站遭受黑客攻击,造成1.43亿美国人信息数据泄露。中国也不例外,2013年8月遭到黑客攻击,致使超过10亿用户信息遭泄露。2016年2月,王某辉入侵某部委的医疗服务信息系统,将部分公民的个人信息导出并出售。2016年4月,不法分子非法入侵免疫系统,导致济南20万名婴幼儿信息遭泄露并贩卖。甚至有的黑客通过入侵个人电脑,激活摄像头、麦克风偷窥个人隐私。大数据由于数据规模大且存储集中,在网络上更容易被发现,对黑客更有引吸力,一旦有一个帐号泄露,与其相关联的帐号也面临泄露的风险。
最近影响最为广泛的网站泄露事件是Facebook网站泄露事件。2018年3月17日,一家名为“剑桥分析”的数据公司非法窃取了5千万Facebook用户数据,并进行大数据分析以预测其政治,消费倾向等,以便进行准确的广告宣传。甚至为美国大选提供数据支持。除黑客攻击造成公民个人信息泄露外,还有的政府网站,安全意识淡泊、管理不到位,主动公开泄露公民隐私信息。如2016年1月5日,长丰县罗塘乡在合肥市政府信息网站公布的《罗塘乡2015年12月农村低保金资金发放花名册(银行代发)》,文件对低保成员的姓名、家庭住址、一卡通账号、电话号码等未做处理。2016年10月31日,江西省景德镇市政府信息网站公告的《第二批大学生一次性创业补贴公示》,也对学生姓名、身份证号以及联系电话等进行了公开。2017年8月,铜陵市政府信息网站上,多个乡镇社区服务中心发布的公开信息栏中,存在泄露公民个人信息的情况[6]。2017年10月31日,合肥市庐阳区人民政府杏林街道办事处在公布的《庐阳区杏林街道城市医疗救助对象花名册(1-10月)》,居民住址、电话号码等个人信息同样被泄露。与此同时,这些人的病情包括尿毒症、肺癌等也都能查看。
美国"棱镜门”事件是最典型的例子。美国中央情报局前雇员爱德华斯诺登透露,美国安全部门和联邦调查局于2007年启动了代号为“棱镜”的秘密监控项目,直接进入美国互联网公司的中央服务器,通过互联网挖掘数据,搜集情报并监控全球舆情,涉及微软、雅虎、google和苹果等9家互联网巨头。
一些互联网公司通过在线问卷调查、网络注册、会员注册等方式收集用户信息,或未经授权的情况下在互联网上公开,传播或转让个人信息。此外,随着移动互联网的发展,某些网络运营者在商业利益驱使下,手机app过度或强制用户权限。如在下载安装App时,应用程序要求授权例如访问地址簿、阅读通话记录、阅读短信记录、阅读位置信息以及监控手机通话等一系行为,有的功能与所要求的授权毫无关联。网络服务提供商总是倾向于收集用户尽可能多的信息,达到获取更大利益的目的。如通过收集用户的上网习惯和支付方式,企业可以了解用户访问了哪些网站,钱存入哪些银行,喜欢什么支付方式,喜欢阅读什么书籍,喜欢观看什么视频欣赏什么歌曲,对什么话题感兴趣和个人人际关系等等,目的是利用大数据为企业推送精准广告,促销产品提供帮助。这样做的后果是容易造成个人信息泄露和滥用。
一些掌握大量个人信息的"内鬼”,在利益的驱动下,利用特殊身份和工作便利泄露、贩卖个人信息。据公开报道,2016年全国公安机关共查处网络侵犯公民个人信息2100多起,查获超过500亿条公民个人信息。在5000多犯罪嫌疑人中,450多人为各行业内部人员。其中危害最大的是银行、教育、工商、电信、快递、证券、电商等行业的内部人员,他们泄露个人数据,成为侵害公民个人信息的主体[7]。2017年2月,上海市浦东新区人民法院公开宣判一起销售商与国家工作人员勾结,出卖公民信息牟利的案件。判决显示,从2014年初至2016年7月,韩某以上海市疾病预防控制中心工作人员的特殊身份,进入他人账户盗取单位每月更新的全市新生婴儿信息资,非法获取30万余条新生婴儿信息,并多次售卖新生婴儿信息进行牟利。北京一家电子商务公司的安全人员因泄露个人信息而被捕,这个案件涉及50亿条用户信息。
山东准大学生徐玉玉,由于在申请教育助学金时,造成个人信息被泄露,骗子以发放助学金名义,才导致她容易受骗上当并酿成悲剧。
因此,网络服务提供商应加大设备和技术的投入,加强内部人员的教育和管控,用技防、人防筑牢个人信息安全堡垒。
信息大爆炸的时代,任何人都无法逃避对互联网、大数据的应用。只有提升用户的信息安全意识,加强信息安全技术的学习,注意个人信息的保密,才能确保个人信息安全。如用户在社交网络中有选择地公开自己的活动,看清授权条款,不要连接不安全的Wi-Fi,不泄露自己的帐号密码,不随意下载安装手机App,不要随意相信所谓的退单、退费,浏览合法正规的网站,安装杀毒软件并定期杀毒等。当发现自己的个人信息泄露后,应及时向公安机关举报,以便公安机关及时查处,防止犯罪行为的进一步发生。
作为国家层面,要不断加大惩戒力度,完善相关法律法规,规范公民个人信息的采集、储存、挖掘、应用,确保公民个人信息安全。2012年12月28日通过的《全国人大常委会关于加强网络信息保护的决定》,明确规定任何组织和个人不得窃取或者以其他非法方式获取公民个人电子信息,不得出售或者非法向他人提供公民个人电子信息。2017年5月9日,最高人民法院和最高人民检察院就侵犯公民个人信息刑事案件适用法律若干问题作出了说明,并进一步明晰了司法实践中的相关问题,在很大程度上,为依法打击侵犯个人信息的网络犯罪行为提供了法律保障。2017年6月1日正式实施的《中华人民共和国网络安全法》,是中国第一部全面规范网络安全管理方面问题的基础性法律,强调必须加强对个人信息的保护,打击网络犯罪行为。这些法律法规的制定和实施,对我国的个人信息安全保护起到了十分重要的作用。但是,这些分散在相关法律规定中的信息保护条例不能满足公民个人信息保护的需要,应该尽快制定保护个人信息的专门法律,为我国个人信息的利用和保护构建系统化、规范化的解决方案,增强法律的可操作性。
个人信息经历采集、传输、存储、挖掘、使用和共享等多个生命周期。因此,为确保个人信息安全,需要采取"事前加密保护,事中权限控制,事后跟踪审计”方式对个人信息的采集、整理、过滤、整合、存储、挖掘、审计、应用等环节进行安全技术保护,目的是保护个人数据的机密性、完整性和可靠性,防止数据泄露、数据篡改、数据丢失、密钥泄露和非法访问等。下面介绍个人信息安全保护的常用技术:
(1)数据加密技术
数据加密的功能是防止入侵者窃取或篡改个人敏感信息。按照加密密钥的算法,数据加密可分为对称加密算法和非对称加密算法。对称加密算法的优点是加密速度快,适用于大量数据的加密,是目前主要的信息加密算法。其缺点是通信双方需使用相同的密钥,难于保证双方密钥的安全性。常用的对称加密算法有DES、AES、IDEA等。非对称加密算法使用不同的密钥进行加密和解密。通常有“公钥”和“私钥”两个密钥。它们必须相互配对,否则,加密文件无法打开。非对称加密算法的优点是能够适应网络的开放性要求,易于实现数字签名和验证。缺点是算法复杂,数据加密速度慢。常用的非对称加密算法有RSA、ELGamal等。
(2)访问控制技术
访问控制技术是一种限制访问实体对访问对象的访问权限并防止未经授权的用户有意或无意获取数据的技术。访问控制决定谁可以访问系统,哪些资源可以访问系统,以及如何使用这些资源。访问控制[8]Sandhur等[9]提出了基于角色的访问控制(role-based access control)方法,不同角色赋予不同的访问控制权限。针对云端大数据的时空关联性,Ray 等[10]提出了 LARB(location-aware role-based)访问控制协议,在 RBAC(role-based policies access control)的基础上引入了位置信息,通过用户的位置来判断用户是否具有数据访问权限。Zhang 等[11]提出的基于尺度的时空 RBAC 访问控制模型,使访问控制策略的表达能力得到增强,同时也增强了模型的安全性。
(3)入侵检测技术
入侵检测技术是一种动态网络检测技术,实时收集和分析Internet和主机系统中的关键信息,以确定非法用户入侵和合法用户滥用资源行为,并作出适当反应的网络安全技术。可以有效弥补防火墙无法阻止内部攻击的不足。对于正在发生的网络攻击,采取适当的方法来阻断攻击(与防火墙联动)。对于已经发生的网络攻击,可以通过分析日志文件找到攻击原因和入侵者踪迹,作为追究入侵者法律责任的根据[12]。从而实现对网络和个人数据的全面保护。
(4)数据库保护技术
数据库存储着大量的个人信息,如政府数据库存储房产、救济、惩信等个人信息,银行数据库存储个人财务信息、医疗数据库存储个人看病住院信息、电商数据库存储个人财物信息等。这些数据库不但面临黑客的攻击入侵,也面临内部人员篡改数据、非法访问、出售贩卖等风险。为保护数据库安全,可采取数据加密、访问控制、审计等保护技术。根据个人数据的保密程度和用户的需求,数据和用户设置不同的权限级别,严格控制访问权限。
(5)完整性校验
当个人信息存储到云端之后,用户将无法对数据进行控制和管理。用户最关心的问题是,存储的个人信息是否有被篡改、丢弃等风险。目前,云端大数据完整性的验证主要依赖于第三方。数据完整性校验通常使用哈希算法和密钥对数据进行哈希得到数据的一个哈希值,然后将哈希值和数据发送给对方,对方收到数据之后,对数据使用相同的哈希算法和密钥进行哈希得到哈希值,若得到的哈希值与对方发送过来的相同,则说明数据未被篡改。
(6)数据匿名化技术
数据匿名化技术是个人信息保护技术中的关键技术,就是在数据发布时隐去表明用户身份的属性,如姓名、身份证号、电话号码等信息,包括k-anonymity、l-diversity以及t-closeness等方法。相关研究有[13]:文献[14]提出了一种基于聚类的数据敏感属性匿名保护算法,既能对数据中的敏感属性值进行匿名保护,又能降低信息的损失程度;文献[15]提出一个可扩展的和具有成本效益的云上的大数据隐私保护框架,可以在高灵活性、可扩展性、有效性和成本效益方式下使大规模的数据集匿名,并处理匿名数据集;文献[16]介绍了隐私保护的变化和发展,分析了差分隐私保护模型相对于传统安全模型的优势。
互联网、大数据时代,每个人的工作、学习、生活都与互联网息息相关、紧密相连。只有政府、行业、企业和个人各自担任起保护个人信息的职责,通过采取提高公民个人信息安全意识,加强诸如数据加密技术、访问控制技术、数据库保护技术、数据匿名化技术等技术手段,建立个人信息安全法等保护公民个人信息安全,才能让每个人在大数据时代生活得更有安全感,才能更好地促进大数据的应用和发展。
[1]中华人民共和国网络安全法.[OL.]http://www.npc.gov.cn/npc/xinwen/2016-11/07/content_2001605.htm.
[2]林子雨.大数据技术原理与应用(第2版)[M].北京:人民邮电出版社, 2017.
[3]张尼,张云勇,胡坤等.大数据安全技术与应用[M].北京:人民邮电出版社,2014.
[4]大数据[OL].https://baike.baidu.com/ item/%E5%A4%A7%E6%95%B0%E6%8D%AE/1356941.
[5]朱光,丰米宁,陈叶等.大数据环境下社交网络隐私风险的模糊评估研究[J].情报科学,2016.
[6]万静.皖赣等地部分政府网站泄露公民隐私信息[N].法制日报,2017.
[7]潘文婕.侵犯公民个人信息犯罪新趋势-以上海市浦东新区检察院办案分析为例[J].检察风云,2017.
[8]魏凯敏,翁健,任奎.大数据安全保护技术综述[J].网络与信息安全学报,2016.
[9]SANDHU R S, COYNE E J, FEINSTEIN H L, et al. Role-based access control models[J]. AnsiIncits,2009.
[10]RAY I, KUMAR M, YU L . LRBAC: a location-aware role-based access control model[C]//The 2nd International Conference on In-formation Systems Security,2006.
[11]ZHANG Y J, FENG D G. A role-based access control model based on space, time and scale[J]. Journal of Computer Research and De-velopment,2010.
[12]李建光.浅析入侵检测系统的应用部署[J].网络安全技术与应用,2015.
[13]吕欣,韩晓露.大数据安全和隐私保护技术架构研究[J]. 信息安全研究,2016.
[14]李珊珊,朱玉全,陈耿.基于聚类的数据敏感属性匿名保护算法[J].计算机应用研究,2012.
[15]Zhang X,LiuC,Nepal S,etal.Sac-FRAPP:A scalableandCOST-effective framework for privacy preservation overbig data on cloud[J].Concurrency and Computation:Practice and Experience,2013.
[16]朱天清,何木青,邹德清.基于差分隐私的大数据隐私保护[J].信息安全研究,2015.