张晶 王庆武
【摘要】该文从用户信息的隐私保护、外界攻击的预防、数据的安全存储、信息的可信性甄别、数据的有效访问控制、预测和监控网络入侵信号六个方面出发,采用大数据安全与用户隐私保护相关关键技术,在该领域展开相应研究,取得了一定的研究成果。
【关键词】大数据;安全存储;神经网络
中图分类号:TP39文献标识码A文章编号1006-0278(2015)11-140-01
一、研究意义
在大数据时代,信息与数据的分析、研究都更加复杂、繁琐,并且难以管理。根据相关调查统计,仅过去三年内全球的数据产生量就超过了过去四百年产生的数据总量。随着数据的不断增多,企业对数据安全性和隐私性的要求愈加严格,大数据的安全与隐私问题也日益凸显。如何应对大数据时代下的数据安全性挑战,是全球都应积极思考的问题。
二、国内外研究现状、水平和发展趋势
当今学术界,图灵奖获得者Jim Gray提出了科学研究的第四范式,即以大数据为基础的数据密集型科学研究;2008年《Nature))推出了大数据专刊对其展开探讨;2011年《Science》也推出类似的数据处理专刊。IT产业界行动更为积极,持续关注数据再利用,挖掘大数据的潜在价值。
三、大数据安全研究内容
大数据(Big Data)是指“无法用现有的软件工具提取、存储、搜索、共享、分析和处理的海量的、复杂的数据集合。”大数据具有四个典型特征,业界通常用四个V(即Volume、Variety、Value、Velocity)来概括大数据的特征。本课题主要从以下五个方面开展研究,实现大数据环境下的数据安全与用户隐私保护。
(一)大数据环境中用户信息的隐私保护
事实证明,如果大数据未被妥善处理会对用户的隐私带来极大的伤害。根据所保护的内容不同,隐私保护又可以分为位置隐私保护、连接关系匿名保护和标识符匿名保护等。用户面临的威胁不仅仅限于个人的隐私泄露,还包括基于大数据对人们状态和行为的预测。
(二)大数据环境中外界攻击的预防
在大数据环境中,由于数据量大、工作环境复杂,黑客能够更容易得检测出漏洞并进行攻击。一旦被攻破之后,还会根据突破口获取更多的信息,进而降低黑客的攻击成本,获得更大的利益。网络化社会的形成,为大数据在各个行业领域实现资源共享和数据交互搭建平台和通道。基于云计算的网络化社会为大数据提供了一个开放的环境,分布在不同地区的资源可以快速整合,动态配置,实现数据集合的共建共享。近年来在互联网上发生的用户账号的信息失竊等连锁反应可以看出,大数据更容易吸引黑客,而且一旦遭受攻击,失窃的数据量也是巨大的。
(三)大数据环境中数据的安全存储
在当前大数据环境下,数据的存储采用虚拟化海量存储技术来存储数据资源,。大数据的安全存储问题主要包括:1.数据加密;在大数据安全服务的设计中,大数据可以按照数据安全存储的需求,被存储在数据集的任何存储空间,通过安全套接层协议加密,实现数据集的节点和应用程序之间保护大数据。应用隐私保护和外包数据计算,屏蔽网络攻击。当今,PGP和TrueCrypt等程序都提供了强大的加密功能。2.分离密钥和加密数据;使用加密技术把数据使用与数据保管分离,把密钥与要保护的数据隔离开;同时,定义产生、存储、备份、恢复等密钥管理生命周期。3.使用过滤器。通过过滤器的监控,一旦发现数据离开了用户的网络,就自动阻止数据的再次传输。
(四)大数据环境中信息的可信性甄别
关于大数据的一个普遍的观点是,数据自己可以说明一切,数据自身就是事实。但实际情况是,如果不仔细甄别,数据也会欺骗。大数据的可信性威胁主要包括以下两个方面:1.伪造或刻意制造的数据;若数据应用场景明确,就可能有人刻意制造数据、营造某种“假象”,诱导分析者得出对其有利的结论。2.数据在传播中逐步失真;原因之一是人工干预的数据采集过程可能引入误差,由于失误导致数据失真与偏差,最终影响数据分析结果的准确性。
(五)大数据环境中信息的有效访问控制
在大数据环境中,安全管理员可能缺乏足够的专业知识,无法准确地为用户指定其可以访问的数据。风险自适应的访问控制是针对这种场景讨论较多的一种访问控制方法。将信息的数目和用户以及信息的安全等级作为进行风险量化的主要参考参数。当用户访问的资源的风险数值高于某个预定的门限时,则限制用户继续访问。针对医疗数据提供用户隐私保护的可量化风险自适应访问控制。
四、结语
大数据带来了新的安全问题,但它自身也提供了解决问题的重要手段。就目前我国总体来说,当前国内外针对大数据安全与用户隐私保护的相关研究还不充分。除了通过相应的技术手段,还应结合国家的相关政策法规,才能在大数据环境下更好地解决数据安全与用户的隐私保护问题。
参考文献:
[1]戈悦迎.大数据时代信息安全与公民个人隐私保护[J].中国信息界,2014(1).
[2]冯登国,张敏,李昊.大数据安全与隐私保护[J].计算机学报,2014(1).