童端+吕捷+许宏
摘 要:大数据的迅速走热使得大数据的安全问题至关重要。论文首先从大数据带来的新风险和挑战为出发点,分析了传统数据安全和大数据安全研究的联系与区别,着重研究了大数据背景下的安全策略问题,包括对传统数据备份和数据恢复技术的研究、差分隐私技术的原理和实施性分析等,进而提出了大数据环境下的应用体系和信息体系的安全研究方案。
关键词:流动性威胁;差分隐私;安全沙箱;APT
中图分类号: TP39 文献标识码:A
Research on Data Security Based on Big Data
Tong Duan, Lv Jie, Xu Hong
(School of Information Engineering, Nanjing University of Finance & Economics, Jiangsu Nanjing 210046)
Abstract: The rapid heat of big data makes security issues critical. Starting with the new risks and challenges posed by big data, this article analyzes the relationship and difference of traditional data security and big data security, focusing on security policy issues under the background of big data, including the research of the traditional data backup and data recovery technology and the principle and implementation analysis of differential privacy technology. And then put forward the application system of big data environment and the security research scheme of information system.
Key words: Liquidity Threat; Differential Privacy; Sandbox; Advanced Persistent Threat
1 引言
隨着信息技术的快速发展和互联网规模的迅速扩张,一些安全性问题日益明显,诸如未经授权数据集的使用和访问、对大量可能敏感数据的提取和使用工具所产生的安全性问题等。当今社会很多无效率事例都能暴露人们的隐私,例如在银行自动取款机前、超市便利店、机场安全线和城市交叉口等地方,人们都处于摄像机的监视之下。一旦这些资源是联网的,这些相关联的数据流就可能被人窃取而滥用。除此之外,作为一个高成本效益的代理平台—云媒体,可能会启动僵尸网络或应用大规模并行程序来破解密码系统[1]。划分边界是传统的网络安全解决方案的基本思想,这种思想主要是通过在内外网边界建立一些网关设备或网络流量设备来解决安全问题。但是随着移动互联网技术和云服务技术的出现,各种移动终端可以在WiFi网络和4G网络自由穿梭,网络边界实质上已经消亡了。
大数据的走热导致人们对数据保护和数据隐私问题的关注度加深,收集大量数据的责任机构和组织必须确保它的安全,确保数据不会落入未授权的个人手中。大数据背景下发生的网络攻击和泄密事件的范围更广,影响更深, 因此大数据背景下的信息安全尤为重要。
2 大数据带来的风险和挑战
2.1 大数据的存储方式给数据安全带来新的风险
目前,大数据大多采用云存储,云存储的优点主要体现在三方面:容量大、成本低、可扩展。云存储在为我们带来方便的同时,也带来了安全隐患。
(1)可靠性问题。2011年亚马逊的云数据中心出现了服务器大面积宕机事件,2010年微软在美国西部几周时间内出现至少三次托管服务中断事件,因此用户能否访问到自己的云存储数据直接取决于服务商的可靠度。
(2)数据安全问题。存储在云端的数据也会由于服务商的失职而被泄露、更改甚至消失。2011年,Google邮箱发生的用户数据泄漏事件,其规模之大,直接让15万Gmail用户的所有邮件和聊天记录被删除,以及部分用户的账户被重置。2012年盛大云在无锡的数据中心因为一台物理服务器磁盘发生损坏,导致用户数据的丢失。
(3)数据权属问题。存储在云端的数据很有可能在互联网上的任何数据中心,极有可能被未经授权的第三方访问。2016年,国内最大的实时公交软件“酷米客”的大量后台数据被窃取泄露,而数据窃取者是它的同行业竞争对手“车来了”。此次泄漏事件导致“酷米客”的间接损失将近20亿,其中包括大量的核心商业数据。因此,数据量的增长、变化和速度提升等都需要新的方法来预防和管理。
2.2 大数据的分析对计算机的结构提出了挑战
大数据时代,除了要处理传统的结构化数据,半结构化和非结构化的数据也增长迅速,这些呈指数增长的新型数据冲击了传统的数据分析技术。
(1)数据存储模式的转变带来的流动性威胁。传统的数据都是静态的,都是经过分析提取然后存到数据库里,需要时再被调出来研究使用;而大数据是随时随地会动态产生的,必须边扫描边分析[2],这种动态的流动性威胁对计算机的结构提出了新需求。
(2)大数据的快速有效处理提出了新挑战。大数据时代,各种应用场景的数据分析不再局限于离线环境,对在线分析的需求也越来越高,传统数据库的存储能力无法满足呈指数增长的数据量,数据类型的多样化使得传统数据库的处理压力成倍增长,这就需要更新更快的大数据分析框架来提升数据的处理能力。Spark Streaming[3]和Storm[4]是目前有代表性的在线大数据分析框架。Spark Streaming是一个准实时的流处理框架,处理响应时间一般以分钟为单位,也就是说处理实时数据的延迟时间是秒级别的;Storm处理数据的方式是以条为单位,一条一条处理的,Storm是一个实时流处理框架,处理响应是毫秒级的。由于二者的处理速度和响应速度都很快,因而对集群资源配置的要求都比较高。endprint