张莉艳
摘要:为了使大数据能有效地发挥其价值,该文重点研究大数据面临的高安全风险及应对措施。首先综合分析现有的大数据定义,提出涵盖大数据处理和应用两方面的概念。其次从大数据存储、应用等四个方面分析大数据面临的高风险,并针对四方面的高风险,参考大数据相关技术标准,提出相应的安全应对措施。最后对大数据安全防护发展趋势进行展望,并提出安全防护闭环控制体系参考模型。
关键词:大数据;安全;风险;应对措施;防护
中图分类号:TP393 文献标识码:A
文章编号:1009-3044(2019)27-0037-03
Abstract: To make Big Data play its value effectively,this paper mainly focuses on the high safety risks of Big Data and provides some risks countermeasures. By analyzed the existing definitions of Big Data, the concept of Big Data is put forward, which covering Big Data processing and application. Then The high risks of big data are analyzed from four aspects of big data storage and application. In view of the high risk in four aspects, the corresponding security countermeasures are put forward by referring to the related technical standards of Big Data. Finally, the development trend of Big Data security protection is prospected, and a reference model of safety protection closed-loop control system is proposed.
Key words: Big Data; safety; risk; countermeasures; protection
1 引言
近年来大数据(big data)经历了从出现、发展到普遍应用的阶段,越来越多的人体会到了大数据带来的便利,但逐渐也感觉到随之而来的问题[1]。魅力和风险同时并存,就是我们今天的大数据。
2 大数据的发展及定义
随着云计算和互联网技术的发展,大数据的价值得到了越来越多的发掘和利用,其应用领域涉及广泛,涵盖人们生活的方方面面,大数据的重要性也引起了各国政府的关注,并相继制定了大数据研究及发展规划。2012年美国颁布了《大数据的研究和发展计划》;2013年英国发布了《英国数据能力发展战略规划》;日本发布了《创建最尖端IT国家宣言》;韩国提出了“大数据中心战略”。 我国也于2015年发布了《关于促进大数据发展的行动纲要》,这一纲要的发布,标志我国从战略层面对大数据研究的重视[2]。
大数据概念最早由麦肯锡提出[3]。当时人们对于大数据还很陌生。随着信息技术的发展,人们对大数据的认识程度的加深,从不同角度提出大数据的概念。
麦肯锡全球研究所和亚马孙从数据处理方式角度对大数据进行了描述:大数据是一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合;同时麦肯锡还描述了大数据的基本特征:具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征[4]。
Gartner从大数据的应用角度提出:“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力来适应海量、高增长率和多样化的信息资产[5]。
综合以上定义,我们涵盖大数据处理和应用两个角度,提出大数据的概念:大数据是指数据集无明显边界,数据集规模动态变化,需要综合利用多种处理分析技术,最终转化为高应用价值的资源。
3 大数据面临的安全风险
在各国各个领域对大数据研究如火如荼开展的时候,随之带来的大数据安全风险也是不可忽视的。其面临的高安全风险主要存在于以下四个方面。
3.1 存储风险高
大数据具有数据量大,数据格式多样的特点,因此对于大数据的存储和管理要比传统格式化数据难度高,一旦存储方式不当,有可能出现数据保存格式错误、数据无法读取、或数据丢失部分信息,与数据源比较出现不一致等风险。 此种风险一旦发生,造成的损失可能是部分数据无法获取,更为严重的损失是数据全部丢失,整个应用将处于瘫痪状态。
騰讯云服务器曾经由于物理硬盘固件版本问题,出现了写入数据和读取数据不一致的状况,最终损坏文件系统元数据,造成存储于云服务器上的数据全部丢失[6]。给企业和客户带来了无法估计的损失。
3.2 遭受攻击风险高
大数据具有实时在线,包含敏感信息多的特点,因此大数据的利用价值更高,这一点已经得到广泛的共识,无论数据是在服务端、还是在客户端,包括数据在传递的过程中,都存在遭受窃取、篡改、甚至是感染病毒的风险。并且遭受主动攻击的概率更高,一旦防御失败,相应的影响可能会持续很长时间。
Facebook因防护不当,存在安全系统漏洞,于2018年9月,遭受黑客攻击,导致3000万用户信息泄露。其中,有1400万人用户的敏感信息被黑客获取。这些敏感信息包括:姓名、联系方式、登录位置等[7]。这次黑客攻击不但给Facebook企业带来巨大的损失,还暴露了大量的客户隐私,造成了短期无法预估的影响。
3.3 数据价值损坏风险高
大数据样本来源广泛,并处于动态变化之中,在采集数据样本时。由于采集数据样本方式不同,造成采集信息的粒度不同,粗粒度样本和细粒度样本可能同时并存,甚至出现冲突和错误。基于不同样本数据分析可能出现不同的结论,导致大数据原有的价值被损坏。
雀巢公司曾在一次检查中,发现其数据库管理方面存在的问题,在存储的900万条供应商、客户和原材料记录中,近半数是失效或重复的,余下约有三分之一不准确或者数据缺失。其中重复数据的产生是由于没有数据存储规范造成的[8]。雀巢公司后台数据的管理存在着数据存储不规范、冗余、缺失的问题。这种方式造成了数据价值的破坏,很难基于这些数据,给企业提供有价值的分析应用。
3.4 数据泄露风险高
在基于大数据的应用过程中,数据泄露风险主要存在两个方面,一个是系统原因,另一个是人为原因。首先,系统本身的缺陷或漏洞可能造成数据在正常访问或使用过程中泄露。其次,由于缺乏相关数据安全意识,缺乏相关的使用和管理安全规范,造成人为的数据泄露。
随着基于大数据的应用推广,一些不法分子也充分意识到数据利用的价值,他们利用管理规范的漏洞,甚至在淘宝网公开出售涉及个人隐私的数据,从而谋取暴利[9]。这种人为泄露数据的不法行为,使数据安全防护面临新的挑战。
4 大数据安全风险应对措施
针对上述安全风险,需要从四个方面分别采取相应的应對措施,从而达到降低甚至规避风险的发生概率。
4.1 存储架构
针对大数据具有数据量大,格式多样的特点,采用分层分布的架构更为合理,在底层采用云计算架构,整合文件系统、关系型数据库和非关系型数据库等形成云存储数据库,从而实现大数据的动态存储要求[10-11]。存储结构如图1所示,同时应用采用适当的备份和异地存储策略,避免因为硬件故障而导致的数据损失。
4.2 立体安全技术防护
根据大数据的存储结构,综合采用相应的安全防护技术,从物理层安全、数据层安全到网络层安全、应用层安全以及用户层安全,综合应用多项安全技术,包括:硬件监测技术、数据清理和数据存储加密技术,关系型数据库和非关系型数据库安全访问技术,网络传输安全技术,病毒防护技术等。与此同时需要辅助数据应用监测、日志等技术,从多个层面探测潜在的隐患,形成立体的安全技术防护[12]。
4.3 数据存储规范管理
在数据采集存储之前,应根据相应的规范对数据进行清洗后存储,避免由于数据存储不规范,导致数据之间关系断裂、数据冗余,甚至数据冲突的情况出现,保证采集数据的一致性。在数据存储时,对于关系型数据和非关系型数据,分别制定数据存储规范,包括数据命名规范,数据属性规范、属性存储规范,存储冲突检索规范,重复数据处理规范等等。同时要制定数据的备份策略,和恢复策略,确保数据存储的完整性,和可恢复性[10]。
4.4 数据分类分级管理
规范数据的使用,增强防护意识,对数据进行分类分级管理方式,规范不同用户具有使用不同数据的权限,记录数据访问日志。一旦监测到非法使用数据的情况,进行动态预警,并采取相应的处理及追踪措施。通过增强技术手段,增加管理监控层级保证数据的正常使用。
5 大数据安全防护发展趋势
现有的大数据系统是由传统的数据管理系统发展而来的,在其安全防护方面,也多采用既有的安全防护技术。而大数据由于具有数据量巨大,动态变化、数据种类多样等特点,因此传统的安全防护技术并不能满足大数据安全防护的全部需求。需要针对大数据本身的特点,以及应用特点进行安全防护。
首先应该制定相应的大数据存储、流转、管理等相关规范,从管理层为大数据安全提供可参考的依据。并研究建立相应的大数据安全问题处理方案,对于出现的安全问题,能够快速有效的采取应急措施,将损失减小到最低点。
在大数据安全防护方面,建立安全分析和安全监测系统,应用新的智能分析技术,综合形成预测预警机制。在预测预警之后,持续采用相应的追踪处理技术,对于预警后出现的情况和问题分类处理,并将追踪处理结果反馈给综合分析系统,形成闭环控制,不断完善预测预警系统。
安全规范制度、安全预测预警、安全问题处理三个方面互相支撑、互相促进,不断优化,形成完整的安全防护闭环控制体系。
6 结论
在大数据应用不断发展的时代,如何有效地利用大数据,最大限度发挥大数据的价值,同时确保数据资源的安全是目前重点关注的问题。大数据安全领域面临的机遇和挑战主要在规范、技术及防护架构等方面。本文在研究分析大数据存在高安全风险后,提出了具体的应对措施。同时提出具有自优化特性的安全防护闭环控制体系,为大数据安全有效的发挥其价值提供安全防护参考。
参考文献:
[1] 刘欢.大数据安全的现状与发展[J].电脑知识与技术,2018,14(32):42-43.
[2] 大数据的发展历程[EB/OL].https://www.sohu.com/a/232859882_228433,2018-05-25/2019-4-9.
[3] 大数据时代[EB/OL].https://baike.baidu.com/item/%E5%A4%A7%E6%95%B0%E6%8D%AE%E6%97%B6%E 4%BB%A3/4644597?fr=aladdin.
[4] 大数据的定义和特征[EB/OL].http://www.360doc.com/content/15/0201/22/14106735_445571640.shtml
[5] Gartner Sharing -大数据定义和十大应用案例[EB/OL].http://blog.sina.com.cn/s/blog_58dde8580102wf0i.html,2015-12-1/2019-4-9
[6] 刘淑洋.继宕机之后,腾讯云再现用户数据丢失事件,赔偿金额引双方纠纷[EB/OL].http://cloud.idcquan.com/yzx/148735.shtml,2018-08-06/2019-4-9
[7] Facebook第三次数据泄露,可能导致6800万用户私人照片泄露[EB/OL].https://baijiahao.baidu.com/s?id=161992 2322984623254&wfr=spider&for=pc,2018-12-15/2019-4-9.
[8]另一番竞技[EB/OL].http://www.xuehuile.com/blog/499822655659476f9f253078a022eec9.html,2015-4-8/2019-4-9.
[9] 央视曝光网上“黑市” 个人信息随意买卖[EB/OL].http://www.dzwww.com/xinwen/shehuixinwen/201702/t20170217_15553464.htm,2017-2-17/2019-4-9.
[10] 中华人民共和国国家标准.GB/T 35589-2017信息技术大数据技术参考模型[M].中国质检出版社.
[11] 杜小勇,卢卫,张峰.大数据管理系统的历史、现状与未来[J].软件学报,2019,30(1):127-139.
[12] 余前帆.大数据时代网络空间安全问题的思考[J].网络空间安全, 2017(2-3):66-69.
【通联编辑:代影】