文|/戚小光 许玉敏 陈红敏 周锐
根据IDC预测结果,人类产生的数据量正在呈指数级增长,大约每两年翻一番,2020年全球数椐总量将达到 35 ZB。这些海量数据在为人们提供更多知识与信息的同时,由于自身的开放性导致了一些网络信息安全问题,如果我们不能很好的处理这些问题,不仅会造成较大的负面影响,也会直接影响到人们对于海量数据信息的使用效率与效果。
根据维基百科的定义,大数据指无法在一定时间内用常用的软件工具进行捕获、管理的数据集合。业界通常用 5 个 V来概括大数据的特征。一是数据体量巨大( Volume) ;二是数据类型繁多 ( Variety) ,数据类型多样,主要可以把数据分为两种类型: 结构化数据和非结构化数据;三是价值密度低 ( Value),价值密度的高低与数据总量的大小成反比。如何通过强大的机器算法完成大数据量的价值 “提纯”,是目前大数据时代下亟待解决的难题;四是数据真实性( Veracity) ,大数据中的内容是与真实世界中的发生息息相关的,研究大数据就是从庞大的网络数据中提取出能够解释和预测现实事件的过程;五是处理速度快 ( Velocity) 。
美国政府很早就宣布投资数亿美元用于启动“大数据研发”倡议,与此同时,日本、英国、德国、澳大利亚和一些区域性国家组织也开展了类似的国家级项目。在2014年全国“两会”上,便有代表提案将“发展大数据”上升到国家战略。更早之前,中国软件开发联盟在北京成功举办大数据技术大会,为推动大数据这个交叉学科的发展,中国计算机学会(CCF)成立了大数据专家委员会(CCF Big Data Task Force,简称 CCF TF-BD)。
大数据技术在理论研究、平台技术以及应用等方面已经进入成熟阶段。例如谷歌、亚马逊、FaceBook、腾讯和阿里巴巴等互联网企业就是大数据应用的典型实例,它们从大数据应用中获得了巨大的收益。但大数据在信息安全方面的问题出也不断凸显。比如,2014年9月,美国苹果公司iCloud遭黑客采取“撞库”方式入侵,引发“好莱坞史上最大宗艳照门”事件。不久后,围绕电影《采访》引发的新一轮美朝黑客交锋中,国际黑客组织“匿名者”多次攻击朝鲜网站并致其瘫痪,甚至造成会员账号信息泄露。由此可见,对于个人、企业乃至国家来说,如何做好大数据环境下的信息安全问题是一个十分严肃而又亟待解决的问题。
在信息行业,任何一项新技术的诞生,其面临的安全风险都会伴着这项技术的广泛应用而变得越来越高。随着大数据技术在国防、能源、航天、医疗等各个领域呈现爆发性、多样性增长态势,信息已经渗透到社会生活的各个角落,与各个领域密切结合,给国家信息安全和个人信息安全带来了严峻的威胁与挑战。
在大数据背景之下,信息内容安全主要表现为两种模式:信息泄露与信息破坏。随着电子商务、手机上网行为的发展,信息内容受到攻击的情况比以前更为隐蔽,攻击的目的并不仅是让服务器宕机,更多是以渗透 APT 的攻击方式进行。 因此,防止数据被损坏、篡改、泄露或窃取的任务十分艰巨。网络空间中的数据来源涵盖非常广阔的范围,一方面,大量的数据汇集,这些数据的集中增加了数据泄露风险;另一方面,一些敏感数据的所有权和使用权并没有明确的界定,数据的权利边界不断模糊,很多基于大数据的分析都未考虑到其中涉及到的个体隐私问题,在未授权不知情的情况下一旦遭到泄漏或者破坏后果不堪设想。
大数据背景下,大都将数据进行集中后存储在一起,这就使其在互联网空间中更容易被“发现”,容易成为黑客攻击的首选目标。大量数据文件在第三方平台中进行存储与处理,其安全性正在受到极大的挑战。虽说能够通过多对文件的访问与授权来进行保护,但是这种保护机制本身就存在问题,它们大都依赖于系统本身的安全性,认证方式简单,加之社会工程学在入侵领域的深入与安全漏洞的存在与不断涌现,载体安全已经岌岌可危。
不管在任何情况下,网络安全中最为重要的部分就是管理问题,如果管理制度不科学或者操作性不足就可能带来管理风险。大数据是一个动态的过程,每天参与的角色多数量大,以通信行业为例,数据通常散乱在众多系统中,信息来源十分庞杂,在对外合作时,运营商与合作研发公司存在大量数据访问交互,在此过程中若未建立完善的数据对外开放访问管理机制,如何有效保护用户隐私,防止企业核心数据泄露就成了一句空话。一旦发生问题,无法对网络出现攻击行为或内部人员的违规操作等进行实时的检测、监控、报告与预警。同时,当事故发生后,也无法提供黑客攻击行为的追踪线索及破案依据,缺乏对网络的可控性与可审查性。这种管理上的疏忽,造成数据的丢失无迹可寻,为以后的数据安全管理留下隐患。
在大数据时代,数据的来源多种多样,如移动网络、手机、物联网、平板电脑等。这些分散在世界各地的数据具有很强的开放性,很难逐一对其进行跟踪保护。而这些海量信息又会因为监管不力,造成用户隐私如企业运营数据、个人生活习惯信息、客户身份信息、理财信息等的泄露。以金融领域为例,金融信息的网络化,必然促使金融信息系统会通过互联网与终端智能设备相连接,参与到金融信息系统的采集、储存、传输和处理中来,信息量也会越来越多,在与外部终端设备的数据交换中,使得本来封闭的网络对外开放,无疑会增加了被入侵和攻击的几率。因此,智能终端的数据采集、存储、传输、处理都会增加金融信息受到攻击的威胁。除此以外,数据价值的提升会造成更多敏感性分析数据在移动设备间传递,一些恶意软件甚至具备一定的数据上传和监控功能,能够追踪到用户位置、窃取数据或机密信息,严重威胁个人的信息安全,使安全事故等级升高。
为了应对大数据环境下的安全威胁,有效解决信息内容易泄露、存储载体易受攻击、管理制度不科学和智能终端难防护等信息安全问题,可以从建立以数据为中心的安全系统、加强大数据建设管理和做好大数据安全管控三个方面进行对策研究。
以数据为中心的安全防护系统主要通过防火墙、入侵检测、安全审计、抵抗拒绝服务攻击、网络防病毒系统,以及加密技术来实现访问控制、数据加密、网络隔离、入侵检测、病毒防治和安全审计功能。
1.访问控制。访问控制是网络安全防御和保护的主要功能。进行访问控制的目的是对用户访问数据资源的权限进行严格的认证和控制,保证数据资源不被非法使用和非法访问。访问控制通常以用户身份认证为前提,设置用户访问数据目录和文件的权限,以此来控制和规范用户,尤其是智能终端用户在系统中的行为,大大减少大数据存储载体遭受攻击和大数据管理中的安全风险。
2. 数据加密。数据加密就是采用加密算法和加密密钥将明文数据转变成密文,从而将信息数据隐蔽起来。加密后的信息数据即使在传输过程中被窃取或截获,窃取者也无法了解信息数据的内容,从而保证信息数据存储和传输,尤其是无线传输中的安全性,防止信息泄露和信息破坏。
3. 网络隔离。大数据环境下,网络隔离一般采用在数据存储系统上部署防火墙来实现。防火墙技术是通过对网络的隔离和限制访问等方法来控制网络的访问权限,只允许授权的数据通过。防火墙将网络分为可信赖的内部网络和不可信赖的外部网络两个部分,通过设置安全策略来控制外界的哪些人可以访问内部的哪些服务,以及哪些外部服务可以被内部哪些人员访问,从而达到保护内部网络和数据免受外部非法用户入侵的目的。
4. 入侵检测。入侵检测技术就是通过对互联网络和主机系统中的关键信息进行实时采集和分析,判定非法用户入侵和合法用户滥用资源行为,并作出适当反应的网络安全技术。入侵检测是一种主动的网络安全防御措施,能够有效弥补防火墙不能防范内部攻击的不足,而且还能与防火墙或其他网络安全产品联动,实现对网络和数据全方位保护的目的。
5. 病毒防治。病毒防治主要通过防病毒系统来实现。防病毒系统主要包括病毒的预防、检测、定位、清除和隔离等功能,能够在第一时间内阻止病毒进入网络和计算机系统。在大数据环境下,最理想的防止病毒攻击的方法就是预防,而有效预防病毒的措施主要来自用户良好的行为习惯。比如,在操作系统上安装防病毒软件并定期对病毒库进行升级,及时为系统安装最新的安全补丁,从网络上下载数据前先进行安全扫描,不要随意打开未知邮件等。
6. 安全审计。安全审计主要通过网络安全审计系统来实现。网络安全审计系统通过旁路的方式,监听捕获并分析网络数据包,还原出完整的协议和原始信息数据,通过设置策略规则,准确记录网络访问时间、IP地址、域名、服务及端口号等关键信息,智能地判断出网络异常行为。
通过技术保护大数据安全固然重要,但大数据的建设管理却更加关键。要从海量数据中提取价值,提高企业工作生产效率,就必须使用科学的大数据管理方法,降低各种安全隐患。
1. 规范大数据建设。规范化建设可以促进大数据管理过程的正规有序, 实现各级各类信息系统的网络互连、数据集成、资源共享,在统一的安全规范框架下运行。
2. 完善大数据资产管理。大数据资产管理包括精确地定义数据格式、别名、统计表以及其他特性标识符等数据元素,清楚地描述数据元素定义的信息来源及其相关数据元素的信息,完整地记录数据元素的产生及修改、安全及访问控制、访问历史记录等相关使用信息等。
3. 定期数据备份。大数据环境下,对数据进行备份是指将系统中的数据进行复制,当系统出现故障或灾难事件时,能够方便且及时地恢复系统中的有效数据,以保证系统正常运行。数据存储系统由于系统崩溃、黑客入侵以及管理员的误操作等都会导致数据丢失和损坏,为了保护数据安全,保证系统持续可靠运行,必须对数据进行定期备份。
大数据环境下的信息安全建设依然遵循“三分技术、七分管理”的原则。建立完善的信息安全制度和管理措施,可以极大地提高大数据安全管控效能。
1. 做好大数据安全风险评估。信息安全管控并不是管控的越牢越好,而应与其安全风险相适应。不同类型的数据形式以及数据的不同状态,都有其不同的泄密风险层级。针对大数据的固有特点,对其进行安全风险等级评估,制定针对性强的安全防范措施,降低企业数据泄露风险,分析并消除信息安全管控盲点。
2. 加强内部管理。目前,大数据运营厂商大都采用云存储的方式进行数据管理。各厂商要严格落实各项网络管理、系统管理和机房管理制度,细化管理员角色权重,用云存储本身的自我监控和智能管理来代替大部分人为操作,用纯数据的模式来避免人为原因造成的数据流失和信息泄露。
3. 完善应急响应预案。应急响应是网络安全防护模型(PDRR)的一个重要环节。各厂商要建立应急响应组织机制,制定符合实际操作性强的应急响应预案,明确分工和责任,细化操作步骤、处置内容和结果判定标准,定期组织演练,有效应对各种安全事件的发生。
4. 提高企业员工安全意识。用户的素质决定企业安全防护的效率。企业应加强对员工安全培训,使其了解正在使用数据的价值,充分认清自己在企业数据安全中的重要角色,提升员工对大数据安全威胁的识别能力和做好数据安全防护的责任感,使每名员工能够自觉地安装防病毒软件,及时为系统打补丁,设置强壮的口令,不断减少安全风险。