目前,大数据的敏感数据保护问题是人们公认的关键问题之一。和其他信息一样,大数据在收集、存储和处理过程中面临诸多的安全风险。企业既是数据的生产者,也是数据的存储者、使用者和管理者,要实现对企业敏感数据保护,除了单纯的技术外,还必须依靠大数据分析技术,以下就是利用大数据分析方法对企业常见敏感数据安全问题及应对措施的详细阐述。希望通过本文的研究,能够为信息安全领域带来新的发展契机。
大数据特征为 4V,即海量、高速、多样、复杂。海量是指数据容量越来越大;高速表示需要处理的速度和响应的时间越来越快,对系统的延时要求相当高;多变就是处理各种各样类型的数据,包括结构化的、半结构化的、甚至是非结构化的数据。
大数据技术的核心就是大数据分析(Big Data Analysis /Analytics)。一般地,人们将大数据分析定义为一组能够高效存储和处理海量数据、并有效达成多种分析目标的工具及技术的集合。
综上所述,大数据分析技术就是大数据的收集、存储、分析和可视化的技术,是一套能够解决大数据的4V(海量、高速、多变、低密度)问题,分析出高价值(Value)的信息的工具集合。
大数据是一把双刃剑,在获取其给企业带来的价值的同时,也面临着巨大敏感信息安全问题,主要表现在以下几个方面:第一,企业敏感数据容易泄露。目前企业常常去掉用户的标识符,采用匿名处理的方法来进行防护。但事实上匿名保护并不能很好的保护。如:AOL公司公布了近3个月的访问记录,通过匿名处理删除了个人相关信息,但是结合其他数据信息,某些访问者仍然被识别出来。第二,企业敏感数据容易失真。这主要由于两个原因造成:首先,伪造数据,从而导致错误的结论,如某些点评网站上的虚假评论,让用户无法辨别商品和服务的优劣。其次是数据采集过程中引入误差,或者早期数据无法反映真实情况。但大数据使用方无法辨别信息的真实性。第三,访问控制缺乏有效的手段。在大数据环境下,必须对用户进行权限管理,但是管理员无法预先设置角色,为每位用户指定可以访问的数据范围。而且,定义所有授权规则从效率上来看也是难以实现的。
大数据的分析平台系统架构如图1所示。系统包含三个层次:其中为整个大数据分析平台提供基础平台支持的为平台层;功能层提供整个大数据分析平台基本的挖掘功能和大数据存储;服务层为广大用户提供大数据分析平台服务。具体包括:
图1 大数据的分析平台系统架构图
(1)平台层:为大数据挖掘和存储提供提供大数据设计的平台和存储,并为大数据分析架构提供数据调度;
(2)功能层:为大数据的挖掘和存储提供大数据挖掘、集成、管理和存储功能;
(3)服务层:提供基于Open API 和Web技术大数据服务。
敏感数据是指不当使用、丢失、未被授权被人修改或接触不利于政府计划或国家利益的实行、不利于每个人依法享有自己隐私权的所有信息。每个企业都拥有自己的敏感数据,包括不仅仅局限于知识产权、商业秘密、业务合作伙伴信息、关键业务信息或者用户信息等。
为了对敏感数据进行有效的保护,一般通过以下几个步骤:
根据对敏感信息管理相关规定,对敏感信息保护的第一步是对企业自己的敏感信息进行分类。数据分类的定义和数量,需要兼顾风险管理、数据治理、业务要求和合规性等方面。
对于需要保护的敏感信息,需要对信息生命周期的各个环节来综合考虑采取技术措施和安全管理。在这个基础上,识别可以造成信息资产破坏、泄露、篡改的安全风险,基于这个风险可以对业务造成的影响,从而开发具有针对性的风险处理计划和信息安全规划。
数据脱敏是指对于一些敏感信息可以通过脱敏规则来进行数据的变形,从而对敏感隐私数据进行可靠的保护。在测试、开发等非生产的环境中可以安全地使用脱敏后的数据集;在生产环境中数据限制发布的应用也是需要执行数据脱敏的操作
通过安全审计以及监控,从而让敏感信息的权限管理和授权使用等活动处于控制当中。在突然出现风险迹象时,就能够及时的识别且采取相关的控制措施来避免风险。需要针对涉及到用户的敏感信息访问的行为进行实时有效的处理,当发生敏感信息泄露的时候,必须进行阻断、追溯、跟踪以及报警。
在目前大数据情形下,企业敏感数据保护存在诸多问题,为此,运用大数据分析技术来保障企业敏感数据的重要性已不言而喻。借助大数据分析技术,可以从以下几个技术入手来保障企业敏感数据的安全。
通过大数据分析平台,对敏感数据进行审计,实现对敏感数据识别。系统各类操作都有可能涉及到敏感数据的访问。通过数据审计及大数据分析,让系统的用户在授权的范围内进行约束活动,从而可以及时的发现泄露敏感信息用户的动作以及能够及时的阻断。需要对所有使用的人员以及人员的所有操作,包括其中修改、查看、删除、赋权、导出等提供的日志功能,记录着访问操作处理的参数和返回结果,对其中的异常行为进行事后的追溯和跟踪。
在企业网络环境中,对数据访问量是巨大的,符合大数据海量特征。利用大数据分析平台,判断对敏感数据的访问信息,并对针敏感数据的访问加以控制。敏感数据访问控制主要是保证合法用户访问敏感数据信息,反之对于非法用户的访问敏感数据或合法用户对于敏感数据进行的非授权访问操作。制定访问控制策略,如操作动作、操作次数、使用模式权利、使用模式、绑定设备、加密/解密、权限分离等。其中系统在访问的控制策略下,从而实现敏感数据文件在网络传输本地存储、移动存储过程中强制性的自动加解密,合法用户对于敏感数据文件的合法访问,以及非法用户对敏感数据的访问失效。
在大数据环境下,攻击者不仅仅从一种渠道下获得数据,可以从各种渠道获取数据,对企业的数据进行统一的封装和对外发布,“剪裁”敏感信息数据项,对数据进行匿名处理。限制发布即指有有选择的不发布、发布、或发布一些精度比较低的敏感数据。对数据的处理可以通过两种方式:一是抑制,即指不发布敏感项;另一种为泛化,即指对敏感数据采取时概括、更加抽象的描述。数据发布匿名保护是实现其隐私保护的核心关键技术与基本手段。
在敏感数据防护过程中,利用大数据分析技术,根据敏感数据特征,对数据进行“伪装”,使其失真。这个称为数据失真技术,即可以使敏感的数据失真,但是可以同时保持一些数据或者数据的属性不变的方法,包括阻塞、随机化和凝聚等技术。对于后续应用环节对个体数据失真的不关注,这类敏感信息在加载时就要进行数据脱敏,数据在经过失真技术处理后,其内容发生一些变化,但是处理过的数据还是可以保持原始数据的一些统计特性,并且不会影响挖掘使用和数据分析。
大数据给人们便利的同时,也带来了新的安全问题。本文分析了大数据背景下,企业敏感数据面临的挑战,并阐述了敏感数据保护的步骤,从大数据的访问控制、隐私保护和信任等角度来看,得出了利用大数据的技术来保护隐私和保护数据安全的相关关键技术。但是从总体来说,在当前,国内外对于敏感数据的隐私保护和数据安全的研究还不够充分。只有通过相关政策法规与技术手段等结合起来,才可以更好地解决好数据安全和隐私保护问题。