◆王靖夫
数据安全与云计算
大数据平台数据安全体系架构研究
◆王靖夫
(河南省烟草职工培训中心 河南 461000)
基于构建大数据平台数据安全体系架构的必要性和重要性,本文首先通过对构建大数据平台数据安全架构体系的意义和设计原则作为研究突破点,然后对大数据平台中数据采集、存储、分析、计算等环节的数据安全建设做出重点阐述和论断,从而为优化大数据平台数据安全架构体系提供理论的借鉴和参考。希望通过本论文,能够构建一种安全性高、可靠性强的大数据平台数据安全体系架构,为现实中大数据平台的面临的数据安全问题提供一定的解决措施和方法。
大数据平台;数据安全;体系架构
当前大数据技术在发展过程中,数据安全是当前迫切需要解决的问题。若大数据平台的数据出现泄露和丢失、盗用等现象,将会给企业和社会等的发展造成巨大的威胁。因此,加快对大数据平台中数据采集、存储、分析、计算等环节的安全分析就显得十分必要,为实现数据安全提供可能性。
随着两化的不断深入和融合,大数据分析系统主体性人群逐渐增多,零散化、片面化且不科学的管理体系对海量数据信息科学的管理起到了消极影响。因此,加快构建大数据平台数据安全体系架构建设既是时代发展的必然要求,同时也是当前大数据平台发展过程中面临的安全挑战。不断加强大数据平台数据安全体系架构的建设,是应对大数据平台所面临安全挑战的有效路径,有利于满足受众对大数据平台的安全需求,提高数据信息的安全性和可靠性,对社会经济的发展起着积极的促进作用。
在大数据平台数据安全体系架构的设计过程中,首先需遵循的是全面性原则即数据安全体系架构的构建要贯穿整个大数据平台安全建设的全生命周期,是局部和整体的总括。其次,要遵循的就是实用性原则,数据安全体系构建要做到与现实生活的全面结合。最后是平衡性原则,在这一过程中,要做到两个抓手,一是坚持科学管理这个抓手,二是做到技术运用另一个抓手,从数据信息的不同侧面对数据安全做到保障,对外能够严格遵循等级保护2.0标准、风险评估的要求,而对信息内部的管理能够做到科学合理,实现数据信息和用户信息保护的二者平衡。在大数据体系架构的构建过程中需要遵循的原则并不仅仅只有上述所列举的三个,而上述原则是在实际应用过程中需要贯穿和指导的原则。
为有效保障数据采集安全需要对大数据平台的整体架构体系作出系统的设计,在建个网络总体安全体系的过程中,通常要将大数据网络安全域分为数据采集子域(主要包括对网络内部数据的采集以及对网络外部数据的采集两大过程)、数据计算存储子域(主要对不同分布列式的数据进行存储、对不同用户信息和数据资料分类的存储、以及数据信息的分发过程、数据分布式计算等设备自身所在的区域)、管理子域(包括前台和后台业务管理平台、网络实时监控、数据安全的审计等设备所在的区间),在各个子域之间或各个区域的边界处通过划分VLAN、加强防火墙部署等的措施,对大数据平台所潜藏的不同用户信息进行不同强度的防护和隔离。
大数据平台在应用过程中,主流的数据存储方式主要有两种,分布式文件存储和分布式数据库存储。两种不同存储方式的加解密技术也是有差异的。以分布式文件数据加解密技术为例,其工作的基本原理是通过对存储空间的加解密管理技术,当存储的文件需要用加密等的储存方式时,大数据平台根据用户需求自动存储到要加密的区域,在这一过程中,通过身份证授权的合法用户就能通过验证及时的访问数据信息,用户想要查看的数据信息也会以自动解密的形式出现,而非身份认证的非法用户在访问大数据平台的数据信息时,就会出现无法读取或读取到的乱码信息。
分布式文件的加解密过程的解密步骤有三大方面,第一,系统创建的加密区域以区域密钥的形式保存到密钥管理系统,第二,用户在加密区域创建源文件或子文件时,加密组件从KMS上申请密钥,加密组件proxy获取信息密钥后,申请KMS 对EDEK 进行解密,有效达到获取信息的目的。
在这一过程中,主体用户必须通过身份识别的形式完成技术认证,加密数据信息,对数据进行信息进行完整性保护,对不同用户的信息以ABC分类理论的形式将其重要性和严密性都进行重点和难点划分,通过运用加密、屏蔽、变形等的形式对用户敏感数据进行脱敏处理,采用物理隔离和访问受控等的手段,对不同用户之间的数据信息进行彼此隔离,形成两不相交的平行支线,达到技术安全的目的,以全文检索的形式,从多角度审视数据安全,对用户数据采用加密、失真、匿名化的技术手段对其数据进行隐私处理和保护,对安全基线的配置要适时调整,保证其反应数据的实时性和数据资料的完整性。通过策略化管理的方法对大数据平台所采集的数据信息以策略化修改、添加、删除等的形式,提升用户信息的隐私性,同时对数据信息的敏感性要做到制定科学的策略来审计和监控,在Hadoop 节点上部署具有不同安全性能的加密网卡、安全探针来实现隐私对敏感数据的保护,在平台数据的发布前期,技术工作人员尽量要对数据信息做全方位的性能和安全审查,以有效保障数据信息的系统完整。
该项技术的基本原理是采用不同级别的分类方法,对所属平台的身份信息进行管理,加密对信息权限的访问设置,数据操作人员在访问用户信息的过程中,访问记录和操作过程都会留下印记,工作人员通过分析印记,从而有效保障用户在访问过程中的访问记录安全。访问权限安全技术一般包括两大方面的操作过程,一方面是访问用户在访问大数据平台的过程中需要受到访问认证,只有被认证过的访问人员才能够进入系统,也就是普遍意义上的CA身份认证技术,该技术是网络安全技术的重要组成部分,用户在访问平台的安全系统之前,必须经过身份认证系统的识别,然后通过访问监控模块,平台系统根据用户的身份和授权的相关情况从而做出回应,决定用户是否能够访问某个资源,其主要的认证方式有多个种类,双因子(主要指通过密码和数字证书、数字签名、指纹虹膜等特征二者结合的方式从而实现对用户的身份认证)的认证方式是当前使用最简单且最容易实现的一种身份认证技术。该技术权限管理和登录工作都是基于口令方式进行,当移动用户在登录计算机网络平台时,以双因子认证的方式获取相关数据信息。另一方面通过以计算机网络为媒介的新兴网络技术,数据行为审计分析机制对用户访问记录和权限做行为分析,通过数据库审计的方式,有效实现对网络数据库活动的实时记录,从而提高数据库操作行为的规范性和审计工作的统一性,当数据库信息遭遇风险行为时,强大的数据库信息系统就会发出告警行为,同时对风险行为做出快速的诊断和阻断,数据库审计的方法有利于从内部和外部加强对数据库网络信息的行为记录,有效提升数据库信息资产的安全,该项行为机制主要适用于审计用户在使用过程中的数据访问和分析机制,数据访问和分析机制的架构体系如表1和表2所示。
表1 用户数据访问认证机制架构
表2 用户数据行为审计分析机制架构
从表1用户访问认证机制架构可以了解到,用户访问认证机制架构主要包括三大方面的操作模块,即用户信息的注册登录、以终端水印、用户水印等技术确保用户违规操作的不可否认性、以及确保数据安全访问和使用的权限管控模块,从表2用户数据行为审计分析机制架构体系可以看出,用户行为审计的分析机制架构体系包括三大模块,对身份用户信息的基本审计模块、对用户身份和操作过程的关联分析模块以及对事件安全风险等的高级审计过程模块。
综上所述,在信息技术迅猛发展的背景之下,大数据平台在发挥数据价值的过程中,也存在潜在的安全隐患,数据信息泄露和数据内容被窃取的现象呈现高发状态,数据安全防护问题已然成为制约大数据平台发展的一大重要因素,因此,不断加大对大数据平台数据安全体系构建的分析力度是时代发展的必然要求,本文在对大数据平台安全架构体系的分析过程中,探索出的一套数据安全架构建设方案能够为整体大数据体系构建和规划提供现实的可能性。
[1]姚舸. 大数据平台安全架构体系研究[J]. 信息记录材料,2019,20(10):181-183.
[2]邓利. 电信大数据平台的网络安全防护体系设计[J]. 无线互联科技,2020,17(1):58-61.
[3]刘枧,裴文. 贵州大数据网络安全社会综合治理体系研究[J]. 贵州警官职业学院学报,2019,31(5):113-118.