有关大数据平台的数据安全技术能力体系建设

2022-05-08 04:57中国人民银行湘潭市中心支行刘曼齐
数字技术与应用 2022年4期
关键词:敏感数据脱敏数据安全

中国人民银行湘潭市中心支行 刘曼齐

加强大数据平台数据安全体系建设有着重要意义,不仅能够有效应对平台实际所面临的安全风险问题,同时对于增强数据信息的安全性与可靠性有着积极的促进作用。文章首先对推进大数据平台数据安全技术能力体系建设的重要意义进行分析,接着探讨大数据平台的数据安全问题,并基于安全体系设计原则就大数据平台数据安全技术能力体系建设提出几点建议,以期为同类型工作提供一定的借鉴与参考。

在大数据等新技术应用规模不断增长的同时,数据安全问题愈发得到各方的重视,如何进一步提高大数据平台的数据安全管控水平成为业界重点关注的话题。由于大数据平台中涉及到海量数据信息,在实际管理工作中存在较大难度,同时潜在的数据安全风险问题也会对大数据平台的稳定有序运行造成严重的不利影响[1]。因此,下文将对大数据平台的数据安全技术体系建设进行研究和分析,以此为数据安全管控提供良好支持与保障。

1 大数据平台数据安全技术能力体系建设的重要意义

从当前阶段的实际情况不难看出,大数据平台的用户逐渐增长,然而由于平台中会涉及到海量数据信息,如果数据管理体系处于零散化、片面化状态,便无法为数据安全管控提供良好的支持与保障。因此,积极推进大数据平台的数据安全体系建设不仅是时代进步发展背景下的必然要求,同时也是为了有效缓解现阶段大数据平台发展进程中数据安全风险问题所引发的不利影响[2]。由此可见,加强数据安全技术能力体系建设,不仅可以更好地满足用户对于大数据平台的安全需求,同时对于提升数据信息的安全性和可靠性有着积极的促进作用,进而让大数据平台的重要价值和功能得到更加稳定和充分的发挥。

2 大数据平台所主要面临的数据安全问题

(1)数据资产的梳理存在较大难度。与传统结构化数据进行比较而言,大数据平台中所涉及到的非结构化数据,在对需要保护的敏感数据进行搜集和识别上存在更高的困难程度[3]。例如,某企业在实际经营管理中所运用的大数据平台,由于企业各部门的业务表现出相应的独立性,同时在不同部门间的业务上还存在一定的重叠内容,导致部分员工无法对现有数据进行分类、分级,并做出合理判断。通常而言,采取人工鉴别方式,则实际所需要的劳动量十分巨大。

(2)现阶段有关大数据平台安全基线的检测通常需要较长周期,在发现、验证大数据平台本身安全漏洞上缺乏足够的时效性[4]。此外,由于大数据平台涉及到诸多节点和组件,如果单纯凭借人工方式定期开展风险检测以及安全评估活动,那么实际工作效率及质量无法得到有效保障。

(3)从分布状态上来看,大数据平台中的敏感数据资产较为离散,无法就此建立具有针对性的数据安全管控机制。仍以某企业所运用的大数据平台为例,在各业务系统和存储载体中客户信息、经营数据等敏感数据处于游离的分布状态,此类数据信息不仅数量巨大,同时受到应用场景的差异性,数据类别及形态也会发生变化[5]。在此条件下,便较为困难运用传统技术手段就大数据平台中的客户信息做出有效的识别、脱敏、溯源,在客户信息操作行为审计上同样存在较大难度。

3 大数据平台数据安全体系的设计原则

对于大数据平台数据安全技术能力体系建设而言,首先要切实把握全面性原则,要根据实际情况对大数据平台安全建设的全生命周期予以考虑,不仅要关注局部的细节方面,同时要确保从整体上对整个建设流程进行涵盖。其次,将实用性原则寓于建设过程中,在推进数据安全体系建设的过程中要最大限度上考虑大数据平台的实际使用需求,以此在确保数据安全管控水平的基础上让大数据平台能够充分发挥自身的预期功能[6]。此外,在体系建设中要遵循平衡性原则,一方面要特别关注科学管理的重要作用,另一方面则是要保证技术得到有效运用,从不同层面为数据信息的安全性与可靠性提供良好保障。不仅要确保内部管理的科学性,也要保证对外的保护符合规范标准以及一系列的风险评估要求。

4 大数据平台数据安全技术能力体系建设思路

4.1 大数据平台基线检测能力

要结合大数据平台的实际情况,针对其中一系列的基础设施和应用组件提出相应的安全能力要求,通过科学有效的基础安全配置,并施以合理化的技术管控手段,以此避免由于组件配置不当或技术手段不足所引发安全风险问题[7]。可根据实际情况运用如下两点技术就大数据平台开展基线检测。

(1)多组件信息主动探测技术。布设并发挥采集引擎的功能,以此对有关组件的信息内容进行收集,并将反馈信息传递至后台做出比对,以此确定有关组件的脆弱性信息。(2)超文本、XML标记抽取技术。超文本标记抽取主要通过端口、Http包头、Banner信息、指纹信息等进行实现;发挥XML可扩展语言的特性,就端口返回的XML做出特定抽取,以此得到有关大数据集群的信息内容。

4.2 大数据平台数据资产识别

对于数据资产识别而言,主要有如下三个方面的内容:数据资产识别、敏感数据发现、敏感数据识别规则等内容。

(1)识别数据资产。按照相应的识别规则,全量扫描大数据平台中Hive、Hbase数据,根据实际所得到的扫描结果建立有关敏感数据资产的全景视图,如此一来,不仅能够为数据采集、存储、分析使用等流程的制定提供便利指导,同时对于数据共享使用也有着良好的支持作用。(2)发现敏感数据。可根据实际情况选用敏感数据扫描识别算法,以多模式模糊匹配的形式对敏感数据做出及时有效的识别[8]。(3)敏感数据识别规则。根据敏感数据特征,如关键词、数据类型、长度等一系列特征,通过多模式模糊匹配算法开展大规模的模糊匹配工作,以此提高匹配和识别效率。

4.3 数据采集安全技术

要从整体上对大数据平台数据安全体系做出系统设计,以此为数据采集的安全性与可靠性提供良好保障。通常而言,在安全体系的整体建设过程中,需要对大数据网络安全域做出合理划分,即数据采集子域(针对内部数据的采集、针对外部的数据采集)、数据计算存储子域(针对不同分布列式的数据存储、针对不同用户信息和数据资料分类的存储、数据信息分发过程、数据分布式计算等设备所在区域)、管理子域(前台及后台业务管理平台、网络实时监控、数据安全审计设备所在区域)[9]。此外,要根据各子域以及各区域的实际情况,以VLAN划分、强化防火墙部署等举措提高安全防护力度,以此对大数据平台中潜在的用户差异性信息做出相应的隔离与保护。

4.4 数据存储安全技术

对于大数据平台的数据存储方式而言,主要涉及到分布式文件存储、分布式数据库存储等两种方式。然而从工作实践中可以看出,两种存储方式所运用的加解密技术有所不同。

此处以分布式文件存储为例,其所运用加解密技术的主要工作原理是针对存储空间做出相应的加解密管理,如果所存储文件存在加密的储存需求,大数据平台则以自动形式将其存储至需要加密的区域。在此过程中,只有得到身份授权的用户可以通过验证的方式对数据信息进行访问;如果并未得到身份认证则无法对相关数据信息进行读取[10]。解密步骤如下:加密区域密钥会保存在密钥管理系统中,用户如果在加密区域建立源文件或子文件时,加密组件则会从KMS上申请密钥,加密组件Proxy在得到信息密钥后,向KMS提出申请,对EDEK做出解密处理。

4.5 大数据平台脱敏

对Hadoop组件的Hive、Hbase进行数据脱敏。结合语法特征将安全脱敏策略配置到数据流转过程中,以此实现对于流量中的请求访问语句的匹配识别和处理,在此方面需要对如下三点予以重点关注:(1)可以结合具体需求对不同敏感数据选用差异化的敏感数据脱敏算法;(2)确保脱敏算法添加或删除的动态性;(3)保护细粒度的敏感数据,要结合用户的查询需求合理选用脱敏算法,以此确保在实现脱敏效果的基础上不会对用户的实际体验造成不利影响。

4.6 身份认证与数据审计

针对大数据平台的身份信息做出有效管理,通过加密信息权限的方式为数据信息安全提供保障。在对平台中用户信息进行访问的过程中会留下相应的印记,通过对此印记的分析,保证访问记录的安全性与可靠性。通常而言,访问权限安全技术的实际操作过程主要有两个方面:

(1)在访问大数据平台时需经过访问认证,正确完成认证后才可以顺利进入系统,属于当前阶段在网络安全技术中较为常见的CA身份认证技术。用户在对大数据平台安全系统进行访问前,需通过身份认证系统完成认证识别,接着经过访问监控模块,系统会结合用户的实际身份以及具体授权情况给出相应的反馈。从认证方式上来看,通过密码、数字证书、数字签名、指纹虹膜等二者结合实现对用户身份认证的双因子认证方式,在现阶段的实际应用较为广泛,这种身份认证技术以口令形式开展权限管理和登录活动,用户通过双因子认证后便可以在大数据平台中得到相关的数据信息内容。

(2)发挥计算机网络的媒介作用,通过对数据行为的审计分析,即对用户访问记录和权限进行分析,依托数据库审计的方式开展实时的记录活动,不仅可以有效提高操作行为的规范性以及审计工作的一致性,同时在数据库信息面临风险问题时,数据库信息系统会对此进行告警,并及时分析和阻断风险行为。此外,在综合考虑多条件关联的前提下运用审计分析策略,可以对大数据日志做出更加直观的展示,实际所展示出的内容不仅包含行为主体身份和时间地点,同时也包括采用哪种方式、做出哪些操作以及最终的操作结果等。通过4A统一安全管控平台(“4A”主要是指为企业提供集中的账号Account、认证Authentication、授权Authorization、审计Audit管理技术支撑及配套流程,提升系统安全性和可管理能力)实现IT资源集中管理,可以促进审计得到集中化管理和控制,大数据平台审计的实时性以及可视性能够得到进一步保障。这种数据库审计方法可以以内部、外部相结合的方式更好地记录数据库网络信息行为,信息资产的安全性与可靠性得到有效保障。如表1、表2所示,上述技术方法适用于用户数据访问认证和审计分析。

表2 用户数据行为审计分析机制架构Tab.2 Architecture of user data behavior audit analysis mechanism

5 结语

总之,大数据平台发挥其价值和功能的同时,其数据信息的安全风险问题应受到重视。对此,在数据平台的数据安全技术能力体系建设中,理清数据安全管控的流程与思路,做好大数据平台基线检测能力、数据资产识别、数据采集安全技术、数据存储安全技术、大数据平台脱敏、身份认证与数据审计等非常必要。目前,上海已设立的数据交易所,是对数据安全可信交易生态建立做出的初步探索,但大数据的合规、数据运维、数据确权、数据定价、商业模式等难题仍然亟待解决,加快数字化转型,以大促使数字经济活力得到有效激发。

猜你喜欢
敏感数据脱敏数据安全
干扰条件下可检索数字版权管理环境敏感数据的加密方法
激光联合脱敏剂治疗牙本质过敏症
实现虚拟机敏感数据识别
过敏体质与脱敏治疗
基于透明加密的水下通信网络敏感数据防泄露方法
云计算中基于用户隐私的数据安全保护方法
基于4A平台的数据安全管控体系的设计与实现
建立激励相容机制保护数据安全
让青春脱敏
大数据云计算环境下的数据安全