浅谈大数据安全保护技术

2022-11-17 17:41武警山东总队参谋部综合信息保障中心信息运维室吴燕辉
数字技术与应用 2022年7期
关键词:数据保护数据安全加密

武警山东总队参谋部综合信息保障中心信息运维室 吴燕辉

随着时代的发展,大数据技术在社会各个领域的应用越来越广泛,涵盖国家、企业、个人等多个层面,并发挥着较为重要的作用。但需要注意的是,其快速发展的同时,也产生了一系列的风险和弊端,例如:隐私泄露、攻击者越来越多等。另外,大数据技术的特点充分体现了跨学科的性质,这种不断引进更多全新技术的方式,也为大数据的发展和使用埋下了更多的潜在风险和弊端。因此,数据安全就变得更为重要,不能保证安全情况下的大数据,就不能实现健康的发展,这就强调了安全保护的重要意义。大数据技术在社会发展和进步当中的不断推进,数据开放和保护这两个层面已然成为了重要的研究方向和重点内容,基于此,笔者对安全保护的相关技术进行了分析和论述。大家都能够看到,当前社会充分体现了“互联网+”的重要性,在这当中,数据是其中必不可少的一个重要环节,其中的能量不言而喻[1]。

1 关于大数据的分析

1.1 概念界定

巨量数据是大数据的又一个名称,代表着大量、快速增长、多样化等特征的一种信息化资产形式,通常来说要借助一种新型的处理形式对数据信息进行充分的加工处理,从而为用户进行决策、程序优化等内容提供依据。其具有Volume(大量)、Velocity(高速)等多种特征[2]。

1.2 优缺点

大数据在社会发展当中的使用就像是煤矿一样具有很大的价值优势:(1)对问题、故障等进行充分分析,为企业节约成本投入;(2)在交通方面,能够实现路线规划,为改善交通拥堵提供参考;(3)借助对SKU(库存进出计量的单位)的充分解析,能够对价格进行合理界定并对库存进行及时清理,从而实现利润的最大化;(4)通过数据反映的信息进行用户分析,为企业的发展提供具有针对性的营销指导;(5)实现在海量客户当中寻找到最有价值客户的目的;(6)对客户点击的情况进行数据的深入挖掘和分析,对欺诈行为的识别和规避起到重要作用。从这些作用都能够看出,大数据技术在各层面的价值。

比如:在美国的医院,充分运用大数据技术为一个患有CMT腓骨肌萎缩症的病人及病人的家属开展基因序列的检测,借助技术软件实现对数据的全面分析和比对,实现了快速查找病因及其致病的位置,为这一疾病的预防和治疗提出了更多的参考和数据依据。但是,大数据在给社会发展带来便利的时候,也产生了较大的潜在风险。我国曾有一个科学院院长:白春礼提出,有近半数的数据信息都存在被泄露的潜在危险,这也对数据安全提出了更多更高的要求和挑战。在当前社会,小到用手机号码就能够轻松查询到个人的身份证信息、资产信息等内容,甚至包括外出、打车等信息记录,并对其位置做出实时的准确定位。这些都表明,处于数据信息时代,数据的安全和保护是非常重要的。

2 大数据安全保护技术研究

2.1 大数据安全保护核心

从以上分析可以看出,大数据技术和信息的重要充分体现在其有价值的特征上。数据库是对大量数据信息进行储存的重要媒介,一旦遇到数据攻击,后果将会不堪设想,且数据的本源具有广泛、多元等特征,这也给数据保护带来了更大的困难和挑战。目前具有的信息处理架构,例如Hadoop,其还存在内在安全运行机制不健全的问题,因此,在大数据技术的使用上仍存在信息泄露、不安全点位较多等问题,这些问题使得原本制定的数据保护方案不能充分发挥其作用,从而带来了系统上的漏洞等问题[3],基于此,笔者认为,在数据保护的过程当中,环境安全和隐私保护是非常重要的两个重要环节。

一方面,在隐私保护上,可以借助对访问控制的分级进行全新打造和建构的策略,这种体现全生命周期的方式,能够充分提高隐私保护的安全性。大数据技术在使用的过程当中,数据采集是第一步,其主要用于用户在PII(个人信息标识)和UL(用户标签)两个层面及其相互之间的关联性进行解析,从而实现精准性营销的目的。这种方式对用户的隐私保护会产生较大的作用和影响,因此,必须要对这两个方面的数据给予高度关注,所以,对访问控制进行重新打造和建构的策略,充分体现对数据信息的基础性和安全性的重视,在此基础上建立并实施用户的身份访问限制、加密等措施。此外,要借助技术手段对数据进行系统脱敏,对不同种类的数据信息采取分别存储的方式,并借助索引的方式实现数据信息之间的充分关联,在这种情况下,即使遇到了信息泄漏的情况,其他的数据信息也能够保证安全,且采取的对索引进行技术加密的方式,也能够实现对应PII数据的精准对接。此外,也要对数据的各个接口处进行较为严密的控制,在数据流出的过程中,要注意进行脱敏化,在进行数据传输时,充分借助安全协议的方式,对重要性高的数据信息进行充分加密。在要对数据信息进行销毁的过程中,也要明确数据的副本信息,确保信息清理的完全性。

另一方面,要对数据的安全防护给予更高的关注,不断提升其安全性能。(1)要对计算平台进行不断的加强,可以采取KDC认证,引进Kerberos技术等方式,在此基础上进行用户权限和访问的授予和把控。针对数据信息的存储方面,在技术条件许可的情况下,可以借助KMS技术,对HDFS数据进行加密。也可以通过对Web和MapReduce之间的配合进行数据的加密。(2)对数据探针给予更多关注,通过采取设置个人账号和密码登录的方式,对可能存在的漏洞进行充分检验,一旦发现问题及时修补,借助防火墙的作用对远程访问进行有效控制,并对IP地址进行一定的限制,对运用探针登录等方式开展审计,对数据进行充分的加密。同时,也要对网络、主机等方面的安全性能进行巩固和强化,对网络安全的区域进行明确划分,设置边界访问,充分采取终端控制,对可能存在的漏洞进行实时监测,开展有效的防护病毒措施及安全管控措施。

2.2 大数据安全保护技术

数据信息的处理涵盖采集、预处理、分析、挖掘、采集等步骤,具有循环性特征,包括发布、储存、挖掘、使用等4个重要环节,在每个环节都可能遇到危险。

(1)在发布方面,大数据具有来源多样性、发布动态性、用户同一性、数据量巨大等多种特点,这就更加突出了数据保护的重要意义,在此过程中,可用信息是需要遵守的重要前提条件,在此基础上,才能实现存在泄漏风险信息的快速、高效去除。在这一过程中,也发展出了涉及多方面的匿名技术以实现数据保护的目的。

(2)在存储方面,传统的加密技术能够实现数据保护的目的,但其存在支出多、限制数据共享等弊端,从而对大数据技术作用的充分发挥产生了较大的限制。基于此,有诸多学者进行了探讨并提出了很多具有较高可行性的加密技术,属性加密就是其中的一种方式,这种方式指的是只有在用户密钥具有解密的条件的情况下,才能实现数据的解密,也就是说,在两个密钥当中同时具备A,b、A、c各两个属性,如果需要进行解密的数据文件当中具有A这一属性,那么,在这两个密钥当中,都能够实现数据文件的解密,但如果需要进行解密的数据文件当中具有c这一属性,则只有在密钥当中具有同样属性的才能对数据文件进行解密。基于此技术,有学者提出了密文策略属性加密等多种对数据信息进行加密的方式。需要注意的是,对文件只进行加密是远远不够的,还要充分借助审计技术的使用,特别是在云存储的过程中,这种技术的使用能够充分保证数据信息的安全性,避免被篡改、泄漏等风险。

(3)在挖掘方面,借助对敏感规则的数据信息进行修改许可的方式,实现对规则进行隐藏的目的。此外,也可以通过对生成的具有敏感性的规则信息当中的项集采取直接进行隐藏的方式,这两种方式通常在对具有关联性的规则进行相关数据信息的挖掘过程当中使用的较为普遍。除此之外,分类、聚类结果等也是挖掘当中的重要内容,其中,分类具有对结果产生保护性、降低信息的敏感度等作用,聚类具有能够通过几何变换的方式,实现敏感数据的直接隐藏,并进行使用。

(4)在访问限制方面,当前使用较为广泛的是基于角色技术,指的是为数据用户进行不同角色的分配,在这一环节之前,要对角色进行充分挖掘并建立一定的访问限制。除此之外,还包括基于属性的技术,指的是借助用户、环境等不同的属性性能来搭建权限。

(5)在数据脱敏方面,数据脱敏也叫做数据漂白,在其中,规则、数据、环境三个要素是非常核心和至关重要的。规则具有可恢复性,也就意味着经过脱敏的数据能够借助一些技术和方法进行恢复,使用较多的就是解密算法的加入。除此之外,也包括不能恢复的数据,也就意味着经过脱敏处理后,其数据信息将不能得到恢复。敏感数据主要指用户的姓名、隐私信息等。环境指的是经过脱敏后的数据信息将在什么样的大环境下被采用。在数据平台上,数据的存储一般都是借助结构化的形式,也就是在数据表中通过行列的使用,进行数据的存储,通过这种方式,能够实现数据信息的精准定位,通常用于身份证号等用户个人信息的额存储。其中也包括半识别列,也就是虽然不能通过数据实现用户个人的精准定位,但能够通过多列的数据信息以及之间的关联性进行用户个人的有效识别,涵盖性别、生日、收入等信息内容。其他的信息则不被成为用户的敏感信息。所以,在脱敏过程中,一般采用替换法,借助虚拟数据的使用,对真实的数据信息进行替换,例如,借助字典数据表的方式,实现真实值和随机值的一一对应,并和字典表当中的内容进行更替,例如,在性别上,可以借助不同的字母来表示。

3 大数据安全的开放问题

3.1 大数据安全标准缺口

关于数据安全的相关研究及其标准的制定尚不完善,在国际上,很多组织也在积极开展各项研究工作,从而对数据安全的标准化进行缺口的弥补。在研究的过程当中,国际上也不断提出了诸多新的研究课题,例如:云服务可信接入架构等,由此可以看出,隐私保护是一个得到了全球关注的重要话题。

全国信息安全标准化技术委员会针对数据安全标准提出了一定的工作建议,其中,个人信息安全、数据共享、出境安全、审查标准等内容得到了突出强调,这也充分体现出了在后续工作中的方向。当前,数据安全的标准化过程还处于不断发展和完善的过程当中,在积极推进的过程当中,要充分体现急用先行,成熟先上的重要行为准则[4]。在进行数据安全标准的制定过程中,也要对当中较为紧急的数据应用安全标准进行积极制定,包括出境、交易等方面。

3.2 大数据安全关键技术难点

目前已经具备的信息安全相关技术手段尚不能对数据安全给予充分保护,结合大数据技术固有的风险形式,还存在诸多需要不断探索的技术形式。

隐私保护因其特点而得到了广泛关注。在使用过程中,已经产生了一些解决该问题的方法。差分隐私是其中一种,这种方式借助对噪声的使用而达到数据信息失真的目的,实现了对数据信息的保护,但其因为使用过程较为繁杂,因而使用效率较低。除此之外,全同态加密也是一种隐私保护技术,这种技术的使用较为常见,但其具有性能低的弊端,这一弊端限制了其在大环境当中的使用和推广。所以,探索出更为高效的方法也是值得不断深入的方向。

加密技术在数据保护方式当中具有基础性和重要性,其中,可搜索加密算法在使用过程当中通过对场景和数据进行加密设置的方式,达到了访问限制的目的,访问限制提出的新要求也对这种技术提出了新的方向。此外,建立在属性基础上的加密方式采取将控制策略加入到用户使用的密钥或者是数据信息当中的方式,为低效率提出了具体的解决措施,也能够充分体现密钥的可扩展性和数据信息的灵活性。当前,这种技术使用较多的是基于椭圆曲线基础的双线性映射构建技术,但其因成本高、数据量大的弊端,限制了其广泛推广和使用。

从信息安全热点话题来看,细粒度的访问控制技术关注度较高。这种技术虽然已经出现了一系列的解决措施,但仍存在一定的困难和问题,例如:访问控制粒度的合理选取、延展性、提高效率等问题。

3.3 大数据安全分析的技术难点

大数据技术的应用和发展具有双面性,合理有效使用,能够充分发挥作用,但也可能成为黑客进行网络攻击的重要途径。在对数据安全技术进行充分研究的过程中,也要充分借助各种数据处理技术的支撑作用,实现数据信息的关联分析、可视分析等多种数据应用目的。大数据技术的推广和使用,为信息安全提供了一定的价值,但也不能忽视其中存在的问题和弊端。网络通信检测、网络特征提取等方面的技术还有需要不断探索和突破的空间,从而不断提升网络信息安全对于风险的预判、处理等方面的能力。

4 结语

伴随大数据技术的深入推进和发展,数据安全所产生的风险和问题也将日趋加重,这就突出了数据保护相关研究的重要意义。数据安全是数据技术发展的前提和基础,所以,要将不断提升数据安全的保护作为安全技术研究的根本性课题。本文从大数据概念、优缺点、安全保护技术和安全开发问题等方面对大数据安全保护进行了分析,希望能够为相关领域研究提供一些借鉴。

猜你喜欢
数据保护数据安全加密
云计算中基于用户隐私的数据安全保护方法
一种基于熵的混沌加密小波变换水印算法
建立激励相容机制保护数据安全
大数据云计算环境下的数据安全
TPP生物药品数据保护条款研究
欧盟数据保护立法改革之发展趋势分析
欧盟《一般数据保护条例》新规则评析
认证加密的研究进展
大数据安全搜索与共享
药品试验数据保护对完善中药品种保护制度的启示