面向大数据全生命周期保护模型及方法

2020-06-20 05:31王红心龙文佳
网络空间安全 2020年2期
关键词:访问控制完整性粒度

王红心,龙文佳

(湖北大学知行学院计算机与信息工程学院,湖北武汉 430011)

1 引言

信息技术高速发展的今天,人类社会活动产生的数据规模正以爆炸性的速度增长,大数据时代已然到来[1]。根据国际数据公司(IDC)的预测,到2022年全球产生的信息总量将达到40ZB,是2011年全球信息总量的50倍。作为信息时代的一大新兴产业,大数据蕴含着具有极高价值的信息,引起了产业界、学术界、国内外政府部门的高度关注。科学技术的发展是把双刃剑,大数据给人类社会带来巨大价值的同时,也面临着许多新的问题,其中大数据的安全与隐私保护是社会各界最为关注的重要问题之一。

当前,大数据在数据获取、数据存储、数据分析和数据使用等各个阶段均缺乏规范的监管和有效的面向数据全生命周期的安全保护措施。首先,在数据获取阶段,出于商业利益的驱动,人们网络活动的一言一行都在互联网商家的跟踪之下,这种单方面的数据获取方式极大地暴露了用户的个人隐私。例如Amazon、京东商城等网络电子商务公司捕获用户的消费习惯,利用用户的历史消费数据可以帮助企业提升营销的针对性和精准度;Facebook、腾讯等社交网络服务供应商维护着用户的互联网人际关系,可以用来帮助社交网站为用户提供更加准确的好友推荐;Google、百度等互联网搜索服务提供商记录着用户的信息检索历史和检索习惯数据,通过对这些数据的挖掘分析,可以提升用户搜索结果的相关度和准确度。在这样的背景之下,这些互联网服务提供商既是数据的生产者,又是数据的存储、管理和使用者,所以用户按照传统的安全模式来控制商家对用户信息数据的访问与使用来保护自己的隐私,是十分困难的。

在数据存储阶段,特别是目前普遍采用的云存储环境下,大数据面临着数据完整性被破坏的安全风险,如何有效地判断大数据在存储阶段的完整性和可用性,成为亟待解决的重要问题。大数据的使用方应当有能力判断数据的完整性,因为对错误的数据进行分析将会得出无意义或错误的预测结果。然而,大数据因其规模庞大、数据类型复杂、增长速度快等特点使得传统的完整性审计方法在计算效率和通信开销等方面遇到了极大的瓶颈。

在数据分析阶段,人们同样面临着个人隐私进一步泄露的风险。另外,考虑到大数据复杂的应用环境,大数据可能被用于各行各业不同应用的需求,因此对其实施的访问控制粒度与策略也应有所不同。大数据环境下实施访问控制的难点主要反映在三个方面:一是角色难以预设。在大数据复杂的应用场景下,面对庞大数量的数据使用方,预先设置角色,实现角色和合理划分相当困难。二是难以预知每个角色的实际权限。大数据由于数量大、类型多样,大数据管理系统很难准确地为数据使用方指定其可以访问的数据范围。三是难以预测访问的粒度。有些访问可能是基于数据块或记录;也有一些是基于文件和对象。因此,很难用单一模式的访问控制结构来表达不同的访问粒度信息。

综上所述,从大数据的产生、存储、分析到使用,甚至销毁阶段都存在着影响数据安全的因素及风险。为了适应对大数据全生命周期的安全保护需求,本文研究了大数据在生命周期的基本特征,分析了大数据在各个阶段的安全需求,进而建立了一种面向数据全生命周期的大数据安全保护模型。在模型基础上,分别在大数据完整审计方法、大数据变粒度访问控制方法、对抗数据关联性挖掘的隐私保护方法等提出了相应的解决方案。

2 相关技术研究现状分析

目前,学术界和产业界分别在数据生命周期的各个阶段都有相关的研究成果,本节结合这些成果对其现状进行分析。

2.1 大数据的隐私保护技术

数据发布者是指采集数据和发布数据的实体,包括政府部门、数据公司等。在数据发布阶段,为保证数据持有者公开数据后,攻击者无法从数据中识别出用户的隐私信息,Samarati等人在1998年首次提出了信息匿名化的概念[1],旨在通过隐藏公开数据记录与特定个人之间的对应联系,从而保护个人隐私。由于删除有关用户身份的属性,不但会大量丢失数据的原始信息,而且并不能有效地隐藏敏感信息,同时为了避免攻击者从标识符连接多个数据集,重新确立用户信息和数据记录的关系而导致的链接攻击,研究者相继提出了k-匿名[2],l-diversity[3],t-closeness[4]以及它们相关的变形算法。由于此类匿名策略往往会导致发布数据的信息损失而不利于后期的数据挖掘与分析,为了减少不必要的信息损失,可以根据用户的要求,对发布数据中的敏感属性值提供不同程度的隐私保护,因而在此基础上,个性化匿名、带权重的匿名等一系列匿名策略被相继提出。然而,大数据的一个重要特征就是数据是动态更新的,为保证每一次发布的数据都满足某种匿名策略的同时,攻击者也无法联合历史数据进行分析和推理出用户的隐私信息,相应的支持动态更新匿名保护策略被提出。Byun等人最先提出了一种支持新增的数据重发布匿名策略[5],使得数据集即使因为新增而发生改变,但仍然能够满足l-diversity准则,从而保证用户的隐私。为了在支持新增操作的同时,完成数据重新发布时对历史数据集进行删除,m-invariance 策略[6]被提出。但是由于大数据的多源化和大数据之间的关联性强等特性,攻击者可以通过收集足够多的数据信息去匿名化而获取用户的隐私信息,因此匿名技术仍面临着新的挑战,现有的匿名技术还有待改进。

2.2 大数据的完整性保护技术

目前,大数据的存储技术主要是采用云计算技术。但是,将敏感数据存放在不可信或者说是半可信的云服务方会带来许多潜在的威胁。例如,数据可能被管理者偷窥、篡改、丢失等,从而使得大数据的完整性无法得到保证。目前,解决方法有加密存储和数据审计技术。从已有的文献可知,Juel等人提出的POR(Proof of Retrievability)[7]是早期云数据安全审计方法之一。该方法使用错误校验码(Error-correcting Code)作为哨兵来确认存储在CSP中数据的完整性以及可恢复性,但是该审计方案的审计次数有限,并且审计行为在用户与CSP之间进行,审计工作无法在双方互相不信任的情况下保证其公正性。为了解决这一问题,Ateniese等人[8]提出的PDP(Provable Data Possession)将审计工作转移到公开的第三方(Third Party Auditor,TPA),即审计在用户和CSP信任的第三方进行,由其提供一个公正客观的结果。为实现对云端数据的公开安全审计,Ateniese等人首先将基于RSA的同态标签应用于数据的完整性验证,降低审计过程中的通信开销以及计算开销。公开审计已成为近年来审计模型的发展趋势。然而,从目前的研究成果来看,公开审计也存在着一些风险和问题。由于TPA可能从审计证据中还原数据,将审计工作放在TPA上为用户数据带来隐私泄露的风险,Wang等人[9]通过将随机掩码插入审计证据的方式,使得其不能被TPA还原成数据,从而实现了云数据安全公开审计中的数据隐私保护。Shacham等人[10]提出的CPOR方法侧重于实现云端数据的可恢复性,它使用消息验证码以及同态标签两种方式实现数据的公开审计,并采用基于短签名的同态标签代替基于RSA的同态标签实现更优的性能。为了实现动态可更新数据的有效审计,Erway等人[11]在原始的PDP模型的基础上,将基于等级的跳表机制与之结合,提出了支持数据块级别动态操作的审计方法DPDP(Dynamic Provable Data Possession),这一方法能够支持如插入、删除、修改等常规数据块的动态操作,但是对于数据动态的更新,尤其是数据插入操作的效率,目前还有待提高。因此,如何设计具有身份隐私保护和简单、高效的云端大数据完整性审计方案,仍然是一个具有挑战性的问题。

2.3 大数据的访问控制技术

访问控制是一种有效防止未授权用户获取机密和隐私信息的重要技术。传统的访问控制模型都假设数据所有者和服务器处于同一个信任域中,服务器负责定义、执行访问控制策略并管理用户访问有关的细节。在大数据环境中,数据外包给大数据服务的提供商,数据的所有者和服务器不在同一个信任域中,服务器由大数据服务提供商直接控制,而用户无法控制服务器。因此,在大数据环境中,传统的访问控制已经无法解决这个问题。最新的研究方法是数据所有者采用加密数据,然后通过控制用户的解密能力来实现密文的访问控制。最原始的外包数据访问控制方法是数据所有者在外包数据之前选择一种加密方法对文件进行加密,将解密密钥发送给授权访问的用户[12]。因为密钥管理的复杂度太高,用户授权或撤销的难度较大,基于文件的粒度太粗,以及可能存在的合谋攻击等问题,这种方式一般只适用于对存储在非可信服务器上少量的数据进行访问控制,很难扩展到大数据环境这种大规模的应用。2005年,Sahai和Waters等人[13]提出了基于属性的加密(Attribute Based Encryption,ABE)。由于逻辑属性可以很好地描述文件的数据集,ABE有助于实现大数据环境中的细粒度访问控制。基于ABE的访问控制主要研究成果可以分为两类:密文策略ABE(Ciphertext Policy Attribute Based Encryption,CPABE)和密钥策略ABE(Key Policy Attribute Based Encryption,KP-ABE)。其中,KPABE是密钥与访问控制策略相关联,而CP-ABE是密文与访问控制策略相关联。尽管ABE可以实现灵活安全细粒度的访问控制,但是在大数据环境中其权限撤销的效率和能否适应不同应用的多样化访问需求仍是一个难题。因此,传统的单一粒度访问控制模式已无法应对大数据环境下动态化和个性化的安全访问控制需求,迫切需要研究数据安全保护的变粒度访问控制机制。

3 面向大数据全生命周期的安全保护模型

为了适应对大数据全生命周期的安全保护需求,本文将大数据分为静态数据和动态数据两大类,分析了大数据在生命周期的基本特征以及大数据在各个阶段的安全需求,进而建立了一套面向数据全生命周期的大数据安全保护模型。并在大数据完整审计方法、大数据变粒度访问控制方法、对抗数据关联性挖掘的隐私保护方法等方面提出了相应的解决方案。

3.1 面向大数据全生命周期的安全保护模型

大数据环境下,数据从产生到销毁存在着一定的生命周期。生命周期各阶段由于数据的用途和处理方式不同,导致数据可能遇到的安全风险亦不同,为大数据的安全保护带来了极大的挑战。另一方面,大数据由于其增长迅速、模态多样、真伪难辨、关联复杂等特征,使得传统的单一模式的数据保护方法,如加密存储,无法为大数据生命周期各阶段提供分级、分类的多模式保护,不能保证大数据在复杂环境下的数据安全;大数据环境下数据安全性与可用性的矛盾日益突出。因此,急需建立一种能够保护大数据全生命周期的安全保护模型,针对生命周期不同阶段面临的安全风险提供多模式和全方位的保护。

大数据全生命周期的数据保护模型在开放网络环境中,数据及其元数据的动态演进主要包括数据获取与发布、数据存储、数据分析、数据使用、数据销毁等五个阶段。如图1所示,为本文提出的大数据全生命周期数据保护模型的基本框架图。

图1 大数据全生命周期数据保护模型

由于大数据在生命周期的不同阶段面临着不同的安全风险,如图1所示的保护模型,建立了沿着生命周期的基本路线,根据各阶段特定的安全需求,制定相应的安全方案。

在数据获取与发布阶段,为保证采集的数据发布之后,用户的隐私信息不被恶意的第三方获取,对发布数据进行匿名化处理[14]。对于静态数据的处理,当前使用较多的是k-匿名、l-多样化等静态匿名技术;同时,在匿名化过程中,对每一层数据处理都控制其信息损失量在可接受的范围。对于持续更新的大数据,采用基于动态数据集的匿名策略,包括数据重发布匿名技术、m-invariance匿名技术等,既保证每一次发布的数据都满足某种匿名标准,又使得攻击者无法联合历史数据进行分析与推理。

在数据存储阶段,由于用户失去对数据的物理控制,敏感数据存储在不可信的第三方服务器中,极易被存储管理者偷窥。另外,存储方可能有意或无意丢失、篡改数据。一方面为了保证数据的安全存储,建议采用数据加密技术。另一方面,为了验证数据是否完好无损,通过数据完整性验证方法,针对不同类型的数据进行审计。例如,归档大数据采用静态完整性审计方法;变更频繁的数据采用动态完整性审计方法;同时利用群组签名来构造同态认证等进行审计时的隐私保护。

在数据分析阶段,很多原本零散稀疏的数据,通过结合来自多方渠道的数据集关联分析、聚类分析等挖掘手段后容易泄露用户的隐私,如用户的生活轨迹、生活习惯、交友特性等。针对大数据的强关联特性,采用频繁模式挖掘、聚类、分类等数据挖掘技术,从时间、空间、来源三个维度分析隐私数据的相关性特征,然后通过变换、隐藏、随机扰动等技术对相关信息进行干扰、隐藏和破坏,以对抗数据分析阶段的数据关联性挖掘,达到隐私保护的目的。

在数据使用阶段,为确保合适的数据能够在合适的时间和地点被合法的用户或应用按需访问,采用多模式、变粒度的访问控制机制,为不同的用户或应用提供基于块、对象、文件等多粒度的访问模式。同时为满足大数据存储的不同需求,为用户提供基于身份的、基于属性的等多模式安全访问控制。

本文针对大数据全生命周期数据保护模型中一些核心安全技术进行研究。

3.2 面向大数据完整性验证的审计技术

在大数据存储环境下,由于数据用途的多样性,有静态的归档数据,也有动态的时效性数据。目前,数据审计方法因效率低下或支持审计方式单一等问题,无法满足多样化的大数据完整性验证需求。为此,本文提出了一种“细分类型,按需审计”的策略,实现高效的数据完整性验证。该策略将大数据按照更新特性分为两类:(1)静态归档数据:即短时期内不会被更新的数据类型;(2)动态数据:指不断产生或频繁更新的数据类型。

面向静态归档大数据的完整性审计方法。研究人员提出将现有的方案拓展到大数据环境下云端数据的完整性审计,使之能够高效实现TB乃至PB量级的海量数据的完整性验证审计。针对海量多媒体数据,建立一种基于透明可逆水印的公开审计方案,解决一般归档数据采用同态标签审计方案时标签计算量大、存储空间开销大、验证信息与数据内容分离等问题。

面向动态大数据的完整性审计方法。在大数据时代,数据更新粒度可能很小,可能仅是一段文字或是一张图片,现有的动态审计方法都是将数据文件分块后生成审计证据,其存储和更新粒度等于文件块的大小。因此,无论新增的数据量大小,每次操作都需要生成新的数据块。针对这种数据更新量与分块大小极不匹配的情况,亟需提出一种支持细粒度更新的数据完整性审计方法。为此,本文将根据大数据频繁更新的特点,结合现有的动态数据审计的一般方法,利用聚合签名、认证数据结构、同态标签等技术,提出了适用于大数据动态更新的完整性验证方案。当存储在云端数据更新频繁且更新量大时,基于同态标签的审计方法由于通信开销大、计算复杂,并不适用于容量庞大的大数据环境,研究人员将细粒度的数据更新放到一个文件块中进行,避免每次更新所带来的存储空间浪费和通信开销过大。另外,为了保证数据的新鲜度,在数据签名中加入版本号和时间戳等信息,防止CSP采取重放攻击和数据伪造,保证在进行数据更新后,TPA仍能对最新的数据进行完整性验证,同时保证数据新鲜度。

3.3 大数据环境下变粒度的安全访问控制技术

大数据的访问场景中,由于应用的复杂多样,不同用户在相同数据的驱动下可能会产生不同的应用,因此不同应用对相同数据的访问粒度可能不同,有的可能是基于数据块的访问,有的可能是基于文件或基于对象的访问,因此单一模式的访问控制结构不能表达不同的访问粒度信息。另外,现有的基于ABE的访问控制一般是由数据所有者独立授权,大数据环境中由于用户来源广泛、数据属性繁多,这些属性事实上由不同的部门或人员掌握,不可能由一个人或一个部门独立授权。因此,本文提出了一种多方协同授权的访问控制方法,实现用户访问的粒度可变性。大数据环境下变粒度安全访问控制方案,如图2所示。

根据图2所设计的访问控制方案,本节将其中的核心模块进行分析。

(1)基于数据标志的变粒度数据存储方法。通过在合适的位置嵌入数据标志,实现数据粒度的快速可变。在目前通用的细粒度块存储方法中,在数据块之间,如在文件块的边界设置锚,可将粗粒度的文件变成细粒度的块进行访问。

图2 大数据环境下变粒度安全访问控制方案

(2)基于属性加密的变粒度访问控制结构。为了解决访问控制信息粒度可变的问题,需要将不同粒度的访问控制信息进行分解与合并。目前,基于属性加密的访问控制方法中,属性作为访问控制信息可以实现对数据分层、分级的细粒度授权访问,在变粒度访问控制方法中,可以将对细粒度块拥有授权的属性作为最小访问控制集,通过对最小访问控制集的集合进行合并,生成粗粒度数据的访问控制信息。

(3)基于多方协同授权属性加密的变粒度访问控制方法。传统环境中,数据访问是独立授权给某些单一用户;而大数据环境中,除了部分数据仍然需要独立授权给某些单一用户之外,也存在数据访问需要由多个用户或多个部门协同授权的情况。为解决访问用户的粒度可变问题,本文采用了多方协同授权的访问控制方案。多方协同的属性加密(MABE)支持多用户协同加密,适用于多用户协同授权的访问控制,但是加解密开销大,效率较低。通过对加密属性的数据结构、属性的选取、多方协同机制进行优化,使其适合大数据环境下的多方授权访问控制,在保护隐私的前提下提高效率。

3.4 对抗数据关联性挖掘的隐私保护方法

大数据环境下的数据具有强相关性,数据规模的扩大使得原本稀疏的许多信息升级为隐私。在大数据分析阶段,人们可以结合不同来源的数据集进行挖掘分析,获取某些被精心隐藏起来的隐私信息。已有的数据干扰策略,由于经干扰的数据均与真实的原始数据直接相关,对隐私数据的保护并不理想;已有的查询限制策略,由于查询数据均来源于原始数据,对整个数据集的隐私保护程度并不高。因此,本文提出了一种隐私数据相关性特征的模式挖掘方案。该方法可以对抗数据的关联性,对关联特征进行隐藏,避免在数据分析阶段挖掘出相关数据。

本文提出的隐私数据相关性特征的模式挖掘方案具体包括两个方面。(1)从时间、空间、来源三个维度来探讨大数据相关性的描述模型,挖掘潜在的隐私数据特征。例如,在某一时间和某一地点,能否挖掘出某类数据的来源,或者已知某一时间/某一地点和某类数据的来源,能否挖掘出这类数据发送的地点/时间,并根据相关性特征,构建大数据隐私特征挖掘模型;(2)提出了对抗关联性特征挖掘的多种隐私保护方法。例如,通过信息隐藏等技术,将相关性特征进行保护,以对抗数据分析阶段的数据关联性挖掘。或者在多媒体大数据中,通过嵌入数据的方式对特征进行扰乱,让数据关联性挖掘失效,达到保护隐私的目标。或者通过对特定类型数据进行加密,破坏其相关性特征,达到对抗数据关联性挖掘的目的。

4 结束语

大数据从产生到销毁存在一个完整的生命周期,本文面向大数据全生命周期的安全需求,建立了一种全生命周期的数据保护模型,重点提出了大数据存储过程中的按需审计,大数据使用过程中的多粒度安全访问控制,以及大数据分析过程中的对抗相关性隐私保护等方法,确保大数据在上述三个阶段的安全。由于不同生命周期阶段的数据安全风险不同,数据保护方法也不同,如何在一个大系统里将大数据全生命周期不同阶段的安全防护措施协调起来,实现大数据的全生命和全访问的安全保护,尚需进一步研究的课题。

猜你喜欢
访问控制完整性粒度
一种跨策略域的林业资源访问控制模型设计
超重力场中煤泥颗粒沉降规律研究①
粉末粒度对纯Re坯显微组织与力学性能的影响
关于防火门耐火完整性在国标、英标、欧标和美标中的比对分析
动态更新属性值变化时的最优粒度
ELM及IS/OS完整性对年龄相关性黄斑变性预后视力的影响
更正说明
云的访问控制研究
情感粒度
云计算访问控制技术研究综述