陈垚坤 尹香兰 刘文丽
陈垚坤 尹香兰 刘文丽
(江南计算技术研究所 江苏无锡 214083)
【 摘 要 】 论文分析大数据的特点及体系架构,得出大数据环境下访问控制应满足的原则,即自主、动态、细粒度、跨域授权。通过对比分析访问控制模型DAC、MAC、RBAC及ABAC在大数据环境下适用性,得出结论:ABAC模型最适合应用于大数据。同时,论文针对大数据特性对各模型提出改进建议。
【 关键词 】 大数据;访问控制
【 中图分类号 】 TP393 【 文献标识码 】 A
【 Abstract 】 This paper analyzes the characteristics and architecture of Big Data.The Conclusion shows that Big Data need an independent, dynamic, fine-grained,cross-domain access control model.The applicability of DAC, MAC, RBAC, ABAC in Big Data environment has been comparingly analyzed.The Conclusion shows that ABAC is the most applicable access control model for Big Data.The suggestions of making improvements to adapt to the Big Data features have been proposed for access control models.
【 Keywords 】 big data; access control
1 引言
近年来随着互联网行业的快速发展,全世界每年产生的数据规模也在剧烈增长。全球数据量从2010年起正式进入ZB(109TB)时代,2011年达到1.8ZB,2012年2.7ZB,而且这个数字正在以超过年平均50%的速度增长,2020年预计将达到35ZB[1]。与此同时,大数据技术包括数据采集、存储、管理、分析挖掘、可视化等也在迅速发展。这些现象表明,大数据时代已经到来。大数据迅速发展的同时,安全问题也逐渐显露出来,因为大数据具有数据体量巨大(Volume)、数据类型繁多(Variety)、价值密度低(Value)、处理速度快(Velocity)等4V[2]特性,其所面临的安全威胁也是非传统的。
目前,大数据资源安全主要面临着多种的风险:非法用户进入系统、合法用户访问权限外数据、敏感信息有泄漏风险[3]。针对以上安全风险,通常采用的安全措施:使用身份验证系统阻止非法用户接触数据;建立访问控制体系确保合法用户只能访问权限内数据;对敏感数据进行加密存储以确保其隐私性等等。以上安全措施中,身份认证技术主要针对用户群体,只需要应对用户群规模的增大作改进;加密存储技术主要针对数据资源,只需要应对数据的规模增大和实时性强而作出改进。这两项技术相对而言改进较少,较容易将传统技术移植入大数据资源系统。而访问控制系统需要同时应对用户群体和数据资源的规模增大和高实时性,访问权限管理变得相当复杂,很难在现有数据资源存储系统中常用的访问控制技术上作改进移植。因此,分析访问控制模型在大数据环境下的适用性,找出一种能很好使用大数据特性的访问控制模型,成为大数据安全方面的重要课题。
2 大数据体系结构分析
2.1 大数据技术体系结构
大数据的技术体系结构如图1所示。大数据的数据源包括结构化数据、非结构化数据和半结构化数据[4],其中结构化数据所占的比例较小,绝大多数为非结构化数据和半结构化数据,这正是大数据区别于传统数据应用的方面,而这种数据结构比例也决定了传统的数据存储、分析、安全技术需要作出较大改动才能使用于大数据。大数据的预处理过程包括数据清洗和元数据抽取[5],这一过程可以将大数据中的无效或低效数据筛除。大数据处理平台将筛选过的数据存入专门设计的高效分布式存储系统,并基于此存储系统实现并行计算框架和高性能数据库应用,目前最适用的大数据处理平台是Hadoop平台[6]。在大数据生态体系的上层,用户通过多种方式接入大数据,通过身份验证后可调用大数据提供的多种数据服务,包括高性能计算、数据查询、数据分析和数据挖掘等,用户调用的这些数据服务必须通过访问控制获得相应权限后,才能访问数据处理平台中其所需的数据。
2.2 大数据访问控制原则
通过以上对大数据体系结构的分析结合大数据的4V特点,可以得出大数据环境下访问控制的四项原则。
(1)自主授权。大数据环境下,资源分布式存储且规模巨大,如果采用管理员授权模式,授权效率低下,因此需要资源所有者能够自主授权,提高授权效率的同时增强授权的灵活性。
(2)动态授权。大数据环境下,资源与用户时刻都在动态变化中,静态的授权方式难以应对这种动态变化,无法保证授权的有效性。
(3)细粒度授权。非结构化和半结构化数据在大数据中占绝大部分,繁杂的数据类型导致传统的授权模式难以满足最小授权原则。
(4)跨域授权。大数据中采用分布式存储的方式,同时内部会形成多个逻辑上的安全域,会出现频繁的跨安全域访问,必须保证跨域访问的安全性。
3 经典访问控制模型适用性
3.1 自主访问控制模型DAC适用性
自主访问控制(Discretion Access Control,DAC)由客体拥有者规定主体对客体的访问权限,自主性体现在客体拥有者可以自主决定客体的授权。DAC模型的实现方法有三种:访问控制矩阵、访问控制列表、访问控制能力表。
由定义可知DAC模型灵活性高,可以满足自主、细粒度授权的需求。但在大数据环境下,若用户为O(m),资源为O(n),则访问控制矩阵空间代价为O(mn),访问控制矩阵的规模巨大导致管理困难,用户和资源动态性变化带来的矩阵维护同样非常困难,且DAC属于静态授权,没有考虑跨域访问时复杂的上下文环境带来的影响。同时,DAC存在安全性不高的缺陷:权限具有传递性,权限管理容易失控,无法阻止客体的非法访问。
3.2 强制访问控制模型MAC适用性
强制访问控制(Mandatory Access Control,MAC)的基本思想是通过给主体和客体标记安全等级,控制信息只能从安全级别低的实体向安全级别高的实体流动。
MAC安全性较强,但在大数据复杂的访问环境中难以为规模庞大的主客体制定恰当的安全等级,将千万上亿级别的数据仅仅划分为数个或数十个安全等级显然并不合适,同时其授权模式简单,对权限的控制力度也很粗放,难以满足自主、动态、细粒度授权的需求。MAC也属于静态授权,没有考虑上下文环境,在跨域访问时,不同安全域之间的安全等级可能有不同定义,安全性无法满足。
为适应大数据环境,可在MAC模型中加入基于行为的考虑,将行为定义为角色、时态和环境的综合体,既考虑了上下文时态对权限授予的影响,又继承了MAC的强安全性。
3.3 基于角色访问控制模型RBAC适用性
基于角色的访问控制(Role-Based Access Control,RBAC),引入了角色的概念,作为主体和客体之间桥梁,将权限分配给角色,并将角色分配给系统中的用户来授予用户相应权限。
RBAC是传统的管理员授权模式,无法自主授权,管理员可能缺乏足够的专业知识,无法准确地为用户指定可访问的数据范围,而且由管理员集中定义用户所有授权规则的方式从效率角度考虑也不理想。传统数据服务中,RBAC中角色的划分基于精确、封闭的用户集和资源集,在大数据环境下,由于用户集和资源集的动态性,RBAC难以预先定义角色。当用户、资源动态变化时,与之相关的角色也可能失效需要重新定义,难以管理和维护。此外,RBAC同样属于静态授权,没有考虑跨域访问时复杂的上下文环境。
因此,若要改进RBAC模型使其适用于大数据环境,可以从两方面入手。
(1)大数据角色挖掘技术。设计角色挖掘算法,分析系统中的访问记录,自动提取角色并对其进行优化,在系统中生成最小角色集,为用户提供高效的个性化授权服务。
(2)基于工作流改进。从工作流中的任务角度建模,将工作流分解为一些相互依赖的任务,然后将任务分配给角色,角色通过执行任务节点动态获得权限。
4 基于属性模型适用性
基于属性的访问控制模型ABAC(Attribute Based Access Control)是一个四元组(S、O、P、E),其中S、O、P和E分别是由主体属性、客体属性、操作属性和环境属性确定的主体、客体、操作和环境集合。ABAC制定完善的属性策略集,用户的每一次访问都要通过策略集判定是否合法,若合法则授予相应的访问权限。
ABAC可以很好的适用于大数据场景,体现在四个方面。
(1)细粒度访问控制。ABAC模型将一次访问过程的所有元素使用属性描述,可以严格控制访问者取得权限的各种条件,并且将可访问范围精确到块级别的资源,满足最小权限原则。
(2)自主授权。在ABAC模型中,所有的访问控制策略都由资源所有者制定,而且模型可为用户提供策略管理接口,资源所有者可以根据自身实际应用需求新建、修改、删除策略,保证了资源能够按照其所有者的意愿被访问。
(3)动态访问控制。在ABAC模型中,属性的定义和设置有很大的灵活性,能够大规模动态扩展,可以满足各种规模的应用系统的需求。模型中可以设置监控模块,针对各类属性动态变化的情况,制定应对机制,可以及时中断访问,避免因属性动态变化造成的非法访问,保证了模型的安全性。
(4)较小的系统开销。传统访问控制在用户和资源数量大幅度增加的情形下,访问控制规则数目会呈现指数级增长,系统的维护量急剧增加,加大系统的开销。ABAC中,访问控制规则随用户和资源数量的增长呈现线性增加,系统开销小。
为使ABAC模型更好的应用于大数据场景,应选择一种标准、通用可扩展的策略描述语言。可扩展访问控制标记语言(Extensible Access Control Markup Language,XACML)是一种基于XML的平台无关的策略描述语言,XACML提供了多种策略合并算法,策略的合成灵活多变,有强大的访问控制策略表达能力,可做为ABAC的策略表达语言。
5 结束语
大数据快速发展的同时,也面临着安全挑战。本文通过分析大数据的特点及体系架构,得出大数据环境下访问控制的原则,即自主、动态、细粒度、跨域授权。根据上述原则,对比分析访问控制模型DAC、MAC、RBAC及ABAC,经分析ABAC模型最适合应用于大数据,此外还针对大数据特性对各模型提出改进建议。下一步的工作集中在将ABAC模型融入大数据应用系统。
参考文献
[1] 李国杰,程学旗.大数据研究:未来科技及经济社会发展的重大战略领域——大数据的研究现状与科学思考[J].中国科学院院刊,2012,27(6).
[2] 冯登国,张敏,李昊.大数据安全与隐私保护[J].计算机学报,2014,37(1):246-258.
[3] 孟小峰,慈祥.大数据管理:概念、技术与挑战[J].计算机研究与发展,2013,50(1):146-169.
[4] Nandimath J,Banerjee E,Patil A,et al. Big data analysis using Apache Hadoop[C]// Information Reuse and Integration (IRI), 2013 IEEE 14th International Conference on. IEEE, 2013:700 - 703.
[5] 朱星烨,何泾沙.大数据安全现状及其保护对策[J].信息安全与通信保密,2014(10):33-35.
[6] 温春,郑静,张红军.浅谈大数据风险与应对策略[J].信息安全与通信保密,2014(10):44-44.
基金项目:
国家核高基项目 (2013ZX01029002-001)。
作者简介:
陈垚坤(1991-),男,汉族,陕西汉中人,毕业于北京大学,在读硕士研究生;主要研究方向和关注领域:信息安全。
尹香兰(1980-),女,汉族,湖南邵阳人,毕业于解放军理工大学,博士,工程师;主要研究方向和关注领域:信息安全。
刘文丽(1972-),女,汉族,安徽合肥人,毕业于吉林大学,硕士,高级工程师;主要研究方向和关注领域:信息安全。