软件定义边界下的可信动态访问控制模型研究

2020-10-27 09:46王骏彪

移动通信 2020年8期

关键词：动态

王骏彪

【摘要】

针对传统访问控制模型引发的数据泄露和安全问题，结合企业不断提升的数据泄漏防范要求，提出软件定义边界下的可信動态访问控制模型，利用数据的语义信息、数据来源信息、数据使用模式计算数据访问的可信度，以此来强化动态访问策略，在评估数据的可信度上用户干预性最小，根据访问数据集实时情况所引起的可信度变化来调整访问控制策略。实验结果表明，该模型能够以较少的开销增强对多源数据集的访问控制，解决了当前软件定义边界下云平台中访问控制模型安全性不足的问题。

【关键词】可信度;动态;访问控制策略;数据语义信息

[Abstract]

In view of the data leakage and security problems caused by the traditional access control model and the continuous requirements of data leakage prevention from the enterprises， this paper proposes a trusted dynamic access control model under the software-defined boundary， which uses the semantic information， data source information and data usage mode to calculate the credibility of data access， so as to strengthen the dynamic access strategy and minimize the user intervention in evaluating the data credibility. Furthermore， the access control strategy is adjusted according to the credibility change caused by the real-time situation of the access data set. The experimental results show that the proposed model can enhance the access control of multi-source data sets with less overhead， and solve the problem of insufficient security of access control model in cloud platform under the current software-defined boundary.

[Key words]credibility; dynamic; access control policy; data semantic information

0 引言

随着通信技术和信息化技术的快速发展，企业从各种来源获取的数据会引发安全漏洞和数据安全问题。在企业使用的各种数据中，非结构化数据是企业数据库的重要组成部分，这源于非结构化数据内容丰富，呈现多样化。如此信息丰富的数据一旦泄露，将会对公司造成损失。基于传统文件级别的访问控制技术，数据的可靠性只能从人工经验或者从提供的信息中进行识别，不能满足现代数据量激增的访问控制要求，因此，构建一个能够根据数据可信度的动态访问控制模型很有必要。本文提出一种软件定义边界下的可信动态访问控制模型。

软件定义边界是基于用户上下文而不是凭证来授权企业资产访问，通过以用户为中心的动态访问控制来验证连接用户的身份，采用访问控制模型来解决大数据环境下授权的即时性和访问的动态性。这种新的安全架构技术能够应对平台风险和权限提升，用户与系统和应用间的互动是实时的，当用户行为或者环境发生变化，软件定义边界会持续监视上下文，基于位置、时间、安全状态和自定义属性实时访问控制的策略，真正实现用户中心化认证授权和设备资源访问控制的目的。目前已有不少学者对软件定义安全架构的相关技术进行了研究，比如：田圣彪[1]提出用户中心化认证授权的方法来构建物联网安全架构，以此解决用户授权即时性和用户权限互操性问题;梁栋[2]提出一种基于角色和属性的复合访问控制模型，实现细粒度、扩展性强、易于管理的访问控制模块;刘莎[3]提出一种用户信任度实时、动态地进行更新的用户可信监控模式，以此实现Hadoop云平台的访问控制;付强[4]提出一种多粒度安全控制器架构，通过基础控制模块和多粒度安全定制模块实现多粒度的自定义安全功能。上述学者从不同层面来探讨软件定义边界安全架构的相关技术，目前研究者对软件定义边界安全架构技术还没有形成统一的见解。

本文结合本企业的云平台的特性，探讨软件定义边界下可信动态访问模型的研究思路，结合现有模型的使用现状和缺陷，提出一种云平台的用户可信动态访问控制模型。该模型采用语义解析器实时提取文件的语义向量，然后采用可信度评估器实时评估用户访问可信度，结合访问控制器实现用户访问数据的动态控制策略。通过实验可知，本文提出的算法在不可信数据识别上与传统的人工识别相比具有一定的优势。

1 访问控制模型

1.1 传统访问控制模型

自主访问控制技术（Discretionary Access Control，DAC）是指主体可以决定授予或者撤销对客体资源的访问权限，但是访问控制的实现方式一般采用控制列表或者控制矩阵。因此，当平台的用户量巨大时，维护控制列表将是一项艰巨的任务。特别是当前拥有多租户的云平台，租户访问权限的授予和撤销的工作量是不可估量的，因此，自主访问控制技术不适用于分布式新型网络环境中进行全局管控。

强制访问控制技术（Mandatory Access Control，MAC）避免了DAC权限随意授予或者撤销所带来的全局管控的问题，由网络安全管理员去衡量每一个主体和客体的安全级别并以此为依据判断主体是否有权限去访问客体。MAC采用多层次安全标签实现信息的单向流动[5]，适用于安全性要求高的应用场面，但是由于其具有安全等级强制性太强，不能频繁变更权限的缺陷，不适用于电信运营商等具有多租户管理、具有高度灵活要求的领域。

基于角色的访问控制技术（Role Based Access Control，RBAC），引入角色的概念，将客体的访问权限授予角色，然后对用户分配对应的角色，如此一来，用户就通过角色关联的方式获得访问权限。在大型的系统中，由于角色数量庞大，因此角色管理的工作量也是不可小觑的。另外，一旦角色被盗用，那么将会对整个系统的安全造成严重威胁。

基于任务的访问控制技术（Task Based Access Control，TBAC），从任务的角度完成动态授权，用户的权限随着任务的变化而变化。作为一种动态访问的授權技术，TBAC并没有将任务与角色进行清晰划分，因此在大型的系统中，这种访问控制技术所带来的工作量也是非常巨大的。

基于属性的访问控制技术（Attribute-Based Access Control，ABAC），将属性信息作为决策与授权的依据，解决了大型系统中细粒度管控的问题，具有很强的灵活性和扩展性。但是该方法由于缺乏对策略检索的考量，在检索匹配的时候往往采用遍历数据库的方式，因此造成检索效率低下，查找速度过慢。

1.2 大数据环境下访问控制模型分析

经典的大数据环境下的访问控制模型利用Kerberos协议验证用户的身份信息，结合预先设定的控制表（Access Control List， ACL）授权机制与令牌配合实现集群环境中用户的访问控制。众所周知，上述的访问控制模型是一个基于文件级别、静态的关口式模型，无法结合访问数据内容发现授权人员滥用权限获取敏感信息的行为。针对上述问题，本文提出一种自动化的基于文件语义的访问控制模型，该模型通过记录用户已经访问的数据制定一个基础集，结合基础集与访问客体之间的相似度进行访问判断，如果相似度小于设定的阈值，则判定该行为不可信，根据数据语义变化来调整访问控制策略。

2 基于数据语义的访问控制模型

基于数据语义的访问控制模型包含的模块如图1所示，访问策略记录了用户访问数据的可信度，网络管理有权调整用户访问数据对应的可信度。

用户通过访问控制器对数据进行访问，数据跟踪器能够实时跟踪用户使用数据的来源、数据使用模式。Spark集群对数据跟踪器所产生的数据进行集中存储并处理，来源跟踪器能够对数据的所属出处、创建者等信息进行提取，语义解析器能够提取数据的语义信息，包括所属专题、创建时间、修改时间、格式以及浏览次数。然后基于历史的信息对待访问数据的属性变量与访问偏好属性向量进行相似度判断。最后采用数据可信度评估器来判断当前用户的访问行为，并告知管理员，管理员通过访问策略文档来控制用户的访问行为。

2.1 数据语义解析器

由于大数据平台存放的是多源异构数据，因此需要制定一个利用数据语义、使用模式来获取数据的可信度来强化访问控制策略，在评估数据可信度基础上对用户干预最小，实现策略的动态控制。

本文利用解析器EKEL和属性知识库对在线文档进行匹配，生成语义树。在此基础上，根据语义文法对应的谓词形式从生成树中抽取关键的文本语义知识，该文本语义知识以元祖形式出现，也就是实现了文本知识的结构化。以下重点说明属性知识库的构建过程（如图2所示）。

属性知识库的构建过程包括基于人工经验的术语提取、语料选择、语料聚类、文法解析并构建属性知识库五大模块。

首先，人工经验定义不同领域的术语，比如大数据、云计算、人工智能、语义、自然语言处理等术语。然后基于术语的语料选择模块筛选出包含上述术语的句子，再利用语料聚类模块将含有上述术语的句子进行聚类分析，那么，将含有相同语义的句子聚到一类。

基于属性知识的语料选择模块也会筛选出满足规则的句子，经过语料聚类后进入下一轮的文法构建中。

系统随机将每一类分到语料1和语料2。语料1用于人工经验构建文法，语料2用于测试文法的准确率，结合人工经验对文法进行扩充、修改并实现文法解析。

最后，将解析正确的属性知识放入属性知识库中。反之，修改原有的文法，重新利用文法解析器进行解析，保证属性提取的正确性。

在获取结构化的文本属性（包括专题、创建时间、修改时间、格式以及浏览次数）后，需要对文本属性进行数据语义表示，以实现数据语义信息的表达，数据语义信息表示通常采用内嵌表示的方式实现数据语义向量的提取。

2.2 数据可信度评估器

数据可信度评估器如图3所示，本文通过构建基于时间衰减因子的加权属性信任度模型来反映用户使用数据在时间上的变化情况，并设计数据可信度评估器。

数据可信度是指数据信任度的概率值，也就是通过用户待访问数据的属性向量与系统中设定的属性向量进行相似度比较，其相似性结果就是文本可信度。

本文数据可信度判断过程为：以在一定时间段内用户访问若干数据集的信任度作为训练数据集，通过向量平均后，得到该用户在一段时间内的访问偏好属性向量;然后将用户待访问数据的属性变量与访问偏好属性向量进行相似度计算，如果相似度大于设定的阈值，那么则认为用户当前访问是正常的，否则，则会向管理员发出预警，管理员通过访问策略文档控制用户的访问行为。

2.3 数据可信度模型

网络管理员一般关注当前较近时间段内用户使用数据的偏好，用户近期访问数据使用模式、数据来源、语义信息等属性更能反映数据的可信程度。数据的模式指数据格式、使用语言种类、数据是否加密，数据格式包括PDF、EXCEL、WORD等。数据来源指数据的出处、数据公开程度、数据来源可信度，数据出处包括内部信息数据库、网站、论坛;数据公开程度包括全公开、保密两个属性;数据来源可信度包括正式来源、半正式来源以及非正式来源。正式来源是指数据从企业内部数据库产生的，可信度最高;半正式来源是指从权威网站获得的信息，可信度一般;非正式来源是指在一些常见的论坛上获取，可信度不能保证。语义信息包括数据的专题、创建时间以及浏览次数等。随着用户访问时间的推进，越早访问行为对当前的可信度值计算影响越小，因此，本文在计算用户访问数据的可信度时，引入时间衰减因子来描述在一段时间内访问不同数据使用模式、数据来源、语义信息的变化程度。用户在第k次访问数据所产生的可信度值的时间衰减因子为γn-k。γ的取值范围为0～1，表示可信度值对某种数据类型、专题、方向的重视程度，γ越接近1，表示越重视。因此，引入时间衰减因子后，用户访问数据的可信度为：

其中，n为在一定的时间内（比如观察周期为1个星期）用户访问数据的总次数;k用户第i次访问数据。M、O、S分别为数据的模式向量、来源向量、语义信息向量，每个向量具有n个样本，d维特征。其中，mn1是指数据格式向量，mn2是指语言种类向量，其中mn3是指数据加密属性向量;on1是指数据出处向量，on2是指数据公开程度向量，on3是指數据可信度向量;sn1是指数据专题向量，sn2是指创建时间向量，其中sn3是指数据浏览次数向量。a1、a2、a3分别为数据使用模式、数据来源、语义信息的影响系数，且a1+a2+a3=1。

将公式（1）的模式向量、来源向量、语义信息向量进行均值计算后，得到用户在一段时间内的访问偏好属性向量，其大小为3*d维。

2.4 访问控制器

访问控制器是可信动态访问控制模型的核心，负责接收用户的请求并将用户访问查看数据的结果返回用户。访问控制规则决定了用户是否有权访问其需求的数据，通过可信度评估器，访问控制规则如下：

ACR={user， data， action， decision} （2）

其中，action表示用户的操作，decision表示根据可信度评估器评估访问数据的可信度进而作出允许用户访问或者拒绝用户访问的决定。通过可信度评估器评估用户访问数据的可信度，以返回值的形式出现。如果可信度大于设定的阈值，则表示允许用户对数据执行操作，反之，则不允许用户对数据执行操作。

3 实验与分析

为了验证本文提出模型的能力，本实验将本企业数据库的一些数据进行脱敏处理之后，对本文提出的算法进行验证。本文验证的数据包括结构化数据、半结构化数据和非结构化数据。

结构化数据是指脱敏后的生产运营数据所形成的关系型数据集;半结构数据是指经过脱敏后的企业用户合同数据集;非结构化数据包括各种网站和论坛爬下来的各种用户学习的报告、学习材料、安装工具软件等文件。上述文件包含了数据格式信息、语言种类信息、加密属性信息、数据出处信息、公开程度信息、数据可信度信息、数据专题信息、创建时间信息、浏览信息等。三个数据集分别被分割为20G、40G、80G。本文通过命令行的方式获取访问数据的时间开销，通过对比访问结构化、半结构化和非结构化三种数据类型在使用可信动态访问控制模型前后访问时间开销对比，以测试该模型是否具有实用性。

在本实验中，数据使用模式、数据来源、语义信息的影响系数分别设为0.2、0.2、0.6。假如用户在一段时间内访问数据的总数为3，那么信任值的数据维度为3*3。用户访问数据的可信度计算表达式为：

从图4～图6可知，访问结构化数据时间开销最小，访问非结构化数据时间开销最大，半结构化数据的时间开销在两者之间。与结构化数据相比，半结构化数据的时间增长速度比较慢，这是因为结构化数据必须遍历整个记录才能得到可信度结果，而半结构化数据只需要进行标记就能得到所需要的信息。经过分析，引入了可信动态访问控制模型后，模型的额外平均开销为9.8%。

由于一些非结构化数据是在一些网站上随意爬出来的，为了验证本文提出模型的可靠性，结合知识工程师的经验对企业内部信息数据以及网站、论坛爬下来的数据进行打标签。每一次随机选择20个非结构化文本进行多次模拟，本文采用可信动态访问控制模型，得到最终的文本可信度值如表1所示：

为了验证本文算法的有效性，本文将动态访问控制模型的识别结果与知识工程师的标签结果进行对比，得到的准确率结果如图7所示。

由多次模拟的对比结果可知，本文提出的动态访问控制模型对不可信数据的识别准确率均值为80%。第一次模拟中，模型对不可信数据识别准确率为80%，其中错误识别率为15%，漏识别率为5%;第二次模拟中，模型对不可信数据的识别准确率均值为75%，其中错误识别率为15%，漏识别率为10%;第三次模拟中，模型对不可信数据识别准确率均值为80%，其中错误识别率为20%，漏识别率为0%;第四次模拟中，模型对不可信数据识别准确率均值为85%，其中错误识别率为10%，漏识别率为5%。从上述的分析结果来看，虽然本文提出的动态访问模型对不可信数据具有较高的识别准确率，相比人工识别而言，模型对不可信数据识别准确率在海量访问控制上还是具有一定的优势的。

4 结束语

在软件定义边界下采用访问控制模型来解决大数据环境下授权即时性和访问动态性的问题，但是相关的研究不足以保证数据免遭滥用，此外，很多数据访问控制策略根据专家的经验且没有统一的标准。本文分析了当前环境下访问控制模型的不足，提出一种基于时间衰减的加权属性可信度模型来实现数据的可信动态访问控制。实验表明，本文所提出的模型能够实现多源异构数据的高效访问控制，能够结合用户本身的访问偏好动态调整用户的可信度值并执行动态的访问控制策略，能够有效保护大数据平台的数据资产。

参考文献：

[1] 田圣彪. 面向物联网的用户中心化认证授权系统设计与实现[D]. 北京：北京邮电大学， 2017.

[2] 梁栋. 基于角色和属性的复合访问控制模型的研究与应用[D]. 天津：天津大学， 2014.

[3] 刘莎. Hadoop云平台的用户可信访问控制模型研究与实现[D]. 成都：四川师范大学， 2014.

[4] 付强. 软件定义网络多粒度安全架构研究及实现[D]. 重庆：重庆邮电大学， 2016.

[5] 孙建勋. 基于多属性的访问控制安全策略管理系统设计与实现[D]. 北京：北京邮电大学， 2019.

[6] 李玲瑞，刘胜. 云存储的动态授权可验证访问控制仿真[J]. 计算机仿真， 2019，36（10）： 153-156.

[7] 马丁义，郭银章. 基于信任和属性的云服务访问控制模型研究[J]. 太原科技大学学报， 2019，40（4）： 258-263.

[8] 张芃，周良. 基于信任的动态多级访问控制模型[J]. 计算机与现代化， 2019（7）： 116-121.

[9] 郭凯丽. 基于用户属性和动态信任值的云平台访问控制模型研究[D]. 郑州：郑州大学， 2019.

[10] 石兴华，曹金璇，朱衍丞. 基于可信计算的动态访问控制策略研究[J]. 网络安全技术与应用， 2019（3）： 18-20.