基于数据敏感性的大数据存储安全技术

2020-10-27 09:46胡志达
移动通信 2020年8期

胡志达

【摘  要】

针对云环境下数据安全和数据集敏感元素无法自动识别、自动动态分级的问题,提出一种面向文档级别的敏感元素自动化识别与动态分级算法,利用大数据语义识别技术,对各类文档的数据价值元素进行自动化提取,采用向量化处理的方式得到文档的特征向量,结合特征向量相似度量化文档的敏感度从而实现文档的自动分类分级。实验表明,该算法能够比较准确地识别并分类任意规模、非结构化的文档敏感元素,该算法无须提前知道文档敏感元素的特征,敏感特征字典,兼顾了平台存储安全的效率和安全性。

【关键词】数据敏感性;语义识别;价值元素;存储安全

[Abstract]

In order to solve the problems of the inability to automatically identify and dynamically classify the data security and sensitive elements of data sets in cloud environment, this paper presents a document-oriented algorithm for automatic identification and dynamic classification of sensitive elements. Specifically, the big data semantic recognition technology is used to automatically extract the data value elements of various documents, and the feature vector of the document is obtained by vectorization methods, and the sensitivity of the document is quantified by combining the similarity of the feature vector to realize the automatic classification and grading of documents. Experimental results show that the algorithm can accurately identify and classify the sensitive elements of unstructured documents with any scale. The algorithm does not need to know the characteristics of sensitive elements and sensitive feature dictionary in advance, which balances the efficiency and security of platform storage security.

[Key words]data sensitivity; semantic recognition; value element; storage security

0   引言

多租戶和虚拟化技术在促进了云计算快速发展的同时,也面临着数据存储的安全问题。2009年谷歌大批用户隐私文件泄露问题;2012年亚马逊的数据丢失;2014年iCloud泄露的明星隐私照片问题。上述问题加剧了用户对云计算存储安全的担忧。当前已经有很多学者针对数据敏感信息的安全存储方法进行了大量的研究。Shaikh等人[1]针对数据敏感属性提出了基于数据安全需求的分级模型。何文竹等人[2]提出一种面向结构化数据集的敏感属性识别与分级方法,但是该方法仅针对结构化数据集实现,而且敏感性属性也是提前设置的,因此不适用于云计算各种半结构化或者结构化数据的敏感识别与分级。马晓亭[3]提出大数据环境下图书馆敏感数据的识别与保护,采用大数据语义识别技术来构建敏感数据挖掘模型,实现敏感信息的解析和内容的分类。周晨炜[4]针对大数据时代的隐私保护问题,提出一种对敏感属性约束的分级量化匿名模型。程永新等人[5]提出一种敏感数据字典和正在表达式匹配的敏感数据识别算法。王雷等人[6]提出一种基于数据字典的敏感数据识别方法。本文针对当前的敏感数据分级分类方法不适用于实际生产环境的敏感元素识别及分类等问题,提出一种面向文档级别的非结构化数据集敏感元素自动识别与分类方法。该方法采用大数据语义技术提取各类文档的价值元素,以文档价值元素为对象,采用特征向量相似度的方法实现敏感数据的自动识别与分析。与传统方法相比,该方法无须预知文档数据的内容属性、敏感字典、匹配规则,能够实现任意规模非结构化数据集的敏感元素识别和分类。

1   基于数据敏感性的大数据存储安全模型

基于数据敏感性的大数据存储安全模型包含的各个模块如图1所示:

1.1  大数据语义识别器

大数据语义识别器包含两个模块:知识库构建和文本语义解析。

知识库构建包括知识抽取、知识融合和知识推理。

知识抽取就是针对文本信息对文本进行实体抽取、关系抽取和属性抽取。实体抽取结果包括:人名、地名、机构名、媒体、作者及文本的主题关键词;关系抽取是指从文本中抽取两个或者多个实体之间的语义关系;属性抽取,又称为事件抽取,包括事件发生的时间、地点以及参与事件的人物等。

知识融合就是通过消除实体、关系、属性之间的歧义,形成高质量的知识库。

知识推理的主要作用是对原有知识库的扩展和修正。也就是针对现有知识库和已抽取知识的关系进行推理,从而发现原有知识中隐含知识,从而实现知识库的自我更新。

文本语义解析就是将文本转化为一种能知识库“看懂”的语义表示。语义解析分为语义映射和语义构建。

语义映射就是将单个自然语言短语或者术语映射到知识库实体或者知识库实体关系所对应的逻辑形式,也就是构造语法树节点。

语义构建就是构建语法树,本质就是自底向上对树的节点进行合并,最终生成语法树根节点,最终提取文本的语义信息。

通过上述两个模块,大数据语义识别器能够提取文档中隐含的、准确的、有用的信息,以便识别出该文档的数据质量和价值信息。基于大数据容器提取的价值元素包括:数据来源、信息生产者、标题、关键词、摘要、创建时间、使用语言种类、格式、浏览次数等等。价值元素作为一个非结构化的数据集,需要采用实体内嵌表示的方法实现价值元素向量化,以便在后续方便提供不同类别之间的距离信息。

1.2  敏感价值元素识别器

敏感元素价值识别器针对大数据语义识别器提取高维度的语义信息提出的。如何解决语义信息高维度产生的灾难问题,是数据存储安全的研究难点。为了解决这一个问题,特征选择应该被应用到敏感价值元素识别器中,也就是如何在众多的语义信息中,提取或者变换出对价值元素识别有利的特征,以降低特征维度,提升数据安全识别的效果和性能。特征贡献度通常用于特征选择、优化特征分类空间,采用简单的数据统计和归纳方法获得重要特征,具有减人工干预、适用于面向对象特征挖掘的优势[13]。因此,本文考虑了语义信息的特点,采用特征贡献度作为敏感价值元素识别器识别价值元素的关键方法。

特征贡献度(Feature Contribution Degree, FCD)作为一种特征选择的方法,是用于识别特征对类别之间区分能力的贡献度。本文基于价值元素向量分布情况,采用特征贡献度的方法对关键价值元素进行选择,降低敏感性计算的复杂度。

其中,m为平台数据集的类别数,一般分为敏感性和非敏感性两类,df(t, ci)表示价值元素t在ci类文档中出现的文档数,表示价值元素t在其余文档中出现的文档总数。

显然,FCD很好衡量了某些价值元素在敏感性文档和非敏感性文档的区别程度。一般来说,FCD的取值范围在[0, 1]范围内,FCD越大,则说明某个价值元素对敏感性/非敏感性文档的区分贡献度越大,对于敏感性/非敏感性文档的区分的指导意义越大。

1.3  价值元素向量相似性分析器

价值元素向量相似性分析器是用距离函数对价值元素特征向量进行相似度度量,进而实现待识别文档的价值元素向量与数据库特定文档集价值元素的相似性。

通过价值元素识别,提取贡献度较大的m个价值元素向量,在向量拼接的基础上计算待识别文档价值元素向量与数据库特定文档集价值元素向量的相似性,结合相似度阈值判断待识别文档是否具有敏感性。

1.4  數据敏感性评估器

数据敏感性评估器是通过对数据使用频繁程度、数据被访问次数以及数据来源的可靠程度等敏感性内容进行采集,然后采用离散随机变量信息熵来评估数据的敏感度。

数据的敏感性取决于多种元素,一般来说,数据使用的越频繁,那么它被滥用的可能性越多,数据越敏感;数据质量越高,数据来源越可靠,数据越敏感,数据质量一般从文档元数据获取;价值元素向量相似性越高,数据越敏感。基于上述三个元素,采用离散随机变量信息熵评估敏感数据敏感度。

其中,表示文档的敏感度,表示平台全部文档的熵,表示某个文档的熵。的取值范围从0到1,数值接近0表示文档最敏感,数据接近1表示文档不敏感。

1.5  数据敏感性分级

基于敏感性评估器得到的文档敏感性对文档进行分级,分级结果如表1所示:

2   实验与分析

为了验证模型处理非结构化数据的处理能力,分别对多个规模的文档进行了实验对比,文档的大小分别是2G、4G、6G。本文将计算使用该模型计算文档的敏感性后,利用存储策略文档进行文档的存储所需要额外的开销、敏感数据识别率进行对比,以此证明该模型是否具有一定的实用性。

从图2可知,本文通过数据敏感度评估器获得文档的敏感度,在基于数据敏感分级的基础上,利用存储策略文档实现存储安全的控制,根据实验结果表明,模型与数据集合并时,会额外增加约15%的开销。

图3说明了基于人工识别和文本模型的数据敏感度对比。人工识别是通过随机抽取10名志愿者,每个志愿者随机抽取的20个文档进行敏感度识别;本文模型识别是利用本文提出的算法每次对随机抽取的20个文档进行敏感度识别。上述两种识别结果都需要与知识工程师对文档打标签的结果进行对比,最终得到数据敏感度识别率。本文提出的数据敏感度识别准确率平均值为81%,误报率平均值为14%,漏报率为7%;而利用人工的方法对数据敏感度识别准确率平均值为59%,误报率为20%,漏报率为21%。除此之外,人工方法对数据敏感度识别准确率波动较大。基于上述的结果分析可知,本文提出的基于数据敏感性的大数据存储安全模型具有一定的应用价值。

3   结束语

针对当前云计算安全存储技术的不足,本文提出一种基于数据敏感性的大数据安全技术,通过对文档数据价值元素的自动化识别,采用敏感性评估器对数据的敏感性进行评估,实现文档安全等级的划分,结合存储策略文档,实现文档的安全存储。实验表明,本文提出的模型能够针对云平台不同文档进行自动化、动态存储,能够有效保护云平台中的敏感数据。在后续工作中,将继续研究敏感度评估器各组件的性能,进一步优化模型的性能,降低模型的时间开销,将敏感度评估信息进一步修正,以方便网络管理员针对存储策略文档制定差异性的存储策略,提升云平台的存储安全技术水平。

参考文献:

[1]    SHAIKH R, SASIKUMAR M. Data classification for achieving security in cloud computing [J]. Procedia computer science, 2015,45: 493-498.

[2]    何文竹,彭長根,王毛妮,等. 面向结构化数据集的敏感属性识别与分级算法[J]. 计算机应用研究, 2019,37(10): 1-7.

[3]    马晓亭. 大数据环境下图书馆敏感数据的识别与保护[J]. 图书馆论坛, 2017,37(4): 129-136.

[4]    周晨炜. 基于敏感度分级量化的微数据匿名模型研究[D]. 西安: 西安电子科技大学, 2018.

[5]    程永新,胡永,郭振宇. 一种数据库敏感数据自动识别方法[P]. 中国专利, CN104794204A, 2015-07-22.

[6]    王雷,林素标. 一种敏感数据自动识别与分类的方法[P]. 中国专利, CN104933443A, 2015-09-23.

[7]    李海峰,章宁,朱建明,等. 时间敏感数据流上的频繁项集挖掘算法[J]. 计算机学报, 2012(11): 71-81.

[8]     马良玉. 云平台中网络信息安全存储方法仿真研究[J]. 计算机仿真, 2018,35(12): 240-244.

[9]     田立伟,樊勇. 大数据环境下云存储平台安全机制研究[J]. 科技视界, 2016(15): 84.

[10]   许青林,覃国民,姜文超,等. 敏感数据自主可控的云存储平台元数据管理[J]. 广东工业大学学报, 2014(4): 46-53.

[11]    张晓阳. 海洋环境信息云平台数据安全等级自动划分的研究[D]. 青岛: 中国海洋大学, 2015.

[12]   瞿飞. 基于云平台的企业数据安全研究与保护[D]. 南京: 南京大学, 2014.

[13]   孙俊娇,王萍,张英,等. 特征贡献度与PCA结合的遥感影像分类特征选择优化方法研究[J]. 测绘与空间地理信息, 2018,41(1): 49-54.