面向大数据的非结构化数据安全保障技术研究

2019-05-25 00:48陈志辉吴敏敏
关键词:套件敏感度结构化

陈志辉, 吴敏敏

( 莆田学院 信息工程学院, 福建 莆田 351100 )

随着社会信息化和网络化的高速发展,大数据已成为目前继云计算之后信息技术领域的另一个信息产业增长点.但随着大数据应用的不断扩展,其安全性问题也逐渐引起了人们的重视.对此,许多学者对大数据的隐私管理、访问机制和数据加密等安全问题进行了研究.例如, W.Itani等提出了有关保护用户隐私的协议[1], S.Creese等提出了企业云部署中的隐私安全管理机制[2], A.Parakh等提出了共享隐式机制[3],但是这3种方案都是基于加密机制的数据隐私性保护方案,缺乏动态的安全策略,不适合于大量非结构化数据的隐私保护.学者们除了对数据的隐私和访问机制进行研究外,还对数据存储的加密算法进行了研究,如加法同态的Paillier算法[4]、加法和乘法的同态IHC和MRS算法[5]以及C.Gentry的理想格的加密算法[6]等.这3种算法虽然都能满足聚合与计算的安全需求[7],但无法对组合的数据集提供不同等级的安全保障,若直接将算法运用于大数据上,其效率必然低.为此,本文提出一种基于熵值法赋权的非结构化数据敏感化模型,动态地调度安全套件内的算法来保障非结构化的数据安全,并通过实验验证本文方法的有效性.

1 技术框架

本文的安全框架主要包括两个功能:一是应用数据分析(包括数据过滤、集群和分类)动态地识别出数据的类型和敏感度,该功能有助于为数据库构建数据节点.数据库节点包含不同类型的数据,例如文本、XML、电子邮件、图像、视频和音频等.二是将现有的安全服务标准或算法集成优化,构建安全套件,通过接口的调度保护数据的隐私性、完整性以及不可抵赖性.本文的安全框架图如图1所示.

图1 大数据安全框架

1.1 数据敏感度级别

目前,非结构化数据普遍采用KerBeros协议,并结合访问控制表对用户进行授权访问[7].该访问模式的数据敏感性只能通过人工识别后标识,因此文件只能是静态的访问控制方式,容易导致数据的泄露.因此,有必要设计一个数据敏感度级别评估器,自动地识别出数据的敏感度级别.本文设计的数据敏感度级别识别模型如图2所示.图2中,Ui表示用户;Di表示数据集;Ri表示数据项的集合;Ri,j表示集合Ri指向一个具体数据项j的边;CUi,Di表示用户Ui对数据集Di的访问次数;dRi,j,Rm,n表示数据集Ri中的一个具体数据项j指向集合Rm中的一个具体数据项n的边.

图2 数据敏感度级别识别模型

信息熵可以解决对数据敏感度级别的量化度量问题,即用熵的变化来识别数据敏感度.

(1)

信息熵表示为

(2)

其中p(xi)表示数据集i的概率函数, 它主要受数据使用率、连接度和数据质量3个因素的影响,即:数据项使用频率越高,敏感度越高;数据项连接越多,数据敏感度越高;数据的损坏或缺失越大,数据敏感度越高.

定义2数据使用率函数

(3)

定义3连接度概率函数

(4)

定义4数据质量函数

(5)

(6)

将式(3)—(5)分别代入式(2)中,得:

(7)

(8)

(9)

将式(7)—(9)分别代入式(6)中,得:

(10)

将式(10)代入式(1),计算所得的取值范围为0~1.本文为数据集设计一个基于代码的场景.所有数据被定义为3个级别,其中敏感度C(xi)趋近0是受敏感协议保护的数据集,设定其敏感度级别代码为“01”,这类数据必须实施最强的安全标准或算法,以确保最高级别的安全性;敏感度C(xi)趋近0.5的数据集,设定其敏感度级别代码为“02”,这类数据需要处理速度快的安全算法,但其安全标准可低于“01”标准;敏感度C(xi)趋近1是对访问和存储数据的环境风险控制要求较低的数据集,设定其敏感度级别代码为“03”,这类数据仅使用身份验证即可访问.

1.2 安全套件

安全套件是数据文件安全防护的重要模块之一,它包含访问控制、加密和签名等功能组件[8].本文中的安全套件是指在现有安全标准或算法的基础上,按照不同的安全需求变换组合后形成的安全算法库.基于文本TX的安全套件(见表1),本文从3个方面考虑安全问题:一是隐私性(CS).隐私性首选的数据加密标准为DES(Data Encryption Standard), 3DES(3次DES算法)用于敏感度级别更高的数据集.二是完整性(HF).散列算法Snefu-256和Tiger都能保证数据的完整性,但蛮力攻击测试结果表明Snefu-256算法更适合于敏感度级别高的数据集.三是真实性(MC).AES-CCM和HMAC-SHA1算法都能保护数据的真实性,但由于AES-CCM是加密算法和认证算法的混合模式,执行时间相对长,因此更适合于敏感度级别高的数据集.当用户访问或存储数据时,系统依据代码调度安全套件中的相应算法,并激活适合的安全服务.例如,对于代码为TXCS01,系统选取3DES算法为数据提供加密服务.

表1 文本TX的安全套件

基于XML文档的安全套件,本文主要考虑加密、数字签名、身份验证和访问控制等服务,这些服务的代码分别定义为EC、DS、AC和AP.XML Enc用于对XML文档实施加密,维护XML文档的隐私性;XML_DSig用于提供XML文档数字签名,确保消息的不可抵赖性等;安全断言标记语言SAML用于提供身份验证和信息授权等;可扩展访问控制标记语言XACML用于访问控制策略.部分XML文档安全套件如表2所示, 表中XX表示通用服务代码.因电子邮件、图像、视频和音频等数据的安全套件创建办法与文本TX和XML文档类似,故在此省略.

表2 XML文档的安全套件

1.3 性能分析

为了分析系统的性能,本文构建一个评估函数对数据安全性能进行评估.

定义6某一数据集的系统开销(处理时间)由该数据集内不同敏感度级别的安全性权值与概率的各乘积之和来表示,即:

(11)

其中:O(S)表示开销(处理时间)的函数,若O(S)=1, 则该套件将承担所需的全部开销;S表示不同数据类型的安全套件.Vk表示敏感度级别为k的数据其安全性所需的值.对于敏感度级别“01”的数据,使用安全度最高的服务,设定V1=1; 对于敏感度级别“02”的数据,提供必要的安全性,设定V2=0.6; 对于敏感度级别“03”的公共数据,则设定V3=0.1.Pk表示敏感度级别为k的数据的概率,k=1,2,3.

为了研究数据敏感度问题,对某一地区机构组织的数据进行分析,结果见表3.从表3数据可知,教育机构的敏感性相对最低.若单独对教育机构提供安全套件的安全保障,可为其节省59.5%的系统开销.

教育机构O(S)的计算方法如下:

O(S)=V1P1+V2P2+V3P3=1×0.2+

0.6×0.25+0.1×0.55=0.405.

若为教育、医疗机构和研究所等6个机构组织提供安全套件的安全保障,则可为其节省44%的系统开销.由此可知,本文提出的方法不仅具有安全性,还能显著提升系统的性能.

表3 某地区不同机构的数据敏感度级别

2 实验结果与分析

使用Java编程语言支持的包访问不同的数据源,并将数据存储到MongoDB数据库中,然后利用实验验证本文方法的有效性.

2.1 数据源与检索

实验数据源选取于维基百科数据和百度,因为二者都有单独的数据检索,可检索到大量的图片和文本等数据.首先,通过Java支持的包对维基百科和百度数据源进行数据检索,并确定文件的数据类型;其次,通过数据敏感度级别评估器对检索到的数据集进行评估,并生成对应的数据敏感度级别代码;最后,利用Java程序将每个数据文件(包括数据类型和敏感度级别)存储到MongoDB数据节点中.

2.2 实验结果与分析

为了证明系统的性能,使用2组数据集(数据均从MongoDB中读取)进行实验.其中一组读取原始数据集,以最高安全3DS算法、敏感度级别为“01”和“02”的安全标准对其进行实验,执行时间如表4—表6所示.另一组读取含有数据类型和敏感度级别的数据集,应用安全套件对其进行实验,执行时间如表7所示.从表4—表7中的数据可知,应用安全套件的执行时间均低于上述各级别算法的执行时间.

表4 应用3DES算法的执行时间

表5 应用敏感度级别“01”算法的执行时间

表6 应用敏感度级别“02”算法的执行时间

表7 应用安全套件的执行时间

各算法处理数据集的时间开销如图3所示.从图3中可以看出,应用安全套件处理数据的时间开销均小于应用其他安全算法处理数据的时间开销.这是因为安全套件是动态的安全标准,它根据数据的敏感度选取最适宜的安全标准,因此处理速度较快.图4为应用安全套件的时间开销与其他算法的时间开销的百分比.从图4中可以看出,若为其提供安全级别高或较高的算法,如3DS算法和敏感度级别“01”算法,其处理时间大幅增加;若为其提供安全级别低的算法,如敏感度级别“02”算法,虽然处理时间会相应减少,但其数据安全性较低.而应用安全套件算法,不仅能保证数据的安全性,而且还能明显降低时间开销(仅占3DS算法时间开销的46.49%和敏感度级别“01”算法时间开销的52.85%).

图3 各算法的时间开销

图4 安全套件算法的时间开销与其他算法的时间开销的百分比

3 结论

实验表明,本文提出的基于熵值法赋权的非结构化数据敏感化模型,在能够充分保障大数据安全的前提下,其系统的时间开销不超过传统方法的52.85%,因此本文模型有助于用户安全、快速地访问非结构化数据.在研究中,本文仅对非结构化数据进行了动态访问策略的研究,而对于有实时性要求的场景未能进行研究,因此今后我们将考虑基于时间自动机的实时系统应用的研究.

猜你喜欢
套件敏感度结构化
“保护”老年人的套件设计
假体周围感染联合诊断方法的初步探讨*
一种基于属性的两级敏感度计算模型
改进的非结构化对等网络动态搜索算法
深度学习的单元结构化教学实践与思考
结构化面试方法在研究生复试中的应用
左顾右盼 瞻前顾后 融会贯通——基于数学结构化的深度学习
美国火力控制器公司X01卡宾枪转换套件
买菜车的春天AC Schnitzer宝马3全系改装套件
下尿路感染患者菌群分布及对磷霉素氨丁三醇散敏感度分析