基于差分隐私的大数据安全访问权限认证仿真

2021-11-17 06:36任海玲
计算机仿真 2021年8期
关键词:差分阈值次数

刘 东,任海玲

(1.宁夏医科大学理学院,宁夏 银川 750004;2.宁夏医科大学,宁夏 银川 750004)

1 引言

在大数据时代,社会中各行各业的数据规模都呈现出翻倍式的增长趋势。大数据本身是指一种无法在一定的时间范围中,利用常规的软件工具对其进行捕捉、处理以及管理的数据集合,需要采用全新的处理方式,这样才具备更强的洞察发现力、决策能力,从而获取多样化、高增长与海量优化的信息资源[1]。大数据的主要特点为:真实性、低价值密度、多样性、高速以及大量五个特点。通过这五个特点可以从理论、技术以及实践方面对大数据进行分析,其中,理论方面是指对于大数据认知的途径,同样也是被广泛认同以及传播的基线;技术方面是指怎样通过某些价值的体现;而实践方面则是大数据的最终体现价值手段[2]。

不过随着大数据的使用者越来越多,难免会引起一些不法分子的注意,他们通过入侵或者是一些其它非法手段,利用大数据对个人用户或者企业,甚至是社会、国家等,造成不可挽回的损失,因此,在实现对大数据的集中之后,怎么保证网络数据信息的保密性、可用性以及完整性,已经变成目前各个领域需要考虑的核心问题。而按照安全的防护技术可以分为:大数据应用访问控制、大数据资产梳理、大数据脆弱性检测、大数据脱敏系统,大数据安全审计等,以现有安全防护手段为基础,杨理皓[3]等提出基于差分隐私机制的位置数据隐私保护方法,该方法通过建立多级查询树,使用差分隐私的指数机制来选取访问频率高的内容项,然后对其进行加噪,实现对位置数据隐私的加密保护。分析实验结果可知,该方法的数据覆盖面较广,但是由于数据量较大,导致认证时间较长。毛典辉[4]等提出基于DCGAN反馈的深度差分隐私保护方法,该方法在分析差分隐私特点的基础上,计算深度网络中每一层的隐私预算,在随机梯度下降计算中添加高斯噪声,将总体隐私预算降至最小值,并选取最优结果。实验结果表明,该方法能够对敏感性较高的信息实施隐私保护,但是无法同时处理大量数据,所需时间较长。

针对现有方法存在的问题,提出一种基于差分隐私的大数据安全访问权限认证方法,通过该方法保护用户访问大数据信息安全。

2 差分隐私保护方法

2.1 差分隐私定义

差分隐私主要是利用添加噪声的方式对起始数据进行统计或者扰动转换,以此达到隐藏保护的作用。

给定两个最多相差一条记录的数据集D1和D2,用f代表随机算法,rangef代表算法f全部输出所组成的集合,S代表range(f)的子集。如果算法f要满足式(1),那么算法f存在ε-差分的隐私性

Pr[f(D1)∈S]≤eε×Pr[f(D2)∈S]

(1)

式中:ε代表隐私保护的预算,可以表示算法隐私的保护水平,若ε取值越小,那么隐私保护的水平就越高。

2.2 实现机制

拉普拉斯Laplace噪声机制为差分隐私保护中最常用的方法之一,此机制主要用于数值型的数据隐私保护,将利用拉普拉斯生成的噪声添加至输出值内,完成数据差分的隐私保护。

1)相对于随意的一个函数f:D→Rd,如果算法Y满足式(2),那么称Y可以满足ε-差分隐私公式为:

Y(D)=f(D)+[Lap1(Δf/ε),…,Lapd(Δf/ε)]

(2)

式中,函数Lapi(Δf/ε)(1≤i≤d)代表拉普拉斯的密度函数,Δf=maxD1,D2|f(D1)-f(D2)|代表函数f(D)查询的敏感度。D1,D2代表不同的数据集,d代表查询的维度[5]。

2)对于随意的一个函数f:D→Rd,其算法f全局的敏感性表达式为

Δf=maxf(D1)-f(D2)p

(3)

式中:D1与D2最多相差一条记录;R代表映射实数的空间;p代表度量Δf所使用的时间。

经过以上所述可知,Laplace机制能够很好维持数据的统计特性,使其更加适合数值型的聚类分析[6]。

2.3 组合特性

为了验证算法是否可以满足差分隐私,要满足以下的差分隐私组合的特性:并列的组合性以及序列的组合性。

1)给定数据库D和n个随机算法fi,并且fi能够满足εi-差分隐私,则fi(D)序列组合可以满足ε-差分隐私。

2)将给定的数据库D分成n个完全不相交的子集D={D1,D2,…Dn},如果任意fi能够满足ε-差分隐私,那么序列fi在D={D1,D2,…Dn}上面的操作结果仍然需要满足ε-差分隐私条件。

3 大数据安全访问的权限认证

3.1 查询访问权限原理

权限涉及到的约束如下所示:

1)登录时间约束公式为

T1∈(Ts,Te)

(4)

式中,Ts代表初始时间;Te代表结束时间。登录的时间段要在初始时间至结束时间的约束区间范围之内,且登录的时间不可与初始时间与结束的时间相等。

2)登录次数约束公式为

Nl=[0,Nlt]

(5)

式中,Nlt代表登录次数阈值。登录的次数要在0次与登录的次数阈值约束区间的范围之内,且登录的次数可以与0或者是登录次数的阈值相等。

3)登录时间约束公式为

Tln-Tll>Tli

(6)

式(6)表示该次登录的时间和上一次的登录时间差要超出登录的时间阈值。

4)查询结果数约束公式为

Tll=[0,Tln]

(7)

式中,Tln代表查询结果个数阈值。数据查询的结果个数要在0次与查询结果个数的阈值约束区间范围之内,且查询的结果个数可以为0或者与查询结果个数阈值相等[7]。

5)查询时间约束公式为

Nq∈[0,Nqt]

(8)

式中,Nqt代表查询次数阈值。查询的次数要在0次与查询的次数阈值约束区间的范围之内,且查询的次数可以为0或者与查询次数的阈值相等。

6)查询次数约束公式为

Tqn-Tql>Tqi

(9)

式(9)表示该次查询的时间和上次查询的时间差要超出查询的时间阈值。

Tql=Tqn

(10)

该次查询结束以后,上一次的查询时间自动更新成该次查询的时间[8]。

3.2 大数据标签和标识

以大数据安全访问权限约束条件为基础,设置大数据标签和标识,通过对大数据拥有者或生产者贴上标识,并对访问大数据的对象贴上标签,实现初步认证。

标识:主要是数据拥有者或者生产者定义的记号,主要用来代表数据具有隐私信息的类型。

标签:主要代表被标注的对象安全等级,各个标签l全是通过标识构成的集合,代表被标注的实体具有每个隐私的信息类型,为J子集。利用L代表全部标签构成的集合L=J。

实体:主要是被标签所标注的对象,利用L′代表全部实体集合,将p设成全部进程形成的集合,L′=p∪D。

大数据内为各个实体标注的标签:进程的标签Lp代表进程p的安全等级,而数据标签Ld代表数据d的安全等级[9]。

随意给定两个标签L1与L2,若L1包含L2(公式L1⊆L2成立),代表标签L2要比标签L1包括更多隐私的信息标识,表示被L2所标注实体存在更高隐私性的等级。当L1⊆L2成立时,允许L1标签流向L2标签。

利用符号“→”代表允许实体之间信息的流动,那么以上的规则的具体公式为

∀d,e∈L,L1,L2∈L

Ld=L1∧Le=L2∧L1⊆L2⟹d→e

(11)

将标识的集合设成J={x,y,z},即L的形成过程具体如图1所示。

图1 具体的形成流程

在图1内,最低的安全级别是∅,最高的级别是{x,y,z}。

3.3 访问权限认证

大数据的访问权限授权条件属于数据的所有者,数据处于特定外部条件时能够被进程所访问,因此,利用判定谓词集合代表方位权限,全部访问权限条件所形成的集合可以利用pc表示。

而对于标识t∈J,对数据的拥有者或者是生产者设置的两种访问权限的授权条件分别为:读授权条件t+以及写授权条件t-,其中,读授权条件t+代表进程读取存在标识是t数据能够满足的需求,而写授权条件t-代表进程消密存在标识是t数据要满足的需求。具体需求为[10]:

1)用户要求必须是本人;

2)签名要求必须是此用户的签名;

3)时间要求必须是特定的时间段。

从进程集合一直到访问授权条件的集合关系≻为:

因此,现对于访问读授权条件与写授权条件,二者分别有以下规则:

(12)

(13)

为了能够更好的表达访问授权条件和数据流动二者之间的关系,需要对访问授权条件进行以下扩展:

先定义标签的访问读授权条件集合为“+”,相对于随意的标签l,l+={t+|t∈l}是利用标签l内全部隐私类型的标识t访问读授权条件构成的集合,而定义标签的访问写授权条件集合为“-”,相对于随意标签l,l-={t-|t∈l}。则存在以下规则

(14)

(15)

大数据所有者经过正确设置t+与t-两个访问授权条件,即可对自身大数据完成传输以及访问权限认证的保护[11]。

4 仿真证明

为了验证所提方法的有效性,利用所提方法和基于差分隐私机制的位置数据隐私保护方法和基于DCGAN反馈的深度差分隐私保护方法对实体用户想要访问的数据进行分类分层处理,再给定用户想要数据的文件属性个数,将其完成分类以后,对比两种方法占用系统的存储空间情况,结果如表1所示。

表1 大数据属性的分类分层空间占用情况

通过表1能够看出,基于差分隐私机制的位置数据隐私保护方法和基于DCGAN反馈的深度差分隐私保护方法对于系统空间的占用要明显比所提方法大,在大数据文件的分类属性集合增加到50个时,基于差分隐私机制的位置数据隐私保护方法要比所提方法高出50%以上,说明现有方法在大数据安全访问权限认证过程中对空间的损耗严重。

具体加密与解密过程如表2所示。

表2 大数据加密与加密的计算结果

通过表2能够看出,所提方法加密与解密速度要比基于差分隐私机制的位置数据隐私保护方法加密与解密速度快,说明所提方法的性能更优。

因为主体的用户访问个数逐渐增加,所以设定数据量大小不相等情况,利用所提方法和基于差分隐私机制的位置数据隐私保护方法和基于DCGAN反馈的深度差分隐私保护方法对数据的访问权限时间进行对比,具体访问权限的时间曲线如图2所示。

图2 数据的访问权限认证时间对比

通过图2能够看出,用户访问的数据文件大小相等时,采用基于差分隐私机制的位置数据隐私保护方法和基于DCGAN反馈的深度差分隐私保护方法的认证访问权限时间,要比所提方法的认证访问时间长,因为访问的时间变长,会导致大数据的安全性降低,因此,通过以上的访问时间长度比较结果,证明所提方法对于大数据中心的数据资源访问安全性较高,效果良好。

5 结束语

所提方法通过对大数据访问权限认证的方式保护大数据的安全,仿真结果证明所提方法的大数据资源访问认证效果较好,安全性比较高。不过由于大数据技术未来的发展空间无限,所以一些不法分子会时刻想要利用大数据获取企业、个人,甚至是国家的信息,通过这些信息进行一些不法的活动,因此要进一步对大数据的访问安全问题进行研究,提升保护手段。

猜你喜欢
差分阈值次数
一类分数阶q-差分方程正解的存在性与不存在性(英文)
改进的软硬阈值法及其在地震数据降噪中的研究
土石坝坝体失稳破坏降水阈值的确定方法
基于小波变换阈值去噪算法的改进
2020年,我国汽车召回次数同比减少10.8%,召回数量同比增长3.9%
最后才吃梨
俄罗斯是全球阅兵次数最多的国家吗?
改进小波阈值对热泵电机振动信号的去噪研究
一个求非线性差分方程所有多项式解的算法(英)
一类caputo分数阶差分方程依赖于参数的正解存在和不存在性