5G网络环境下云计算数据差分隐私保护算法研究

2023-11-28 13:06李君茹
南京理工大学学报 2023年5期
关键词:数据结构信息熵差分

李君茹,赵 莉

(信阳农林学院 信息工程学院,河南 信阳 464000)

5G网络具有高速率、低时延和大连接的特点,可满足多样化的市场应用需求,是目前最为先进的宽带移动通信技术,也是实现人机互联的基础[1,2]。用户将越来越多的业务放在5G网络环境下云计算服务上,导致其云计算数据海量激增。5G网络为人们工作生活虽然带来了一定的便利[3],但由于现代计算机技术飞速发展,云服务供应商存在不可信度,导致各种网络攻击手段以及隐私窃取手段层出不穷,给人们在5G环境下的云计算数据安全带来了风险[4,5]。如何保障用户云计算数据安全,是目前云计算亟需解决的问题。

目前,很多学者研究云计算数据隐私保护方法,如:郝玉蓉等[6]提出政务数据共享隐私保护算法,该云计算数据保护方法将数据分享思想引入到测量系统的再现性与重复性(Gauge of repeatability and reproducibility,GRR)算法内,将云计算数据记录到更小的数据域范围内,采用GRR算法实现云计算数据隐私保护。朱利华等[7]提出暹罗网络的云计算隐私保护方法,通过采集暹罗网络云计算数据后,利用主成分分析方法对云计算数据降维处理,通过任意敏感变量统计分析方式实现云计算数据隐私保护。上述两种方法虽均可以实现云计算数据隐私保护,但这两种方法在应用过程中均存在隐私保护效果不佳情况。为此,本文研究5G网络环境下云计算数据差分隐私保护算法,以提升5G网络环境下云计算数据的安全性。

1 5G网络环境下云计算数据差分 隐私保护

1.1 架构设计

由于云计算数据差分隐私保护需要考虑到数据的安全传输和存储问题,因此需要建立一套完整的数据保护体系来保证数据的隐私性和可用性。以5G网络环境为边缘云计算技术提供应用基础,设计云计算数据差分隐私保护架构,如图1所示。

图1 云计算数据差分隐私保护架构示意图

在5G网络环境云计算数据差分隐私保护架构内,由网络开放功能、策略控制功能、统一数据管理功能、会话管理功能、鉴权服务功能、核心单元和用户界面功能组成,负责为用户提供网络通信传输和人机交互等。基于此,利用虚拟化基础设施打造云计算平台,通过边缘计算编排,处理和传输用户的云计算数据,通过差分隐私保护方法保护云计算数据后,为用户业务应用提供安全的云计算数据。

1.2 基于信息熵抑制的云计算数据消冗方法

在云计算平台内,由于每天会产生海量的云计算数据,导致其中存在较多的冗余数据[8]。因此,为提升云计算数据差分隐私保护处理的速度,需对云计算数据内的冗余数据消除处理。利用信息熵抑制方法,实现云计算数据消冗,信息熵是云计算内不具有序列性的指标,其数值越大,云计算数据的无序特征越显著[9]。因此信息熵可描述云计算数据的不确定性,利用其抑制模式,可将云计算数据内的冗余数据去除,其详细步骤如下。

为了评估数据消冗效果的好坏,计算云计算数据的缩减率Ω,缩减率越高,说明数据消冗效果越好,同时也能够减少存储和传输数据的成本,计算公式如下

(1)

式中:Cj表示存在冗余的云计算数据字节数;C0表示去除重复数据后云计算数据的字节数。

考虑云计算数据在差分隐私保护中的处理开销[10],将式(1)优化处理,获取优化后的云计算数据缩减率数值α0,表达式为

(2)

式中:o表示云计算数据处理开销,其计算公式如下

(3)

式中:Rj和Dj分别表示云计算数据的大小和平均数据块大小。

由于云计算数据和集合之间的关联无法精准实现区分,Bloom filter数据结构可将云计算数据的特征表述为信息熵映射函数和位数,并通过向量描述随机的数据集合,完成精准区分两者之间的关联[11]。因此,利用Bloom filter数据结构,描述云计算数据数组,当云计算数据数组有n个时,在Bloom filter数据结构初始模式内将该n个数组个位设置为0,得到m个云计算数据ym的集合,该集合用R=(y1,y2,…,ym)表示。利用h个独立的信息熵函数,将云计算数据集合内的数据实现映射[12,13],对于任意一个云计算数据y来说,其向量被映射到第j个信息熵函数计算公式如下

(4)

式中:U表示云计算数据向量;Uj表示向量U被映射到第j个信息熵函数。

L表示云计算数据段,在这云计算数据段内连续类子序列内设置一个对应的shingle,每个shingle的大小均为ϖ,由此可得到云计算数据shingle集合Q,该集合由Q(L,ϖ)表示,则云计算数据的Bloom filter实施过程如下:

(1)建立云计算数据结构,其数据结构存在n个位,每个位的初始值设置为0;

(2)设置存在2种信息熵函数,利用该两种信息熵函数计算云计算数据结构内差异shingle数值,并将云计算数据结构对应的位数设置为1;

(3)设置云计算数据结构特征值,该特征值即为输出的云计算数据结构。

经过上述步骤,将信息熵抑制云计算数据过程转换为计算2个云计算数据相似性的过程[14],利用Hamming距离判断方式判断云计算数据Bloom filter结构的相似度I,其计算公式如下

(5)

利用信息熵函数将集合R=(y1,y2,…,ym)内的所有云计算数据映射至n位的数组,其数值z用表达公式如下

(6)

当云计算数据的数组位数为n时[15],则云计算数据量数值也为n,令当前最优信息熵函数个数为d,并基于以上计算,转换最优信息熵函数个数,其表达公式如下

(7)

基于以上计算,实现云计算数据消冗处理,经过消冗处理后的云计算数据F其表达公式如下

(8)

式中:h表示递归次数。

1.3 方法实现

基于云计算数据消冗和差分隐私保护,能够有效地减少数据的存储和传输成本,同时也能够提高数据的使用价值和可信度。为了实现云计算数据的差分隐私保护,将5G网络环境内云计算数据看作一个社区。该社区由无向图G=(V,E)表示,其本质是一个社会网络,将云计算数据集合看作社区集合,由T{T1,T2,…,Tm}表示,其中第i个社区为Ti=(Vi,Ei),其相邻社区数据集由T′i=(V′i,E′i)表示。将社区结构看作独立的单位,当随机算法S对社区Ti和其相邻社区数据集T′i满足以下关系时,则该算法可用于云计算数据差分隐私保护,关系式如下

Pr[S(Ti)∈0]≤Pr[S(T′i)∈0]·eε

(9)

式中:eε表示差分隐私操作因子;Pr表示分配函数。

在无向图G=(V,E)内,社区Ti和其相邻社区数据集T′i之间存在一个映射函数,则社区Ti的局部敏感度Δfti计算公式如下

Δfti=maxtit′i‖f(Ti)-f(T′i)‖

(10)

式中:f表示映射函数;ti∈Ti,t′i∈T′i。

社区局部差分隐私保护模型将拉普拉斯噪声添加到云计算数据内,实现云计算数据差分隐私保护,而噪声添加量则依据式(10)计算而来。

依据公式(10)对云数据添加噪声后,重构社区概率边。社区边存在的概率和与其相连的两个数据节点度成正相关关系,令Pti表示社区概率边,其计算公式如下

(11)

式中:Eti,tj表示边集合;σdi、σdj表示云计算数据ti、tj节点度属性;σdk表示第k个云数据无向图点的节点度属性。

社区Ti内部任意边依据概率边重构,则其连接概率计算公式如下

(12)

云计算数据无向图全局结构是由互相连接的社区决定的,以社区连接的方式建立完整的云计算数据发布图,依据每个社区之间边的剩余度,可获得每个社区之间的连接概率。令ei表示社区间边的剩余度,其计算公式如下

(13)

式中:|gi|表示云计算数据社区大小。当云计算数据社区内仅存在一个数据节点时,则其剩余度数值为当前数据节点的度数;di表示云计算数据社区内节点真实度数。

在云计算数据社区内,每个社区之间边存在的概率与两个社区的剩余度成正相关关系。以社区间边的剩余度数值为基础,计算云计算数据社区之间边重构的概率数值,实现云计算数据的差分隐私保护,差分隐私保护公式如下

(14)

式中:Pco表示云计算数据社区边重构概率数值。

2 实验分析

以某区域5G网络环境作为实验对象,基于OpenStack云计算平台,搭建了一个包含20台虚拟机的云计算集群。选择一个包含10 000个用户的交易记录数据集作为实验数据,其中包含姓名、年龄、收入等敏感属性信息。选用差分隐私机制作为算法进行数据保护,设置隐私预算ε=1.0,并设置查询操作的敏感度为1.0。实验中使用拉普拉斯噪声引入随机性,确保保护数据的隐私性。以该5G网络环境内2 000条云计算数据作为实验对象,利用本文算法对其消冗处理,以云计算数据结构复杂度作为衡量指标,测试结果如表1所示。

表1 云计算数据消冗测试结果

分析表1可知,云计算数据量增加,其结构的复杂度也随之增加,而应用本文算法对该2 000条云计算数据消冗处理后,在不同云计算数据量时,其数据结构复杂度数值均得到有效降低,其中最小降低数值为0.2,最大降低数值为1.2。该结果说明本文算法可有效对云计算数据消冗处理,为后续云计算数据差分隐私保护提供数据基础。

为验证本文算法云计算数据差分隐私保护能力,以5 000条云计算数据作为实验对象,采用本文算法对其差分隐私保护,以信息泄露比作为衡量指标。为使实验结果更加充分,同时采用文献[6]算法和文献[7]算法展开测试,其中文献[6]算法表示数据共享隐私保护算法,文献[7]算法表示暹罗网络的云计算隐私保护算法。测试结果如表2所示。

表2 计算数据信息泄露比数值

分析表2可知,随着云计算数据量的增加,3种算法在对其隐私保护时的信息泄露比数值也呈现增加趋势。其中本文算法、文献[6]算法和文献[7]算法分别在云计算数据为1 500条、1 000条和500条之前的信息泄露比数值为0,但随着云计算数据量不断增加,3种算法的保护云计算数据时的信息泄露比不断增加,但本文方法保护云计算数据时的信息泄露比增加幅度最小。在云计算数据量为5 000条时,本文算法保护云计算数据时的信息泄露比仅为0.02,相比文献[6]算法和文献[7]算法分别低0.003和0.015。上述结果说明,本文算法可有效保护云计算数据。

为进一步验证本文算法对云计算数据差分隐私保护能力,测试本文算法、文献[6]算法和文献[7]算法对云计算数据隐私保护后,云计算数据的噪声值,结果如图2所示。

图2 云计算数据噪声值结果对比

分析图2可知,3种算法对云计算数据隐私保护时,云计算数据内的噪声数值随着差分运算数值的增加而降低。其中本文算法对云计算数据差分隐私保护后,云计算数据内的噪声数值曲线随着差分预算数值增加呈现小幅度降低趋势,在差分预算数值相同情况下,本文算法保护后的云计算数据内噪声数值始终高于文献[6]算法和文献[7]算法。上述结果表明:本文算法可有效对5G网络环境下云计算数据差分隐私保护,对云计算数据添加噪声。

以5G网络环境下云计算数据无向图的不确定性系数作为衡量指标,测试本文算法对云计算数据差分隐私保护后,云计算数据无向图不确定性变化情况,结果如图3所示。

图3 差分隐私保护后云计算数据无向图 不确定性系数变化

分析图3可知,利用本文算法对5G网络环境下云计算数据差分隐私保护后,云计算数据无向图不确定性系数随着添加噪声值的增加而增加。其说明利用本文算法可有效为5G网络环境下云计算数据添加噪声,可使云计算数据无向图的不确定性提升,云计算数据的隐私性得到较好的提升。

以云计算数据结构熵作为衡量指标,测试在不同云计算数据量情况下,本文算法、文献[6]算法和文献[7]算法对云计算数据隐私保护后,云计算数据结构熵数值,结果如图4所示。

图4 3种算法云计算数据隐私保护结构熵

分析图4可知,3种算法对云计算数据隐私保护后,云计算数据结构熵随着云计算数据量的增加呈现小幅度降低趋势,但其中本文算法的结构熵曲线最为平稳,且在云计算数据量较多时,隐私保护后的云计算数据结构熵值始终高于文献[6]算法和文献[7]算法。上述结果说明:本文算法对云计算数据差分隐私保护,数据结构熵数值较高,保护云计算数据的完整性较好。

3 结论

本文研究5G网络环境下云计算数据差分隐私保护算法,在这算法中首先对云计算数据消冗处理,并利用无向图,实现了云计算数据的差分隐私保护,可在一定程度上降低云计算数据差分隐私保护的难度。根据实验结果,本文的差分隐私保护算法在5G网络环境下对云计算数据具有良好的应用效果。首先,在消冗处理方面,该算法成功降低了云计算数据的结构复杂度,通过消除冗余信息提高了数据利用效率。其次,在隐私保护方面,该算法有效减少了信息泄露比,对云计算数据的隐私进行保护。此外,通过添加噪声和提升数据的不确定性系数,该算法成功为云计算数据添加了噪声,进一步提高了数据的隐私性。综上所述,本文算法为5G网络环境下云计算数据的差分隐私保护提供了有效的解决方案,具有广泛的应用前景。

猜你喜欢
数据结构信息熵差分
基于信息熵可信度的测试点选择方法研究
数列与差分
基于信息熵的实验教学量化研究
一种基于信息熵的雷达动态自适应选择跟踪方法
“翻转课堂”教学模式的探讨——以《数据结构》课程教学为例
高职高专数据结构教学改革探讨
基于信息熵的IITFN多属性决策方法
基于差分隐私的大数据隐私保护
相对差分单项测距△DOR
TRIZ理论在“数据结构”多媒体教学中的应用