在大数据框架上试验和评估分布式隐私保护

2022-05-30 10:48:04陈立军刘畅李泽通
电脑知识与技术 2022年31期
关键词:大数据分析大数据

陈立军 刘畅 李泽通

摘要:OLAP(On-Line Analysis Processing) 是新兴大数据分析环境中的权威分析工具,特别是针对分布式环境(例如云),当今,基于隐私保护的OLAP大数据分析是一个热门主题,在诸如智能城市、社交网络、生物信息学等创新性大数据应用场景中,它具有多种便利性,并且在OLAP分析任务期间提供隐私保护,遵循这一研究路线,文章提出一个简化的并行过程在线分析(SPPOLAP) 框架,该框架的主要好处是引入了一种全新的隐私概念,用于OLAP数据多维数据集,实验证明:SPPOLAP算法优于现有隐私保护算法,为大数据的隐私保护提供了技术保障。

关键词:大数据;大数据分析;分布式隐私保护;大数据集上的实验和分析

中图分类号:TP309      文献标识码:A

文章编号:1009-3044(2022)31-0004-03

在大数据时代,数据安全存在两个截然不同的关键要求[1-3],需要对大量大数据进行有意义的分析支持[4],且在处理大数据以提取分析数据时,需要保证敏感信息(例如个人信息)的隐私保护。从这两个要求可以推断,保护隐私的大数据分析将成为最近几年最热门的研究之一[5-6]。On-line Analysis Processing (OLAP) [7] 是目前最流行的大数据分析工具,它使用户能够在直观的多维空间上提取相关知识,例如:社交网络、电子科学、电子政务、传感器网络、云系统等。

大数据的隐私保护涉及了隐私保护OLAP的研究领域[8-10],该领域的目标是在保护大数据的隐私的同时支持OLAP。分布式环境是大数据的经典配置[11],因此,在大数据上支持分布式隐私保护OLAP的问题已成为当前的研究课题。

SPPOLAP(Simplified Parallel Process On-Line Analytical Processing)  [8]是一种最新算法,可有效地支持分布式隐私保护OLAP,它引入了一种针对OLAP多维数据集的新颖隐私概念,该概念着重于OLAP聚合的隐私,而不是整个多维数据集作为一个多维数组。在此算法上,SPPOLAP通过定义隐私阈值,来尝试根据贪婪策略在多维聚合的准确性和隐私之间取得平衡,该阈值确定了在使用過程中用户可接受的隐私保护程度。

应当指出,SPPOLAP算法在新兴大数据环境中有着明显潜力,例如智慧城市场景,公民可以访问几个大数据分析仪表盘并与之交互,这些仪表盘可以提供有关各种智能城市服务的汇总知识,例如交通拥堵、停车位、医院当前的工作量、空气污染群等,该知识显然与敏感信息(个人信息等)有关,当在它们之上计算合适的OLAP聚合时,必须保留其隐私。

本文极大地扩展了文献[8]中提供的研究结果,并着重针对分布式大数据的SPPOLAP算法(与零和竞争方法相比)进行了深入的实验评估和分析。

本文的其余部分安排如下:在第1节中,提供SPPOLAP方法的摘要以及参考案例研究,以更好地说明在现实的大数据场景中SPPOLAP面向应用程序的功能;在第2节中,提供了SPPOLAP性能的综合实验评估和分析;最后,第3节提供结论和研究的未来工作。

1 SPPOLAP摘要和参考案例研究

在本节中,首先提供SPPOLAP算法的摘要,然后提供参考案例研究,以显示SPPOLAP在现代大数据分析环境中的潜力。

令A = (D,L,H,M)为数据立方体,使得D是包含A的OLAP数据单元的数据域,L是A的维度集合,即定义OLAP分析所依据的功能属性,H是与A的维度相关的层次结构集,最后,M是A的度量集。

SPPOLAP的第一步包括计算数据立方体A的隐私网格P(A),给定一个数据立方体A,隐私网格P(A)是A的范围分区,以使每个元素ALk都划分维度dk,k属于[[0,L-1]],通过合并所有分区A的维数,本文获得P(A)作为A的规则分区。

第二步对输入数据立方体A进行采样以获得概要数据立方体[A]的贪婪策略,通过该策略计算概要数据立方体[A],以便同时满足隐私约束,确保近似答案的准确性,并满足空间约束。该策略考虑了与P(A)中的网格区域关联的数据分布属性,并在可用的网格区域中选择最偏斜的网格区域。

算法的最后一步从通过上述贪婪策略选择网格区域采样,它是计算最终概要数据立方体[A]的基准操作,特别地,关于采样策略,本文采用经典的均匀采样,即基于常规的均匀生成分布。

给定网格区域,在SPPOLAP的每次迭代中,本文首先考虑相应的range-SUM查询,然后,基于度量驱动的方法,给定正整数参数?,通过提取?大小的样本子集来迭代采样网格区域,直到满足隐私约束或使用空间约束为止。实际上要注意,?表示采样期间使用的一种缓冲区大小,如果在没有缓冲的情况下,此解决方案避免了对海量多维数据集执行采样会导致的过多计算开销。

下面汇报有关SPPOLAP算法的详细信息以及实现。

本文通过具体展示该算法在新兴大数据分析环境中的适用性,提供SPPOLAP算法的参考案例研究。

在这里,本文确定了一个社交网络,在该社交网络中,在每个节点的顶部计算OLAP多维数据集以进行分析,在这种应用环境中,两个用户A和B想要对数据立方体的分布式集合进行分析,以便挖掘和分析目标社交网络,两个用户中的每个用户都基于特定的决策目标访问特定的信息集。另一方面,由于社交网络数据清楚地存储了敏感信息[12-13],因此出现了隐私保护约束,从这一现象来看,SPPOLAP算法的应用在这种应用场景中非常有意义,因为它能够在分布式设置中计算隐私保护数据立方体,以支持传感器网络数据上隐私保护的分析任务。

通过查看案例[12-13]研究,可以得出结论,多维数据集的隐私保护问题是指确保多维数据集单元格的隐私问题。一般而言,隐私保护数据挖掘工具的目标是避免恶意用户从权威数据中挖掘结果,例如频繁的项目集、模式和规律性、群集、关联规则和在多维数据立方体上挖掘模型,即信息丢失和公开风险,本文使用权威的SPPOLAP算法框架可以顺利避免这些敏感信息的泄漏和风险的公开。此外,SPPOLAP通过优化,这将进一步放大其在大数据设置中的可靠性。

2 对最新的分布式隐私保护OLAP框架进行实验和评估

在本节中,将通过实验评估SPPOLAP的性能,并与文献[14]中描述的最新算法进行比较,进行评估提议框架的质量、有效性和性能,本文使用真实的数据立方体进行实验评估,专注于六维数据集,它允许对复杂的多维数据集上的隐私保护功能进行可靠的评估。

2.1 质量分析

为了进行质量分析,本文分别使用Fp和FA表示隐私和准确性因子,在下面,本文将它们都适应于SPPOLAP的定义。

假设A为输入多维数据集,而[A]为概要多维数据集,FP测量包含在其中的平均数量[A],令ω(k)为以k为多维索引的数据立方体的像元,令ω={A,[A]},在零和方法中,该块是一个子多维数据集,相对于该子多维数据集,沿行和列的扰动数据单元边际总和保持为零,FP的定义如下:

[FP=1A?K=0|A|-1(A{k}-A{K})]    (1)

Fp可以看作是对[A]的隐私保护的一种度量,由于零和方法是一种面向数据单元的方法,而SPPOLAP是基于OLAP隐私概念的,因此本文对Fp定义进行如下修改:

1) 在等式(1) 定义的基础上,将块的概念替换为网格区域的概念;

2) 在[A]{k} = NULL的情况下,用相对于包含[A]{k}的网格区域计算相应单例聚合替换[A]{k}。

准确性因子FA可以看作[A]对给定查询G所保证的近似程度的度量,FA是根据大纲G的数据集[A]上的查询G定义的,如下面表达(2) 所示。

[FA(G)=2|A(G)-A(G)||A(G)|]              (2)

其中A(G)是对G的精确答案,而[A](G)是对G的近似答案。由于本文处理查询工作负载为GW,可以对表达式(2) 的定义扩展如下:

[FA(GW)=1|GW|K=0|GW|FA(GW)]     (3)

为了进行质量分析,本文将GW设置为Range-SUM查询的集合,在零和方法的情况下,该查询对应于块,在SPPOLAP中对应于网格区域。

在评估中使用的参数如下:

1) 多维数据集每个维度的基数,用Δk表示,其中[k∈[0,L-1]];

2) 隐私网格的区域范围大小,用Pk表示,[k∈[0,L-1]];

3) 稀疏系数s,即非空数据单元相对于数据单元总数的比率;

4) 空间限制B;

5) 隐私阈值θ;

6) 用于评估数据立方体的类型,用T表示;

7) 查询选择性S。

实验参数固定如下:Tk= 10%,Δk= 10%,θ= 70%,B = 20%,b = 20%,S = 10%。结果与现有方法比较可得(图1) ,本文所提议的方法SPPLAP隐私性和质量准确性都要比现有方法高。

2.2 有效性分析

在本節中,描述了SPPOLAP的有效性分析,作为有效性指标,在典型查询工作负载GW上采用了用户平均相对感知推断误差,为针对选择性查询S和空间限制B进行了有效性分析。在第一种情况下,使用以下实验参数的设置进行内容分析:Tk= 10%,Δk= 10%,θ= 70%,B = 20%,b = 20%,s = 20%, 结果得出本文提议的方法SPPLOAD的有效性比零和方法要好(图2) 。

2.3 性能分析

在本节中,评估SPPOLAP和零和方法的性能,作为性能指标,采用以秒为单位的采样时间,结合以下实验参数设置,针对缓冲区大小b评估性能:Tk= 10%,Δk= 10%,θ= 70%,B = 20%,s = 20%,S = 10%。实验结果如图3所示(横坐标为缓冲区大小,纵坐标为采样时间):

从图3可以明显看出,本文的SPPOLAP算法性能优于零和算法Zero-Sum。

3 结论

本文极大地扩展了文献[8]中提出的研究结果,并着重于SPPOLAP算法的研究,针对在分布式大数据环境中,进行了深入的实验评估和分析,为大数据的隐私提供了技术保障。未来的工作主要集中在设计和测试SPPOLAP的新案例研究,以通过评估非常规应用场景,进一步评估其在新兴大数据环境中的可靠性。

参考文献:

[1] 张娟.大数据背景下档案信息隐私保护[J].黑龙江档案,2021(4):62-63.

[2] Qu Y Y,Nosouhi M R,Cui L,et al.Personalized Privacy Protection in Big Data [M]. Springer Verlag,2021.

[3] 第九届互联网安全大会(ISC 2021)7月27日召开 数据安全与隐私保护、大数据智能与安全峰会备受瞩目[J].信息安全研究,2021,7(8):789.

[4] Nilashi M,Minaei-Bidgoli B,Alrizq M,et al.An analytical approach for big social data analysis for customer decision-making in eco-friendly hotels[J].Expert Systems With Applications,2021,186:115722.

[5] 严璐瑶.大数据背景下内部审计与隐私保护问题研究[J].审计与理财,2021(7):49-50.

[6] 王国峰,雷琦,唐云,等.大数据环境下用户数据隐私保护研究[J].网络安全技术与应用,2021(7):67-69.

[7] Forresi C,Gallinucci E,Golfarelli M,et al.A dataspace-based framework for OLAP analyses in a high-variety multistore[J].The VLDB Journal,2021,30(6):1017-1040.

[8] Broneske D,Drewes A,Gurumurthy B,et al.In-depth analysis of OLAP query performance on heterogeneous hardware[J].Datenbank-Spektrum,2021,21(2):133-143.

[9] Tremblay M C,Hevner A R.Missing data in OLAP cubes[J].Journal of Database Management,2021,32(3):1-28.

[10] Noh B,Yeo H.SafetyCube:Framework for potential pedestrian risk analysis using multi-dimensional OLAP[J].Accident Analysis & Prevention,2021,155:106104.

[11] Cuzzocrea A,Moussa R,Xu G D.OLAP:effectively and efficiently supporting parallel OLAP over big data[C]//Model and Data Engineering,2013: 38-49.

[12] Zakerzadeh H,Aggarwal C C,Barker K.Privacy-preserving big data publishing[C]//Proceedings of the 27th International Conference on Scientific and Statistical Database Management.La Jolla California.New York,NY,USA:ACM,2015.

[13] Lu R X,Zhu H,Liu X M,et al.Toward efficient and privacy-preserving computing in big data era[J].IEEE Network,2014,28(4):46-50.

[14] 李巖.大数据下信息通信技术中的隐私保护研究[J].中国新通信,2021,23(12):9-10.

【通联编辑:张薇】

收稿日期:2022-04-15

基金项目:2021年度广东省科研项目(S202112618018) ;广东省质量工程(ZXKC202105)

作者简介:陈立军(1974—) ,男(苗族),广西桂林人,讲师,硕士,研究方向为大数据安全研究;刘畅(1999—) ,男,广东深圳人,助教,学士,研究方向为大数据安全;李泽通(1999—) ,男,广东深圳人,助教,学士,研究方向为大数据安全。

猜你喜欢
大数据分析大数据
大数据分析对提高教学管理质量的作用
亚太教育(2016年36期)2017-01-17 17:26:50
基于大数据分析的电力通信设备检修影响业务自动分析平台研究与应用
面向大数据远程开放实验平台构建研究
面向大数据分析的信息管理实践教学体系构建
传媒变局中的人口电视栏目困境与创新
科技传播(2016年19期)2016-12-27 14:35:21
大数据分析的移动端在网络课堂教学中的应用
大数据环境下基于移动客户端的传统媒体转型思路
新闻世界(2016年10期)2016-10-11 20:13:53
基于大数据背景下的智慧城市建设研究
科技视界(2016年20期)2016-09-29 10:53:22
数据+舆情:南方报业创新转型提高服务能力的探索
中国记者(2016年6期)2016-08-26 12:36:20