局部差分隐私的噪音扰动研究

2019-09-24 06:03龚晨
电脑知识与技术 2019年21期
关键词:隐私保护数据模型

龚晨

摘要:隐私保护是现代信息安全领域一项重要的技术。针对传统局部差分隐私以拉普拉斯来实现输出扰动,但其对攻击者来说,保护效果会存在一定不足。本文采用随机响应方式对原始数据集进行扰动,从原始数据入手,较好提升隐私保护力度。并对隐私保护的重要参数ε的选取,提出一种新的数据模型,用来计算和确定ε的值。通过实验表明,本文算法的保护性能优于传统隐私保护方法。

关键词: 隐私保护;随机响应;数据模型

中图分类号: TP391        文献标识码:A

文章编号:1009-3044(2019)21-0040-02

开放科学(资源服务)标识码(OSID):

Abstract: Privacy protection is an important technology in the field of modern information security. For traditional local differential privacy, Laplace is used to achieve output disturbance, but for the attacker, the protection effect will be insufficient. This paper uses the random response method to perturb the original data set, starting from the original data, and better improving the privacy protection. A new data model is proposed for the selection of the important parameter ε of privacy protection, which is used to calculate and determine the value of ε. Experiments show that the protection performance of the proposed algorithm is better than the traditional privacy protection method.

Key words: privacy protection; random response; data model

在20世紀90年代,隐私保护技术起源于Massachusetts选民登记表中的健康信息。差分隐私适应传统隐私保护技术的不足发展起来[1]。传统隐私要假定场景,需要干扰者的各方面背景知识,而差分隐私不需关心干扰者的任何背景知识,且能保证隐私信息的任何一条记录都不会泄露。局部差分隐私作为差分隐私必不可少的一部分,控制参数ε合理情况下,可以有效保护敏感数据隐私[2]。

差分隐私研究工作已经成为研究的热点。其中Albarghouthi等人[3]提出一种按钮形式的自动化技术,验证复杂随机化算法对敏感数据保护能力。同时提出基于约束的隐私问题表达式,解决了模耦合约束问题,提高了隐私力度,但未考虑参数ε的具体问题,局部差分隐私的优越性也未利用。Zhang等人[4]提出基于续航式的差分隐私方案,解决数据共存导致敏感数据信息泄露的问题,提高隐私保护能力,然而就参数ε而言未考虑,局部隐私的好处也没有展现出来。为解决上述问题,本文提出新型局部差分隐私方案,控制参数ε的具体取值,增强隐私保护力度。

1 本文隐私保护工作

1.1随机响应机制

通过表1说明随机响应是如何实现差分隐私保护的。假设有五个某公司职员元祖数据,每个职员有姓名(Name)、年龄(Age)、工资(Salary)以及职务(Career)四个属性,现攻击者除了不知道Tom的工资外,已经了解其他所有数据。为获取Tom的工资数据,Attacker通过发送语句F:select Salary from table1 where Name=Tom。

如若对攻击者发出的查询语句不加任何干扰,则该查询语句会返回Tom职员的真实工资数据,导致数据泄露。随机响应扰动的原理是:当攻击者在使用查询语句查询之前,利用随机扰动法对Name属性的五个职员名字进行小概率的交换位置。

1.2  参数ε选取模型

式(1)中,F(T1)和F(T2)分别为真实查询结果、随机响应扰动后查询结果,T1和T2分别为随机扰动前后的原始数据集。定位查询语句F的敏感度ΔF为:

原始的ε参数计算公式为:

为减少ε所依赖的参数,并使其不再与数据集本身相关,从而降低其值所受干扰程度,本文提出一种新的计算ε的模型公式,在明确了随机响应干扰率pr、查询语句敏感度ΔF以及攻击者攻击成功率λ后,即可得出ε的值,计算如下:

2 实验结果与分析

本文实验数据集采用Adult数据集,使用本文提出的新型局部差分隐私保护方法与传统的方法相比较,得出其在成人数据集上对于属性的保护率以及攻击成功率。实验结果如表2所示。

由上表2数据分析可知,本文采用随机响应干扰机制结合一种新的ε参数计算公式,对成人数据集的属性保护率比传统的局部差分隐私方法要高,攻击者通过查询语句获得正确的数据可能性较低。因而对于攻击者来说,攻击成功率下降了,对于数据库来说,本文提出新的局部差分隐私保护算法拥有更高效的保护性能。

3 结论

传统的局部差分隐私使用拉普拉斯对攻击者查询结果进行扰动,但对于先验知识较高的攻击者而言,容易估算出真实数据,并为降低原始的ε参数与数据集耦合性,本文提出一种新的局部差分隐私方法。利用随机响应机制直接对原始数据集进行干扰,并给出一种新的ε参数计算模型。通过实验证明,其对于数据的保护能力优于原始的局部差分隐私。

参考文献:

[1] 陈丽丽. 大数据安全与隐私保护[J]. 现代工业经济和信息化, 2017,7(04):92-93.

[2] 高志强, 王宇涛. 差分隐私技术研究进展[J]. 通信学报, 2017,38(S1):151-155.

[3] Albarghouthi A, Hsu J. Synthesizing Coupling Proofs of Differential Privacy[J]. Proceedings of the ACM on Programming Languages, 2017,2(POPL):1-30.

[4] Zhang Z, Zhan Q, Zhu L, et al. Cost-friendly Differential Privacy for Smart Meters: Exploiting the Dual Roles of the Noise[J]. IEEE Transactions on Smart Grid, 2017,(99):1.

【通联编辑:唐一东】

猜你喜欢
隐私保护数据模型
面板数据模型截面相关检验方法综述
加热炉炉内跟踪数据模型优化
财政支出效率与产业结构:要素积累与流动——基于DEA 和省级面板数据模型的实证研究
基于分位数回归的电力负荷特性预测面板数据模型
面向集成管理的出版原图数据模型
一种顾及级联时空变化描述的土地利用变更数据模型