董涛 刘芸菲
摘要:有效的隐私保护数据发布解决方案之一是局部差分隐私,随机响应是实现这种隐私保护模型的有效方式。对基于二次扰动的局部差分隐私实现方法进行了研究。为衡量D和D'的离散程度,在计算原始数据集和扰动数据集的分布均值和方差的基础上实验验证了D和D'间的KL-散度。实验结果表明本文所采用的二次扰动方法可以带来较小的效用损失。
关键词:局部差分隐私;随机响应;二次扰动
中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2018)30-0234-02
Abstract: One of the effective privacy protection data publishing solutions is local differential privacy, which is an effective way to implement this privacy protection model. This paper proposes a local differential privacy implementation method based on secondary perturbation. In order to measure the degree of dispersion of D and D', the KL-divergence between D and D' is experimentally verified on the basis of calculating the mean and variance of the distribution of the original dataset and the perturbed dataset. The experimental results show that the secondary perturbation method used in this paper can bring less utility loss.
Key words: local differential privacy; random response; secondary perturbation
1 引言
对于企业来说,在数据收集、使用以及公布的过程中,用户隐私不可避免地暴露在外。2006年,Netflix举办了一个名为Netflix Prize的预测算法的比赛,结果导致了用户身份的泄露[1-2]。
k-anonymity、l-diversity、t-closeness[3]方法常被用于隐私数据的保护,这些方法的提出在一定程度上抵御了隐私攻击,但这种基于分组数据产生的隐私保护模型会随着攻击方法的不同而做出相应的改变。基于以上的原因,人们需要一种鲁棒性比较好的隐私保护模型。2006年,微软研究院的Dwork[4]提出了差分隐私的概念,从而使这种隐私保护模型成为可能。
2 局部差分隐私实现
局部差分隐私:给定n个用户,每个用户对应一条记录。给定一个隐私算法M及其定义域 Dom(M)和值域Ran(M),若算法M在任意两条记录t和t'(t,[t'∈dom(M)])上得到相同输出结果t*([t*∈Ran(M)])满足下列不等式,则M满足ε-局部差分隐私。
局部差分隐私的定义从理论的角度保证了算法满足ε-本地化差分隐私,而实现ε-本地化差分隐私保护需要数据扰动机制的介入。随机响应技术[5]的基本思想是以一定的概率将另一个值cj替换原始数据集中的每个ci。我们使用θj,i来表示类别ci被随机化为cj的概率,其中i, j=1, , n。我们用P*(ci), P(ci)分别表示扰动数据,原始数据中ci的概率。
在上面的等式中,原始数据集分布[P]是我们试图找出的。而扰动数据集分布[P*]可用每个类别的频率来估计。
实现局部差分隐私的关键在于随机响应矩阵M的构造。二次扰动具体实现要在多值属性的基础上进行构造,设属性Ak具有m个属性值,分别用v1, v2, …, vm表示。若Ak=vi (i=1, 2, …, m)在原数据集中所占的比例为,则采用均匀扰动得扰动矩阵MB为:
3 实验
为了实验的准确性,采取的是美国1994年人口普查数据库抽取而来的Adult数据集。本文进行四组隐私预算ε的实验,分别为组1(ε1 =0.2,ε2 = 0.8)、组2(ε1 =0.3,ε2 = 0.7)、组3(ε1 =0.4,ε2 = 0.6)和组4(ε1 =0.5,ε2 = 0.5),为达到度量这方面的目的,利用平均KL-散度度量原始数据集D和扰动数据集D'之间的距离,数据集分别划分为L=(1K、2K、4K、8K、16、30K),由此得到如图1所示的对比图。
图1(a)是对数据集D分别进行四组隐私预算限制下的数据集扰动,在得到D'后,根据数据集L的分片数据进行一次平均KL–散度的计算结果。由图可看出四组实验均有一定的扰动误差,为了减少随机扰动的偏差,本文又做了十组实验得到图1(b),由图1(a)和图1(b)的对比得到两个结论:(1)表明扰动误差得到了较好的减少;(2)组3(ε1 =0.4,ε2 = 0.6)时D和D'间的平均KL–散度值最少,这表明本文的方法在保证了局部差分隐私的同时有着较好的数据效用。
4 结束语
实验结果表明本文所采用的二次扰动方法能更好地保持原始数据集的分布特性,在数据效用和披露风险方面具有较好的效果。然而,文中还有不完美的地方,主要是关于数据集仅限在单表数据库的处理,下一步我们将对多表数据库时如何扰动进行研究,以更好的维持数据效用,保护用户的隐私信息。
参考文献:
[1] Zhang J, Cormode G, Procopiuc C M, et al. Privbayes: Private data release via bayesian networks[J]. ACM Transactions on Database Systems (TODS), 2017, 42(4): 25.
[2] Zhu, T., et al., Differentially Private Data Publishing and Analysis: A Survey. IEEE Transactions on Knowledge & Data Engineering, 2017. 29(8): p. 1619-1638.
[3] Mancuhan, K. and C. Clifton, Statistical Learning Theory Approach for Data Classification with l-diversity[C]//. Proceedings of the 2017 SIAM International Conference on Data Ming. Society for industrial and Applied Mathematics, 2017: p. 651-659.
[4] Dwork C. Differential Privacy[C]// International Colloquium on Automata, Languages, and Programming. Springer, Berlin, Heidelberg, 2006:1-12.
[5] Huang Z, Du W. OptRR: Optimizing Randomized Response Schemes for Privacy-Preserving Data Mining[C]// IEEE, International Conference on Data Engineering. IEEE, 2008:705-714.
【通聯编辑:梁书】