基于差分隐私的线性回归分析

2016-06-06 13:41王宝楠方贤进
电脑知识与技术 2016年6期

王宝楠++方贤进

摘要:随着数据分析和发布等应用需求的出现和发展,如何保护隐私数据和防止敏感信息泄露成为当前面临的重大挑战。文中对差分隐私保护技术的基本原理和特征进行了阐述,重点介绍差分隐私下拉普拉斯机制的线性回归分析技术,它既保护了用户的隐私信息,又不影响数据的可用性,达到了研究目的。在对已有技术深入对比分析的基础上,指出了差分隐私保护技术的未来发展方向。

关键词:差分隐私;隐私保护,回归分析,线性回归

中图分类号:TP309 文献标识码:A 文章编号:1009-3044(2016)06-0026-04

Based on Differential Privacy of Linear Regression Analysis

WANG Bao-Nan,FANG Xian-jing

(Department of computer,Anhui University of Science and Technology ,Huainan 232001 ,China)

Abstract: With the emergence and development of data analysis and publishing applications, and how to protect the privacy of data and prevent sensitive information leaks has become a major challenge currently facing. In this paper the basic principles and characteristics of differential privacy protection technologies are described, linear regression analysis focuses on privacy under Laplace differential mechanism, both to protect the user's privacy, without affecting the availability of data, to achieve the purpose .In contrast to the prior art in-depth analysis, based on the difference it pointed out the future direction of development of privacy-enhancing technologies.

Key words: differential privacy; privacy protection; regression analysis; linear Regression

1 引言

信息化社会的发展进步使得部分机构可以获得大量个人和组织的数据信息进行数据挖掘与分析研究,从而带来商业价值和科研价值。例如各大商场的顾客购物数据和证券公司个人交易数据的分析与统计等。但是,这些数据涉及的大量个人隐私信息的数据发布和分析都面临着隐私泄露问题。因此, 隐私保护问题已成为重要的研究课题。隐私保护技术可以解决个人和组织的数据发布和数据分析带来的隐私安全问题。如何发布数据而又不泄露隐私信息是隐私保护技术的主要目的。

当前,差分隐私成为一种新的隐私保护技术,差分隐私保护是通过添加特定的噪声使得数据失真来达到隐私保护的目的。与传统的隐私保护技术相似,差分隐私保护技术的实施主要考虑两个因素:(1)怎样保证算法的设计符合差分隐私的定义,从而确保隐私数据不被泄露;(2)怎样减少噪声带来的误差,从而提高数据的可靠性。

文献[13]借鉴基于差分隐私下拉普拉斯机制与逻辑回归方法提出一种[ω*]的计算方法 LP Log,此方法先求出[ω*]。然后再往数据中添加拉普拉斯噪音,然而由于回归分析的输入与输出有紧密的关联性,使得敏感度非常高,最后导致预测精度比较低。文献[14]提出了一种对目标函数直接扰动的方法,该方法是对元组目标函数的均值添加噪音。

上述2种回归分析方法均存在各自的不足。第一种回归分析方法,它的回归分类精确度比较低,噪音误差比较高;第二种方法缺陷在于,基于扰动机制的回归分析方法目前只适用于特定的目标函数,存在一定的局限性。针对这些缺陷,本文提出基于拉普拉斯机制的线性回归分析。

2 差分隐私保护

2.1 差分隐私

差分隐私保护通过向数据中添加噪声使敏感数据失真,而部分数据或数据属性保持不变。差分隐私保护技术可以达到这样一个效果,即在用户数据中增加或减少一个记录数据,不会影响数据的输出结果,不影响数据的有效性与可靠性。即使在最坏的情况下,如果攻击者知道数据中除一条记录数据之外的所有数据信息,仍可以做到保证这一条数据信息不被泄露的效果。

5 结论

本文介绍差分隐私的相关概念以及隐私保护的重要性。重点研究了差分隐私保护下拉普拉斯机制的线性回归分析。首先,设计相关算法; 其次,给每一个多项式系数添加[Lap(2(d+1)2/ε)]噪音,最后在运行噪音目标函数中优化[ω]。最后,发布噪音数据。实验运行结果显示,随着隐私预算增加,误差率越小,数据可用性较好,实现了数据的隐私保护。线性回归分析比较简单,因为目标函数就是[ω]多项式本身。差分隐私将是未来一个长期研究的课题,将其应用到回归分析中,尚有很多需要改进的地方,这是笔者下一步研究的方向。

参考文献:

[1] 李杨,温雯,谢光强.差分隐私保护研究综述[J].计算机应用研究,2012,29(9) : 3201.

[2] DWORK C.A firm foundation for private data analysis[J].Communications of the ACM,2011,54( 1) : 86-95.

[3] Dwork C,McSherry F,Nissim K,Smith A. Calibrating Noise to Sensitivity in Private Data Analysis[C]/ /Proceedings of the 3th Theory of Cryptography Conference ( TCC) . New York,USA,2006: 363-385.

[4] DWORK C.The differential privacy frontier[C]/ /Proc of the 6th International Conference on Theory of Cryptography Conference.Berlin: Springer - Verlag,2009: 496-502.

[5] J. Zhang, X. Xiao, Y. Yang, and et al.. PrivGene: differentially private model fitting using genetic algorithms. SIGMOD, 2013.

[6] Zhang J, Zhang Z, Xiao X, et al. Functional mechanism: Regression analysis under differential privacy[C]/ /Proceedings of the 38th Conference of Very Large Databases(VLDB).Istanbul,Turkey,2012:1364-1375.

[7] C. Dwork. A firm foundation for private data analysis.Commun.ACM,2011,54(1) : 86 – 95.

[8] B. Fung,K. Wang,R. Chen,et al. Privacy - preserving data publishing: A survey of recent developments[J].ACMi.Computing Surveys ( CSUR) ,2010,42(4) : 18.

[9] DWORK C.Differential privacy: a survey of results[C]/ / Proc of the 5th International Conference on Theory and Applicationa of Models of Computation. Berlin: Springer -Verlag,2008: 1-9.

[10] DWORK C.The promise of differential privacy: a tutorial on algorithmic techniques [C]/ /Proc of the 52nd Annual IEEE Symposium on Foundation of Computer Science.Washington DC: IEEE Computer Society,2011:1-2.

[11] Dwork C,McSherry F,Nissim K,Smith A. Calibrating Noise to Sensitivity in Private Data Analysis[C]/ /Proceedings of the 3th Theory of Cryptography Conference ( TCC) . New York,USA,2006: 363-385.

[12] McSherry F,Talwar K. Mechanism Design via Differential Privacy[C]/ /Proceedings of the 48th Annual IEEE Symposium on Foundations of Computer Science ( FOCS) .Providence,RI,USA,2007: 94 -103.

[13] Smith A. Privacy-preserving statistical estimation with optimal convergence rate[C].Proceedings on the 43th Annual ACM Symposium on Theory of Computing(STOC).2011:813-822.

[14] Chaudhuri K,Monteleoni C. Privacy-preserving logistic regression[C].Proceedings of the 20th Annual Conference on Neural Information ProcessingSystem(NIPS).Vancouver,British Columbia,Canada,2008:289-296.