谢 荣, 温 蜜
(上海电力大学 计算机科学与技术学院, 上海 200090)
数据挖掘是一种从大量含有潜在知识的数据中发现有用信息的技术。但大量的数据包含隐私敏感信息,数据挖掘可能导致隐私信息的泄露。在不影响数据挖掘准确性的前提下,保护数据隐私是一个关键的挑战。近年来,敏感数据的保护引起了社会的广泛关注[1],其主要研究方向为隐私保护数据挖掘(Privacy-preserving Data Mining,PPDM)。PPDM既能提供数据挖掘技术,又能保护数据库中用户的隐私。然而,PPDM的主要挑战是抵抗熟练敌手的攻击[2-3]。为了克服这一挑战,PPDM使用数据扰动[4]和加密技术[5]进行敏感数据的保护。基于加密的隐私保护数据挖掘技术提供了良好的安全性和准确性,但因其具有较高的计算复杂度,使得加密技术不适合大规模的数据挖掘[6]。与加密技术相比,数据扰动拥有较低的计算复杂度,使得它对大数据挖掘更有效[7]。噪声添加、几何变换、随机化、数据压缩、混合扰动是数据扰动的相关技术[8]。一个隐私模型定义了特定扰动机制的隐私信息保护和泄漏的限制[9],其中早期的隐私模型包括k-匿名,l-多样性,t-closeness[10-11]等。研究表明,这些模型容易受到不同的攻击,如最小攻击[12]、基于合成的攻击[13]和背景知识攻击[14],而这些攻击能利用扰动后的数据来重建隐私信息。差分隐私(Differential Privacy,DP)是一种强大的隐私模型,与以前的隐私模型相比,可以为PPDM提供更好的隐私保护[15-16]。
近年来,差分隐私技术大致可分为两种:中心化差分隐私(Centralized Differential Privacy,CDP)和本地化差分隐私(Local Differential Privacy,LDP)[17-18],主要区别在于是否具有可信的第三方。中心化差分隐私应用的前提是聚合器是可信的,即第三方不会泄露用户隐私。本地化差分隐私不需要可信的第三方,仍然能保护用户的隐私数据,因而更加实用。虽然本地化差分隐私是最近才流行的,但已在工业界得到了应用,例如微软公司将其用于个人地理位置保护;苹果公司在用户的设备上也采用了本地化差分隐私来保护用户隐私;谷歌也在浏览器中加入了该技术来保护用户的浏览行为[19]。
1.1.1 中心化差分隐私模型
定义1(ε-DP) 扰动机制K,其中D为机制K输出的集合。对于任意的一对相邻数据集A和A′,如果机制K满足:
Pr[K(A)∈D]≤eεPr[K(A′)∈D]
(1)
则称K满足ε-DP,其中参数ε为隐私预算。
当参数ε越小时,K对数据的保护程度就越高,即扰动后和扰动前的数据概率分布情况接近,这样攻击者就很难分辨了。相反,隐私预算越高,保护程度就越低。中心化差分隐私保护模型如图1所示。
图1 中心化差分隐私模型
1.1.2 中心化差分隐私框架
中心化差分隐私有交互式和非交互式两种数据保护框架[20]。在交互式保护模型下,数据管理者会根据数据应用需求设计出相应的差分隐私算法K,当用户对数据服务器发出查询时,返回的结果将经过中心化差分隐私的处理才返回给用户。这一框架下存在的最大问题是隐私预算耗尽,然而解决这个问题的现有方法是限制查询数目,这也使得其在应用中具有一定的局限性。交互式保护模型如图2所示。
图2 交互式保护模型
在非交互式保护模型下,数据的管理者会根据数据信息的特点来设计要发布哪些统计信息,并设计出隐私算法来进行处理发布。此时,用户只能对发布后的合成数据库进行查询或者挖掘任务来获得近似的结果。如何合理分配隐私预算,并尽可能地提高发布数据的可用性,是此框架下的研究重点。非交互式保护模型如图3所示。
图3 非交互式保护模型
1.2.1 本地化差分隐私模型
近年来,许多研究都投入到本地化差分隐私中。本地化差分隐私与中心化差分隐私的功能一样,最大的区别在于其在用户端对数据进行随机扰动,而非在数据库中。本地化保护模型如图4所示。
图4 本地化差分隐私保护模型
定义2(ε-LDP) 对于一组用户,每个用户拥有一条数据,若随机机制K在任意两条数据x和x′上得到结果z满足式(2),则称机制K满足ε-LDP。
Pr[K(x)=z]≤eεPr[K(x′)=z]
(2)
1.2.2 本地化差分隐私框架
本地化差分隐私保护数据的框架[17]也有交互式和非交互式两种,如图5和图6所示。
图5 交互式框架
图6 非交互式框架
其最大特点是针对单个用户而言,充分考虑了数据间的关联关系。图5和图6中,当X1,X2,X3,…,Xn为输入序列,Z1,Z2,Z3,…,Zn为输出序列,箭头表示依赖关系,则整个框架表示为:Q(Zj|Xj),Q表示查询。
在交互式框架中,第j个输出Zj依赖于第j个输入Xj以及前j-1个输出Z1,Z2,Z3,…,Zj-1,但与前j-1个输入无依赖关系。因此,本地化差分隐私的形式定义为:对任意的x和x′,给定隐私预算ε,若查询Q满足式(3),则认为Zj是Xj的一个满足ε-LDP保护的表示,即
(3)
在非交互式框架中,第j个输出Zj仅依赖于第j个输入Xj。因此,非交互式框架下的本地化差分隐私可以表示为:对任意的x和x′,给定隐私预算ε,若查询Q满足式(4),则认为Zj是Xj的一个满足ε-LDP保护的表示,即
(4)
差分隐私在敏感数据挖掘中的应用大致可分为频繁项挖掘、回归与分类以及深度学习3大类。在中心化差分隐私下的敏感数据挖掘任务已得到了广泛研究,但在本地化差分隐私环境下的应用还非常有限,并且模型也很简单。
频繁项挖掘是一项核心的数据挖掘任务,同时具有重要的经济和研究意义。然而,发布频繁项集会带来隐私方面的挑战。
文献[21]提出了两种有效的算法来挖掘敏感数据集中的k个最频繁模式:第1个算法基于指数机制;第2个算法基于拉普拉斯机制,通过返回与数据中k个最常见模式的实际列表接近的噪声模式列表来解决敏感数据挖掘。文献[22]提出了Privbasis的方法——一个称为基集的概念,并用其来寻找最频繁的项集。文献[23]提出了一种在高隐私度下效果更好的方法,首先识别Top-k频繁项集,然后用它们构造一个差分隐私的FP树。文献[24]为ROPPOR机制提出了一种新疑的解码算法,该算法能够估算“未知数”,即我们不知道的字符串,并且该算法不是ROPPOR特有的,可以推广到其他本地化差分隐私机制中,以学习字符串中随机变量的分布。文献[25]从高维数据隐私出发,提出了一种基于本地化差分隐私的多维联合分布估计算法,实现了多属性间的相关性识别。文献[26]提出了一种实用、准确和高效的Harmony系统,用于在满足本地化差分隐私的前提下收集和分析来自智能设备的数据,其适用于包含数值和分类属性的多维数据,并支持基本的统计数据,尤其是均值估计。
隐私和安全问题通常会阻止用户数据的共享,甚至会阻止从中获得知识的共享,从而阻止有价值的信息被利用。隐私保护数据挖掘,如果正确使用,可以缓解这一问题。回归与分类是数据挖掘中最重要、应用最广泛的技术之一。
文献[27]提出了一种基于随机决策树方法的差分隐私决策树集成算法,用差分隐私的查询来构造保护隐私的ID3决策树,则能在数据集较小的情况下获得良好的预测精度。文献[28]提出了一种基于多类高斯混合模型分类器的学习算法,可利用带扰动正则项的大边缘损失函数来保持数据的差分隐私。文献[29]考虑到在分布式多方环境中开发保护隐私的机器学习算法问题,提出了一种新的针对多方设置的差分隐私算法,使用基于随机梯度下降的过程直接优化整个多方对象,而不是从优化局部目标中学到的分类器的组合。文献[30]在差分隐私模型的基础上开发了一个朴素贝叶斯分类器,可以允许一个提供者集中访问一个数据集。最近文献[31]在本地化差分隐私模型的基础上开发了朴素贝叶斯分类器,首先个人发送他们的扰动输入,以保持要素值与类标签之间的关系,然后数据聚合器估计朴素贝叶斯分类器所需的所有概率,最后基于估计的概率对新实例进行分类。文献[32]首次使非交互式本地化差分隐私模型下的学习任务成为可能,并从多个方面扩展了非交互式本地化差分隐私的学习领域。
基于深度学习的技术在许多领域都取得了显著效果。通常,模型的训练需要大量具有代表性的数据集,这些数据集可能是由众包获得的,并且包含敏感信息,模型不应该在这些数据集中公开隐私信息,所以需要设计满足隐私保护的深度学习算法。
文献[33]专注于深度学习中的自动编码器,并提出了具有隐私保护的深度自动编码器。其主要思想是通过干扰传统深度自动编码器的目标功能来实施数据的差分隐私,并将其用于社区网络中人类行为预测,具有良好的性能。文献[34]提出了一种用于语义丰富数据的通用隐私发布框架,其中数据管理员没有对数据进行清理后发布,而是发布了一个深度生成模型。该模型使用原始数据以差分隐私的方式进行训练,利用生成的模型,分析人员能够分析任务生成的合成数据。文献[35]提出了一种差分隐私生成对抗网络模型,其主要思想是在学习过程中为梯度添加经过精心设计的噪声来实现生成对抗网络中数据的差分隐私。文献[36]首次提出了一种在本地化差分隐私模型下的卷积神经网络。该算法分为3层,即卷积模块、随机化模块和全连接模块,与以往的模型相比,其将隐私保护的功能量化为隐私预算系数而非隐私预算,就导致即使在较低的隐私预算下也可以实现较高的准确性。该模型在MNIST和CIFAR-10上的测试精度均优于以往算法。
本文选择了数据挖掘中几个经典的方案进行性能分析。具体分析结果如表1所示。
目前,中心化差分隐私发展比较成熟,在敏感数据挖掘中的应用也比较广泛。本文主要分析了本地化差分隐私在回归与分类中的应用。具体分析结果如表2所示。
表1 差分隐私在敏感数据频繁项挖掘中方案比较
表2 差分隐私在敏感数据的回归与分类中方案比较
文献[43]为不共享输入数据集的神经网络开发了一种分布式多方学习机制,称为[SS15]。该方法基于随机梯度下降优化算法,其隐私损失根据模型的参数计算。由于存在许多模型参数,通常会有数千个这样的模型参数,因此,该方法可能会导致大量的隐私损失。文献[44]引入了一种基于中心差分隐私的高效差分隐私机制,称为[ACG+16]。该模型运行在用于机器学习的TensorFlow软件库上,能够在适度的隐私预算下实现较高的效率和性能。其算法是基于随机梯度下降的差分隐私保护。此外,他们还引入了一种跟踪隐私损失的机制,即隐私会计,允许对隐私损失进行严密的自动化分析。但当该方法用于更大的数据集时,其差分隐私机制的错误率可能会导致不稳定的隐私泄漏。文献[36]提出了一种基于本地差分隐私的一元编码机制,称为LATENT。他们将优化的一元编码进行改进,引入上界定理,并提出了隐私预算系数的概念,将隐私保护程度转移到了隐私预算系数上。该模型在本地进行数据的扰动,并在云端进行模型的训练,可以既安全又高效地实现数据的处理任务。[SS15]、[ACG+16]、LATENT 3种方法的性能对比如图7所示。
图7 3种方法在敏感数据深度学习中的性能比较
由图7可知,LATENT即使是在扰动较大的情况下仍能保持较高的精度;而[SS15]和[ACG+16]只有在扰动较小的情况下才能体现出令人满意的精度。此外,[SS15]和[ACG+16]的另一个缺点是需要可信的第三方。因此,在对安全性要求较高的场景下,可使用LATENT方法;在对安全性要求较低的场景,推荐使用[SS15]方法。
近年来,虽然PPDM得到了广泛研究,但面对各种分布数据如何设计出一种安全和实用的技术仍然面临很大的挑战。
(1) 在分布式环境下,敏感数据类型较多,面对离散与连续、低维与高维以及键值对数据,如何有效地并行处理难度较大。
(2) 在本地化差分隐私环境下比在差分隐私环境下设计的算法安全性更高,但扰动误差更大,如何设计合理的扰动机制具有一定的难度。
(3) 在物联网环境中,大多的隐私保护需要轻量级方案,如何设计出通信代价低的算法也较为困难。
(4) 近年来,联邦学习作为一种新型的分布式机器学习被广泛研究。该模型虽然解决了用户数据的隐私问题,但其模型参数仍能受到攻击,而且该模型最大的阻碍就是通信代价。针对差分隐私保护技术,如何设计出既能保护模型参数和减小通信代价,又能保证模型精度的机制也存在困难。
在大数据时代,数据挖掘技术不断发展,个人隐私数据的保护显得尤其重要,数据挖掘技术的隐私问题是阻碍其发展的重要因素。差分隐私作为一种成熟的隐私保护技术,凭借其隐私性好、计算开销低等特点被广泛研究。近些年,国内外学者对隐私保护数据挖掘技术进行了广泛和深入的研究,然而在本地设置中的研究还非常有限,究其原因主要是本地化差分隐私的扰动在本地进行,算法设计不当会产生较大误差。因此,目前最大的挑战就是在本地设计出一种误差小、开销低的算法,从而使敏感数据挖掘技术更加可靠。