文/陶陶 柏建树
(安徽工业大学 安徽省马鞍山市 243000)
定义1给定2个最多相差一条记录的近邻数据集D和D',对于一个随机算法M,算法M的取值范围为Mange(M),若算法M在数据集D和D'上的任意输出结果都满足:
则随机算法M提供(ε,δ)-差分隐私,ε为隐私预算,表明隐私保护的程度。δ为误差值,表明隐私泄露的概率。
其中,D和D'为最多相差一条记录的近邻数据集。高斯机制用于给f的真实输出值添加高斯噪声:
生成式对抗网络模型用于估计数据集的底层分布,并根据其估计分布随机生成实际样本,其基本思想是通过使用两个相互“博弈”的模型:一个生成模型G和一个判别模型D。生成模型G的训练目标是尽可能去生成与真实数据相类似的结果,通过这个生成结果去最大化判别器判断错误的概率,使判别器误认为生成结果即数据的真实结果。判别模型D的训练目标则是尽可能去最大化自己对生成结果和真实结果的判别准确率。在训练过程中,G和D的相互“博弈”使得两个模型性能同时得到增强。GAN的目标函数为:
算法1实现了深度学习过程中使用最小化经验损失函数L(θ)训练相关参数模型并在此过程中结合差分隐私技术的基本方法。具体算法实现的过程为:计算每个随机样本的梯度值g(x);为了避免某一单个数据对整体造成影响进行梯度调整,对每个梯度的L2范数进行裁剪并计算梯度的平均值,使其满足阈值条件C的范围,得到新梯度值为了实现隐私保护,我们在新梯度值中添加噪声用于对梯度的输出进行扰动;最后根据梯度下降法将添加噪声后的梯度按相反的方向前进,更新参数θ,计算隐私损失。
为了合理评估深度学习差分隐私保护模型的隐私保护性能,需要对训练过程中的隐私损失进行统计。隐私损失作为随机变量,值的大小取决于添加到算法中的噪声的规模。通过计算隐私损失随机变量Z的对数矩,并且使用时间限制以及标准马尔可夫不等式获取尾部界限,得到隐私损失。则随机变量Z的隐私损失定义为:
算法1:深度学习差分隐私算法
其中,M是随机算法,D,D'是相邻的两个数据集,aux用于对输入的辅助,s表示输出。
原始GAN存在训练不稳定与模式坍塌导致缺乏生成多样性的问题。GAN采用交替优化方式训练G和D,两者之间的优化必须达到一个较好的同步。但是在实际训练过程中,通常对D进行多次更新后,才会对G进行一次更新,这就容易造成G坍缩至一个鞍点。Arjovsky等人提出Wasserstein GAN来改进原始GAN的不足。WGAN使用Wassertein距离作为优化方式替代交叉熵来衡量真实分布和生成分布之间的距离,使收敛趋于稳定,训练的稳定性得到很大的提升。相比部分学者使用的DCGAN模型,WGAN不会受到批量标准化的限制,且可以使用特殊的网络来实现G和D,从而得到更加多样性的生成效果。因此,本文选用WGAN代替原始GAN,通过在深度学习训练过程中向梯度添加合适的噪声以实现WGAN下的隐私保护。
3.1.1 改变ε对实验的影响
差分隐私的定义表明,隐私预算ε的取值越小,则隐私保护的程度越好。为了验证ε取值变化对实验测试准确率的影响,本组实验固定δ=1e-5和σ=6,隐私预算参数ε由0.5变化至8,选择MNIST手写数字数据集作为实验数据集。实验结果表明,随着ε的逐渐增大,测试准确率逐渐提升。但是,ε的选取不应过高,否则会因添加噪声过少而影响隐私保护的效果。
图1:改变σ和δ的影响
图2:改变σ和ε的影响
图3:改变δ和ε的影响
图4:ε=0.5,δ=1e-5,σ=6
3.1.2 改变σ对实验的影响
第二组实验固定ε=0.5和δ=1e-5,验证改变噪声规模σ对实验测试准确率的影响。噪声规模σ取值变化为1至9。实验结果表明,σ值的增加对模型准确率的影响呈现出交替性先增后减的趋势,当σ的值取6时,模型的测试准确率为89.91%,相对较高。
3.1.3 改变δ对实验的影响
第三组实验固定ε=0.5和σ=6,隐私泄露的误差δ取值变化为1e-5至1e-2。实验结果表明,随着隐私泄露误差δ的减小,模型的测试准确率略微提高。在δ取值为1e-5时,隐私泄露误差与模型测试准确率达到平衡的状态,此时测试准确率为90.19%,相对较高。
3.2.1 改变σ和δ对实验的影响
第四组实验固定ε=0.5,改变σ和δ取值,其中σ取值变化为2,4,6,8,δ取值1e-5至1e-2。实验结果如图1所示。
3.2.2 改变σ和ε对实验的影响第五组实验固定δ=1e-5,改变σ和ε取值,其中σ取值依次为2,4,6,8,ε取值0.5,1,2,4。实验结果如图2所示。
3.2.3 改变δ和ε对实验的影响第六组实验固定σ=6,改变δ和ε取值,其中δ取值1e-5至1e-2,ε取值0.5,1,2,4。实验结果如图3所示。
通过进行多组控制参数变量的实验,我们验证了单个相关参数的改变对实验测试准确率的单独影响以及不同相关参数同时改变对实验测试准确率的相互影响,发现当ε取值0.5,δ取值1e-5,σ取值6时,实验得到深度学习差分隐私保护模型的测试准确率为90.52%,使用时刻会计法计算得到的隐私预算可以保证对隐私的保护。相比于使用其他GAN,使用WGAN的训练过程更加稳定且准确率有一定的提升,基本实现了隐私保护程度和数据集可用性之间的平衡。