基于差分隐私的分段裁剪联邦学习算法

2024-06-01 13:11:40吴俊仪李晓会
计算机应用研究 2024年5期

吴俊仪 李晓会

摘 要:为解决现有的差分隐私联邦学习算法中使用固定的裁剪阈值和噪声尺度进行训练,从而导致数据隐私泄露、模型精度较低的问题,提出了一种基于差分隐私的分段裁剪联邦学习算法。首先,根据客户端的隐私需求分为隐私需求高和低。对于高隐私需求用户使用自适应裁剪来动态裁剪梯度,而低隐私需求用户则采用比例裁剪。其次根据裁剪后阈值大小自适应地添加噪声尺度。通过实验分析可得,该算法可以更好地保护隐私数据,同时通信代价也低于ADP-FL和DP-FL算法,并且与ADP-FL和DP-FL相比,模型准确率分别提高了2.25%和4.41%。

关键词:联邦学习; 差分隐私; 分段裁剪; 隐私分类; 自适应加噪

中图分类号:TP309 文献标志码:A 文章编号:1001-3695(2024)05-036-1532-06

doi:10.19734/j.issn.1001-3695.2023.09.0402

Segmental tailoring federated learning algorithm based on differential privacy

Abstract:To solve the problems caused by using fixed cropping thresholds and noise scales for training in existing differential privacy federated learning algorithms, such as data privacy leakage and low model accuracy, the paper proposed a segmented cropping federated learning algorithm based on differential privacy. Firstly, the clients divided the privacy requirements into high and low privacy demands. For users with high privacy demands,it employed adaptive clipping to dynamically clip the gradients. Conversely,for users with low privacy demands, it adopted proportional clipping. Secondly, the clients adaptively added noise scales based on the size of the clipped threshold. The experimental analysis shows that this algorithm effectively safeguards privacy data, while reducing communication costs compared to ADP-FL and DP-FL algorithms. Additionally, it achieves an improvement in model accuracy by 2.25% and 4.41% compared to ADP-FL and DP-FL respectively.

Key words:federated learning; differential privacy; segmental tailoring; privacy classification; adaptive noise addition

0 引言

隨着互联网信息时代的快速发展,机器学习在图像识别、自然语言处理[1]等许多领域得到了广泛的应用。然而大量多维度高质量数据的引用使得人们越来越关注自己数据的隐私性。在传统的集中式学习中,服务器大量使用本地数据进行训练,进而产生隐私泄露的风险。联邦学习[2]是一种分布式机器学习框架,其客户端在中央服务器的组织协同下训练模型,参与方无须共享原始数据,仅交换训练参数至服务器,由服务器进行统一聚合更新,旨在降低传统机器学习的隐私风险和通信复杂性,可以有效地缓解数据孤岛[3]等问题。

然而现有研究显示,攻击者仍然可以攻击训练上传的相关参数来获得用户部分隐私数据[4,5]。为进一步缓解上述问题,研究者提出了以下解决方案:将安全多方计算(SMC)[6]、同态加密(HE)[7]技术应用于联邦学习。文献[8]利用SMC集合联邦学习设计了一个可以安全聚合用户梯度的框架。文献[9]提出了一种基于HE的联邦学习算法,利用加法同态加密来保护梯度参数不受到攻击。虽然联邦学习与两者相结合的方案可以提供较强的隐私保护,但同时也会带来复杂沉重的计算和通信开销。相对于安全多方计算和同态加密,差分隐私[10]的实现更加简单,不需要大量的额外计算,因此在联邦学习中得到了广泛的应用[11,12]。其主要通过噪声机制干扰用户的敏感特征,使个体数据无法被识别,在保护用户隐私的同时保证模型的准确性和简便性。

近年来,基于DP的FL方法通常是在梯度上传过程中对梯度参数添加满足差分隐私的噪声并上传到服务器,可以一定程度地保证本地数据的隐私,但在目前研究中发现在上传梯度过程中仍然会因梯度丢失而导致用户隐私泄露。而梯度裁剪作为一种差分隐私中常用的技术,可以有效限制梯度范围大小,进而减少隐私泄露风险。 在联邦学习模型中,医疗、金融、物联网等领域的参与方通常拥有着大量的敏感信息,例如患者病例信息、财务信息、位置信息等。使用梯度裁剪技术的联邦学习算法可以对本地模型梯度参数进行裁剪后再训练,并利用差分隐私技术进行加噪。在多方位保证数据隐私的同时,实现多个机构之间的协作学习并提高模型的准确性。而现有基于裁剪的联邦学习算法还存在一定的局限性。Fu等人[13]设定相同的裁剪因子来对梯度值进行裁剪,忽略了人们对于隐私需求的差异性。由于实际中,用户对于数据的隐私保护需求程度的不同,采用相同级别的隐私保护可能会导致需求较高的隐私信息分配的隐私预算不足,最终导致用户隐私泄露并影响模型的准确性。基于此,文献[14]最先定义研究了自适应裁剪技术并应用于差分隐私模型。其根据训练模型中的梯度值自适应调整裁剪阈值,可以根据模型实际情况更细粒度地进行隐私保护,尽可能保留有用信息,同时还可以减少对模型准确度性能的影响。Liu等人[15]提出了根据客户端隐私需求异质性对模型本地训练梯度分别进行自适应裁剪操作,可以更好地保护隐私信息,但应用于大规模数据集时会产生较大的计算开销。除此以外,现有的差分隐私联邦学习算法大多会在上传时添加相同的噪声大小。例如,Shokri等人[16]提出了在批次训练时向模型梯度中加入恒定噪声来达到隐私保护作用。然而在实际的训练迭代过程中,参数会随着训练次数的变化而不断变化,相同的噪声尺度大小会损害其模型精度。

针对上述问题,本文提出了一种基于差分隐私的分段裁剪联邦学习框架。根据隐私需求参数,将用户分为隐私需求高和低两类,隐私需求高的用户根据具体训练参与方和轮次进行自适应梯度裁剪,隐私需求低的用户则根据其迭代训练的具体梯度大小按比例裁剪。最后根据裁剪阈值自适应添加噪声大小,以降低不同程度敏感信息被泄露的风险,提高模型隐私性和准确性。本文主要贡献如下:a)提出了一种基于差分隐私的分段裁剪联邦学习算法,解决联邦学习训练过程中参数上传阶段所产生的隐私泄露和模型训练精度低的问题;b)针对用户隐私需求,设定了隐私程度高和低的分类,更好地保留参与方之间的差异性,并掩盖不同参与方对于梯度的贡献值;c)针对不同的实验数据场景进行了比较,结果显示所提方法明显优于其他算法。

1 相关工作

1.1 联邦学习

联邦学习是由Google提出的一种分布式机器学习框架,可以有效解决数据孤岛、隐私泄露等[17]问题的发生。联邦学习允许客户端在不共享本地数据的情况下实现跨设备协同训练,使得数据可用而不可见。根据客户端本地数据分布位置的不同,可以将联邦学习分为三类:

a)跨样本联邦学习。该学习应用于两个特征重叠较多而样本重叠较少的数据集上;其参与方数据量较少,通常是移动设备;可能会由于好奇的服务器或恶意参与方的攻击导致隱私泄露。

b)跨特征联邦学习。该学习是在两个数据集用户重叠较多而特征部分重叠较少的情况下进行训练的。其参与方本地数据集非常庞大、计算能力较好,通常是由相对独立的不同组织构成;但庞大的数据集也可能会产生更加复杂的隐私保护问题。

c)复合型联邦。在两个数据集特征和用户重叠都较少的情况下,无法对数据进行切分训练,选择复合型联邦则可以有效解决数据规模小和标签特征少的问题,进而提高模型精度。

本文主要针对跨样本联邦学习,其流程如图1所示,具体训练步骤如下:a)服务器初始化,首先由中央服务器将初始化全局模型参数w0分发给本地用户;b)本地模型训练,用户接收初始化模型参数w0进行本地模型训练,根据本地梯度g0进行梯度裁剪,根据裁剪后的梯度值求取新的模型参数w1,将更新后的参数传输给服务器;c)服务器聚合,服务器对接收到的参数进行聚合操作,根据其梯度平均值求取新的全局模型参数,将更新后的模型参数分发给客户端继续训练。重复上述步骤,直到迭代收敛。

基本的联邦学习系统中包含一个服务器和N个客户端,其中:DK表示第k个客户端持有的本地数据集k=1,2,3,…,N。服务器目标是从k个相关客户端数据中学习一个模型,并最终优化方程至收敛。其优化方程的表达式如下:

其中:Fk是第k个客户端的损失函数。

1.2 差分隐私

差分隐私最早由Dwork等人[18]提出,旨在对数据进行统计分析时最大化保护个人数据的隐私性,使得攻击者无法在数据分析时推断出特定用户的隐私记录情况。其主要思想是使用随机扰动技术添加噪声,使数据集中记录的改变对模型的影响减小,从而更好地保护数据隐私。

定义1 (ε,δ)-差分隐私。

随机机制M:X→R,在随机的两个数据集x和x′上,其中x,x′∈X,若其任意的输出结果S∈R都满足式(2),则称算法M满足(ε,δ)-差分隐私。

Pr[M(x)=S]≤eε×Pr[M(x′)=S]+δ(2)

其中:ε表示隐私保护预算;x和x′是记录中相差为1的数据集。经过随机扰动后,输出特定值的概率取决于ε。ε越小,隐私保护性越强。δ表示松驰项因子,当δ=0时则随机算法满足ε-差分隐私。

定义2 灵敏度。

对于一对数据x,x′∈X,设f是将数据集X映射到实数空间上的一个查询函数,即随机机制f:X→R。对于数据集x和x′,其函数的全局敏感度为

其中:x和x′表示记录中相差为1的数据集。

定义3 高斯机制。

对于任意符合高斯分布的数据,添加噪声Y~N(0,C2σ2),其输出结果满足

M=f+Y(4)

定理1 序列组合性。给定随机算法A1、A2分别满足(ε,δ)-差分隐私,那么其组合的随机算法A(A1,A2)仍然满足(ε,δ)-差分隐私。

定理2 后传性。给定一个随机算法A1,满足(ε,δ)-差分隐私。对于任何随机算法A2,其组合A2(A1(x))同样满足(ε,δ)-差分隐私。

1.3 威胁模型

使用梯度裁剪技术可以缓解本地数据上传过程中产生的隐私泄露问题,减少数据的敏感性,然而其在训练中仍会被攻击者所攻击,进而威胁模型安全。例如以下两个方面:

a)模型反转攻击[19]:也称属性推理攻击。主要发生在模型训练完成后,攻击者尝试利用裁剪阈值与其他裁剪参数范围结合进行推理来获得原始梯度值,进而导致隐私泄露。Melis等人[20]验证了在FL中攻击者可以通过攻击其共享的模型信息进而获得参与者的隐私信息。

b)模型提取攻击[21]:指攻击者反复从模型中获取响应结果,并结合其他模型参数构造出一个相似的模型。攻击者可以尝试将获取的梯度裁剪信息应用到相似模型中,进而推断出更多的隐私信息。

综上,虽然梯度裁剪可以一定程度上保护用户隐私,但仍然会受到一些威胁攻击。通过多方面考虑攻击模型提出了分段裁剪防御措施,针对不同隐私需求程度分别进行裁剪操作,进而更好地保护用户隐私安全。

2 SP-FL:基于差分隐私的分段裁剪联邦学习算法

2.1 分段裁剪

现有的联邦学习算法中,较为普遍地使用差分隐私技术来保护数据隐私。而在差分隐私中,梯度裁剪是一种必不可少的技术,主要通过在每次梯度更新前对梯度进行截取或者缩放,以限制梯度值范围来减少隐私泄露的风险。裁剪阈值的选取会进一步对模型精度产生影响:如果裁剪阈值C设定较小,那么噪声添加也会较少,但会破坏梯度估计的无偏性,导致其所裁剪的方向与实际方向有差异;反之,添加大量的噪声虽然使得其可以提供较好的隐私保护,但同时降低了模型精度的准确性。因此C值设置得太大或者太小都会对训练模型产生一定影响。在梯度裁剪中有几种常用的方法,例如:

a)常数裁剪。通过将梯度裁剪到预定的常数范围内来达到控制梯度整体振幅的作用。

b)自适应裁剪。根据实际梯度属性和分布进行自适应调整裁剪阈值。

c)分段裁剪。将梯度划分区间,分别进行合适的裁剪操作。

本文采用分段和自适应相结合的方式,根据用户隐私需求大小,将梯度范围划分为两部分并分别进行裁剪。

在使用L2范数裁剪时,需要设定裁剪范围来进行整体约束,因此在梯度裁剪时将本地迭代轮次下的样本梯度L2范数与裁剪阈值C进行比较。如果其梯度L2范数大于C则将该样本数目按比例进行缩减,反之则保持不变。其中L2范数的大小会随着客户端选取、迭代轮次的变化而变化。

基于上述所描述的问题,本文提出了一种基于差分隐私的分段裁剪联邦学习算法。根据用户对于本地数据的隐私需求不同,动态地调整裁剪阈值。客户端按照对本地数据的隐私需求设定隐私程度因子β。首先求取所有初始梯度L2范数的平均值作为其初始化裁剪阈值。对于隐私需求高的用户,使用第k-1轮的平均梯度L2范数乘以当前客户端所选取的隐私程度因子β(即裁剪因子)作为其第k轮次的裁剪阈值Cnt、h。其定义如式(5)所示。

隐私需求低的用户则通过当前轮次的梯度L2范数乘以裁剪因子得到新的裁剪阈值Cnt、l。定义如式(7)所示。

Cnt、l=‖gnt(xi)‖2×β(7)

进而更好地满足客户端隐私需求的异质性,减少传输过程中敏感数据泄露的风险,并在一定程度上减少其通信开销,保证模型准确性。

2.2 自适应加噪

在加噪过程中给定隐私预算大小,噪声程度σ的大小决定了向模型中添加噪声的大小。添加噪声有助于提高模型的隐私性,较大的噪声程度使得每轮的隐私损失较小并且可以执行多次迭代,但同时会对模型产生更严重的干扰,从而导致模型的准确性降低。当σ较小时,每轮损失较大但模型准确性较好。在模型训练期间,随着梯度的降低,噪声大小对模型的影响逐渐增大。随着其训练迭代次数的增加,其梯度L2范数也会逐渐减小。因此为了使得模型每个客户端获得较小的噪声干扰,提高模型精度,本文提出了自适应加噪处理即在进行梯度下降算法操作求取模型梯度值时添加方差为σ×C的高斯噪声,再进行加权操作。

总体来说,自适应加噪的主要思想是随着模型精度的不断迭代收敛,希望每轮训练中的参与方梯度上加噪的尺度逐渐减小,以进一步使得模型精度更高。具体根据其裁剪梯度变化动态调整噪声尺度。分别针对隐私需求高和低的用户进行自适应加噪处理,添加满足差分隐私的高斯噪声。再根据参与方数量聚合需求高和低两类客户端的梯度值,得到该训练轮次下的总梯度值,其定义如式(8)(9)所示。

2.3 SP-FL算法框架

在传统的基于差分隐私的联邦学习框架中,服务器会为每个客户端提供相同的隐私预算,忽略了对隐私需求的差异性。因此本文提出SP-FL算法,根据客户端对本地数据的隐私需求程度进行分类裁剪,在保证隐私的同时提高模型的准确度,减少计算消耗。

算法框架如图2所示,由一个中央服务器server和N个相互独立的客户端组成,每个客户端拥有一定数量的本地数据集。由中央服务器和N个客户端协同训练共同执行SP-FL算法。

a)初始化阶段。中央服务器server发送初始化全局模型参数w0给各个客户端。

b)训练阶段。客户端接收全局模型参数w0进行本地训练获取梯度g1,g2,…,gn,根據客户端的隐私需求因子分类为隐私需求高和隐私需求低两类,分别求取其裁剪阈值C1,C2,…,Cn进行梯度裁剪。

c)上传阶段。对本地客户端裁剪后的梯度值进行自适应加噪处理,加权聚合所有参与方的梯度值求取总梯度。根据梯度值求取其新一轮更新后的模型参数,并上传给中央服务器。

d)聚合阶段。服务器server接收各个客户端上传的模型参数进行聚合处理,并更新全局模型。将更新后的全局模型参数继续分发给各个客户端继续迭代。

依次循环重复上述过程,直到迭代收敛或者达到迭代次数最大值。

2.4 算法实现

训练过程如算法1所示,具体包括以下步骤。设有N个客户端,其中第k个客户端拥有Dk(k=1,2,…,N)个数据集,总迭代次数为T。

a)初始化数据。设定全局模型参数w0,并由中心服务器广播给所有客户端。

b)本地梯度计算。从服务器接收初始化全局模型参数w0,并在数据集中按照比例P/|Dn|局部选取Lnt样本数目作为训练集,使用梯度下降法计算本地梯度值gnt(xi)。

f)模型参数聚合。对所选取参与训练的客户端所上传的模型参数wnt+1进行加权聚合,并根据样本数目求取平均值作为其下一次训练的全局模型参数。

g)模型参数广播。服务器继续向客户端广播新的模型参数,重复步骤b)~g)直到迭代到最大次数T,停止。

算法1 基于差分隐私的分段裁剪联邦学习框架

2.5 算法性能分析

2.5.1 隐私性分析

通过定理3证明算法1满足差分隐私。

定理3 对于任意的t≥1,算法1对于任意客户端在第t次迭代时满足(ε,δ)-差分隐私。

证明 根据隐私需求的不同将本地客户端分为隐私需求高和低两类。首先本地客户端对分类裁剪后的梯度添加满足差分隐私标准差为σ×C的高斯噪声,根据定义1可得每个客户端都分别满足(ε,δ)-差分隐私。给定任意两个一条记录中相差为1 的数据集x和x′,经过算法1得到的输出结果为M1和M2∈S,其分别满足(ε,δ)-差分隐私。由定理1可得

因此隐私需求高和低两类算法在本地训练过程中分别满足(ε,δ)-差分隐私。而后根据差分隐私的组合性,算法1也同样满足(ε,δ)-差分隐私。除此以外根据差分隐私的后传性,后续每一轮迭代过程都仍然满足(ε,δ)-差分隐私。因此,算法1的每一轮迭代都满足差分隐私。

由算法1可得,SP-FL算法根据本地用户对隐私数据需求程度的不同,分别对梯度进行不同程度的裁剪操作。高隐私需求用户可以获得较大的裁剪阈值来降低梯度的敏感程度,对裁剪后的梯度进行自适应加噪处理后应用于模型更新操作。

在数据上传过程中,自适应添加噪声增加了模型的不准确性,同时也增加了攻击者获取原始数据的难度。假设服务器是诚实且好奇的。在参数上传阶段,攻击者针对客户端所提交的更新后的参数信息进行攻击时,无法通过攻击获取训练模型参数值,因此结合其他信息来进一步推断模型的隐私特征信息。算法1保证了各个客户端在上传参数时用户隐私信息的安全性,有效抵抗了模型反转攻击的发生。

针对不诚实的参与方之间的泄露问题。不同的客户端设定不同的裁剪因子进行裁剪操作,极大地降低了信息的敏感程度,使得不诚实的参与方无法通过攻击中央服务器下发的全局模型参数来获取目标用户的初始数据。

除此以外,SP-FL算法还有可能在中央服务器接收客户端参数进行聚合时,受到模型提取等攻击。在服务器接收客户端上传的模型参数进行聚合时,每轮迭代过程中,攻击者无法随意区分出任意客户端的梯度信息,因此保证了在聚合过程中的用户隐私,可以防止模型提取等攻击情况的出现。

在DP-FL[13]、ADP-FL[15]、SP-FL中,DP-FL在本地裁剪时均采用相同的裁剪因子进行裁剪,对于隐私需求高的用户,其裁剪值不够,导致保留过多的隐私信息,容易使得攻击者根据其他信息推断出其隐私参数,进而导致隐私泄露。而在ADP-FL中,信任与不信任中央服务器的客户端分别进行操作,客户端需要分别发送梯度值和裁剪方向信息给服务器,再由服务器更新裁剪阈值给客户端进行裁剪。攻击者可能会设计相关查询模型,根据多次相同值的查询结果构建相似模型来获取用户隐私信息,致使隐私泄露问题的发生。相比之下,SP-FL算法隐私暴露风险更低,根据客户端隐私需求不同,不同程度地掩盖原始隐私信息。结合自适应加噪处理,使模型可以抵抗潜在模型攻击的同时保证模型准确性。

2.5.2 算法复杂度分析

SP-FL算法中,N个客户端从服务器接收初始化全局模型参数,在本地选取样本数目进行训练获取梯度值的时间复杂度为O(TNL),对本地梯度进行分段裁剪,并对裁剪后的梯度值进行加噪,获取模型参数后发送给服务器的通信代价为O(TNL)。中央服务器对接收到的模型参数进行加权平均操作,并更新全局模型参数的时间复杂度为O(TNL)。

其中N为客户端数量,T为最大迭代次数,L为选取训练样本数目。由于N远大于T和L,所以其整体时间复杂度可以看作O(N)。相对于DP-FL、ADP-FL,SP-FL的计算复杂程度相对较低。

2.5.3 通信成本分析

此算法从初始化过程、参数上传和模型参数广播三部分分析通信成本代价。a)初始化过程,发送全局模型参数w0给N个客户端的通信成本为O(N);b)参数上传,客户端经过裁剪和加噪处理后将模型参数发送给中央服务器操作的通信代价为O(TN);c)模型参数广播,更新后的全局模型参数分发给各个客户端的通信消耗为O(N)。总的通信成本为O(N(T+2))。DP-FL算法中对不信任服务器类客户端需将裁剪信息发送给服务器,由服务器分发裁剪阈值,因此增加了通信成本。相比之下,SP-FL的通信成本会较小。

3 实验结果与分析

3.1 实验设置

1)实验环境 实验环境为Ubuntu 18.04系统(CPU:Intel CoreTM i5-8250U CPU @ 1.60 GHz 1.80 GHz),并使用机器学习框架和Python语言训练模型。

2)数据库 数据库则采用机器学习框架中常用的MNIST、Fashion-MNIST和CIFAR10三个数据集进行测试,数据集的具体信息如表1所示。两个数据集均采用卷积神经网络作为网络结构进行本地模型训练,具体由两个自适应的卷积层和两个全连接层组成。两个卷积层的输出通道分别为32和64,卷积核大小为4×4。全连接层输入大小分别为64×4×4和32,输出分别为16和10。

按照文献[22]的划分方法对两个数据集进行分类,根据数字标签对所选取的训练数据进行排序并平均划分为500个片段,使得每个客户所得到的随机样本中具有三个或以上的不完全相同的标签,这更符合现实场景中的联邦数据分布。

3.2 实验结果

本文选择在MNIST和Fashion-MNIST和CIFAR10数据集上进行实验,比较DP-FL、NoDP-FL、ADP-FL和SP-FL四种算法。其中:DP-FL为选择采用恒定的裁剪因子进行裁剪的算法,未考虑客户端隐私需求的差异性;NoDP-FL是未采取差分隐私保护的联邦学习;ADP-FL则指采用自适应裁剪的差分隐私联邦学习算法。设置客户端数量为100,并选择各算法运行15次的平均值作为统计数据。

表2显示了四种算法分别在数据集上的训练误差大小。由表可得NoDP-FL算法的训练误差在不同数据集上都是最小的。 SP-L与NoDP-FL的训练误差相差较小,并明显低于DP-FL和ADP-FL的模型误差。由此可得SP-FL算法可用性较高,可以在保护用户隐私的同时提升模型精度。

除此以外通过图3可得,在相同的隐私预算下,SP-FL算法具有更高的可用性。随着隐私水平的不断提高,四个算法对于模型精度的影响都在逐渐增大。这是因为隐私预算的增加导致其添加的噪声规模变小,模型的精度就会逐渐提高。随着隐私预算的增加,SP-FL算法在不同数据集上的模型精度都明显高于其他算法,可以更显著地提高模型准确性。

3.2.1 參与方数量大小对模型影响

在联邦学习中,每个独立的参与方都有自己的本地数据集。随着训练参与方数量的增加,模型数量也在逐渐增加,不同的参与方数据分布可能会有异质性,进而导致模型的精度降低。为了对比研究算法对模型精度的影响,设定每个参与方的数据量相同,进而判断不同数量的参与方对于模型精度的影响。

由圖4可得,在不同数据集上,随着参与方数量的增多,大多情况下会导致模型精度的提升,但当达到一定程度时,参与方数量的继续增长会导致模型精度趋于稳定或者小范围下降。其中SP-FL算法会比ADP-FL和DP-FL算法导致模型精度提升得更多,相比于NoDP-FL相差得较少,并且在持续增多时会较趋于稳定。

3.2.2 迭代次数对模型性能影响

在本地训练阶段,客户端选择使用分段裁剪方式对模型进行裁剪。随着训练迭代次数的增加,可能会使得模型更好地适应数据分布,减少其中裁剪阈值过高产生的误差。另一方面,增加到一定范围的迭代次数会进一步导致模型发生过拟合情况,从而增加计算成本,导致模型精度下降。因此设定其他参数为固定值的情况下,比较不同迭代次数下对于模型精度的影响情况。

由图5可得,随着本地训练迭代次数的增多,大多都会有益于模型精度的增长,但在达到一定数量的迭代次数后随着大量噪声的添加反而会导致模型精度降低。从图中可以看出,在不同数据集上,SP-FL算法对模型精度有显著的提高。相比于ADP-FL和DP-FL算法,其在达到一定值后只有小幅度的下降趋势。总体来说,随着迭代次数的增加,SP-FL较趋于稳定。

4 结束语

本文提出了一种基于差分隐私的分段裁剪联邦学习算法。首先根据客户端对本地数据隐私需求程度的不同,分为隐私需求高和低两类进行分段裁剪,这样可以充分考虑客户隐私需求的差异性,减少隐私泄露风险。其次根据本地模型训练迭代情况,自适应地添加高斯噪声大小,可以有效缓解噪声尺度对模型准确性的影响。最后选择三组公开的数据集进行实验,证明了随着参与方数量和本地迭代次数的不断增加,该算法相对于传统的裁剪算法可以更好地提高模型的隐私性和准确性,具有更好的性能。在整体训练过程中,因为数据分布不同,客户端所选取数据样本可能存在一定的异构性。下一步将侧重针对数据异构性问题,进一步提高模型的隐私性。

参考文献:

[1]Hard A, Rao K, Mathews R, et al. Federated learning for mobile keyboard prediction[EB/OL]. (2019-02-28) [2023-09-05]. https://arxiv.org/abs/1811.03604.

[2]Qin Zhijin, Li Y G, Ye Hao. Federated learning and wireless communications[J]. IEEE Wireless Communications, 2021,28(5): 134-140.

[3]Xu Guowen, Li Hongwei, Liu Xiaodong, et al. VerifyNet: secure and verifiable federated learning[J]. IEEE Trans on Information Forensics and Security, 2019, 15: 911-926.

[4]Nasr M, Shokri R, Houmansadr A. Comprehensive privacy analysis of deep learning: passive and active white-box inference attacks against centralized and federated learning[C]//Prac of IEEE Symposium on Security and Privacy. Piscataway, NJ: IEEE Press, 2019: 739-753.

[5]Song C, Ristenpart T, Shmatikov V. Machine learning models that remember too much[C]//Proc of ACM SIGSAC Conference on Computer and Communications Security. New York: ACM Press, 2017: 587-601.

[6]Truex S, Baracaldo N, Anwar A, et al. A hybrid approach to privacy-preserving federated learning[C]//Proc of the 12th ACM Workshop on Artificial Intelligence and Security.New York:ACM Press,2019:1-11.

[7]Xu Guowen, Li Hongwei, Zhang Yun, et al. Privacy-preserving fe-derated deep learning with irregular users[J]. IEEE Trans on Dependable and Secure Computing, 2020, 19(2): 1364-1381.

[8]Young T, Hazarika D, Poria S, et al. Recent trends in deep learning based natural language processing[J]. IEEE Computational Intel-ligence Magazine, 2018, 13(3): 55-75.

[9]Phong L T, Aono Y, Hayashi T, et al. Privacy preserving deep lear-ning via additively homomorphic encryption[J]. IEEE Trans on Information Forensics and Security, 2017,13(5): 1333-1345.

[10]徐晨陽, 葛丽娜, 王哲, 等. 基于差分隐私保护知识迁移的联邦学习方法[J]. 计算机应用研究, 2023,40(8): 2473-2480. (Xu Chenyang, Ge Lina, Wang Zhe, et al. Federated learning method based on differential privacy protection knowledge transfer[J]. Application Research of Computers, 2023, 40(8): 2473-2480.)

[11]Cao Hui, Liu Shubo, Zhao Renfang, et al. IFed: a novel federated learning framework for local differential privacy in power Internet of Things[J/OL]. International Journal of Distributed Sensor Networks, 2020,16(5). (2020-05-25). https://doi.org/10.1177/1550147720919698.

[12]Li Hao,Li Chengcheng,Wang Jian, et al. Review on security of federated learning and its application in healthcare[J]. Future Generation Computer Systems, 2023,144: 271-290.

[13]Fu Jie, Chen Zhili, Han Xiao. Adap DP-FL: differentially private federated learning with adaptive noise[C]//Proc of IEEE Internatio-nal Conference on Trust, Security and Privacy in Computing and Communications. Piscataway, NJ: IEEE Press, 2022: 656-663.

[14]Andrew G, Thakkar O, McMahan B, et al. Differentially private learning with adaptive clipping[J]. Advances in Neural Information Processing Systems, 2021,34: 17455-17466.

[15]Liu Wenyan, Cheng Junhong, Wang Xiaoling, et al. Hybrid differential privacy based federated learning for Internet of Things[J]. Journal of Systems Architecture, 2022, 124: article ID 102418.

[16]Shokri R, Shmatikov V. Privacy-preserving deep learning[C]//Proc of the 22nd ACM SIGSAC Conference on Computer and Communications Security. New York: ACM Press, 2015: 1310-1321.

[17]孙爽, 李晓会, 刘妍, 等. 不同场景的联邦学习安全与隐私保护研究综述[J]. 计算机应用研究, 2021,38(12): 3527-3534. (Sun Shuang, Li Xiaohui, Liu Yan, et al. Review of federated lear-ning security and privacy protection studies in different scenarios[J]. Application Research of Computers, 2021, 38(12): 3527-3534.)

[18]Dwork C, McSherry F, Nissim K, et al. Calibrating noise to sensiti-vity in private data analysis[C]//Proc of the 3rd Theory of Cryptography Conference. New York: ACM Press, 2006: 265-284.

[19]Fredrikson M, Jha S, Ristenpart T. Model inversion attacks that exploit confidence information and basic countermeasures[C]//Proc of the 22nd ACM SIGSAC Conference on Computer and Communications Security. New York: ACM Press, 2015: 1322-1333.

[20]Melis L, Song Congzheng, De Cristofaro E, et al. Exploiting unintended feature leakage in collaborative learning[C]//Proc of IEEE Symposium on Security and Privacy. Piscataway, NJ: IEEE Press, 2019: 691-706.

[21]Tramèr F, Zhang F, Juels A, et al. Stealing machine learning models via prediction APIs[C]// Proc of the 25th USENIX Security Symposium. [S.l.]: USENIX Association, 2016: 601-618.

[22]McMahan H B, Ramage D, Talwar K, et al. Learning differentially private recurrent language models[EB/OL]. (2018-02-24) [2023-09-05]. https://arxiv.org/abs/1710.06963.

[23]Mcmahan H B, Moore E, Ramage D, et al. Communication-efficient learning of deep networks from decentralized data[C]//Proc of the 20th International Conference on Artificial Intelligence and Statistics. [S.l.]: PMLR, 2017: 1273-1282.