胡智勇 于千城 王之赐 张丽丝
收稿日期:2023-05-28;修回日期:2023-07-21 基金项目:宁夏重点研发计划(引才专项)项目(2022YCZX0013);宁夏重点研发计划(重点)项目(2023BDE02001);银川市校企联合创新项目(2022XQZD009);北方民族大学2022年校级科研平台《数字化农业赋能宁夏乡村振兴创新团队》项目(2022PT_S10);“图像与智能信息处理创新团队”国家民委创新团队资助项目
作者简介:胡智勇(1998—),男,河南驻马店人,硕士研究生,CCF会员,主要研究方向为联邦学习、多目标优化、隐私保护;于千城(1976—),男(通信作者),宁夏人,副教授,硕导,博士,主要研究方向为社会感知计算、社交网络分析、机器学习(1999019@nmu.edu.cn);王之赐(1999—),男,河南濮阳人,硕士,主要研究方向为自然语言处理;张丽丝(1999—),女,云南曲靖人,硕士,主要研究方向为机器学习、深度学习.
摘 要:传统联邦学习存在通信成本高、结构异构、隐私保护力度不足的问题,为此提出了一种联邦学习进化算法。应用稀疏进化训练算法降低通信成本,结合本地化差分隐私保护参与方隐私,同时采用NSGA-Ⅲ算法优化联邦学习全局模型的网络结构、稀疏性,调整数据可用性与隐私保护之间的关系,实现联邦学习全局模型有效性、通信成本和隐私性的均衡。不稳定通信环境下的实验结果表明,在MNIST和CIFAR-10数据集上,与FNSGA-Ⅲ算法错误率最低的解相比,该算法所得解的通信效率分别提高57.19%和52.17%,并且参与方实现了(3.46,10-4)和(6.52,10-4)-本地化差分隱私。在不严重影响全局模型准确率的前提下,该算法有效降低了联邦学习的通信成本并保护了参与方隐私。
关键词:联邦学习;多目标优化;NSGA-Ⅲ算法;本地化差分隐私;参数优化
中图分类号:TP301.6 文献标志码:A
文章编号:1001-3695(2024)02-014-0415-06
doi:10.19734/j.issn.1001-3695.2023.05.0235
Federated learning evolutionary algorithm based on multi-objective optimization
Hu Zhiyonga,Yu Qianchenga,b,Wang Zhicia,Zhang Lisia
(a.School of Computer Science & Engineering,b.The Key Laboratory of Images & Graphics Intelligent Processing of State Ethnic Affairs Commission,North Minzu University,Yinchuan 750021,China)
Abstract:Traditional federated learning faces challenges such as high communication costs,structural heterogeneity,and insufficient privacy protection.To address these issues,this paper proposed a federated learning evolutionary algorithm.It applied sparse evolutionary training algorithm to reduce communication costs and integrated local differential privacy protection for participants privacy.Additionally,it utilized the NSGA-Ⅲ algorithm to optimize the network structure and sparsity of the global federated learning model,adjusting the relationship between data availability and privacy protection.This achieved a balance between the effectiveness,communication costs,and privacy of the global federated learning model.Experimental results under unstable communication environments demonstrate that,on the MNIST and CIFAR-10 datasets,compared to the solution with the lowest error rate using the FNSGA-Ⅲ algorithm,the proposed algorithm improves communication efficiency by 57.19% and 52.17%,respectively.The participants also achieve (3.46,10-4) and (6.52,10-4) -local differential privacy.This algorithm can effectively reduce communication costs and protect participant privacy without significantly compromising the accuracy of the global model.
Key words:federated learning;multi-objective optimization;NSGA-Ⅲ algorithm;local differential privacy;parameters optimization
0 引言
随着现代信息技术的飞速发展,移动终端设备快速普及,为机器学习模型的训练提供了数以亿计的数据支持。然而,传统的集中式机器学习方法需要聚集参与方的本地数据来训练模型,在数据传输和训练的过程中可能会遭到恶意攻击者的攻击,从而导致个人隐私的泄露。此外,国家层面对于个人数据的保护力度日益加强[1~3],在保护隐私的同时进一步加剧了数据孤岛问题。隐私泄露和数据孤岛是传统的集中式机器学习方法面临的两大严峻挑战。
联邦学习[4]是一种旨在解决隐私泄露和数据孤岛问题的分布式机器学习技术,实现了“数据不动,模型动”。通过避免参与方上传本地数据的方式,有效防止了隐私泄露,打破了数据孤岛现象。
传统的联邦学习仍然存在通信成本高、结构异构、隐私保护力度不足的问题[5]。高通信成本是限制联邦学习发展的关键瓶颈[6],由于中央服务器和各个参与方之间频繁地传输模型,联邦学习需要大量的通信资源。结构异构主要表现在两方面:一方面,移动终端设备的计算能力和存储能力的不同导致各参与方训练子模型的时间不平衡;另一方面,中央服务器和参与方的通信过程中,参与方受到网络波动的影响,可能会在训练中途退出,使得部分子模型参数丢失,进而影响联邦学习的效率、准确率[7]。联邦学习在参与方本地训练子模型,个人数据始终保存在本地移动终端设备上,从而保护参与方的数据不被隐藏的对手窃听。尽管如此,中央服务器和参与方仍需要进行频繁的模型交互,梯度和部分参数的传输可能间接导致隐私泄露[8]。例如Song等人[9]在不影响联邦学习训练过程的情况下,通过生成对抗网络重构出实际的训练样本,对参与方的隐私构成了威胁。
针对上述三个问题,本文提出了一种在联邦学习中优化神经网络模型结构并保护参与方隐私的进化算法。该算法在联邦平均算法(federated averaging,FedAvg)[4]中应用稀疏进化训练算法(sparse evolutionary training,SET)[10],将神经网络模型的全连接层转换为稀疏连接,降低了通信成本。同时,参与方在本地训练过程中对梯度添加噪声,使得本地模型参数满足本地化差分隐私,进一步保护了参与方的隐私。然而,以上的两种做法会影响全局模型的准确率,因此将神经网络模型的超参数、SET算法的连通性参数和噪声尺度等作为决策变量,采用第三代非支配排序遗传算法(non-dominated sorted genetic algorithm-Ⅲ,NSGA-Ⅲ)平衡全局模型的性能、通信成本、隐私性,并优化了神经网络模型结构,缓解了结构异构问题。本文的主要贡献如下:
a)通过采用智能优化算法动态调整差分隐私所添加的噪声大小,解决了应用差分隐私技术时存在的难以权衡隐私保护与数据可用性之间关系的问题。
b)将联邦学习表述为一个三目标优化问题,通过优化全局模型错误率、通信成本和隐私预算三个目标函数,平衡了联邦学习全局模型的准确性、通信成本和隐私性。
c)在MNIST和CIFAR-10数据集上进行了两组实验。第一组实验在MNIST数据集上对比了加入不同噪声尺度的FedAvg算法的性能,验证了使用智能优化算法调整隐私保护力度的可行性。第二组实验使用NSGA-Ⅲ算法求出Pareto最优解,并选择部分Pareto解进行增强实验,验证了本文算法的有效性。
1 相關研究
FedAvg算法是最先提出的解决联邦学习高通信成本的方案[11],参与方在本地设备上计算梯度并更新本地模型,中央服务器只对本地模型进行聚合,不参与梯度的计算,通过这种方式将计算量转移到了参与方本地,减少了通信轮次。然而,对于大型模型,在每轮的通信中仍具有较大的通信成本,Gao等人[12]提出一种具有梯度压缩的本地随机梯度下降算法,对联邦学习通信中的所有梯度进行压缩,并通过全精度梯度和压缩梯度之间的残差来补偿压缩梯度,减少了梯度压缩带来的误差,降低了联邦学习每轮通信的通信成本,但梯度压缩会影响模型的准确率。
自从Abadi等人[13]提出用于学习算法的差分隐私概念,确保学习模型不会揭示训练过程中是否使用了某条数据之后,在联邦学习隐私保护领域,差分隐私引起了广泛的关注。Geyer等人[14]首先将差分隐私应用到联邦学习的训练过程中,中央服务器对每轮通信后的全局模型添加高斯分布的噪声,隐藏了参与方是否参与该轮训练,使用矩累计[13]获得隐私边界损失,当隐私边界损失大于设定的阈值时结束训练,确保参与方的隐私边界损失在可控范围内。中心化差分隐私由中央服务器添加噪声,有效防止了参与方对全局模型的推断攻击,但是“诚实且好奇”的中央服务器是不可信的甚至是恶意的。相比之下,本地化差分隐私由参与方在本地添加噪声,再将加噪后的数据发送到中央服务器聚合,从而能够更好地保护数据隐私。Wei等人[15]设计了一种基于本地化差分隐私概念的联邦学习方法NbAFL,参与方和中央服务器分别对模型添加噪声,使得上传和下载的模型均满足差分隐私,并对具有隐私保护噪声扰动的联邦学习收敛行为进行了理论分析。康海燕等人[16]根据联邦学习参与方的参与率和通信轮次,提出了一种本地化差分隐私的联邦学习机制和性能损失更小的估计机制,减少了模型添加噪声所造成的性能损失。差分隐私应用于联邦学习隐私保护领域的一个核心难点是平衡模型的准确性与隐私性[17],加入噪声过大将会影响模型的准确率和收敛性,加入噪声太小又无法达到保护参与方隐私的目的,人工确定噪声尺度的方法在实际应用中难以保证其准确性,因此需要更为科学、可靠的方法来确定添加的噪声尺度。
一些研究者尝试将粒子群算法、多目标遗传算法等智能优化算法与联邦学习相结合,以提高模型的准确性、降低通信成本,进一步推动了联邦学习的发展。Qolomany等人[18]从提高参与方本地模型训练效率的角度出发,使用粒子群算法优化神经网络的隐藏层数量、每层隐藏层神经元数量以及每一轮参与方的训练时期(epoch),大幅度地减少了通信轮次,但该方法仅考虑了单一目标,导致优化结果不够全面。Zhu等人[19]将联邦学习表述为最小化联邦学习全局模型错误率和通信成本的双目标优化问题,将改进的SET算法与FedAvg算法相结合,采用第二代非支配排序遗传算法(non-dominated sorted genetic algorithm-Ⅱ,NSGA-Ⅱ)[20]优化神经网络的超参数和SET算法中的连通性参数,在提高联邦学习全局模型性能的同时降低了模型的参数量和通信成本。但是NSGA-Ⅱ算法求解高维多目标优化问题时效果不理想,并且不利于多目标联邦学习模型的扩展。因此,钟佳淋等人[21]使用快速贪婪初始化的NSGA-Ⅲ算法求解多目标优化联邦学习问题,并且为了防止参与方之间准确率差距过大,在优化目标中加入参与方的公平性[22],将目标空间扩展到了三维,实现了全局模型准确性、通信成本和公平性的平衡,然而,该算法未考虑到联邦学习过程中存在的隐私泄露问题。
本文综合考虑了联邦学习全局模型的准确性、通信成本、隐私性,解决了联邦学习进化算法未考虑到参与方隐私安全的问题,同时智能优化算法又可以对模型超参数、连通性和噪声尺度进行更为精细的调整,使联邦学习全局模型达到更好的平衡。
2 背景知识
2.1 联邦学习
在联邦学习框架下,参与方在本地对模型进行训练,只将更新后的子模型发送给中央服务器,本地数据始终保留在本地设备上,中央服务器将子模型进行聚合,生成下一轮通信的全局模型,数据隐私得到了保护,联邦学习的训练旨在最小化损失函数:
minθ L(θ)=∑Kk=1nknLk(θ) where Lk(θ)=1nk∑i∈Euclid Math OneDApkli(θ)(1)
其中:Lk(θ)是第k个参与方的损失函数;nk是参与方k的数据集Euclid Math OneDApk的大小;n为K个参与方的总数据样本大小;li(θ)是数据样本i上的损失函数。
联邦学习的每轮训练过程分为四步,如图1所示。首先,中央服务器在第t轮训练前,向K个参与方下发全局模型θt;其次,第k个参与者使用本地数据集Dk对全局模型θt进行训练,得到子模型;然后,参与方将子模型θkt上传至中央服务器;最后,服务器对上传的所有子模型进行聚合,得到下一轮通信的全局模型θt+1。通信一定轮次后获得训练好的全局模型。
2.2 SET算法
SET算法首先使用Erdos Rènyi隨机图[23]替代深度神经网络中的全连接层的拓扑结构,将全连接变为稀疏连接,两层之间的连接概率如式(2)所示。
P(Wkij)=α(nk+nk-1)nknk-1
nW=nknk-1P(Wkij)(2)
其中:Wkij是两层之间稀疏权重矩阵;α是控制连接稀疏性的参数;nk和nk-1是第k层和第k-1层的神经元个数;nW是两层之间总的连接数。然而,随机生成的拓扑结构不适合神经网络模型学习特定的数据,Mocanu等人[10]建议在每个epoch中移除ξ部分更新量最小的权重,并随机添加与移除量相同个数的随机权重,这可以视为进化算法的选择操作。
Zhu等人[19]将SET与FedAvg算法相结合,但在联邦学习的训练过程中,移除更新量最小的权重会导致结果的严重波动,因此对SET算法进行改进,仅在最后一个epoch移除ξ部分更新量最小的权重,改进的SET算法的伪代码如算法1所示。
算法1 改进SET算法
输入:全连接的神经网络,连通性参数α和ξ。
输出:稀疏神经网络。
a) for each fully-connected layer do
b) 将全连接层替换为由α和式(2)给出的Erdos Rènyi拓扑的稀疏连接层
c) end for
d) 初始化权重
e) 开始训练
f) for each epoch do
g) 训练并且更新相应权重
h) end for
i) for each weight matrix do
j) 移除ξ部分更新量最小的权重
k) end for
2.3 差分隐私
差分隐私是一种轻量级的隐私保护技术[24],旨在保护数据中的敏感信息,通过在处理数据前,向其添加一些拉普拉斯分布、高斯分布、随机数等噪声来实现隐私保护,添加噪声的目的是使得相邻的数据集之间查询结果的差异被掩盖,使得攻击者无法通过结果来推断原始数据中的个人信息,从而提高隐私保护的强度。在深度学习中松弛差分隐私最为常用,定义为(ε,δ)-松弛差分隐私,即
如果一个定义域为Euclid Math OneXAp,值域为Euclid Math OneRAp的随机化隐私机制Euclid Math OneMAp:Euclid Math OneXAp→Euclid Math OneRAp,在两个相邻数据库Euclid Math OneDApi,Euclid Math OneDAp′i(Euclid Math OneDApi,Euclid Math OneDAp′i∈Euclid Math OneXAp)上得到的所有输出结果Euclid Math OneSAp(Euclid Math OneSApEuclid Math OneRAp)满足式(3),则其满足(ε,δ)-松弛差分隐私。
Pr[Euclid Math OneMAp(Euclid Math OneDApi)∈Euclid Math OneSAp]≤eεPr[Euclid Math OneMAp(Euclid Math OneDAp′i)∈Euclid Math OneSAp]+δ(3)
高斯机制[25]给输出结果f(t)添加高斯分布的噪声n~Euclid Math OneNAp(0,σ2),即Euclid Math OneMAp(t)=f(t)+Euclid Math OneMAp(0,σ2I),函数f(t)的L2敏感度为Δs=maxEuclid Math OneDApi,Euclid Math OneDAp′i‖f(Euclid Math OneDApi)-f(Euclid Math OneDAp′i)‖2,高斯分布的标准差只需满足σ≥cΔs/ε,在ε∈(0,1)的情况下,常数c≥2 ln (1.25/δ),就可以实现(ε,δ)-松弛差分隐私。
2.4 第三代非支配排序遗传算法(NSGA-Ⅲ)
NSGA-Ⅲ算法是由Deb等人[26]提出的一种多目标优化算法,旨在解决前两代NSGA算法在处理高维多目标(目标维度大于3)问题时面临的挑战。总体来说,NSGA-Ⅲ与NSGA-Ⅱ算法具有类似的框架,两者的主要区别在于同一非支配层内个体的排序方式。NSGA-Ⅱ算法通过拥挤度进行排序,拥挤度排序需要计算个体之间距离,而在高维目标空间中距离计算复杂度高,导致算法的计算开销大、作用不明显;而NSGA-Ⅲ算法使用广泛分布的参考点进行排序,有效地提高了种群的多样性,有利于找到全局最优解,也可以更加灵活地适应不同的目标空间和问题类型。NSGA-Ⅲ算法的步骤总结如下:
a)在超平面上生成H个参考点,并随机生成个体数为M的父代种群Pn。
b)对父代种群Pn执行交叉、变异操作,生成子代种群Qn(|Qn|=M)。然后将父代种群与子代种群合并为Rn,并计算出Rn中每个个体的目标函数值。
c)首先,对目标函数值进行非支配排序,将Rn分为多个非支配层(F1,F2,F3,…)。其次,从F1开始构造一个新的种群Sn,直到其大小首次等于或超过M,假设最后一层为l层,l层之后的个体将会被舍弃。如果|Sn|=M,令Pn+1=Sn并转至步骤e),否则转至步骤d)。
d)令Pn+1=Sn/Fl,将Sn的目标函数值使用理想点和极端点进行标准化后,通过计算垂直距离将个体与参考点相联系,并统计每个参考点所联系的Pn+1中个体的数目。从联系个体最少的参考点开始,若联系个体最少的参考点数不唯一,则从中随机选择一个,然后执行下面两种情况,直到|Pn+1|=M。
(a)Fl層有个体与该参考点相联系:如果该参考点已联系的个体数为0,则将Fl层与该参考点相联系个体中距离最短的个体添加到Pn+1,并将参考点所联系的个体数目加1;如果该参考点已联系的个体数大于0,则从Fl层与该参考点相联系的个体中随机选择一个添加到Pn+1,并将参考点所联系的个体数目加1。
(b)Fl层没有个体与该参考点相联系:排除该参考点。
e)转至步骤b),重复该过程,达到最大迭代次数后算法结束。
3 方法设计
3.1 问题描述
本文将联邦学习表述为三目标优化问题,总体目标为使用多目标进化算法优化联邦学习中的神经网络结构、隐私保护力度,平衡联邦学习全局模型的准确性、通信成本、隐私性。由于部分优化目标存在相互冲突的情况,无法找到一种解决方案可以同时最小化多个目标函数,需要在不同的目标之间进行折中取舍,以得到一组折中解(Pareto最优解集),问题的形式化定义如下:
min f(x)s.t.x∈R=min(f1(x),f2(x),f3(x))T(4)
其中:x为模型的决策变量;R为决策变量的可行解空间;f(x)是总体优化目标;fi(x)是第i个目标函数。
NSGA-Ⅱ、强度Pareto进化(SPEA2)等多目标进化算法,虽然可以用于解决联邦学习的多目标优化问题,但是大多数该类算法在求解高维多目标优化问题时,效果变得不理想。NSGA-Ⅲ算法适用于具有2~15个目标的多目标优化问题[26],具有良好的可扩展性,因此,本文选用NSGA-Ⅲ算法求解联邦学习的三目标优化问题。
3.2 目标函数
本文有三个目标函数,分别为最小化全局模型错误率f1、最小化通信成本f2和最小化参与方隐私预算f3。首先,使用种群中的个体作为模型的超参数,结合SET算法生成稀疏连接的全局神经网络模型;其次,对稀疏神经网络使用FedAvg算法进行若干通信轮次的训练,得到最终的全局模型;最后,使用全局模型对所有参与方的测试集分别进行测试,求出每个参与方的准确率{a1,a2,a3,…,aK}。模型的全局准确率计算公式为
A=∑Kk=1akK(5)
目标函数f1为最小化全局模型错误率,计算公式为
f1=1-A=1-∑Kk=1akK(6)
目标函数f2为最小化通信成本,联邦学习的通信成本由中央服务器和参与方之间的模型交互产生,当全局模型的网络结构确定后,通信成本只与模型的参数量Ω和每轮参与方参与比例C相关,由此可以得出目标函数f2为
f2=Ω×Κ×CK=Ω×C(7)
目标函数f3为最小化隐私预算,在本地化差分隐私中,隐私预算ε与添加的噪声呈负相关,隐私预算越小,添加的噪声越大,对参与方的隐私保护程度越高。目标函数f3借鉴了文献[16]提出的联邦学习本地化差分隐私方法,计算公式为
f3=ε=Δs2CT ln (1δ)σ(8)
其中:Δs为敏感度;C为参与方的参与比例;T为总的通信轮次;δ为差分隐私的松弛项;σ为高斯分布的标准差。每个参与方上传的模型都可以实现(ε,δ)-本地化松弛差分隐私。
第k个参与方训练过程中的敏感度如式(9)所示。
ΔsEuclid Math OneDApk=maxEuclid Math OneDApk,Euclid Math OneDApk′‖Lk(θ)Euclid Math OneDApk-Lk(θ)Euclid Math OneDApk′‖=
maxEuclid Math OneDApk,Euclid Math OneDApk′‖1|Euclid Math OneDApk|∑i∈Euclid Math OneDApkli(θ)-1|Euclid Math OneDApk′|∑i∈Euclid Math OneDApk′li(θ)‖=2S|Euclid Math OneDApk|(9)
其中:S为梯度裁剪的阈值。因此,每轮训练的全局敏感度Δs=max{ΔsDk},为了最小化全局敏感度,理想条件是所有参与方都使用足够的本地数据集进行训练[15],假设本地数据集的最小为m,则Δs=2S/m。
3.3 决策变量及编码
决策变量由神经网络的超参数、参与者的参与比例C、SET算法中的连通性参数α和ξ、高斯分布的标准差σ组成,其中神经网络的超参数决定了神经网络的结构,参与者参与比例影响了模型的总参数量和隐私预算,两个连通性参数决定了神经网络的稀疏度和模型参数量,高斯分布的标准差决定了本地模型的隐私预算。神经网络选择多层感知机(multilayer perceptron,MLP)和卷积神经网络(convolutional neural network,CNN),超参数如表1所示。MLP的决策变量为x={L,N,lr,C,α,ξ,σ},CNN的决策变量为x={conv,kc,ks,L,N,lr,C,α,ξ,σ}。
在MLP和CNN中,均有实数和整数两种类型的决策变量,采用混合编码的方式对两种决策变量类型分别进行实值编码和二进制编码。图2为CNN的个体编码示例,在二进制解码时,防止出现值为0的情况,自动对解码后的数值加1。
3.4 算法流程
首先,随机生成大小为M的初代种群,并生成参考点,使用二元锦标赛选择出两个父代个体进行交叉变异操作,产生两个子代个体,循环若干次,产生M个子代个体组成子代种群。
其次,将父子代种群合并,合并后种群中的个体在参与方设备上使用结合改进SET算法的FedAvg算法进行本地训练,训练过程中采用随机梯度下降法计算出模型的梯度值,并对梯度进行裁剪,限制训练样本对模型参数的影响。梯度裁剪阈值S选取在训练过程中未裁剪梯度范数的中位数,根据梯度值更新子模型并添加高斯分布N(0,σ2)的噪声,训练结束后将子模型上传给中央服务器。中央服务器接收到参与方上传的模型后进行聚合,生成下一轮通信的全局模型。若干轮通信后,生成最终的全局模型,使用全局模型计算出三个目标函数的值。
最后,对产生2M组目标函数值进行非支配排序,并根据参考点选择出M个个体组成新的父代种群,进入下一轮迭代,直到达到最大迭代次数为止。使用NSGA-Ⅲ算法求解联邦学习三目标问题和参与方本地训练过程的伪代码分别如算法2、3所示。
算法2 联邦学习进化算法
输入:交叉和变异概率pc、pm,参与方总数K。
输出:一组Pareto最优解。
初始化个体数为M的初代种群Pn,并生成参考点
for each generation n←1 to N do
对Pn进行交叉和变异产生子代种群Qn,|Qn|=M
父子代种群合并,Rn=Pn+Qn,|Rn|=2M
for each individual i∈Rn do
根据个体i中的决策变量初始化全局稀疏模型θit
for each communication round t←1 to T do
随机选择p=max (Ci×K,1)个参与方
for each client k∈p in parallel do
通过算法3得出kt
end for
θit+1=1p∑pk=1kt
end for
使用全局模型θiT+1计算出目标函数fi←(fi1,fi2,fi3)
end for
f=∪2Mi=1fi
對f中的解进行非支配排序
根据非支配排序等级和参考点选择出M个个体组成Pn+1
end for
算法3 参与方本地训练
输入:第t轮的全局模型θt,本地模型迭代次数E,连通性参数ξi,批量大小B。
输出:第k个参与方第t通信轮次训练后的模型。
for e←1 to E do
批量大小B中的每个数据对b
梯度大小g←L(θkt,b)
梯度裁剪g←gmax(1,‖g‖2S)
更新模型θkt←θkt-g
添加噪声θ~kt←θkt+Euclid Math OneNAp(0,σ2i)
end for
移除θ~kt中ξi部分更新量最小的权重
return θ~kt
4 实验分析
4.1 实验设置
本实验开发语言为Python 3.8,开发环境为PyCharm,使用PyTorch 1.11.0训练神经网络,硬件设施为Intel Xeon Gold 6154,12 GB显存的NVIDIA TITAN V,操作系统为CentOS 7。
神经网络选择MLP和CNN,使用学习率为0.1,批量大小为64的随机梯度下降法对神经网络进行优化,其中原始的MLP包含2个隐藏层,每层有200个神经元,激活函数为ReLU函数。CNN设置两个5×5的卷积层,分别是32和64个通道,卷积层后是一个2×2的最大池化层,然后是一个具有ReLU激活函数的128个神经元的全连接层,以及一个10类的softmax输出层。
参与方总数K和参与方参与比例C设置为100和1,即每轮通信中使用100×1个参与方进行训练,参与方本地epoch设置5。对MNIST和CIFAR-10数据集使用两种方式划分,一种为独立同分布(independent identically distribution,IID),將数据集随机打乱,在MNIST数据集下,每个参与方包含600条训练数据,在CIFAR-10数据集下,每个参与方包含500条训练数据;另一种为非独立同分布(non-independent identically distribution,non-IID),使用文献[4]中的分割方法,先按照标签对MNIST数据集进行排序,将训练集分为200个大小为300的片段,为每个参与方分配2个训练集片段,CIFAR-10数据集的non-IID划分方法与MNIST数据集类似。在实验过程中,为了模拟联邦学习在真实环境中由于网络波动而产生的结构异构问题,设置参与方上传的子模型有30%的概率丢失。
参与方的隐私保护程度由隐私预算ε、高斯分布标准差σ和松弛项δ三个参数控制。其中ε为目标函数f3,由式(8)计算;σ为决策变量参数;松弛项δ通常要小于训练集大小的倒数,根据本文的数据集分割方法,每个参与方本地最多有600条训练数据,因此δ统一设置为10-4。
NSGA-Ⅲ算法使用二轮锦标赛作为选择算子,交叉变异算子和相应的概率依据文献[7,19]的参数设置,如表2所示。
4.2 隐私保护有效性验证
本节使用MLP和CNN两种神经网络在以IID方式划分的MNIST数据集上验证通过改变决策变量σ可以有效控制参与方的隐私保护等级。联邦学习的通信轮次为150次,参与方总数为100,参与方参与比例为1,将高斯分布的标准差分别设置为σ=0.05、σ=0.1、σ=0.2,两种神经网络的实验结果如图3所示。
观察图3可以发现,随着σ的增大,两种神经网络的全局准确率都在降低,说明通过调整σ能够实现不同的隐私保护级别;同时,经过100轮迭代左右,模型的全局准确率达到稳定,表明在参与方本地加入适量的噪声,不会严重影响模型的收敛性。进一步证明了将σ作为决策变量参数,使用智能优化算法平衡联邦学习模型准确率和隐私性之间的关系是可行的。
4.3 联邦学习进化模型
实验的参数如表3所示。由于受到计算资源的限制,导致本文无法进行大规模的迭代训练,种群大小和迭代次数均设置为20,本地epoch和通信轮次均设置为5。为了保证联邦学习全局模型的收敛性,学习率设置为0.01~0.2,参与方参与比例的最小值设置为0.1。连通性参数α和ξ参考了文献[19],分别设置为1~128和0.01~0.55。在综合考虑了参与方的隐私保护程度和全局模型性能的情况下,高斯分布标准差设置为0.001~0.5,过小的值无法达到保护参与方隐私的目的,过大的值将严重影响全局模型的性能。
在MNIST和CIFAR-10数据集上使用NSGA-Ⅲ算法,求出IID和non-IID分布下MLP和CNN模型的Pareto最优解分布,如图4所示,其中的每个点代表着一个联邦学习中神经网络模型的特定结构的解决方案。表4展示了Pareto最优解中三个目标函数的最小值和平均值。
在进化过程中,考虑到了时间成本,种群中个体的通信轮次设置为了5次,但这不符合联邦学习实际的应用场景,并且未能够充分表现进化得出的Pareto解的性能。因此,本文在MNIST和CIFAR-10数据集的MLP、non-IID解中分别选择两个全局测试误差低的解(记作解1、解2)和一个边界拐点解(记作解3),将通信轮次设置为150轮,进行了增强实验,并与完全连接且未保护参与方隐私的联邦学习标准解和FNSGA-Ⅲ算法[21]所得的测试错误率很小的解(记作解F)进行对比,用于验证联邦学习进化模型的多目标均衡和参数寻优能力。实验结果如表5和6所示。
根据表5和6可以得到以下结论:
a)在两个数据集上,所选取的Pareto解的通信成本均低于联邦学习标准解和解F。在MNIST数据集上的通信成本只占到标准解的7.98%~13.03%,占到解F的27.62%~45.13%;在CIFAR-10数据集上只占标准解的13.55%~21.38%,占到解F的30.33%~47.83%。说明本文提出的联邦学习进化算法可以有效地降低通信成本。
b)相比未保护参与方隐私的标准解和解F,所选取的Pareto解在MNIST数据集上平均实现了(2.31,10-4)-本地化差分隐私;在CIFAR-10数据集上平均实现了(6.06,10-4)-本地化差分隐私,有效地保护了参与方的隐私。
c)选取的两组Pareto解的准确率均低于标准解和解F,在MNIST数据集上最高达到了标准解的96.71%和解F的95.22%;在CIFAR-10数据集上最高达到了标准解的95.02%和解F的90.50%,并未严重影响全局模型的准确率。
d)准确率高的解,其通信成本和隐私预算都相对较大,说明所得到的Pareto解实现了三个目标的均衡。
5 结束语
针对传统联邦学习存在高通信成本、结构异构、隐私保护力度不足的问题,本文提出一种基于多目标优化的联邦学习进化算法。构建了联邦学习三目标优化数学模型,三个目标函数为最小化全局模型错误率、通信成本、参与方隐私预算;使用NSGA-Ⅲ算法进行求解,用于优化联邦学习模型的结构、稀疏度和对参与方的隐私保护力度;,最后,在不稳定的通信环境下进行了实验。实验结果表明,联邦学习进化算法在不严重影响全局模型准确率的前提下有效降低了联邦学习通信成本并保护参与方隐私,实现了三个目标的均衡。
本文将差分隐私引入到联邦学习进化算法中以保护参与方的隐私,但未考虑到统计异构问题和恶意参与方的投毒攻击。在参与方本地数据是non-IID,或者恶意参与方窜改本地数据的情况下,如何提高全局模型的性能和鲁棒性,仍是联邦学习进化算法值得深入研究的方向。
参考文献:
[1]Chik W B.The Singapore personal data protection act and an assessment of future trends in data privacy reform[J].Computer Law & Security Review,2013,29(5):554-575.
[2]Regulation G D P.Regulation EU 2016/679 of the European parliament and of the council of 27 April 2016[J].Official Journal of the European Union,2016(59):1-88.
[3]孫佑海.网络安全法:保障网络安全的根本举措——学习贯彻《中华人民共和国网络安全法》[J].中国信息安全,2016(12):30-33.(Sun Youhai.Cybersecurity law:the fundamental measures to ensure cybersecurity——study and implement the “Network Security Law of the Peoples Republic of China”[J].China Information Security,2016(12):30-33.)
[4]McMahan B,Moore E,Ramage D,et al.Communication-efficient learning of deep networks from decentralized data[C]//Proc of the 20th International Conference on Artificial Intelligence and Statistics.2017:1273-1282.
[5]Li Li,Fan Yuxi,Tse M,et al.A review of applications in federated learning[J].Computers & Industrial Engineering,2020,149:106854.
[6]Yang Wensi,Zhang Yuhang,Ye Kejiang,et al.FFD:a federated lear-ning based method for credit card fraud detection[C]//Proc of International Conference on Big Data.Cham:Springer,2019:18-32.
[7]Zhong Jialin,Wu Yahui,Ma Wubin,et al.Optimizing multi-objective federated learning on non-IID data with improved NSGA-Ⅲ and hie-rarchical clustering[J].Symmetry,2022,14(5):1070.
[8]Bos J W,Lauter K,Naehrig M.Private predictive analysis on encryp-ted medical data[J].Journal of Biomedical Informatics,2014,50:234-243.
[9]Song Mengkai,Wang Zhibo,Zhang Zhifei,et al.Analyzing user-level privacy attack against federated learning[J].IEEE Journal on Selected Areas in Communications,2020,38(10):2430-2444.
[10]Mocanu D C,Mocanu E,Stone P,et al.Scalable training of artificial neural networks with adaptive sparse connectivity inspired by network science[J].Nature Communications,2018,9(1):2383.
[11]王惜民,范睿.基于类别不平衡数据联邦学习的设备选择算法[J].计算机应用研究,2021,38(10):2968-2973.(Wang Ximin,Fan Rui.Device selection in federated learning under class imbalance[J].Application Research of Computers,2021,38(10):2968-2973.)
[12]Gao Hongchang,Xu An,Huang Heng.On the convergence of communication-efficient local SGD for federated learning[C]//Proc of AAAI Conference on Artificial Intelligence.2021:7510-7518.
[13]Abadi M,Chu A,Goodfellow I,et al.Deep learning with differential privacy[C]//Proc of ACM SIGSAC Conference on Computer and Communications Security.New York:ACM Press,2016:308-318.
[14]Geyer R C,Klein T,Nabi M.Differentially private federated learning:a client level perspective[EB/OL].(2017).https://arxiv.org/abs/1712.07557.
[15]Wei Kang,Li Jun,Ding Ming,et al.Federated learning with differen-tial privacy:algorithms and performance analysis[J].IEEE Trans on Information Forensics and Security,2020,15:3454-3469.
[16]康海燕,冀源蕊.基于本地化差分隱私的联邦学习方法研究[J].通信学报,2022,43(10):94-105.(Kang Haiyan,Ji Yuanrui.Research on federated learning approach based on local differential privacy[J].Journal on Communications,2022,43(10):94-105.)
[17]汤凌韬,陈左宁,张鲁飞,等.联邦学习中的隐私问题研究进展[J].软件学报,2023,34(1):197-229.(Tang Lingtao,Chen Zuo-ning,Zhang Lufei,et al.Research progress of privacy issues in federated learning[J].Journal of Software,2023,34(1):197-229.)
[18]Qolomany B,Ahmad K,Al-Fuqaha A,et al.Particle swarm optimized federated learning for industrial IoT and smart city services[C]//Proc of IEEE Global Communications Conference.Piscataway,NJ:IEEE Press,2020:1-6.
[19]Zhu Hangyu,Jin Yaochu.Multi-objective evolutionary federated lear-ning[J].IEEE Trans on Neural Networks and Learning Systems,2019,31(4):1310-1322.
[20]Deb K,Pratap A,Agarwal S,et al.A fast and elitist multi-objective genetic algorithm:NSGA-Ⅱ[J].IEEE Trans on Evolutionary Computation,2002,6(2):182-197.
[21]钟佳淋,吴亚辉,邓苏,等.基于改进NSGA-Ⅲ的多目标联邦学习进化算法[J].计算机科学,2023,50(4):333-342.(Zhong Jialin,Wu Yahui,Deng Su,et al.Multi-objective federated learning evolutionary algorithm based on improved NGSA-Ⅲ[J].Computer Science,2023,50(4):333-342.)
[22]Li Tian,Sanjabi M,Beirami A,et al.Fair resource allocation in fede-rated learning[EB/OL].(2019).https://arxiv.org/abs/1905.10497.
[23]Erdos P,Rényi A.On the evolution of random graphs[J].Trans of the American Mathematical Society,1960,5(1):17-60.
[24]Dwork C.Differential privacy[C]//Proc of International Colloquium on Automata,Languages and Programming.Berlin:Springer,2006:1-12.
[25]Dwork C,Roth A.The algorithmic foundations of differential privacy[J].Foundations and Trends in Theoretical Computer Science,2014,9(3-4):211-407.
[26]Deb K,Jain H.An evolutionary many-objective optimization algorithm using reference-point-based nondominated sorting approach,part I:solving problems with box constraints[J].IEEE Trans on Evolutio-nary Computation,2013,18(4):577-601.