基于选择性通信策略的高效联邦学习研究

2024-03-05 01:45陈思光

小型微型计算机系统 2024年3期

李群,陈思光

(南京邮电大学物联网学院,南京 210003)

0 引言

近年来,随着人类社会信息化的高速发展,移动设备和边缘设备被广泛采用,在这些设备上执行机器学习算法以实现个性化、低延迟人工智能应用的需求激增.目前,机器学习主要以集中式学习为主,客户端需要将其本地数据上传至服务器进行训练.然而,集中式的机器学习容易产生数据泄漏,不利于保护用户的隐私.为解决上述问题,联邦学习[1]被提出用于在大量边缘设备(客户端)上实现协作式机器学习.在联邦学习过程中,训练开始后中心服务器首先初始化模型参数,并将初始化的模型参数分发到客户端中,客户端的模型加载由服务器发来的参数,并根据本地数据使用随机梯度下降等优化方法对模型进行迭代训练.本地训练完成之后,客户端仅需上传本地模型的参数或梯度而无需上传本地数据至服务器.在上述过程中,隐私数据一直保存在客户端本地设备上,避免了传输数据可能带来的信息泄漏风险.最后,服务器将根据所有客户端上传的模型参数或梯度更新全局模型,然后再继续进行下一轮训练.

然而,高通信开销问题阻碍着联邦学习的进一步发展.一方面,随着智能手机和平板电脑等移动设备数量的急剧增长,现有的基础设施不够完备,导致运营商无法提供可靠廉价的网络连接服务.另一方面,部署在移动设备上的高级机器学习应用程序越来越多地使用复杂的深层神经网络,以致于每个参与训练的客户端上传的模型参数或梯度占用更大的带宽,这使得通信成为一个重大的瓶颈.因此,最小化联邦学习的通信开销变得至关重要.

当前,降低联邦学习通信开销的方法主要以减少客户端和服务器的通信次数,减小每次通信传输的数据规模[2]以及异步参数更新[3]为主.

为减少客户端和服务器的通信次数,文献[4]提出了单轮通信联邦学习方案,其中所有的训练都在客户端本地进行,只有在算法结束时用一次通信将各个参与者的本地模型进行聚合.文献[5]采取通常用于领域自适应和迁移学习的双流模型,将最大均值差异(Maximum Mean Discrepancy,MMD)引入到损失函数中,由于MMD能够测量两个数据分布平均值之间的距离[6,7],因此通过最小化本地和全局的MMD损失,参与者能够从全局模型中提取到更一般化的特征,从而加速训练过程的收敛,减少客户端与服务器的通信次数,降低通信开销.此外,有相关研究采取选择性通信策略以减少客户端和服务器的通信次数.例如,文献[8]提出每个客户端在完成本地训练时检查本地模型的更新趋势与全局模型的更新趋势是否一致,并避免将与全局模型优化趋势不一致的客户端模型上传.文献[9]则是提出边缘随机梯度下降算法,该算法在每一轮通信中,只选择重要梯度上传参数服务器.与上述方法不同,文献[10]受到移动边缘计算的启发,考虑到边缘服务器的传播延迟小于客户端与云通信的传播延迟,在网络结构上引入边缘服务器作为中间参数聚合器以减少通信开销.

减小每次通信传输的数据规模可以通过压缩传输内容的方法实现.基于该方法,文献[11]提出两种模型参数更新策略,即轮廓更新和结构更新.此外,由于模型结构在联邦学习中是共享的,所以可以应用模型参数的压缩技术来降低通信开销,比如网络剪枝、量化和权值共享等方案[12].针对特定的网络模型可以有特定的压缩方法,比如文献[13]提出了一种方案专用于压缩卷积神经网络结构的模型.与模型参数压缩类似,如果在联邦学习过程中客户端上传的是梯度信息,则可以进行梯度压缩,例如文献[14]提出的深度梯度压缩方案、文献[15]提出的梯度量化和编码.上述方法虽然压缩了数据减少了传输的比特数,但是同时也引入了噪声,压缩算法不能收敛到最优解附近,导致算法性能下降幅度比较大[16].

异步参数更新策略是指联邦学习场景下每一个客户端完成本地模型训练迭代后,无需等待其他参与方完成本地训练,就可以向服务器端发送本地模型参数更新并请求当前的全局模型,以便进行后续训练.同时,服务器端也会根据每一个客户端上传的最新模型参数进行聚合,而无需考虑与每一个客户端的通信次数是否相同,进而能够大幅提高学习效率.基于异步参数更新策略,文献[17]提出将联邦学习过程中的深度神经网络的不同层次划分为浅层和深层,并设置深层的参数更新频率低于浅层.文献[18]提出了一种基于权重摘要和更新版本感知的异步联邦学习聚合更新方法,通过合理控制不同训练速度用户提交的参数在聚合参数中所占比例,以及主动更新落后用户使用的聚合参数,从而有效解决本地训练速度差异对聚合参数造成的负面影响.然而异步参数更新可能会带来模型不稳定的问题,这主要是因为客户端之间的训练步调可能相差很大.例如,一个客户端的训练速度很快,它已经在全局模型的基础上训练了100轮,而另一个速度较慢的客户端仅训练了1轮.当后者把一个落后的本地模型参数或梯度上传至服务器聚合时,很可能会减慢全局模型的收敛速率,甚至导致模型发散,无法收敛.

因此,为应对联邦学习的高通信开销问题,本文从减少客户端和服务器的通信次数的角度出发,提出了一种基于选择性通信策略的高效联邦学习算法(FedSCP:Efficient Federated Learning Based on Selective Communication Policy),主要贡献总结如下:

1)构建了一个基于选择性通信策略的高效联邦学习模型,提出在每一轮全局训练中,客户端将训练好的本地模型与全局模型进行比较,计算两者之间的MMD值来衡量其相关性,其中相关性低的本地模型将不会被上传到中心服务器.这有效减少了客户端和服务器的通信次数,并且有利于全局模型的收敛.

2)提出了加权聚合策略,即中心服务器依据相关性对客户端上传的本地模型进行加权聚合,相关性越强的本地模型将会被赋予越高的权重,意味着其对全局模型的贡献将越突出,可进一步加快全局模型的收敛速度.

本文其余部分组织如下:第1节介绍了本文的系统模型;第2节对本文所提出的基于选择性通信策略的高效联邦学习算法进行了具体介绍;第3节是对仿真结果的分析;最后,第4节总结全文.

1 系统模型

本节构建了一个基于选择性通信策略的高效联邦学习模型,如图1所示,该模型由用户层和服务器层组成,图1呈现了它们之间的关系,具体每层的功能定义如下:

服务器层:服务器层由具有强大计算能力的中心服务器构成,它覆盖了用户层的n个客户端.其主要包括3个功能:1)初始化全局模型.2)接收客户端生成的MMD值,以此确定需要上传本地模型的客户端并依据MMD值分配模型聚合阶段的权重.3)对客户端上传的本地模型进行加权聚合.4)中心服务器存储着测试数据集,用于评估每一轮训练得到的全局模型性能.

用户层:用户层由多个客户端组成,如各医疗机构的专用计算机、个人的移动终端设备等.每个客户端都拥有其本地隐私数据,这些数据是非独立同分布的,用以训练客户端本地模型.客户端主要负责本地模型的训练更新以及本地模型与全局模型MMD值的计算,若客户端本地模型达到与全局模型相关的要求,则需上传本地模型的参数至中心服务器.

如图1所示,基于选择性通信策略的高效联邦学习的基本流程如下:

①中心服务器初始化全局模型并将其参数下发给参与训练的客户端.

②客户端的模型加载由服务器发来的参数,并根据本地数据使用随机梯度下降等优化方法对模型进行迭代训练以更新本地模型,并计算本地模型与全局模型的MMD值.

③本地客户端上传MMD值至中心服务器.

④中心服务器依据各个客户端的MMD值确定需要上传本地模型的客户端,并根据MMD值分配模型聚合权重.

⑤被选中的客户端上传其本地模型的参数.

⑥中心服务器对接收到的客户端本地模型参数进行加权聚合,更新全局模型.

2 算法设计

2.1 优化目标

在实际应用中,联邦学习客户端通常是边缘设备,它们的网络状态不稳定并且通信成本比较昂贵,所以本文希望尽可能地减少客户端上传数据至服务器的次数,以降低通信开销.因此,算法的设计目标就是最大限度地减少在整个联邦学习过程中用于上传客户端本地模型的累计通信轮数.

具体地,假设St为在第t轮训练中被中心服务器选中上传本地模型的客户端集合,将第t轮全局迭代的通信轮次定义为rt=‖St‖,即通信轮次等于集合St中的元素个数.因此,经过T轮全局迭代后的累积通信轮次Φ(T)即为:

(1)

进而优化目标即为最小化累积通信轮次:

(2)

2.2 设计思路

在联邦学习中,全局模型是通过聚合大量来自客户端的本地模型来获得的.由于本地模型是通过每个客户端本地的数据训练得到的,因此本地模型和全局模型之间通常存在差异.鉴于客户端设备上数据的非独立同分布性质,一些本地模型可能无法很好地代表全局的数据分布,产生偏差.例如,当训练一个键盘输入推荐模型时,每个客户都会有不同的输入偏好和习惯.虽然客户端有部分的输入偏好是一致的,但是其他有部分选择偏好的不一致可能会产生特定于客户的更新,这与全局模型的更新是不一致的,不利于全局模型的收敛.

因此,可以在每一轮本地模型上传前,动态识别客户端本地模型与全局模型的相关性,取消上传相关性低的客户端本地模型以减少通信开销.同时,这还有利于全局模型的收敛,因为中心服务器忽略了相关性较低的异常本地模型,只对相关性较高的更具有全局代表性的本地模型进行聚合.

为了衡量模型之间的相关性,本文引入了MMD的概念.MMD一般用于度量两个数据分布均值之间的距离,广泛应用于领域自适应问题中,描述源域和目标域产生的特征之间的差异.其具体的计算过程如下所述:

首先,均值差异(Mean Discrepancy,MD)是用于判断两个分布p和q是否相同,假设p分布生成的样本空间为P,同时q生成的样本空间为Q,对于一个函数集F中的函数f,均值差异MD=mean(f(P))-mean(f(Q)),在函数集F中寻找到一个函数f使得MD有最大值,这个值就是MMD,MMD的值越小,则表示两个样本空间的分布越相似,若为0则分布相同.MMD的求解可以表示为:

(3)

当样本有限时,公式(3)可以转化为:

(4)

其中,为了准确衡量两个样本空间分布的相似性,函数集F需要足够丰富,并且考虑到数据集样本的数量,为了在求MMD的时候,随着数据集的增大,MMD可以迅速收敛,函数集F需要有足够的约束.

当F是再生希尔伯特空间上的单位球时,可以满足以上条件.而核函数的定义为:设X是输入空间(欧氏空间或离散集合),H为特征空间(希尔伯特空间),如果存在一个从X到H的映射φ(x):X→H,使得对所有的x,y∈X,函数K(x,y)=φ(x)·φ(y),则称K(x,y)为核函数,φ(x)为映射函数,φ(x)·φ(y)为x,y映射到特征空间上的内积.此时,当样本数量有限时,MMD的求解可以表示为:

(5)

为了能够利用核函数的性质,对上式平方可得:

观察组患者疼痛程度显著低于对照组,观察组患者对护理满意度为95.0%,对照组为77.5%,两组差异显著(P<0.05),结果见表2。

(6)

紧接着,可以通过核函数求得MMD值.

此外,为进一步提升联邦学习的性能,不同于传统的联邦学习算法在模型聚合阶段仅执行简单平均聚合,本算法将根据本地模型与全局模型的相关性为参与聚合的本地模型分配权重,其中相关性越大的本地模型将被赋予更高的权重,因为它更具全局代表性,有利于全局模型的收敛.

2.3 算法描述

本文所提出的FedSCP算法主要包括中心服务器全局聚合和客户端本地训练两大部分,详细介绍如下:

算法1.FedSCP算法

1.procedureGlobalOptimization

2.Input:Client set=,thresholdv(t).

5.foreachiterationt=1,2,…do

6.forallclientci∈doinparallel

9.foreachj=1,2,…do

13.else

15.foreachk=1,2,…do

19.procedureLocalUpdate

3 仿真与性能评估

本节通过仿真实验来评估所提基于选择性通信策略的高效联邦学习算法FedSCP的有效性,并将本文所提出的方案与其他经典基准方案进行对比,以突出本文方案的性能优势.

本节的仿真实验以图像识别任务为基础,采用CIFAR10数据集和ResNet-18模型.其中CIFAR10数据集[19]是一个更接近普适物体的彩色图像数据集,它是由Alex Krizhevsky和Ilya Sutskever整理的一个用于识别普适物体的小型数据集,一共包含10个类别的RGB彩色图片:飞机、汽车、鸟类、猫、鹿、狗、蛙类、马、船和卡车.每个图片的尺寸为32×32,每个类别有6000个图像,数据集中一共有50000张训练图片和10000张测试图片.而ResNet模型是在文献[20]中被提出的,它引入了残差网络结构,通过在两个卷积层之间添加短路的方式,有效地解决了在神经网络层数不断增加的情况下难以训练的问题,相较于普通的卷积神经网络,深度残差网络更容易优化.并且随着网络深度增加,残差网络的性能也会随着提高,并能够获得比以前网络好得多的结果.

具体地,实验采用了传统的联邦学习架构,设置了1个中心服务器和10个本地客户端.CIFAR10数据集的10000张测试图片存储在中心服务器用于评估全局模型的性能,训练数据集的50000张图片被随机分发给客户端,平均每个客户端拥有5000张训练图片,因此,客户端所有的本地训练数据是非独立同分布的.此外,实验设置局部迭代为3次,全局迭代为200次.其中,实验采取交叉熵损失函数以更好适应分类问题,客户端采用了随机梯度下降算法进行本地训练,batch大小设置为32,学习率设置为0.001.具体实验过程如下所述.

图2为FedAvg算法[1]与FedSCP算法在相关性阈值分别为0.2、0.3、0.4以及0.5时的累积通信轮次曲线,横轴表示全局迭代次数,纵轴表示累积通信轮次.可以看出,FedSCP算法由于采取选择性通信策略,取消上传与全局模型相关性较低的本地模型,与FedAvg算法相比能够明显地减少客户端与服务器之间的通信轮次,降低联邦学习的通信开销.进一步地,由于在FedSCP算法中以MMD值代表全局模型与本地模型的相关性,其值越小,相关性越强.故如图2所示,当相关性阈值越大时,中心服务器对本地模型相关性的要求更低,就会有更多的本地模型被上传,从而带来更多的累积通信轮次.

图2 累积通信轮次随全局迭代次数变化结果Fig.2 Changing result of cumulative communication rounds with global iterations

图3、图4分别为FedAvg算法、FedProx算法[21]与本文所提算法的准确率曲线和损失函数曲线,可以发现当FedSCP的相关性阈值处于0.3、0.4以及0.5时,FedAvg算法和FedProx算法的表现相对较差.在经过相同的通信轮次之后,通过FedAvg算法学习得到的全局模型识别准确率最低,损失函数的值处于较高的位置,这是因为FedAvg算法不考虑更新后的本地模型与全局模型的相关性,直接聚合所有本地客户端上传的本地模型,然而,部分客户端的数据分布与全局数据分布不一致,导致其训练的本地模型不能很好地贴合全局数据,不利于全局模型的收敛.相比之下,FedSCP算法采取选择性通信策略,能够较好地识别相关性较低的本地模型,排除上传这些本地模型,只上传相关性符合要求的本地模型,减少了客户端与服务器的通信次数.进一步地,FedSCP算法在中心服务器端采取加权聚合策略,突出相关性较强的本地模型的贡献,加快了全局模型的收敛速度.然而,当FedSCP算法的相关性阈值为0.2时,全局模型无法收敛,这是因为对本地模型相关性的要求过高,导致大量本地更新(即有用信息)被丢弃,从而影响全局模型的收敛.因此,为充分发挥FedSCP算法的优势,在实际应用过程中需要设置合理的相关性阈值.

图3 准确率随累积通信轮次变化结果Fig.3 Changing result of accuracy with cumulative communication rounds

图4 损失值随累积通信轮次变化结果Fig.4 Changing result of loss value with cumulative communication rounds

具体地,表1统计了FedAvg算法、FedProx算法以及FedSCP算法在不同相关性阈值时到达目标准确率所需的通信轮次.其中,“相比FedAvg平均减少的通信轮次”应为FedSCP算法达到不同目标准确率相比FedAvg算法所减少的通信轮次的平均.比如:根据表1的数据,FedSCP(0.3)这一行中,“相比FedAvg平均减少的通信轮次”的具体计算过程为[(50-21)/50+(130-51)/130+(330-155)/330+(960-510)/960]/4=54.67%.类似地,可以得到“相比FedAvg平均减少的通信轮次”和“相比FedProx平均减少的通信轮次”这两列的值.由表1可知,相较于FedAvg算法和FedProx算法,所提算法能够在保证准确率的前提下,将通信轮次分别减少54%和60%左右.

表1 到达目标准确率所需通信轮次统计Table 1 Statistics of required communication rounds for achieving target accuracy

4 总结

为了减少联邦学习的通信开销,本文提出了一种基于选择性通信策略的高效联邦学习算法.具体地,该算法基于联邦学习的网络结构特点,采取选择性通信策略,在客户端通过最大均值差异衡量本地模型与全局模型的相关性以过滤相关性较低的本地模型,并在服务器端依据相关性对本地模型进行加权聚合.通过上述操作,所提算法能够在保证模型收敛的同时有效减少通信开销,提高模型收敛速度.最后,与现有算法的对比结果表明,本文所提算法能够在保证准确率的前提下,显著降低通信开销.