基于5G网络的联邦学习架构及关键技术*

2023-03-07 13:22许阳陈景然
移动通信 2023年1期
关键词:服务网联邦轨迹

许阳,陈景然

(北京欧珀通信有限公司,北京 100048)

0 引言

随着移动终端上的摄像头和传感器性能的不断提高,越来越多的终端可以被用于收集对AI/ML(Artifact Intelligent/Machine Learning,人工智能/机器学习)模型训练必不可少的有价值的训练数据。对于许多AI/ML任务[1],移动终端收集的小样本数据对于训练全局模型具有重要的意义。传统的对这些移动数据进行训练的方法,是将移动终端采集的训练数据集中到云数据中心(IDC)进行集中训练[2,3]。AI/ML模型训练通常需要大量的数据集和海量的算力资源,训练阶段的资源消耗明显超过推理阶段,因此大多数AI/ML模型的训练任务都是在IDC完成的。即使是这样,在许多情况下,DNN(Deep Neural Network,深度神经网络)模型的训练仍至少需要几个小时到几天[4]。但是,基于云的训练意味着大量的训练数据需要从终端上报到云端,这将带来很大的通信开销,并增大网络侧的数据隐私保护压力。通过联邦学习对AI/ML模型训练任务也可以以“端-云”协调的方式来完成[5],分布式学习和联邦学习就是这种方式的例子。

在FL(Federated Learning,联邦学习)模式下,联邦学习服务器通过聚合各个终端上报的局部训练结果来完成全局模型的训练。当前普遍使用的一种联邦学习算法是基于迭代模型平均的算法[6,7]。如图1所示,在每次训练迭代中,终端可以使用本地的训练数据,对从联邦学习服务器下载的全局模型执行训练,然后通过5G上行信道向联邦学习服务器上报中间训练结果。然后联邦学习服务器对从联邦终端收集的梯度进行聚合,形成更新的全局模型。然后,联邦学习服务器通过5G下行信道将更新后的全局模型分发给联邦终端,终端再针对这一更新模型进行下一次迭代的训练。

图1 基于5G网络的联邦学习

从图1中可以看出,联邦学习的核心在于终端与网络应用服务器之间的数据交互,而数据的交互量和所花费的时间主要取决于训练模型的收敛速度以及参与训练的终端数量。为了提升联邦学习的性能,理想的联邦学习应当能够选择足够数量且具备代表性特征的终端,由于应用服务器对于终端特征的了解有限,准确选择这些终端并不容易。因此,本文的基本思路是借助5G网络辅助应用服务器找到合适的终端。一方面5G网络是提供终端与服务器数据交互的通道,实现理想QoS(Quality of Service,业务质量)能力,另一方面,5G网络具有全局性优势,即理论上5G网络自身的移动性管理和会话管理具有所有终端的位置、QoS通信等重要数据,通过一定的数据加工和分析,可以为应用服务器查找出具备代表性特征的终端,避免应用服务器的盲目选择,从而提升联邦学习效率。

本文后续在第1章详细描述典型的联邦学习场景以及通过5G网络选择联邦学习成员的详细思路,在第2章给出了在3GPP(3rdGeneration Partnership Project,第三代合作伙伴计划)定义的5G架构[8,9,10]基础上,支持联邦学习的架构,随后给出针对第1章描述的场景下根据应用服务器要求的地理位置特征实现联邦学习成员(即车辆)选择的5G方案流程。在第3章,基于公开的Argoverse[11]数据集进行了相关仿真,证明基于车辆地理位置特征实现联邦学习成员选择对于联邦学习性能提升的重要性。

1 基于联邦学习应用场景及典型用例

1.1 应用场景

为了确保驾驶的安全性和效率,自主车辆需要预测交通道路环境(如直道、弯道、十字路口等)下其他车辆的未来运动轨迹。该预测任务由自动驾驶车辆的轨迹预测模块完成。基于收集的历史运动轨迹、道路信息和其他环境信息,该模块能够预测未来几秒钟内的车辆轨迹。

轨迹预测模型需要快速收敛并实时训练,以使模型适应新的环境条件。为了满足上述要求,引入了联邦学习框架,以充分利用进入覆盖区域的不同车辆的本地数据,并通过分布式训练实时更新模型参数。每辆车都利用本地数据和计算资源进行模型训练,而不是将大量原始数据上传到云端。这样,不仅可以缓解由于传输大量原始数据而导致的网络拥塞,而且可以保护用户隐私。

为了模拟真实无人驾驶场景中的轨迹预测,使用SUMO(Simulation of Urban Mobility,城市交通模拟)[12]作为交通模拟平台,生成道路环境和交通流信息,如图2所示,假设到达联邦学习服务区的车辆数量遵循参数λ的泊松分布,行驶速度在一定的范围内变化。

图2 通过SUMO[12]创建道路环境和交通流信息

根据本地数据对每辆车进行本地训练。联邦学习服务器负责全局模型的分发和聚合。待联邦学习服务器收集完覆盖范围下的所有成员的训练数据后,分发更新的训练模型开启下一轮训练,此过程循环直到模型达到预期的收敛结果。

1.2 5G网络辅助联邦学习典型用例

为了训练应用于更大模型适用区域的轨迹预测模型,联邦学习服务器需要找到当前在其覆盖范围下的模型适用区域内的不同地理区域移动的终端。这些地理区域由目标关注区域表示。这些终端预计能够提供更多样的数据集,提供整个模型适用区域的更广泛表示。

基于此目的,此用例是使5G网络辅助应用服务器能够选择联邦学习服务器覆盖范围内并来自于目标关注区域的终端[13]。为了实现这一目标,定义了以下概念以描述用例:

◆联邦学习覆盖区域:特定联邦学习服务器应用培训的覆盖区域。

◆模型适用区域:联邦学习训练模型可适用的区域。

◆历史游牧期:历史游牧期是指终端在访问的目标关注区域内漫游的最短持续时间,以考虑终端数据集对联邦学习训练操作有益。

◆目标关注区域:超出联邦学习覆盖范围但在模型适用范围内的目标关注区域。

该用例提出了应用服务器和5G网络之间的以下信息交换,以支持基于访问目标关注区域考虑的应用层成员选择:

1)从应用服务器到5G网络:

◆目标关注区域;

◆联邦学习覆盖区域;

◆给定目标关注区域的历史游牧时期。

2)从5G网络到应用服务器:

◆5G网络选择来自目标关注区域的覆盖内终端,并在历史游牧时期一直在那里漫游。

为了使5G网络能够支持AI/ML服务,提出了一种新的5G网络功能,称为AIML(Artifact Intelligent Machine Learning,人工智能和机器学习)服务网元。该网络功能将用于接收来自应用服务器的请求,并根据应用服务器请求的标准确定合适的候选终端列表。

2 5G系统支持联邦学习的架构和方案

2.1 5G系统支持联邦学习的架构

如图3所示,基于当前3GPP最新进展[14,15],提出了支持联邦学习应用的架构,5G系统支持联邦学习业务的方式包括:1)使终端和应用服务器能够在5G网络的帮助下支持协作联合学习操作,包括:联邦学习候选成员选择,并最小化联邦学习训练延迟、避免联邦学习通信干扰以及支持一组终端的聚合性能监视和测量以及QoS管理;2)对于联邦学习各成员与联邦学习服务器之间数据传输的QoS增强、带宽管理以及策略控制QoS;3)5GC信息和能力开放[16,17],对于联邦学习成员相关的分析、预测、预警等信息实时地通知给应用服务器。

图3 基于5G网络的联邦学习架构

2.2 5G系统支持联邦学习的架构

基于第1章介绍的应用场景和用例以及第2.1节介绍的架构,本章给出详细的成员选择方案描述。该方案基于3GPP的服务化接口[8.9,10],通过调用关键核心网网元的服务化接口上的服务操作实现基于位置特征选择联邦学习成员的目的:允许联邦学习服务器选择具有不同的访问目标关注区域的可靠数据集的成员终端,以便它们能够提供模型适用区域的更广泛表示。

图4 5G系统实现基于终端的目标关注区域的联邦学习成员选择

步骤1:为了选择在模型适用区域内具有更广泛数据集的终端,应用服务器通过考虑终端访问的目标关注区域信息来请求5G网络协助以支持终端选择。应用服务器在对5G网络的请求中包括目标关注区域、历史游牧期和联邦学习训练服务器覆盖区域。

步骤2:在5G网络中,AMF(Access and Mobility management Function,接入和移动性控制功能)[8]用于对全局终端移动性位置信息的跟踪和管理。为了定位与应用服务器相关联且在联邦学习训练服务器覆盖范围(即联邦学习覆盖区域)内的终端组,需要5G网络中的专有AIML服务网元向AMF发送事件请求。AMF将向AIML服务网元提供联邦学习覆盖区域内的终端列表。

步骤3:5G网络还具有NWDAF(NetWork Data Analytics Function,网络数据分析功能网元)[8],可以从其他网络功能收集数据,用于智能统计和分析。其他网络功能可以根据数据分析结果更有效地控制终端接入。因此,为了获得关于终端曾经访问过哪个目标关注区域的信息,5G网络中的AIML服务网元向NWDAF发送请求,包括目标关注区域和历史游牧时期。然后,NWDAF将提供在历史游牧时期内至少在目标关注区域内流动的终端列表。然后AIML服务网元获得终端移动性的相应统计信息。

步骤4:AIML服务网元将步骤2中由AMF提供的终端列表与步骤3中由NWDAF提供的终端列表进行比较。然后,AIML服务网元确定联邦学习候选终端,这些候选终端现在位于联邦学习覆盖区域内,但在应用服务器请求的历史漫游期内在目标关注区域内漫游。

步骤5:AIML服务网元向应用服务器通知该终端候选列表。

步骤6:AIML服务网元还需要考虑现在在联邦学习覆盖区域但可能移出联邦学习覆盖区域的终端的列表。

步骤7:如果步骤6识别出正在移出联邦学习覆盖区域的任何终端,则AIML服务网元可以进一步通知应用服务器正在移出覆盖区域的给定终端。

步骤8:当应用服务器完成联邦学习操作时,它基于终端访问的目标关注区域信息终止对终端选择的5G网络辅助支持。

并为与各成员之间的数据传输向5G系统申请QoS增强、带宽管理以及策略控制QoS。

3 仿真及分析

为了验证第1章介绍的场景下基于位置特征的成员选择对于联邦学习性能有显著提升,选择Argorverse运动预测数据集[11]用于模型训练。该数据集收集了实际场景中在美国迈阿密和匹兹堡的车辆的位置文件。每个位置文件包含车辆在5 s内的目标轨迹信息。当执行预测任务时,前2 s的目标轨迹信息被馈送到模型中,并且将输出车辆在接下来的3 s中的预测轨迹。为方便起见,定义如下:

◆迈阿密(MIA)数据集:从去过迈阿密的车辆收集的历史轨迹数据;

◆匹兹堡(PIT)数据集:从去过匹兹堡的车辆收集的历史轨迹数据。

由于迈阿密的道路更加复杂,MIA数据集(包括更多车辆转弯案例)比PIT数据集具有更丰富的地理位置特征。

为了说明通过不同区域的车辆将对模型性能产生影响,在分别从去过不同区域的汽车收集的不同数据集上训练并验证了交通预测模型LaneGCN[18]。3个评估标准,即最小平均位移误差(minADE)、最小最终位移误差(minFDE)和漏失率(MR)[19]用于反映模型的性能。

较小的参数值指示更准确的预测,并因此指示更好的模型性能。具体描述如下:

◆minADE:最佳预测轨迹与地面实况之间的平均欧几里得距离。最佳预测轨迹是指具有最小端点误差的轨迹;

◆minFDE:最佳预测轨迹终点与地面实况之间的欧几里得距离。最佳预测轨迹是指具有最小端点误差的轨迹;

◆MR:根据端点误差,预测的轨迹都不在地面实况2.0 m以内的场景数量。

如表1所示,结果表明,在具有更多地理位置特征的更多样的数据集上进行模型训练可以更有效地提高模型的泛化能力并扩大模型的可用面积。

表1 地理区域要素影响模型性能

该仿真证明,在具有更多地理位置特征的更多样的数据集上进行模型训练可以有效地提高模型的泛化能力并扩展模型的可用区域[20,21]。由于行驶到不同地理区域的车辆具有不同的地理位置特征,因此选择合适的车辆进行联合学习,以确保收集足够的地理位置特征是一个需要解决的重要而紧迫的问题。

4 结束语

本文提出了一种5G网络辅助联邦学习成员选择解决方案,该解决方案帮助服务器选择具有不同样本的终端列表,从而增强了训练模型的通用性。使用SUMO平台和Argoverse数据集来模拟基于联合学习的轨迹预测。仿真表明,在具有更多地理位置特征的更多样的数据集上进行模型训练可以更加有效地提高模型的泛化能力并扩展模型的可用区域。联邦学习服务器请求5G网络以协助成员选择的具体过程与特定的终端过滤策略一起提出。该解决方案充分利用了5G网络的现有能力,并基于5G网络与联邦学习服务器之间的密切交互,实现了5G网络对联邦学习服务的支持。未来,随着更多场景和需求的研究,5G网络与应用服务器之间的互动将更加紧密,从而5G网络可以为各种应用AI/ML的服务提供更有效的支持。

猜你喜欢
服务网联邦轨迹
中国听障儿童服务网开通助听器免费借用服务
嘉陵区:用心编织服务网 真情保障担使命
一“炮”而红 音联邦SVSound 2000 Pro品鉴会完满举行
轨迹
轨迹
303A深圳市音联邦电气有限公司
社区治理如何密织服务网——成都安公社区划了“五条线”
轨迹
进化的轨迹(一)——进化,无尽的适应
筑牢基层服务网底