[杨峰 杜翠凤 蔡十华 王新宇]
随着数字化、智能化时代的到来,传统集约化、中心化的云计算无法满足部分低时延、大带宽、低传输成本的场景,如智慧安防、自动驾驶等的需要。算力必然会从云和端向网络边缘进行扩散,形成云、边、端算力资源多级分布的形态[1]。云计算聚焦非实时、长周期数据的大数据分析,在大模型训练等领域发挥特长。边缘计算聚焦实时、短周期数据的分析,能更好地支撑本地业务的实时智能化处理与执行。算力网络作为解决多级算力资源并存情况下资源统一供给问题的一种新型网络技术方案,通过网络控制面分发服务节点的算力、存储、算法等资源信息,并结合网络信息和用户需求,提供计算、存储、网络等资源的分发、关联、交易与调配,从而实现整网资源的最优化配置和使用[2~4]。
算力网络路由是一种集网、云、算为一体的综合路由。在网络入口节点,算力网络路由根据用户业务的算力和网络双SLA约束,制定算网路由策略。与当前IP拓扑路由显著不同的是,IP/多协议标签交换(MPLS)拓扑路由本质上解决的是“去哪里”,即明确路由的网络目的节点,在参数上体现为IP地址或标签。在算力网络架构下,网、云、算综合路由本质上解决的是“去哪里”+“干什么(执行何种计算服务)”,即在IP路由的基础上,叠加了算力服务路由[5]。
与传统的通信网络不同,算力网络具有如下一些特点:(1)算力网络中的算力节点通常远少于网络节点;(2)算力节点的算力资源信息是实时变化的,算力资源信息需要计算更新,算力路由表需要较快的更新频率;(3)网络节点通常不会频繁更换设备,网络拓扑变化频率较低,所以网络路由表的更新可以采用相对较慢的频率。因此有必要针对算力网络的特点提出一种新型的路由机制。
文献[6]提出了一种微服务集群架构下的端到端路由技术解决方案,在确保与现网平滑兼容前提下,从协议转控面角度分析IPv6 段路由(SRv6)和虚拟可扩展局域网(VxLAN)的增强算力路由解决方案。参考文献[7]在算网融合调度和路由系统中引入服务标识,为IP分组网络提供了一个面向业务和算力系统的新型接口,从逻辑上构成一个在IP分组网上的Overlay服务子层,使网络得以提供面向服务标识的路由和寻址功能。参考文献[8]提出了算力网络混合式路由调度解决方案,由算力网络编排管理系统和算网基础设施两部分构成,算力网络编排管理系统负责资源状态感知与通告,算网基础设施包括算力资源和网络资源,算力资源负责向上层系统上报算力状态信息,网络资源负责接收上层系统下发的算力状态信息。
以上关于算力网络路由技术的研究,都是将算力信息承载到路由协议报文中,算力路由节点需要在传统的路由表中,基于接收的算力状态信息,在网络信息表基础上维护本地算力信息表。基于对网络、计算、存储等多维资源、服务的状态感知,将算力信息注入路由表,生成“网络+计算”的新型路由表。
相比于传统的路由表,算力感知的路由表中新增了“算力参数信息”和“网络、计算总参数信息”。此方案的优点是不用单独发明新的路由协议,对传统网络的扩展性好,缺点是没有充分考虑算力网络中算力节点信息和应用信息灵活变化的特点,需要频繁在网络中发布路由信息,增加了网络的开销。
现有算力网络中算力信息的交互是通过路由协议扩展,将算力信息包含在网络路由报文中发布给网络中的所有节点,其路由转发表过于臃肿,控制平面的信息同步频繁,路由收敛慢。本文对算力网络的架构和业务特性进行了分析,基于算力网络特点,提出了一种新的基于网关分区的算力网络架构及算力路由机制,主要包括以下2个关键点。
(1)通过将网络划分为不同的区域,每个区域设置一个区域网关节点,负责本区域内网络路由建立和算力路由建立,可以有效减小网络路由通告开销。
(2)由于每个区域的算力节点数量通常是远小于网络节点,且算力节点的算力资源信息是实时变化的,而网络节点通常不会频繁变化,将网络路由和算力路由分开建立,并设置不同的更新频率,可以尽量减小算力网络中网络路由维护开销,而且可以有效提高算力路由的更新频率。
如图1所示,本方案主要由算力节点、区域网关节点、转发节点R、接入节点AR及用户构成,其中算力节点包括云计算节点C1、边缘计算节点MEC1和MEC2,区域网关节点包括GW1和GW2,分属于不同网络。
图1 基于分区的算力网络架构
云计算节点C1:该类云计算节点可以提供的算力资源类型和数量非常丰富,对于单一用户而言,可以认为其算力资源是接近无限量供应的。云计算节点通常集中部署在电力资源充裕、远离城区的位置。因此从网络角度来看,云计算节点到用户的时延是很难控制与保障的,通常用于处理模型训练等对时延不敏感业务,如ChatGpt等大模型的训练。
边缘计算节点MEC1、MEC2:该类节点靠近用户设立,时延可以非常低,且不容易被其他用户干扰,网络连接的质量可以得到有效的保障。但由于受限于机房条件,其能够提供的算力资源类型和数量非常有限,通常用于处理推理计算等对时延敏感要求比较高的业务,如车联网等。
区域网关节点GW1、GW2:区域网关节点作为各区域网络路由的出口,负责建立到本区域内算力节点、网络节点及用户的网络路由和算力路由,以及维护网络路由表和算力路由表并定时更新。
转接节点R:负责区域网络中网络路由信息、算力路由信息的转发。
接入节点AR:接入节点负责为用户提供有线或者无线(5G、WiFi、LoRa、NB-IoT等)接入服务。
用户:这里的用户指需要调用算力开展业务的行业用户或个体用户,如AR用户、车联网用户或者大模型研发者,通过无线或有线的方式接入网络。
结合流程图来说明本方案的具体实施方式。
网络路由建立阶段,信息交互流程如图2所示。
图2 网络路由建立过程
步骤1 设备部署以后,采用通用的TCP/IP协议建立计算节点、网络节点和终端设备之间的网络连接;
步骤2 区域网关节点GW周期性向区域网络广播路由更新请求消息;
步骤3 接收到该路由更新请求消息的节点(计算、网络)向区域网关节点GW回复路由响应消息,该路由更新响应消息中包含区域网络中各个节点的设备类型、IP地址等信息;
步骤4 区域网关节点GW收到各个节点返回的路由更新响应消息后,建立从本节点到区域网络中其他节点之间的路由,并更新路由表信息。
由于通常区域网络中节点的变化不大,因此区域网络路由的更新可以设置为较低的频率。
算力路由建立阶段,本阶段只需要建立算力节点到各个区域网络节点之间的路由链路,信息交互流程如图3所示。
图3 算力路由建立过程
步骤1 算力节点评估本节点的算力资源使用情况,并沿着之前建立的路由向区域网关节点发送算力路由建立请求消息;
步骤2 区域网关节点GW收到该算力路由建立请求消息后,记录该算力节点可以提供的算力资源类型和数量,并建立到该算力节点的算力路由;
步骤3 算力节点周期性评估本节点的算力资源使用情况,并向区域网关节GW点发送算力路由更新消息;
步骤4 区域网关节点GW收到各算力节点发来的算力路由更新消息后,更新到各个算力节点的算力路由表。
由于算力节点的使用情况是实时变化的,因此为了及时反映各个算力节点的使用情况,需要将算力路由的更新设置为较高频率,以满足网络使用需求。
算力路由阶段,信息交互流程如图4所示。
图4 分区算力路由过程
步骤1 用户向区域网关节点GW1发送算力需求消息,该算力需求消息包含算力资源的需求类型和数量;
步骤2区域网关节点GW1收到算力需求消息后,查询算力路由表,查找满足需求的算力节点,并将满足需求算力节点的地址反馈给用户;如果区域网关节点GW1查询本节点的算力路由表后,发现没有满足条件的算力节点,则将该算力需求消息转发给外网的其他区域网关节点GW2,直到找到满足需求的算力节点,并将满足需求的算力节点地址反馈给用户;
步骤3 用户使用Ping命令分别测试到满足需求的各个算力节点的往返时延,根据本身业务需求,选择合适的算力节点;
步骤4 用户将计算任务发送给选定的计算节点进行任务处理;
步骤5 计算节点处理完后,反馈计算结果给用户。
本文针对算力网络的业务特点,提出了一种基于分区的算力网络架构和路由机制,通过将网络划分为不同的区域进行分区管理,由区域网关负责本区域内网络路由建立和算力路由建立,并将网络路由和算力路由分开建立,设置不同的更新频率,可以尽量减小算力网络中网络路由维护开销,提高算力路由的更新频率。