算力网络调度的集中式方案研究与实践

2023-01-27 11:50崔占伟
广东通信技术 2022年12期
关键词:集中式算力路由

[崔占伟]

1 引言

算力,可称为计算能力,即处理数据的能力。从概念上讲,数据和算力早在信息技术产生后、数字经济出现之前就已经存在。随着5G、人工智能、物联网、区块链等技术的发展,智能化、数字化成为未来经济的主流,算力正在成为像水力、电力一样的生产力要素。

随着数字时代的到来,算力作为重要生产力,成为支撑数字经济、数字社会和数字政府发展的核心基础。根据2022 中国算力大会发布的数据显示,算力作为数字经济时代新的生产力正迅速发展。截至2021 年底,我国在用数据中心机架总规模超过520 万标准机架,平均上架率超过55%。在用数据中心服务器规模1 900 万台,存储容量达到800EB(1EB=1024PB)。算力总规模超过140EFlops,近五年年均增速超过30%,算力规模排名全球第二。

算力网络是一种利用网络控制面传递算力等资源信息,并以此为基础实现多方、异构的计算、存储、网络等资源之间的信息关联与高频交易的技术体系,以满足新兴业务提出的“随时、随地、随需”的多样化需求,从而解决不同类型云计算节点规模建设后的算力分配与资源共享需求难题。

2 算力网络调度功能框架

2.1 算力网络调度功能框架

算力国际标准ITU-T Y.2501 中提出将算力网络功能架构分成4 大模块:算力网络资源层、算力网络控制层、算力网络服务层和算力网络编排管理层,如图1 所示。

图1 算力网络总体功能架构图

其中服务提供层主要实现面向用户的服务、原子功能能力开放;网络控制层主要通过网络控制平面实现计算和网络多维度资源融合的路由;算力网络资源层主要提供算力资源、存储资源和网络转发资源;并结合网络中计算处理能力和网络转发能力的实际情况,实现各类计算、存储资源的传递和流动;算力管理编排层主要解决异构算力资源、服务/功能资源的注册、建模、纳管、编排、安全等问题。

2.2 算力网络调度模块划分

(1)算力网络资源层:包括算力资源和网络资源。算力资源是满足新兴业务的多样性计算需求,通过从单核CPU 到多核CPU,到CPU+GPU+FPGA 等多种算力组合,在网络中提供泛在异构计算资源。网络资源时提供信息传输的网络基础设施,包括接入网、城域网和骨干网。

(2)算力网络控制层:基于抽象后的算力网络计算资源采集和发现,实现对算力节点的资源信息感知;另一方面,通过在用户请求中携带业务需求,实现对用户业务需求的感知。综合考虑用户业务请求、网络信息和算力资源信息,将业务灵活按需调度到不同的算力节点中,同时将计算结果发布到算力服务层。

(3)算力网络服务层:承载算力的各类能力及应用,并将用户对业务SLA 的请求包括算力请求等参数传递给算力网络控制层。

(4)算力网络编排管理层:实现对算力服务的运营与编排管理、对算力路由的管理、对算力资源的管理以及对于网络资源的管理,其中算力资源管理包括基于统一的算力度量体系,完成对算力资源的统一抽象描述,进而实现对算力资源的度量与建模、注册和OAM 管理等功能;以支持网络对算力资源的可感知、可度量、可管理和可控制。

3 算力网络调度总体实现方案分析

算力网络是通过网络控制面分发服务节点的算力、存储、算法等资源信息,并结合网络信息和用户需求,提供最佳的计算、存储、网络等资源的分发、关联、交易与调配,从而实现整网资源的最优化配置和使用的新型网络。

3.1 算力网络调度的技术特征

现有网络架构采用以应用层为主、基于DNS 的寻址,由于没有考虑网络状态以及目的节点计算能力的变化,因此其综合性能在某些情况下比较差。算力网络面向计算类业务,根据业务的需求,结合当前网络中实时的网络状况和可服务的计算资源的计算状况,通过算力网络灵活匹配、动态调度,将终端的计算任务路由到合适的目标计算节点,以支撑业务的计算需求,保证业务的用户体验。

综上,算力网络的技术特征如下。

(1)算力网络路由技术:基于抽象后的计算资源发现,综合考虑网络状况和计算资源状况,将业务灵活按需调度到不同的计算资源节点中。具体功能主要包括算力标识、算力状态网络同步、算力路由控制、算力路由寻址、算力路由转发等。可包含集中式算力路由技术方案和分布式算力路由技术等方案;

(2)面向服务/功能/算力的接口:定义算力网络与服务/功能/算力间的通用接口,用于描述计算状态,与应用无关,语义不感知,使得算力网络与千变万化的应用创新解耦,保持自己的稳定。

算力网络的部署可以基于overlay 技术叠加在现有的传统网络之上,也可以在新建的局部网络中独立部署。算力网络的功能模块可以基于通用服务器进行实现,也可以基于专用网络设备进行实现。

3.2 算力调度编排

算力网络编排是针对多样化、定制化的算网融合服务需求,基于算力和网络的原子能力进行灵活组合、一体编排,设计产品服务模型,并以模板的形式固化所需的资源、服务、策略及配置,实现流程、模型等因子的通用化、标准化,实现算网业务统一编排、部署和保障。

面向上层的能力调度主要包含网络编排和服务编排两个方面。

3.2.1 网络编排

网络编排主要是指,对底层的网络服务编排能力进行硬件资源的抽象和能力的建模,并通过服务编排来实现网络控制。我们提出基于SDN 的宽带接入(SEBA)容器化架构,以实现SDN 网络访问。SEBA 的核心组件主要包括开放网络操作系统(ONOS)、Kafka、VOLTHA、XOS。

①ONOS:实现SDN 网络操作系统,对网络服务编排实现统一的资源调度和管理。

② Kafka:实现REST 的消息队列管理,并通过上层的服务能力对底层硬件的访问请求消息进行统一管理。

③VOLTHA:实现底层网络接入设备和转发设备的硬件资源抽象,从而使用和访问上层的网络功能。

④ XOS:实现网络功能虚拟化和服务化,并可以基于SDN 控制器的可编程能力实现网络控制和功能软件定义能力。

3.2.2 服务编排

服务编排可以实现对PaaS 和软件即服务(SaaS)能力的容器化调度。由于云原生具有服务化和微服务化的能力,因此在实现算力调度的过程中,基于不同的应用场景,我们提出了3 个方面的服务能力。

①计算能力集:集成目前云原生统一的计算型能力库,包括 Spark、Hadoop、Hive、Flink 等。

② 数据库:采用传统的数据库服务能力,为上层的应用和业务场景提供一键部署式的云原生数据库,包括Mysql、MangoDB 等。

③人工智能:包括面向人工智能场景的推理和训练,以及对硬件加速有特定需求的算力调度能力。

这些服务能力统一由Kubernetes 来实现编排。通过Kubernetes 的调度扩展接口和平台内部调度器对接,从而能够实现PaaS 和SaaS 服务的容器化调度。

通过Knative 来完成统一服务能力的封装和打包,通过Knative 的API 网关提供统一的网络和算力调度接口,并通过统一的门户对外开放,开发者可以根据网络和算力调度能力进行网络编程。这样可以进一步融合底层网络和算力,实现基于可编程网络的算力调度。同时,用户也可以更加关注上层业务逻辑和业务流程。

4 算力网络调度的集中式方案

算力网络调度的技术实现方案可以分为集中式方案、分布式方案和混合式方案,面向不同的业务场景,需综合考虑业务需求、技术特性,合理选择适宜的算力调度方案。

集中式包括基于SDN/NFV 的算网编排管控以及基于域名解析机制的编排管控;集中式技术方案基于中心化管理编排系统进行状态同步、同步代价相对较小,可适用于较大规模网络。

分布式技术方案基于分布式路由协议进行状态同步,需要对现有网络设备升级,因此对网络影响较大,此方案具有实时性高、数据面调度转发快速的特点,比较适用于面向时延敏感业务。

下面我们重点分析集中式方案。

4.1 集中式方案功能

算力网络集中式管理方案通过集中式的控制单元来统一收集全网的算力资源、网络资源以及其他资源信息,用户将业务需求发送给这个集中的控制单元,然后由该单元利用全局视角进行最优化的资源选择与分配。

由于算力网络编排管理平台不但要收集各类资源信息,同时还要进行相应的抽象与计算,最后还要将算力分配策略发送给用户和算力资源池,并调度网络建立相应的传送通道。因此算力网络编排管理平台需要集成原有网络的SDN 控制器、NFV 编排器等网络控制单元。从某种意义上,也可以认为是集成了算力信息与算力策略的新型网络编排调度系统。

算力网络编排管理平台具有三大功能:资源信息收集功能、资源分配调度功能和网络连接调度功能。

其中:(1)资源信息收集功能:算力网络编排管理平台收集各类资源信息,包括但不限于算力资源信息、网络资源信息、存储资源信息、算法资源信息等。

(2)资源分配调度功能:根据用户与资源供应方在算力网络交易平台所达成的交易(也可以是匿名交易)情况,算力网络编排管理平台将相应的资源分配策略发送给各资源管理方,比如通知算力资源的供应方,在什么时间段有多少算力资源将被占用,同时刷新平台所记录的资源信息数据。

(3)网络连接调度功能:根据网络资源分配情况,得到网络连接需求,比如在哪些节点之间需要建立多大的网络连接,以及提供什么样的服务质量保障,按照这些业务需求,调度相应的网络资源,完成网络连接建立。注,这里的网络连接不只是传统的通道建立,也可能根据业务需求,需要部署相应的网元,如5G UPF、vBRAS、vCPE等接入控制网元等。

以上这3 个功能,是算力网络编排管理平台所需具备的基本功能,但在实践中,算力网络编排管理平台会根据现有系统情况,灵活地增删相应功能。

4.2 集中式方案架构

算力网络集中式方案架构主要由以下4 部分构成。

(1)算力网络管理编排系统。算力网络的资源管理和调度系统,根据业务需求对算力资源进行弹性调度,在满足业务实时需求的同时,提高算力利用率。

(2)赋能平台。为用户业务部署赋能,例如针对AI业务的AI 赋能平台。

(3)边缘/核心DC。业务部署节点,包含算力资源基础设施和NFV 基础设施。其中,用户应用部署在异构算力资源池之上,vBRAS、vCPE 等虚拟网元部署在NFVI之上。

(4)网络基础设施。连接用户、边缘云、核心云的网络基础设施,包括控制面的SDN 控制器、传统网管,以及转发面的网络设备。

其中,赋能平台、边缘/核心DC、网络基础设施包含了算力调度的基础资源,而算力网络管理编排系统负责对这些资源进行管理和编排,既要实现根据业务需求的动态算力调整,又要实现对各个层面资源的有机协调。

完整的一个算力网络调度集中式方案的架构,如图2所示。

图2 算力网络集中式方案架构

算力网络管理编排系统的主要模块功能如下。

(1)需求解析模块。分析用户业务需求,将用户业务需求转化为算力资源需求,根据算力需求划分业务等级,以确定业务的部署位置、所需资源大小等信息。

(2)算法选择模块。根据用户的业务类型和需求解析模块的结果,在赋能平台中为用户选择合适的部署算法,确定用户业务部署的规格。

(3)应用部署模块。根据算法选择模块的结果,将用户业务部署到指定的算力节点中。

(4)算力调度模块。管理核心云和边缘云的算力资源,根据业务需求为用户分配相应的计算、存储、网络资源,并根据策略对业务部署位置、业务算力进行弹性调整。

(5)网络调度模块。管理用户、边缘云、核心云的网络,在用户业务部署或调整之后,配置用户到业务处理节点之间的网络,将用户流量路由到处理节点。

在上述功能模块中,部分功能可以借助现有的技术进行实现,如算法选择模块使用大数据分析技术,应用部署模块借助边缘计算管控平台,算力调度模块使用NFVO,网络调度模块使用SDN 控制器等。

需求分析模块则需要根据服务的用户类型进行设计,形成标准化的模板,用户根据自身业务规模提出不同的需求,算力网络管理编排系统将业务需求转化为具体的算力资源调度方案,并为用户分配合适的基础资源。

可通过将已实现的南向接口协议(如Netconf、Openflow等)进行增强来实现集中式的算力网络编排管理系统。

4.3 集中式方案工作流程

集中式的算力网络方案主要工作流程如下。

(1)算力网络编排管理系统与所有资源及网络节点建立控制连接,资源结点和网络节点将自身的计算、网络等资源信息通过控制连接上报给算力网络编排管理系统。

(2)算力网络编排管理系统将获得的信息进行处理,得到一张总体资源视图。

(3)当用户向算力网络编排管理系统发送其资源需求(或通过需求分析模块得到用户的需求),算力网络编排管理系统将根据用户的需求将满足需求的方案返回给用户供用户进行选择(或根据用户的需求及资源视图主动为用户选择最佳的方案)。

(4)用户在进行选择之后,将选择之后的结果发送给算力网络编排管理系统(或算力网络编排管理系统为用户选择最佳方案后),算力网络编排管理系统通过控制连接告知资源节点和用户并对网络节点进行业务配置,建立用户和资源节点之间的通路。

详细工作流程如图3 所示。

图3 算力网络集中式方案工作流程

4.4 集中式方案应用案例

4.4.1 应用场景方案

A 市边缘云算力不足无法及时扩容,不能满足A 市业务发展需求,而传统资源扩容方案从方案招标、设备采购、设备上架、设备部署,整个资源扩容周期按月计算,严重拖延了业务发展速度。通过云调网应用场景,在B 市边缘云分配算力承载A 市新发展业务,通过算力网络调度编排系统能力,支持城域网边缘云资源一体化管理,实现省市跨域资源的共享,按需高效提供弹性资源;支持“视频监控”应用云网资源的自动化开通与自适应调度。

4.4.2 应用调度流程

集中式方案应用调度流程如图4 所示。

图4 应用调度流程

4.4.3 算力网络调度配置方法

(1)网络调度:在B 地市资源分配完成后,协同调度多云管配置云上交换机,新增MSE 链路子接口,配置子接口地址,配置A 地网段静态路由指向MSE 侧对接地址;调度SDN 控制器 新增VPN,新增上云链路子接口加入VPN,配置链路子接口地址,配置云上新增资源网段静态路由指向云上交换机;协同SDN 控制器配置A、B 两地网PE,配置EVPN(以太网虚拟专用网)打通A 地视频接入VPN 与B 地新增VPN。

在协同云网管和sdn 控制器之前,需要为业务分配网络资源,网络资源是用于网络编排的与底层网络部署有关的、不可共享的网络参数。资源又分为边缘云资源和城域网资源,边缘云资源的管理以资源池为单位,一个资源池管理在边缘云范围内不可共享的特定类型资源。例如,在同一对视频云网接入MSE 与边缘云交换机之间的相同物理线路上,为了隔离两个不同VPN 的流量,需要为两个VPN 分配不同的VlanId。

城域网资源以地市城域网为单位,主要有VPN 网号,VPN 网号是专线组网的关键参数,不同VPN 不重复,vpn的RD(路由标识)/RT(网络路由目标)以及EVPN 的RD/RT 均基于VPN 网号按规则生成。

RT/RD 分配规则如下。

①全网状组网RD/RT 分配规则:

(a)RD 格式:AS 号:VPN 网号;

(b)ExportRT 格式:AS 号:VPN 网号+00

(c)ImportRT 格式:AS 号:VPN 网号+00

② 星型组网RD/RT 分配规则:

中心点:

(a)RD 格式:AS 号:VPN 网号+00;

(b)ExportRT 格式:AS 号:VPN 网号+01

(c)ImportRT 格式:AS 号:VPN 网号+00

非中心点:

(a)RD 格式:AS 号:VPN 网号+01;

(b)ExportRT 格式:AS 号:VPN 网号+00

(c)ImportRT 格式:AS 号:VPN 网号+01

本系统的资源管理模块支持上述的资源分配与回收逻辑。支持的资源类型包括:VlanId、VPN 网号、IP、通用数值。可根据业务管理的需要新增、删除、修改,并可设置每个资源池中的可用资源范围。

(2)算力资源调度:算网编排管理平台根据业务容量需求转换为算力、内存及存储能力需求。在换算之前首先需确认业务需求数量,人工触发场景直接选取应用管理员输入的业务需求数量;自动触发场景按应用现有业务容量的10%计算业务需求数量。

各地市边缘云节点服务器配置不等,同一地市也有提供多种配置的服务器,有物理机、虚机,云化物理服务器配置的cpu 型号也不同;各地市的存储也有不同;面对网络中分布的各种异构资源,需要实现计算能力资源的抽象表示。

本应用案例按分配的网络资源协同控制器向资源管理服务器打通A、B 两个边缘云节点之间的网络,实现集中式方案的算力网络互调。

4.4.4 实验效果

“视频监控”应用经过集中式方案部署,基于算力网络编排管理平台,实现了应用从的A 市节点到B 市节点的分钟级调度拉起;解决了边缘云资源忙闲不均的问题,提升整体使用效率,通过CT 资源降低IT 扩容成本;实现对云网业务及网络的实时质量的指标体系的全面掌控。实验结果数据如表1 所示。

表1 “视频监控”应用集中式调度测试结果

5 结束语

在5G 高速发展的当今时代,高速率和低时延是网络的主要技术特征,无线接入的分量越来越重,促进了移动边缘计算的发展,使业务的产生、处理和应用都可以在本地完成,而不再仅仅依靠遥远的集中单元,在未来网络应用中,接入侧的影响也会越来越深远,业务应用的速率和时延要求会越来越高,移动边缘计算的作用也会更加凸显,算力网络架构将会以网络与计算的深度融合为引擎,集中式技术方案集成了算力信息与算力策略的新型网络编排调度系统,基于中心化管理编排系统进行状态同步、同步代价相对较小,在运营商网络等较大规模网络应用中效率更高,能有效实现全频域、全场景、全业务的灵活适配与资源协同,最终实现一体化的算力网络架构目标,为边缘云网应用的百花齐放提供稳定、灵活的底座。

猜你喜欢
集中式算力路由
算力盗用:一种新型财产侵害*
中科曙光:联合发布全国首个“一体化算力交易调度平台”
中国电信董事长柯瑞文:算力成为数字经济的主要生产力
算力网络场景需求及算网融合调度机制探讨
铁路数据网路由汇聚引发的路由迭代问题研究
多点双向路由重发布潜在问题研究
一种基于虚拟分扇的簇间多跳路由算法
路由重分发时需要考虑的问题
光伏:分布式新增装机规模首次超越集中式
全新Mentor DRS360 平台借助集中式原始数据融合及直接实时传感技术实现5 级自动驾驶