面向算网一体化演进的算力网络技术

2021-11-11 06:03段晓东姚惠娟付月霞陆璐孙滔
电信科学 2021年10期
关键词:算力路由调度

段晓东,姚惠娟,付月霞,陆璐,孙滔

(中国移动通信有限公司研究院,北京 100053)

1 引言

随着5G的商用规模部署,工业互联网、车联网、虚拟现实(VR)/增强现实(AR)等垂直领域蓬勃发展。Machina Research报告显示:2025年,全球网联设备总数将超过270亿台,联网设备指数级增长,设备呈现多样性趋势,物联网(internet of things,IoT)传感器、摄像机等设备的应用会带来多样化的数据。海量数据的传输、异构数据的分析和存储对传统网络和云计算提出了巨大挑战,使云计算和网络面临“传不畅、算不动、存不下”的局面,驱动计算从云端下移到接近数据源的边缘侧,形成网络中分散的算力资源。Gartner预测:2025年,超过75%的数据需要分流到网络边缘侧,这对网络灵活调度、服务质量(quality of service,QoS)等提出了更高的要求。因此,网络在实现分散节点互联的同时,还需要具备网络和算力协同调度的能力,通过最优路径将业务动态地调度到最优的算力节点进行处理。

算力是对数据处理能力及服务的统称,由多种芯片、部件和封装形成的上层服务组成。算力呈现多样性,是云计算、边缘计算、大数据和人工智能等技术的发展基石,是构成信息社会的“心脏”。云计算、边缘计算以及终端芯片工艺制程的发展必然驱动整个社会的算力分配更加分散和泛在化,即用户周围不同距离会散布不同规模的算力。如何高效利用这些算力,保证云边端算力的无缝协同,同时借助网络使数据与算力得到快速连接、处理,使算力像电力、热力一样成为基础资源,用户可以随用随取而不必关心它的产生与位置。为了让用户享受随时随地的算力服务,需要重构网络,形成继水网、电网之后国家新型基础设施,真正把“算力”变为可流动的生产力资源,为千行百业提供像“自来水”一样的计算服务。

为助力我国数据中心实现差异化、互补化、协同化、规模化发展,从2020年4月到2021年7月,国家连续发布系列政策,“东数西算”新型数据中心顶层设计日渐清晰。2020年3月,国家发展和改革委员会、工业和信息化部印发了《关于组织实施2020年新型基础设施建设工程(宽带网络和5G领域)的通知》,同年4月首次对“新基建”的具体含义进行了阐述,提出建设以数据中心、智能计算中心为代表的算力基础设施等,吸引地方积极布局计算产业,这也是“算力基础设施”这一概念在国家层面首次被提出。2021年5月26日,国家发展和改革委员会、中共中央网络安全和信息化委员会办公室、工业和信息化部、国家能源局联合印发了《全国一体化大数据中心协同创新体系算力枢纽实施方案》,明确提出围绕国家重大区域发展策略,建设全国一体化算力网络国家枢纽节点,并在国家枢纽节点之间进一步打通网络传输通道,加快实施“东数西算”工程,提升跨区域算力调度水平,构建国家算力网络体系,标志着“算力网络”正式纳入国家新型基础设施发展建设体系。同年7月,工业和信息化部发布了《新型数据中心发展三年行动计划(2021—2023年)》,进一步明确了数据中心建设计划,正式启动了“东数西算”工程。

面向计算网络融合的演进需求,业界也开展了许多研究与探索工作,目前具体技术和技术路线不统一,仍需要大量攻关和验证。可以分为具体的“算力网络”技术和抽象的“算力网络”方向两类。具体的“算力网络”技术研究包括算力感知网络、计算优先网络等,是算力和网络深度融合的技术研究方向,目前产业界、学术界及标准领域对“算力网络”的关注度持续升温。抽象的“算力网络”方向是把算力网络作为长期演进方向,但是没有具体如何演进的考虑和论述。

2020年第8次网络5.0全会上,中国信息通信研究院联合三大运营商、华为、中兴通讯、中国科学院成立了网络5.0创新联盟算力网络特设组,就目前提出的算网融合趋势下不同技术路线展开研究和探索[9],包括算力网络[10]和算力感知网络[7,11-12]等,旨在达成算力网络研究共识,推动产业发展[13];此外,在IMT-2030(6G)网络工作组也成立了算力网络研究组,研究在6G网络中计算、网络融合对于未来网络架构的影响和关键使能技术。此外,IRTF成立了在网计算研究组(COINRG)[14-17],在网计算指网络设备的功能不再是简单的转发,而是“转发+计算”,计算服务不再处于网络边缘,而是嵌入网络设备中。该工作组主要面向可编程网络设备内生功能的场景、潜在有益点展开研究,其中内生功能包括在网计算、在网存储、在网管理和在网控制等,是计算、网络更深层次融合的下一发展阶段,也吸引了许多研究人员的关注。

2 算力网络技术探索

2.1 算力网络阶段发展

算力网络实现算网共促,将“算力+网络”作为一体化的生产力统一供给、发展,有利于信息服务新模式构建。以网强算,借助基础网络系统化优势改变算力单点薄弱现状,有利于国家整体算力布局;以算促网,将算力调度的高需求转化为网络超宽带高智能发展的动力,有利于网络持续领先发展。

算力网络的演进从目前的算网分治、逐步走向算网协同,最终发展为算网一体化。基于目前边缘计算的发展,算力网络将首先实现多个边缘节点算力资源的合理分配和调度,满足用户的业务体验,以及提高资源的利用率。随着云边算力趋向泛在化,网络更加扁平化、灵活化、服务化,算力网络走向算网协同阶段,通过对业务、算力资源和网络资源的协同感知,将业务按需调度到合适的节点,实现算网资源统一编排、统一运维、统一优化,最终实现算网共弹共缩。随着云边端三级算力全泛在、空天地一体网络全互联,网络资源和计算资源将实现全面融合新形态,走向算网一体阶段。算网共进,提供新服务,打造新模式,培育新业态,真正解决算网融合问题,实现在网计算,算网一体共生。算力网络阶段发展路线如图1所示。

图1 算力网络阶段发展路线

2.2 算力网络技术体系

算力网络需要从架构、协议、度量等方面协同演进,构建面向算网一体化的新型基础网络,如图2所示。在架构层面上看,面对边缘计算、异构计算、人工智能等新业务,未来算网融合架构需要在基础设施即服务(IaaS)资源层编排的基础上,研究向平台即服务(PaaS)、软件即服务(SaaS)、网络即服务(NaaS)等一系列上层算法/函数/能力的编排演进,并协同管理、控制和数据面,进一步探索实现编排系统与网络调度系统的协作,实现一切即服务(XaaS)能力按需灵活部署。在协议层面上看,传统网络优化路径仅实现信息在节点之间传输的服务等级协议(service-level agreement,SLA)并未考虑节点内部算力的负载。未来算网融合的网络需要感知内生算力的资源负载和XaaS性能,并综合考虑网络和算力两个维度的性能指标,从而进行路径和目标服务阶段的联合优化。另外,还需要考虑和数据面可编程技术的结合,如利用SRv6可编程性实现算网信息协同,以实现控制面和数据面的多维度创新。从度量方面看,网络体系的建模已经很成熟,但算力体系还需要综合考虑异构硬件、多样化算法以及业务算力需求,进一步深入研究形成算力的度量衡和建模体系。算力网络需要依托统一的算力度量平衡体系以及能力模板,为算力感知和通告、算力开放应用模型(OAM)和算力运维管理等功能提供标准度量准则。

图2 算力感知技术架构思路

2.3 算力感知技术架构

为了实现泛在计算和服务的感知、互联和协同调度,算力感知架构体系从逻辑功能上可分为算力服务层、算力资源层、算力路由层和网络资源层以及算网管理编排层,如图3所示。

图3 算力感知技术架构

• 算力服务层:承载计算的各类服务及应用,并可以将用户对业务SLA的请求(包括算力请求等)参数传递给算力路由层。

• 算力资源层:利用现有的计算基础设施提供算力资源。计算基础设施包括单核中央处理器(CPU)、多核CPU,以及CPU+图形处理器(GPU)+现场可编程门阵列(FPGA)等多种计算能力的组合。为满足边缘计算领域多样性计算需求,该层能够提供算力模型、算力应用程序编程接口(API)、算网资源标识等功能。

• 算力路由层:是算力感知网络的核心。基于抽象后的算网资源,并综合考虑网络状况和计算资源状况,该层将业务灵活按需调度到不同的计算资源节点中。

• 网络资源层:利用现有的网络基础设施为网络中的各个角落提供无处不在的网络连接,网络基础设施包括接入网、城域网和骨干网。

• 算网管理编排层:完成算力运营、算力服务编排,以及对算力资源和网络资源的管理。该层的具体工作包括对算力资源的感知、度量以及OAM管理等,实现对终端用户的算网运营以及对算力路由层和网络资源层的管理。

其中,算力资源层和网络资源层是算力感知网络的基础设施层,算网管理层和算力路由层是实现算力感知功能体系的两大核心功能模块。基于所定义的五大功能模块,实现了对算网资源的感知、控制和调度。

总之,作为计算网络深度融合的新型网络,以无所不在的网络连接为基础,基于高度分布式的计算节点,通过服务的自动化部署、最优路由和负载均衡,构建算力感知的全新网络基础设施,真正实现网络无所不达、算力无处不在、智能无所不及。海量应用、海量功能函数、海量计算资源则构成一个开放的生态。其中,海量的应用能够按需、实时调用不同的计算资源,提高计算资源利用效率,最终实现用户体验最优化、计算资源利用率最优化、网络效率最优化。

2.4 算力度量与标识体系

算力网络需要构建统一的度量和标识体系,通过对异构计算类型进行统一的抽象描述,形成算力建模模板,为算力路由、算力设备管理、算力计费等提供标准的算力度量规则。算力度量体系包括对异构硬件设备、不同算法以及用户算力需求3方面度量。首先,对异构硬件设备算力度量,从而有效地展示设备对外提供计算服务的能力;计算过程受不同算法的影响,因此,可以对不同算法进行算力度量的研究,获得不同算法运行时所需算力的度量;用户所需的不同服务会产生不同的算力需求,通过构建用户算力需求度量体系,可以有效感知用户的算力需求。基于统一度量体系,算力建模体系包括对异构的物理资源建模,以及从计算、通信、存储等方面对资源性能建模,构建统一的资源性能指标,以及通过构建资源性能指标与服务能力的映射完成对服务能力的建模,实现对外提供统一的算力服务能力模型。

此外,算力网络需要构建统一的算力标识体系,支持对全网算力节点进行统一的算力标识管理与分配,且算力标识应当是全局唯一的,用于标识注册后的算力节点。此外,算力标识应当是可验证的,支持算力调度、算力交易等。

2.5 算力路由技术

基于对网络、计算、存储等多维资源、服务的状态感知,算力路由技术支持将算力信息注入路由表,生成“网络+计算”的新型路由表;基于用户的业务请求,通过网络、计算联合路径计算,按需、动态生成业务调度策略,并实现基于IPv6 / SRv6[18-20]等协议的可编程算力路由转发。算力路由技术示意图如图4所示。

图4 算力路由技术示意图

算力路由节点需要在传统的路由表中,基于接收的算力状态信息,在网络信息表基础上维护本地算力信息表。路由控制面基于给定的路径Metric值计算方式生成算力感知的新型路由表,相比于传统的路由信息表,算力感知的路由表中新增了“算力参数信息”和“网络、计算总参数信息”。

基于对应用需求的感知,结合实时的网络、计算状态信息,算力路由调度支持将应用请求沿最优路径调度至最优节点。基于“路径+节点”联合计算和优化,从而实现可以感知业务需求的、综合考虑“路径+节点”状态的新型路径计算,满足业务需求。此外,结合IPv6/SRv6/VPN[21-22]等多种协议构建支持网络可编程、灵活可扩展的新型数据面,通过在入口网关处完成业务需求和转发路径的匹配与映射,实现基于SRv6的显式路径转发。

2.6 算网协同管理技术探索

基于全网算力节点基于算力度量和建模体系形成的节点算力信息,算力算网协同管理技术需要支持对算力的统一注册以及策略配置。基于算力节点信息,构建统一的全网算力服务拓扑,包括算力服务标识信息、部署位置信息等,实现对全网算力服务的统一管理。

此外,根据服务所需的算力资源信息,需要结合全网算力的部署状态,动态、按需编排与部署服务。更进一步,可以将一个服务任务分解为多个子任务,各子任务可以分别在不同的算力节点上进行计算,实现各计算节点的 协同。

算力网络支持基于AI的算网流量预测,通过获取未来时间的流量分布、业务分布情况,进行算网资源的预配置、算网应用的预部署,支持对于算力和网络的联合调度和全局优化。

2.7 在网计算超融合技术

在网计算技术的核心是将部分计算任务从主机侧迁移至网络侧,在交换机、路由器、智能网卡、DPU处理卡等网络设备完成计算加速,从而提升网络吞吐量,降低网络时延,减小总体能耗。

传统的网络架构主要完成分组的高速转发,将计算任务和计算结果在计算节点间高速传输。在数据中心网络中,大规模分布式计算和存储的需求日渐强烈,网络传输日渐成为数据中心中分布式集群规模增大和能效提升的瓶颈。近年来,基于RDMA(remote direct memory access)协议的方案实现了数据中心网络的大带宽、低时延和无损,使得存储和计算资源池化,一定程度解决了数据中心网络传输的瓶颈。

在此基础上,具有较强算力的新型异构网络设备,如可编程交换机、智能网卡和DPU处理卡等网络设备可以协同完成诸如分布式机器学习结果聚合等轻量级计算任务,从而降低数据中心网络内部的网络流量。另一方面,由于计算任务在网络中完成,不必再送往端侧进行处理,可以降低计算任务和计算结果的传输跳数,大幅降低整体任务处理时延。

3 算力网络部署方案

算力网络的部署应用需要一个分阶段演进和更新迭代的周期,初期可以通过集中式方案进行算力网络的概念验证,并适时在小规模网络场景引入分布式方案,实现集中式与分布式协同部署方案。待分布式算力路由协议成熟稳定的中后期阶段,实现分布式方案的规模部署。

3.1 集中式算力网络部署方案

在算力网络的集中式部署方案中,算网编排管理中心基于算力和网络的全局资源视图,根据网络部署状况,选择管理面和控制面实现算力网络协同调度。算力网络集中式部署方案如图5所示,网络管理向算力编排器通告网络信息,由算网编排调度中心进行统一的算网协同调度,生成调度策略,发送给网络控制器,进一步生成路径转发表。需要网络控制器收集网络信息,将网络信息上报至算网编排器,同时接收来自算网编排器的网络编排策略,算网编排器负责收集算力信息,接收来自控制器的网络信息进行算网联合编排,同时支持将编排策略下发至控制器,算网编排器负责业务调度。算力编排器通过网络管理平台向算网控制器进行算力信息通告,算力编排器向网络控制器算力信息通告,由网络控制器进行统一的算网协同调度,生成调度策略,进一步路径转发表。

图5 算力网络集中式部署方案

3.2 集中式与分布式协同部署方案

集中式和分布式协同的算力网络部署方案如图6所示,算网管理编排层维护全局静态算力和网络拓扑信息, 算力资源和网络资源实时状态信息由算力路由层节点维护,在算力路由节点实现算网协同调度。

图6 集中和分布式协同的算力网络部署方案

3.3 分布式算力网络部署方案

分布式算力网络部署方案如图7所示,算网管理编排层维护全局静态的算力、服务和网络拓扑信息,并同步给各入口算力路由节点,算力路由节点维护算力服务的拓扑信息以及算力资源和网络的资源实时状态信息,通过分布式算力路由节点进行算网协同调度。

图7 分布式算力网络部署方案

4 算力网络的价值

算力网络是运营商“云算网融合”和“网络转型”的强力助推剂,助力运营商打破“管道化”困境。当前网络只作为信息传输载体,网络价值单一,导致运营商网络被“管道化”。基于运营商天然的“大连接”能力,算力网络利用运营商 “重计算资产”和“网络云化”的优势,提供 “优质连接+优质计算”的融合服务,赋能未来网络升级;此外,算力网络可统一调度未来社会中泛在的多样化算力,以统一服务的方式,高效、灵活、按需提供给用户,助力构建更开放、更多元化、更高价值的运营商网络。

算力网络提供 “网络+算力”变现的新模式,构建开放共赢的算力生态。作为一个开放的基础设施,算力网络使能海量的应用、服务和计算资源。短期来看,有助于运营商边缘计算生态的构建和发展,通过按需、灵活、高效联合调度网络资源和算力资源,保障用户业务体验,助力“网络+算力”变现;中远期来看,未来网络设备将内生算力,真正实现“转发即计算”,从根本上颠覆现有的计算及网络模式;此外,通过引入区块链等去中心化技术,使能全新的“网络+算力”交易模式,赋能算力生态的共繁荣与共赢。

5 结束语

算力网络需要网络域、计算域协同创新,是一系列网络新技术的集成融合和创新应用。已经被纳入6G和下一代互联网关键技术之一,是网络与计算融合发展的终极目标,是实现网络智能内生的必由之路。需要业界联合打造算力网络技术体系,实现网络无所不达,算力无处不在,智能无所不及,推动千行百业数智化转型。

猜你喜欢
算力路由调度
卫星通信在算力网络中的应用研究
算力网络中基于算力标识的算力服务需求匹配
中国电信董事长柯瑞文:算力成为数字经济的主要生产力
基于SiteAI算力终端的交通态势感知系统
《调度集中系统(CTC)/列车调度指挥系统(TDCS)维护手册》正式出版
基于强化学习的时间触发通信调度方法
一种基于负载均衡的Kubernetes调度改进算法
虚拟机实时迁移调度算法
探究路由与环路的问题
基于预期延迟值的扩散转发路由算法