新型算力网络架构设计与探讨*

2022-12-06 03:28贾庆民郭凯周晓茂彭开来谢人超黄韬
信息通信技术与政策 2022年11期
关键词:智化确定性算力

贾庆民 郭凯 周晓茂 彭开来 谢人超,2 黄韬,2

(1.网络通信与安全紫金山实验室未来网络研究中心,南京 211111;2. 北京邮电大学网络与交换技术国家重点实验室,北京 100876)

0 引言

算力网络作为一项新兴的网络技术,旨在连通分布式算力节点,实现算力资源的快速接入和计算任务的高效分发,目前已引起了产、学、研界的高度关注。产业界先后发布了《算力网络架构与技术体系白皮书》《算力网络白皮书》等白皮书,对算力网络的产生背景、核心理念、应用场景进行了技术调研和产业分析;学术界也开展了大量算力网络相关的研究,旨在推动算力网络技术的创新发展[1-3]。为响应行业诉求,我国也陆续出台了多项政策,加快推进构建以算力和网络为核心的新型基础设施体系。

当前,业界对算力网络的体系架构、关键技术、应用场景等进行了较多的研究,然而随着自动驾驶、智能制造、元宇宙等新业务的发展,算力网络在资源编排、时延保障、决策治理等方面也面临着新的挑战;这迫切需要面向新兴业务的发展趋势,有针对性地开展新型算力网络架构的设计和研究。本文首先对算力网络架构的演进趋势进行了分析研判,然后结合算网云原生、算网确定性、算网自智化等特征能力设计了新型算力网络架构,最后分析了算力网络架构的研究挑战。

1 算力网络架构演进趋势分析

1.1 云原生趋势

随着云原生概念的提出[4],云计算技术提供了粒度更细、自由度更高、管理难度更低的服务模式,通过模块化、可观察、可部署、可测试、可替换、可处理等特质充分利用和发挥了云平台的分布式与弹性等优势。同时,随着算力网络概念的提出,云计算技术不再拘泥于以地理位置分类计算节点的固化模式,通过底层网络连通分布式计算节点,实现了算力与网络的协同服务,完成了算力资源的快速接入和计算任务的高效分发[5]。然而,现存工作主要着眼于在网络底层打通的基础上,研究如何优化网络资源以及算力资源使用的问题,却忽视了网络节点与算力节点间的融合,从而无法真正做到算网一体共生。伴随着网络技术、云计算技术的发展,算力网络终将走向算与网的一体化共生,即算力与网络的深度结合,实现算中有网、网上可算。

为达成上述目标,在新型算力网络架构设计中,需要考虑云原生的发展趋势,即通过虚拟化、容器化、微服务等技术,完成网络通信功能模块和计算业务功能模块的灵活部署和快速调度,充分发挥各节点的计算供给能力,实现网络和计算功能的泛在共存与弹性化调度。同时,在此基础上针对上层业务需求集合各节点计算能力,制定最优算网资源编排策略和任务调度策略,实现算力的一体化供给、按需分配。

1.2 确定性趋势

互联网的高速发展驱动了云计算、大数据、人工智能等新一代信息通信技术的蓬勃发展与商业化落地,也逐步催生了AR/VR、自动驾驶、远程医疗等新兴业务;这些新兴业务不仅对算力有较高的要求,而且对时延也提出了新的要求,通常要求微秒到毫秒级的端到端时延以及微秒级的时延抖动,具有计算密集、时延敏感的特性。然而,当前我国的算力基础设施存在布局建设不优、连通程度不高、算力资源利用不均衡等问题;网络基础设施也以“尽力而为”的网络传输为主,难以保证业务所需的时延和抖动要求;这对计算密集、时延敏感型业务的发展带来了新的挑战。其中,针对当前 “尽力而为”网络存在的问题,业界提出了“确定性”的网络技术,以建立一种可提供“准时、准确”数据传输服务质量的新一代网络,保障低时延、低抖动、低丢包率、高带宽和高可靠;代表性的确定性网络技术包括灵活以太网(Flexible Ethernet,FlexE)、时间敏感网络(Time-Sensitive Networking,TSN)、确定性网络(Deterministic Networking,DetNet)、第五代移动通信技术时间敏感网络(5th Generation Mobile Communication Technology TSN,5G TSN)等[6-7]。

为了保证计算任务的确定性传输和计算,新型算力网络架构设计需要考虑“确定性”的发展趋势,即以建设可提供确定性服务质量的算力网络为目标,基于算力网络和确定性网络技术,提供实时、高质量、高可靠的数据传输服务和计算服务,全面赋能产业的智能化改造和数字化转型。

1.3 自智化趋势

算力网络是实现“算力”基础设施化的一个重要载体,尽管众多研究机构在系统架构、关键技术、行业应用等方面进行了大量的研究,算力网络仍面临以下挑战。

(1)过度依赖人工经验,关键策略的设计通常需要大量的人工经验和人力参与,而且无法应对复杂的应用场景需求。

(2)智能化水平不高,通过AI加持形成的单模块智能缺少协作机制,无法达到更高的智能水平,难以实现系统级的自治运行。

(3)智能固化问题,系统智能无法根据应用场景的动态变化,进行自适应调整。

针对上述问题,在新型算力网络架构设计中,需要考虑自智化的发展趋势,即通过在系统全生命周期引入“智能”,利用前沿技术实现自动化的算力感知、算力评估、服务编排和调度、算力路由、算力交易等,让算力网络“自治”,提升业务服务质量和用户的服务体验;其本质是通过数据驱动进行自学习、自演进,对算力网络不同层面进行“注智赋能”,最大限度地解除网络功能实现对人力的依赖。

2 新型算力网络架构设计

2.1 新型算力网络架构需要具备的核心能力

本节基于算力网络的发展趋势,从资源、时延、智能三个维度,结合云原生、确定性、人工智能等方面前沿技术进展,对算力网络的架构设计进行了分析探讨,提出了算网云原生、算网确定性、算网自智化三项新型算力网络的核心能力特征,旨在提升算力网络的编排调度灵活性、计算传输时敏性、决策治理智能化,进而为算力网络的发展提供新的思路参考,研究思路如图1所示。算网云原生可拉通异构算力资源,通过技术手段池化泛在资源,为确定性服务时延保障的实现提供一体化算力及网络资源。算网确定性上承业务需求、下连算力网络资源,将上层业务需求与下层算网资源配对,以满足新型业务对于算力网络确定性的需求。算网自智化则为算网云原生和算网确定性提供智能化决策治理能力,以提升整体系统架构的智能化水平,促成系统全流程自动化运行、算网资源的智能化运用、上层业务的多样化承载,最终确保用户业务的无感知接入和算网资源的一体化按需服务。

图1 新型算力网络的核心能力特征

2.1.1 算网云原生

算网云原生能够在资源部署时池化并自适应动态分配算网资源,以便针对上层需求实现快速、平滑、泛在的资源弹性伸缩,充分发挥算力网络的分布式和弹性等优势,最终实现算与网的协同发展、一体共生。

算网云原生的核心能力应包括请求快速调度和资源泛在部署。当前云原生已具备快速调度、动态调整等能力,而网络仍需云化以支撑上述云原生算力网络核心能力。网络云化在近年来成为了热点研究课题。一方面,当下越来越多的应用程序被迁移至云端,作为支撑应用的网络需具备网随云动的能力;另一方面,传统网络只有通过云化技术才能实现资源的弹性分配和网络的灵活组网,进而促进算网确定性、算网自智化等技术的实现。网络实现云化后,结合虚拟化、容器化等技术,则可在算力网络中实现以底层算力一体化供给为基础的算力统一纳管和资源统一编排能力,真正达到算与网的一体共生、融合发展。

2.1.2 算网确定性

算网确定性是新型算力网络的主要特征,其不仅能够在算网融合的基础上提供算力服务,还能提供确定性的传输和计算服务,进而满足计算密集、时延敏感型业务对传输时延和计算时延的特定要求。算网确定性主要包括确定性传输能力和确定性计算能力。

在确定性传输方面,可以通过在无线网络引入5G+TSN,在局域网络引入TSN,在骨干网络引入DetNet,在传输路径引入SRv6技术,在算力节点内网络引入智能无损网络,实现端到端的确定性传输,即时延确定性、抖动确定性和路径确定性。在确定性计算方面,在计算密集、时延敏感的新业务应用中,计算任务的传输和计算处理总时间是受约束的,只保证传输确定性,并不能满足新业务的时延要求。因此,通过设计计算任务优先级划分、高优先级任务计算抢占、计算资源预留锁定和计算资源弹性扩缩容等机制,实现计算的实时性和确定性。其中,计算确定性是指完成计算任务处理的时间在限定的时间范围内。

2.1.3 算网自智化

算网自智化是将自智网络[8]与算力网络深度融合,自智网络为算力网络提供智能化技术引擎,算力网络为自智网络提供业务场景。算网自智化基于自动化、智能化地实现系统功能的思想,联合数据驱动与知识引导使能网络进行自学习、自演进,最终实现系统全流程的自动化运行、高效的资源利用、自适应的优化调整、多样化的业务承载、智简的服务体验等。基于算网自智实现“服务无所不在、算力无所不达、智能无所不及”是新一代算力网络体系架构的重要内容。

在新型算力网络中,基于人工智能的策略方法,设计实现算力网络的自感知、自配置、自优化、自决策、自维护等功能,提升算网服务感知、算网任务调度、算网资源编排等功能的智能化水平。从系统功能方面来说,算力网络的感知、分析、决策、调度、运维、安全等功能需要不断提高智能化水平来满足日益复杂的功能需求,并能够进行“网—算—智”的协同迭代,逐渐实现自治化、自动化、自主化[9-10]。

2.2 新型算力网络架构设计

如图2所示,新型算力网络架构可分为基础设施资源层、算网融合能力层、应用与服务运营层。

(1)基础设施资源层,是新型算力网络架构的基础底座,包括异构多层次算力基础设施和异构泛在网络基础设施。其中,异构多层次算力基础设施包括云计算节点、边缘计算节点、端侧算力节点等多层次算力资源,以及基础算力、智能算力、超算算力等异构算力资源。异构泛在网络基础设施包括5G/B5G接入网络、确定性边缘网络、确定性广域网络、确定性数据中心网络等。

(2)算网融合能力层,是新型算力网络架构的中枢系统,由算网编排调度平面、算网自智决策平面构成。算网编排调度平面连通基础设施资源层和应用与服务运营层,为应用与服务运营层提供北向开放API接口以供应用服务调用,同时需具备支持现有系统集成调用的能力。算网编排调度平面具备算网云原生和算网确定性两大能力特征,算网云原生可统一整合下层异构计算、网络资源以支持算网确定性能力;算网确定性可规划云网边端协同策略,为上层应用服务提供确定性服务。算网自智决策平面是新型算力网络的大脑,为算网编排调度平面提供智能化系统状态感知、分析建模、策略决策的能力。从功能内容来说,算网自智决策平面基于基础设施资源层状态信息和业务意图信息的智能感知,进行自动化分析建模和决策,并将决策结果反馈算网编排调度平面以提供智能化、自动化决策治理能力。

(3)应用与服务运营层,主要包括应用服务、服务运营等。应用服务主要包括云虚拟现实、智能驾驶、智能制造等计算密集、时间敏感型业务。服务运营主要包括可信算网交易、智能化系统运维等。

图2 新型算力网络参考架构

3 挑战与展望

3.1 算网云原生研究挑战与展望

算力网络作为算与网高度融合的新型架构模式,需具备算力节点与网络节点的一体化纳管能力。因此,未来发展的方向必然是通过网络连接彻底打通各算网节点资源,实现全网层面的算力共享,使得算力节点、网络节点上的资源可被算网控制平台一体化管理调度,同时支持网络功能的上浮与微服务的下沉,为用户提供更好的使用体验。为实现上述发展,还需要在以下方面持续研究推进。

(1)进一步研究异构算力的一体化、多维度建模方法。当前算力网络中存在多种异构算力,也存在多种计算需求。一方面,需进一步研究如何将异构算力进行一体化建模,形成异构算力的统一度量模式;另一方面,也需针对不同计算需求,构建多维度算力表征方法。

(2)进一步探讨如何使用网络节点资源。传统网络设备多为专有设备,难以对外开放算力;为完成微服务的下沉,仍需学术界与产业界合力推动,将传统网络设备更新进化为通用型算网一体化设备,以期实现业务功能的泛在部署。

3.2 算网确定性研究挑战与展望

为了保障时延敏感、计算密集型业务对传输和计算的时延要求,算网确定性的概念得以提出,然而,目前依然存在一些关键技术挑战亟需解决。例如算力任务传输控制优化,传统网络采用的是“尽力而为”的数据传送方式,为提升数据传输的可靠性,网络系统会采用复杂的可靠性机制或容错校验机制,从而增加了终端设备的计算开销。随着确定性网络的采用,网络在时延、抖动、丢包方面都进行了极大优化,网络可靠性也得以极大改善。相应地,传统的容错校验机制就显得冗余重复。在确定性网络环境下,简化传输控制复杂度,降低终端设备网络协议栈在容错校验方面计算开销,是算网确定性今后研究的重要方向。

3.3 算网自智化研究挑战与展望

算网自智化受到算力网络和自智网络的双重驱动,同时也面临着来自两个领域的技术挑战。实现算网自智是一个持续迭代、循环演进的系统工程,需要在以下方面持续推进。

(1)基于联合知识引导和数据驱动的赋智手段,自动化地进行算力评估、服务编排和调度、算力交易等关键动作,最终能够根据用户意图生成最优的算力服务提供策略。

(2)在数据、流程、应用等方面进行多维度深度的协同融合,构筑端到端的全域智能化闭环,逐渐实现网络自动化、自主化、自治化。

4 结束语

算力网络通过连通分布式算力节点,实现了算力任务的灵活调度和算力资源的高效利用,有力推动了我国制造业的智能化改造和数字化转型。针对算力网络技术的发展趋势,本文结合云原生、确定性网络、人工智能等技术,提出了算网云原生、算网确定性、算网自智化等概念,基于提出的新概念融合设计了新型算力网络架构,探讨了新型算力网络的研究挑战,为算力网络今后的发展提供了技术参考和趋势研判。

猜你喜欢
智化确定性算力
算力盗用:一种新型财产侵害*
电子证照重构山西道路数智化体系
中科曙光:联合发布全国首个“一体化算力交易调度平台”
中国电信董事长柯瑞文:算力成为数字经济的主要生产力
论中国训诂学与经典阐释的确定性
论法律解释的确定性
含混还是明证:梅洛-庞蒂论确定性
算力网络场景需求及算网融合调度机制探讨
沙冒智化的诗
沙冒智化的诗