贾庆民,胡玉姣,张华宇,彭开来,陈平平,谢人超,2,黄韬,2
(1.网络通信与安全紫金山实验室,江苏 南京 211111;2.北京邮电大学网络与交换技术国家重点实验室,北京 100876)
随着边缘计算、人工智能数据中心、超算数据中心等算力基础设施的大量部署,终端用户接入并使用计算资源变得更加方便快捷。然而,如何更加高效地利用这些计算资源成为当前亟须解决的问题[1-2]。一方面,许多边缘计算节点的资源相对受限,难以高效快速处理计算任务;另一方面,计算节点部署分散,节点之间缺乏有效协同,计算任务的分配与调度机制尚不完善,导致计算任务的处理效率不高、计算资源利用不均衡。为更加高效地利用海量分布式计算资源,更加快速地处理计算任务,推动计算资源与网络的深度融合,算力网络的概念得以提出。算力网络是一种算网融合的新范式,旨在将分布式计算节点打通互联、统筹调度,通过对网络架构和协议的改进设计,实现网络和计算资源的优化和高效利用[3-4]。随着企业上云、消费互联网向产业互联网转型发展,计算与网络的深度融合已成为社会经济数字化转型的关键力量。
当前,世界主要国家和经济体都高度关注算力网络、算网融合相关技术的发展,并且积极布局。2020 年,美国政府发布《引领未来先进计算生态系统:战略计划》,计划打造由边缘计算、云计算、高性能计算等算力设施构成的国家级计算生态系统[5]。2020 年,美国启动Pronto 项目,开展面向5G 的云边协同互联的可编程算网一体化研究[6]。2021 年,欧盟发布《2030 年数字指南针》,提出要大力发展云计算基础设施,构建安全和高性能的可持续数字基础设施[7]。我国也十分重视算网融合技术的发展和产业应用,先后出台一系列政策予以引导。2021 年,国家发展改革委等四部委联合发布《全国一体化大数据中心协同创新体系算力枢纽实施方案》,启动实施“东数西算”工程,构建国家算力网络体系[8]。2022年,国务院发布《“十四五”数字经济发展规划》,要求优化升级数字基础设施,加快建设信息网络基础设施,推进云网协同和算网融合发展,有序推进基础设施智能升级[9]。
另一方面,诸如智能制造、智能驾驶等新业务,不仅需要高性能算力资源,还要求网络提供确定性、可靠性的保障,以满足新业务功能和性能需求[10-11]。然而,当前的网络还不能实现算力节点之间的端到端确定性传输和计算任务高效调度,这严重影响了时间敏感、计算密集型业务的发展。因此,开展基于确定性的算力网络技术研究,构建连通异构泛在算力节点,保障实时传输、实时计算的算力网络,对于满足计算任务在算力节点间端到端高质量、确定性的传输和调度具有重要意义。
本文针对算力网络在发展过程中对实时性、确定性的迫切要求,基于确定性网络(DetNet,deterministic networking)等相关技术,提出了确定性算力网络的技术方案,设计了确定性算力网络架构和工作机制,分析了确定性算力网络的关键技术,进而实现了传输路径、传输时延的确定性和计算任务处理时延的确定性;同时,实验结果也验证了确定性算力网络的性能和有效性;与普通算力网络相比,确定性算力网络在传输时延、计算处理时延方面都有明显提升。最后,对典型应用场景进行了分析,并对确定性算力网络今后的发展趋势和技术挑战进行了分析探讨。
算力网络和确定性网络是确定性算力网络的关键使能技术,本节对算力网络和确定性网络的研究进展进行简要概述。
算力网络通过改进设计网络架构和协议,打通互联分布式算力节点,统筹算网资源,灵活调度计算任务,实现网络和计算资源的协同优化和高效利用。算力网络一经提出就得到了业界的广泛关注。当前,算力网络的发展方兴未艾,体系架构及诸多关键技术还未形成定论,产业及标准化工作也在不断推进中[12-14]。
在算力网络架构方面,从网络控制的角度,算力网络技术方案大致可以分为2 种,即集中式架构方案和分布式架构方案。其中,集中式架构方案的特点是控制平面与数据平面分离,控制平面具有全局算网资源视图,可以进行全局统一算网编排调度,通常采用基于软件定义网络(SDN,software defined network)的技术架构来实现[15-16]。分布式架构方案的特点是通过相邻路由节点之间的交互实现算网状态信息同步,计算任务控制转发也在路由节点决策完成,通常采用网络层协议扩展方式实现,典型技术方案如计算优先网络(CFN,computing first networking)[12-13]。另一方面,从网络分层的角度,算力网络技术方案可以分为Overlay 方案和Underlay方案,Overlay 方案通常不涉及网络协议的修改,在应用层实现算力状态的采集和目标算力节点的选择,通过底层网络实现计算任务的传输调度;Underlay 方案通常需要在网络层进行协议修改,增加算力状态信息,在网络层实现算网状态信息的扩散。
在产业方面,网络运营商和设备商积极推动算力网络的发展,发布多部白皮书并对算力网络的发展背景、概念、架构、关键技术、标准和生态等方面进行了介绍和分析[15-16]。在标准化方面,中国通信标准化协会(CCSA,China Communications Standards Association)组织立项、编制了算力网络系列行业标准,包括算力路由、算网编排、算网设备、算力交易等多个方面,旨在推动算力网络的技术研究和标准化[17];2021 年7 月,国际电信联盟电信标准化部门(ITU-T,International Telecommunication Union Telecommunication)发布了首个算力网络技术的国际标准“Y.2501: computing power network-framework and architecture”,该标准对算力网络的框架与架构进行定义和介绍,标志着算力网络得到了国际学术界和产业界的广泛认可[18]。
在学术方面,学术界也围绕算力网络前沿技术开展了广泛研究。文献[13]研究了算力网络的调度技术,提出了一种基于负载均衡的算力调度方案CFN-dyncast,即通过每个算力站点的负载和网络状态,实现将用户的算力需求分配到最优的算力站点。文献[19]研究了算力网络与命名数据网络[20]的融合技术,提出了NSACS-PS 方案,即通过将命名数据网络技术的命名机制应用于算力服务的命名中,实现算力服务的接入控制优化。文献[21]研究了算力网络与云原生技术的融合机制,提出了一种算力网络与云原生数据中心网络融合的方案Cyber-CFN,并利用算力网络的机制方法实现均匀采样的接口和模型。文献[22]提出了一种基于网络孪生的新型算网融合体系架构,通过分布式云的方式向电信运营商、云计算提供商和应用服务提供商协调分配计算、存储和通信资源,以保障云业务的服务质量需求。文献[23]提出了一种新型算网融合机制机理——可扩展互联网(EI,extensible Internet)技术,在不对当前网络基础架构进行任何重大变革情况下,从网络层中抽象出L3.5 层来解决L3 层细腰问题,支持网内泛在计算与内容就近响应,进而实现算网资源的融合利用。
随着智能驾驶、云虚拟现实(Cloud VR,cloud virtual reality)、智能制造等新应用业务的发展,计算任务的卸载和分发通常要求极低的时延,以保证终端设备能做出及时的动作响应。例如,在使用Cloud VR 业务应用时,GPU 渲染计算需要在云端处理,如果时延过大,就会给用户带来眩晕感觉,严重影响Cloud VR 的体验质量。因此,这就要求算力网络支持网络传输确定性,以保证超低时延、超高可靠的传输。其中,通过确定性网络技术,实现算力节点之间、终端设备与算力节点之间的“准时、准确、快速”的数据传输,进而控制并降低端到端时延,为时间敏感网络(TSN,time-sensitive networking)业务提供确定性的网络传输保障。
确定性网络可提供实时数据传输,保证确定的通信服务质量,如超低上界的时延、抖动、分组丢失率,上下界可控的带宽,以及超高下界的可靠性。确定性网络已经成为产业互联网等新兴产业形态的底座技术,是数字经济发展的关键支撑[24]。确定性网络技术研究的核心问题是如何实现确定性时延、抖动、分组丢失率、带宽和可靠性等。例如,通过时钟同步、频率同步、调度整形、资源预留等机制方法实现确定性时延;通过优先级划分、抖动消减、缓冲吸收等机制实现确定性抖动和分组丢失率;通过网络切片和边缘计算等技术实现确定性带宽;通过多路复用、包复制与消除、冗余备份等技术实现高可靠性[25]。
目前,可应用于算力网络的确定性网络技术主要包括TSN 和DetNet[26-28]。TSN 主要应用于数据链路层,首先基于业务需求对网络流量进行优先级划分,并将具有确定性需求的流量区分出来,按照类似“时分复用”的思想方法,通过时钟同步、流量整形等机制为高优先级的流量提供确定性传输“时隙”,进而保证传输的实时性和可靠性。DetNet 主要应用于网络层,该技术的目标是在第二层桥接和第三层路由段上实现确定传输路径,这些路径可以提供时延、分组丢失和抖动的最坏情况界限,以此提供确定性时延[24]。
在学术方面,学术界在确定性网络领域开展了大量的研究。文献[29]研究了无线网络场景下的确定性传输问题,提出了一种基于空口信道质量信息的5G 与时间敏感网络联合优化机制,能有效降低信道质量较差场景下的时间敏感网络域传输时延,以及有效消除空口随机变化导致的重传对传输时延造成的抖动。文献[30]研究了面向大规模网络的确定性传输问题,提出了一种高可扩展的大规模确定性网络架构,可在IP 网络中提供端到端时延和有界抖动保证。文献[31]研究了数据中心网络中时延确定性问题,分析了数据中心网络从超低时延到确定性低时延的发展趋势,并重点探讨了通过减少交换机中的排队时延来有效降低网络时延的设计思路。
同时,算力节点之间任务的确定性传输也引起了学术界的关注。文献[32]研究了多接入边缘计算节点之间的任务确定性传输问题,通过二层网络确定性和三层网络确定性技术的跨域协作,以及与5G网络的集成设计,解决了多接入边缘计算网络中的长尾时延问题。文献[33]也针对移动边缘计算节点之间网络传输确定性问题,提出了一种确定性移动边缘计算网络技术方案,通过设计循环映射和循环移位机制,保证移动边缘计算服务的确定性传输。
为了应对产业互联网时代时间敏感、计算密集型业务带来的新挑战,基于算力网络、确定性网络等相关技术,本文提出了确定性算力网络技术方案。在此,给出确定性算力网络的定义。确定性算力网络是算力网络发展的高级阶段,在算网深度融合的基础上,充分考虑了新业务在计算和传输方面的时间约束要求,通过采用传输和计算确定性的机制方法,包括任务优先级划分、资源预留、资源预调等,实现计算任务在约束时间内的确定性传输和计算。接下来,本节将对确定性算力网络的设计原则、参考架构及工作流程、关键技术等进行展开讨论分析。
在传统算力网络主要强调算力节点间的连通性,即通过连通各个算力节点实现计算任务的分发调度,提升算力资源的利用率。但是随着诸如智能驾驶、Cloud VR 等业务的发展,新业务不仅要求超高算力,还要求超低时延;单纯地将用户以及各算力节点进行连通,并不能保证业务的正常运行。因此,新业务对算力网络的诉求,不仅是满足任务的计算需要,而且是通过超低时延、超高可靠的方式完成任务传输和计算。
另一方面,在传统算力网络中,算力任务的分发调度通常需要综合算力节点状态和网络链路状态,并对算力和网络的状态值进行加权计算,获取算网最优均衡的算力调度策略,进而得到目标算力节点和传输路径;然而,如果距离用户最近的算力节点资源充沛,但网络链路拥堵,通常会选择次优的算力节点,进而导致算力任务传输和计算处理时延的增加;而且,计算任务到达目标算力节点之后,目前也缺少对计算任务处理提供算力资源保障的机制。因此,在确定性算力网络中,需要对计算任务的传输提供低时延和高可靠保证;同时,对于到达目标算力节点的计算任务,也需要为任务的计算处理提供时延保障。
基于确定性网络在时钟同步、资源预留、队列调度等方面的技术优势,本文设计的确定性算力网络的目标是实现计算任务的低时延、高可靠、确定性传输,避免计算任务数据包在传输过程中的拥堵、分组丢失等问题;同时,通过对计算任务的优先级划分、资源预留、资源预调等机制,为计算任务的处理提供实时高效的保障性机制。
基于上述技术目标,确定性算力网络的系统设计应该遵循如下原则。
1) 任务实时传输。保证计算任务的网络传输实时性,即通过网络确定性技术保证计算任务的传输时延低、抖动小。
2) 任务实时计算。保证计算任务在算力节点的计算处理实时性,即通过计算任务的优先级划分、资源预留、资源预调等方式保证计算任务在算力节点实时计算。
3) 软件定义化。通过采用基于SDN 的集中化的架构方式,在控制平面增加对计算资源状态的感知功能,实现对计算资源状态和网络资源状态的一体化感知,进而基于计算资源和网络资源整体视图,实现对计算任务的集中统一分发调度,提升计算任务分发效率和计算资源利用率。
4) 算网一体化。为了保证计算任务的实时传输、实时计算,需要对网络资源和算力资源进行统一管控,实现算网一体化融合,保证计算任务的最优化处理。
5) 服务定制化。针对特定业务进行标识,网络传输、节点计算都进行定制化的处理,以满足特殊业务对算力网络的特定要求。
确定性算力网络需要同时解决网络传输确定性问题和任务实时计算问题,因此,确定性算力网络应具备如下几项核心能力。
1) 算网感知能力。算网感知是指通过采集、探测等方法获取算力节点、网络设备等算网设施的状态信息,构建算网状态信息库,为计算任务调度、算力节点选择、网络路径规划等提供最新的状态信息。算网感知能力通常包括算力服务感知、算力资源感知、网络资源感知等。特别地,在确定性算力网络中,强调算网感知实时性。
2) 规划调度能力。规划调度是确定性算力网络的核心能力,旨在为实现计算任务的最优分发和处理而进行的网络路径规划、算力节点选择以及计算任务调度等;规划调度能力需要基于算网感知的状态信息进行决策,并且将传输和计算的时延要求作为首要约束。
3) 资源管控能力。资源管控是指对网络链路和算力节点的管理控制,为了保证确定性算力网络的实时性,资源管控主要包括计算任务的优先级划分、网络资源预留、算力资源预留等机制,保证任务的传输和计算具有充分的算网资源。
相对于传统算力网络,确定性算力网络在传输和计算方面均具备增强的确定性能力。在任务传输方面,为满足计算任务传输所要求的时延、抖动限制,需要为计算任务提供端到端的确定性传输保障,包括接入网络、边缘网络、主干网络以及算力节点内的网络等。在任务计算方面,为防止到达的计算任务排队等待,需要及时处理到达计算处理单元的计算任务,并对计算任务的处理进行算力资源的保障;如果按照传统“分时分片”的计算方式,计算任务的处理时延将难以保证。
因此,基于上述设计原则和应该具备的核心能力,本文所提确定性算力网络采用集中式的架构设计思路,实现统一的算网状态感知、集中的计算任务调度、高效的算网资源编排。确定性算力网络的设计架构主要包括确定性算力网络基础设施平面、确定性算力网络管控平面、确定性算力网络业务应用平面以及相邻平面间的接口,如图1 所示。
图1 确定性算力网络参考架构
1) 确定性算力网络基础设施平面主要由算网设备、算力节点构成,是对计算任务进行传输和处理的算网基础设施。其中,传输部分通常包括接入网络、边缘网络、主干网络、数据中心网络等,计算部分通常包括基础算力节点、智能算力节点、超算算力节点等。该平面基于确定性算力网络管控平面的决策指令信息,对计算任务进行传输和处理。
2) 确定性算力网络管控平面是确定性算力网络的中枢神经系统,包括算力服务感知、算力资源感知、算力资源预留、算力任务调度等。确定性算力网络管控平面通过南向接口与确定性算力网络基础设施平面交互,获取基础设施平面的算网状态信息,构建算力任务调度、算网管控等策略,形成决策指令并下发至基础设施平面。
3) 确定性算力网络业务应用平面主要由各类定制化业务应用构成,特别是时间敏感、计算密集型业务应用;确定性算力网络管控平面通过北向接口实现对业务应用的能力开放,包括业务标识、服务质量要求等。
确定性算力网络基本工作流程介绍如下。
步骤1确定性算力网络管控平面实现对基础设施平面的算力服务感知、算力资源感知、网络资源感知,构建算网状态信息库。
步骤2终端设备发起计算任务请求,并对计算任务进行标识。
步骤3算网接入路由器对计算任务请求进行解析,并上报确定性算力网络管控平面。
步骤4确定性算力网络管控平面处理分析计算任务,识别终端用户、任务类型及任务优先级,并决定任务计算和传输的服务等级和策略。
步骤5联合考虑算力服务、算力资源、网络资源等状态信息,选择最优的算力节点;基于计算任务到达的时间,对算力节点进行计算资源预留和保障。
步骤6规划终端设备到所选择目标算力节点的网络路径,并基于分段路由(SR,segment routing)技术[34]构建网络传输路径;基于确定性网络的带宽资源预留等保障机制实现计算任务的确定性传输。
步骤7基于确定性网络,将计算任务按照SR路径分发至目标算力节点进行计算处理,其中,到达目标算力节点后,优先将目标计算任务送入计算处理单元,并对计算任务提供计算资源的保障。
特别地,如果在同一时间段内,最优路径上的确定性任务流达到上限,采用次优路径;算力节点选择也是如此。
1) 算网状态感知。算网状态感知主要包括算力资源感知、网络资源感知、算力服务感知。其中,算力资源感知主要包括对CPU、GPU、内存等算力资源负载状况的实时感知;网络资源感知主要是对网络带宽、时延、网络队列等网络资源状态信息的感知;算力服务感知主要是对部署在算力节点的应用服务信息进行感知。通过对算力和网络的状态感知,构建全局统一资源状态视图和服务状态视图,支撑计算任务的最优调度。由于时间敏感、计算密集型业务领域要求在极短的时间内完成计算任务的传输和处理。因此,如何设定算网状态信息的采集时间间隔也是一项关键问题,采集间隔过长,计算任务可能早已完成传输和计算;采集间隔过短,会导致网络中状态采集的报文过多,影响正常的业务数据传输。
2) 算力节点选择。算力节点选择主要是为计算任务选择一个目标计算处理节点,满足计算任务处理的要求。对于算力节点的选择,通常需要在算网状态感知的基础上进行,而且可以采用多种选择策略,如基于算力最优的节点选择、基于算网均衡的节点选择等。特别地,算力服务是否部署是算力节点选择的一项重要标准,如果从算网资源角度选择的最优算力节点没有部署相应的算力服务,那么需要启动处理该计算任务的算力服务镜像,即存在一个冷启动的过程,而该过程通常会给任务处理带来较高时延。
3) 计算任务传输。计算任务传输主要是在选定算力节点之后,将用户的计算任务请求按照超低时延、超高可靠的确定性方式传输分发至所选择的目标算力节点。为保证计算任务的传输确定性,可以采用基于SDN 的网络传输架构进行设计。通过引入确定性网络技术保证计算任务的传输时延抖动确定性。其中,在小规模网络环境,可以采用TSN技术进行承载;在大规模网络环境,可采用DetNet技术进行承载。另一方面,通过引入SR 技术来实现计算任务传输的路径确定性,以保证网络系统按照最优的路径传输。
4) 算网资源管理。在计算任务确定性传输和计算过程中,除了常规的计算和网络资源管理,还需要一项特殊的算网资源管理机制,即网络资源预留和算力资源预留机制以保证计算任务传输和处理的流畅性,避免发生传输拥堵和处理等待。算网资源的预留保障机制可以采用集中式的算网管控平面进行统一编排管理,并且通过精准网络测量和快速算力估计,实现算网资源分配与任务的传输、计算相匹配,进而保证计算任务数据包实现“传输路径不拥堵,节点处理不等待”的目标。
本文通过仿真实验对所提的确定性算力网络技术方案进行验证。其中,本文以计算任务的传输时延和计算处理时延作为验证系统性能的指标。本节实验对比了确定性算力网络和普通算力网络,其中,普通算力网络不具备网络和算力资源的确定性保障能力。
在任务计算处理时延方面,主要验证算力节点的处理时延,本文设置了不同的计算任务量来对比验证确定性算力网络和普通算力网络的算力节点计算任务处理时延。具体地,本文采用了学术界通用的仿真验证方法验证任务计算处理时延[35];其中,计算任务的计算量用CPU 的周期数表示,wi表示处理计算任务i所需要的CPU 周期数,即计算任务i的计算量;算力节点的计算服务率(即CPUk的频率)可表示为rk,则计算任务的时间为在确定性算力网络中,算力节点的算力资源是可以得到保障的;在普通算力网络中,算力节点的算力资源没有相应的保障机制,计算任务分配到的资源是不固定的。
在仿真实验中,设置计算任务量为wi=[10,20,30,40,50,60]Mcycles,算力节点为单核CPU 且频率为0.5 GHz。由于在确定性算力网络中算力节点为计算任务预留了计算资源,因此计算任务的处理性能和处理时延可以得到保障。而普通算力网络系统将计算任务分发至算力节点后,就不再做算力资源的保障性支撑,导致没有对该计算任务进行持续性的算力资源保障,进而造成处理时延的增加。如图2 所示,相同计算任务量在相同算力配置的情况下,确定性算力网络中算力节点的计算处理时延明显低于普通算力网络中算力节点的计算处理时延;同时,随着计算任务量的增加,确定性算力网络的算力节点的计算处理时延是线性增长的,而普通算力网络的算力节点的计算处理时延是跳动的、不稳定的。这是因为确定性算力网络中算力节点预留了算力资源,以保障计算任务的处理性能。综上所述,在任务计算处理时延方面,确定性算力网络是优于普通算力网络的。
图2 计算任务处理时延对比
在任务传输时延方面,通过对比确定性算力网络和普通算力网络传输计算任务的时延来验证性能。特别地,在本节实验中,网络传输部分采用紫金山实验室的确定性网络仿真实验平台进行实验验证。该仿真平台系统首先通过构建传感器、交换机等网络参数模型,并针对实体网络设备传输过程中的随机性抖动等网络特征建模,还原真实网络场景;然后根据构建的网络模型参数进行实例化配置,对选取的确定性网络仿真模块进行配置,进而计算并分析确定性网络协议的参数,自动把参数下发并配置到仿真交换机中;最后执行仿真并给出精确的仿真结果[36]。
本节实验通过对比计算任务经过不同跳数的网络平均时延,验证确定性算力网络和普通算力网络的性能。在实验中,2 个相同的计算任务分别采用确定性算力网络和普通算力网络技术,同时从2 个相同的终端设备发出计算任务,并将计算任务的路由路径设置为相同;在实际系统中,可通过SDN 和SR 技术来设置传输路径,保障传输路径确定性。如图3 所示,由于确定性网络采用了时钟同步、带宽预留、队列调度优化等机制,计算任务的传输时延明显低于普通算力网络。事实上,普通算力网络采用“尽力而为”的机制,计算任务传输时延、传输可靠性都难以保证;而确定性算力网络可以实现计算任务低时延、低抖动,甚至零分组丢失的传输,极大地保证了计算任务的传输质量。
图3 计算任务的传输时延对比
本节分别从车联网、消费互联网、产业互联网三大领域中选择智能驾驶、云虚拟现实、智能制造三类典型应用场景,具体分析确定性算力网络在其中的应用价值。
在智能驾驶场景中,由于单车智能存在感知范围受限、制造成本高昂、时空同步困难、环境突变或恶劣天气情况下感知稳健性差等问题,因此,智能驾驶未来将更多采用基于蜂窝车联网(C-V2X,cellular vehicle-to-everything)的智能驾驶方案,特别是依靠车路协同技术,以确保实时精准感知、高可靠传输、低时延处理[37]。其中,在车路协同场景下,智能驾驶对时延和算力均有较高要求,例如L4 级智能驾驶要求时延不高于10 ms,带宽不低于100 Mbit/s,同时L4 级智能驾驶对算力的要求达到接近400 TOPS(tera operation per second)[38]。因此,确定性算力网络可以作为智能驾驶的底层技术,基于统一的确定性算网感知、规划调度、编排管理机制,将车辆、路侧感知的数据以及车辆的运行轨迹实时传回最优边缘计算节点,进行实时高效的计算处理、分析决策,然后将计算结果低时延、高可靠地传回智能驾驶车辆,实现车辆智能控制。因此,确定性算力网络可以为智能驾驶提供低时延、高可靠的网络传输和实时计算,满足智能驾驶场景的实时性、确定性、高可靠的技术要求。
虚拟现实(VR,virtual reality)凭借其带来的极致沉浸式体验,已经成为消费互联网领域的热点技术。然而,传统本地VR 存在用户体验差、设备成本高、内容分散等问题,制约着VR 技术产业发展。随着算网技术的发展,Cloud VR 成为应对VR 挑战的解决思路[39]。然而,Cloud VR 业务的实时编解码、特征渲染、超低时延连接等对网络和算力均提出了较高要求。例如,Cloud VR 达到良好的业务体验要求网络时延在20 ms 以内[39]。因此,采用确定性算力网络承载Cloud VR业务,可为Cloud VR 提供边缘算力资源、实时网络传输保障。例如,网络可以感知Cloud VR 等媒体业务的流量模型,并基于该模型进行端到端资源预留和调度,避免由于资源拥塞导致的时延和抖动。
随着制造业向着智能化改造和数字化转型方向发展,企业生产系统呈现出现场少人化、无人化的趋势,工业控制系统也逐渐向着集中式云化部署的方向发展,进而可以远程控制处理生产现场的工序操作,保障生产安全。同时,智能制造的集中式云化部署也让大型企业得以在更大范围内实现总部、多基地之间的生产要素调配和优化,实现企业的降本增效[40-41]。因此,针对工业控制系统向着广域化、云化发展的趋势,确定性算力网络可以为下一代工业控制系统提供实时算力和实时传输保障。例如,将工厂控制系统以云服务的形式部署在云端,将感知设备采集的信息超低时延、超高可靠地传输至边缘算力节点,通过快速识别和决策将控制指令快速反馈给终端设备,并执行动作行为。
确定性算力网络作为一种融合算力网络、确定性网络等技术的网络新范式,还有一些趋势性的研究问题与技术挑战需要进一步探讨,具体总结如下。
在确定性算力网络中,感知节点算力和网络链路状态信息对计算任务的分发调度具有重要意义。由于计算任务在传输和处理方面均要求低时延,过长的状态采集时间间隔会影响状态感知信息的准确性,而过短的状态采集时间间隔会增加网络和算力节点的负载。因此,如何权衡算网状态的准确性和状态采集时间间隔成为一项重要挑战。今后,可以采用人工智能的方法,基于离线的算网状态数据训练构建算网状态模型,预测算网的状态信息;并结合实时在线感知的状态信息,构建算网状态感知的模型策略,为计算任务的调度决策提供支撑。
云原生是云计算发展的重要趋势,而Serverless技术是云原生的关键[42]。当最优的算力节点没有部署用户请求的服务时,除了将计算任务调度至次优算力节点,还可以通过Serverless 技术,超低时延的弹性启动对应的计算服务,以满足用户实时计算需求。因此,在算力节点选择或计算任务调度时,是基于Serverless 技术启动计算服务,还是将计算任务调度至次优的算力节点,成为一个权衡问题。因此,研究基于Serverless的服务编排对于优化计算任务调度具有重要意义,也是今后重要的研究方向。
时间敏感、计算密集型的业务通常要求算力节点能够快速计算处理到达的任务,以保证计算任务传输时延和处理时延总和最小化。在进行计算任务调度时,为保证计算任务的计算量与算力节点提供的算力资源能够相匹配,需要对计算任务所需的算力进行度量,实现对计算任务的精细化描述和表征[43];另一方面,由于算力节点的负载通常是动态变化的,在选择算力节点时,也需要对算力节点的算力资源进行估计,以确保算力节点的算力资源可以满足计算任务的计算需求。通过对算力进行度量和估计,可以更加准确地为计算任务调度和算力节点选择提供参考依据,保障计算任务的确定性传输和计算。
传统网络采用的是“尽力而为”的数据传送方式,为了保证数据的准确性,在终端设备的网络协议栈中增加了大量容错校验机制,随之而来的问题是占用了终端设备的算力资源、增加了终端设备的计算开销。随着确定性网络技术的发展,确定性网络在时延、抖动、分组丢失方面都进行了极大优化,网络可靠性也得到了极大改善。由于确定性网络在时延、抖动、分组丢失等方面的高可靠性,传统的容错校验机制就显得冗余重复。因此,在确定性网络环境下,对终端设备的网络协议栈进行容错校验方面的简化具有重要意义,也是今后确定性算力网络研究的重要方向。
基于算网感知信息可以判断单个任务下一时段负载较低或性能最优的算力节点,然后将计算任务调度分发至该目标算力节点;但当多个用户多个任务并发请求时,目标算力节点在下一时段可能成为多个用户多个任务最优的任务计算处理节点,进而导致目标算力节点的负载快速增加,计算任务的处理性能受到影响。针对计算任务并发性问题,在设计确定性算力网络管控平面的计算任务调度策略时,如何满足并发用户的任务请求且最大化利用最优算力节点的资源,将是今后确定性算力网络研究的一项重要挑战。
面向智能制造、智能驾驶、云虚拟现实等新业务场景,聚焦新业务对时延、算力的特殊要求,特别是时间敏感、计算密集型业务,本文提出了确定性算力网络技术方案。该方案具有任务实时传输、任务实时计算、软件定义化、算网一体化、服务定制化的特点,具备算网感知、规划调度、资源管控等核心能力,实现了任务传输的时延确定性、抖动确定性、路径确定性和任务计算的实时性。本文通过实验验证了所提方案的有效性。
面向未来,确定性算力网络还需要进一步结合人工智能技术提升自动化、智能化决策水平,结合云原生技术提升网络、计算、存储等多维资源的弹性编排能力。同时,可信安全也是确定性算力网络今后需要强化的方向,如何构建内生的可信安全机制也是今后需要重点探讨的问题。