算力网络中基于算力标识的算力服务需求匹配

2022-12-22 12:27周舸帆雷波
数据与计算发展前沿 2022年6期
关键词:通信地址算力服务器

周舸帆,雷波

中国电信股份有限公司研究院,北京 102209

引 言

数字经济蓬勃发展亟需数字信息基础设施加快升级,伴随5G、人工智能、物联网、大数据等新技术向各行业的渗透,产业数字化转型逐渐步入深水区,成为数字经济增长的主体。在数据成为新生产要素的同时,全社会数据总量呈现几何倍数增长。据IDC预测[1],未来三年新创建的数据量将超过过去30年的总和,而未来五年创造的数据量将是前五年的三倍以上,全球数据量到2025年全球联网设备总量将达到559亿。由此将带来大量的数据存储、计算、传输和应用需求,5G、光纤宽带、数据中心等新型基础设施重要性日益凸显。同时,工业互联网、车联网、智慧城市与智慧医疗等“互联网+”新业态正在高速发展,消费互联网逐步向产业互联网演进,计算模式与通信网络日趋复杂化、多元化。

对通用算力、智能算力与超算算力的蓬勃需求推动了各类数据中心的高速发展。据统计,截至2022年6月底,我国在用数据中心机架规模已超过590万架,算力总规模超过150EFlops。由于产业布局、市场发展、气候环境等因素影响,我国数据中心算力需求、算力资源分布分配不均衡,全国数据中心平均利用率仅为55%。同时全球范围内数据中心PUE多年维持在1.6的水平,能效利用率整体偏低。为引导数据中心集约化、规模化、绿色化发展,加强数据安全水平,同时提升跨区域算力调度水平,国家先后发布了《关于加快构建全国一体化大数据中心协同创新体系的指导意见》和《全国一体化大数据中心协同创新体系算力枢纽实施方案》两份文件,实施“东数西算”战略,通过八大算力枢纽节点和十个数据中心集群,动构建全国一体化大数据中心体系。

“东数西算”除了对数据中心布局、算力资源结构、数据流通融合、数据安全防护等提出要求外,还对网络能力提出了更高的要求。因此,在不断优化现有网络架构与运营的同时,更需要发展以算力网络技术为代表的新兴网络技术,有效支撑东西部算力协同。

1 算力网络与算力服务需求匹配

1.1 算力网络研究进展

自2019年来,经过业界各领域的专家学者的不断研究,算力网络的定义与内涵逐步演变。中国电信将算力网络(Computing Power Network, CPN)定义为一种在云网融合体系下的、架构在IP网之上以算力资源调度和服务为特征的新型网络技术或网络形态,算力网络力图通过网络控制面来解决多方异构算力资源的柔性供给问题,能够让用户在发起任务时不用指定具体的算力资源节点,而由网络控制面根据资源节点实时信息与业务策略来选择最佳算力资源节点[2]。中国移动在其发布的《算力网络白皮书》中提出算力网络(Computing Force Network, CFN)定义为以算为中心、网为根基,网、云、数、智、安、边、端、链(ABCDNETS)等深度融合、提供一体化服务的新型信息基础设施[3]。中国联通以CUBE-Net3.0体系总体思想,以基于IPv6+的算网基础承载为关键技术,打造基于全光网底座的连接,构建算网大脑,根据国家算力枢纽布局,实现算网一体化服务[4]。

国际范围内,算力网络的研究主要集中在国际电信联盟(ITU)、互联网工程任务组(IETF)、宽带论坛(BBF)、欧洲电信标准化协会(ETSI)等全球标准化组织中的标准化工作上。2021年7月,ITU-T通过由中国电信牵头的算力网络框架与架构标准Y.2501,该标准规定了算力网络(CPN)的功能架构,是首项获得国际标准化组织通过的算力网络相关标准。目前ITU还涉及算力网络功能需求、信令需求与协议、交易、编排管理、边界网关、认证调度等研究方向。IETF在算力网络领域涉及网络设备集成计算能力、算力路由、算力感知等领域。BBF就算力网络在城域网中的应用展开研究。ETSI中NFVEVE020以CFN为基础,研究NFV的计算和网络集成相结合的网络功能连接扩展方案。

与此同时,学术界的专家也提出了与算力网络核心观点与目标相似的未来网络体系。张宏科院士提出标识网络“三层两域”架构,通过动态感知网络状态并智能匹配服务需求,实现资源的动态适配和协同调度,解决网络中位置与资源绑定、控制与数据绑定、用户与网络绑定的问题,提高网络资源利用率[5]。邬江兴院士提出一种技术体制与物理平台分离的网络发展范式-多模态网络,将各种网络技术体制以模态的形式,在多模态网络环境上智慧加载和运行,按照模态自定义的报文格式、路由协议、交换方式、转发逻辑等进行处理,实现多种模态在同一物理网络平台上的共存、演进或变革发 展[6]。张平院士提出通感算一体网络,指同时具备物理-数字空间感知、泛在智能通信与计算能力的网络,通过“通感算”(通信、传感、算力)一体化的方式,在工业互联网、精准医疗等方面提高智能服务创新能力[7]。上述创新网络技术体系与算力网络异曲同工,都将融合、智能与协同作为未来网络的发展方向与原则,通过更高效的匹配与调度,打造更加包容、柔性、智能、安全的网络。

1.2 算力服务需求匹配

算力网络技术重点关注网络中资源的多样性与算力服务的多样性。其中,算力资源的多样性包括资源节点规模与位置的多样性(大型云计算节点、分散在网络边缘的边缘计算节点等)、资源节点算力种类的多样性(通用算力、智能算力、超算算力)[8]、资源归属的多样性(云服务商、电信运营商、中小型企业、超算中心、研究机构等)[9]等。算力服务的多样性包括行业场景的多样性(工业互联网、车联网、自动驾驶、沉浸式XR、智慧医疗等)、业务需求的多样性(大算力需求、低时延需求、确定性需求、数据安全需求、成本需求等)与业务场景的多样性(检索查询类、渲染交互类、深度学习类、区块共识类等)[10]。算力网络试图基于无处不在的网络联结存在于网络中的业务需求与资源,同时利用上述多样化特征提供算网一体化服务,提高整网资源利用率,实现用户体验的一致性与服务灵活动态部署。算力资源的标识是实现上述服务的基础。在算力网络中,需要利用算力标识对网路中的算力资源进行管理,同时可以利用算力标识对算力服务需求进行初步的匹配。

随着互联网的蓬勃发展与工业互联网、物联网等应用的不断延伸,针对不同应用场景、识别目标、技术特点而形成的标识体系也在不断地扩展与丰富,有效支撑网络中大量实体的信息交换与数据共享。现有的标识体系可分为对象标识与网络节点标识。其中,对象标识主要用于识别网络中的物理、逻辑或信息对象,通常基于相关对象的检索、获取、管理或控制,不用于网络通信或寻址。常见的对象标识包含EPC编码、客体标识符(OID)、UPC码、统一资源名称(URN)等。网络节点标识主要用于网络中具备通信能力的网络节点的识别、寻址与通信。常见的标识形式包括域名、统一资源定位符(URL)、IP地址等。

算力网络中的算力资源兼具计算相关属性与通信相关属性,目前CCSA已经开始算力网络中算力标识的标准化工作,但是尚未形成成熟的算力标识体系。算力标识设计应利用算力资源及业务场景的多样性,全面地刻画算力资源的特征,从而辅助算力网络场景下复杂的算力资源查找与匹配任务。目前存在的标识体系用于标识对象的管理或者通信,未将两者结合在一起,不适用于算力网络中算力资源的标识。本文基于算力资源的多样性与算力服务的多样性得出一种算力资源标识方法,并提出了一种基于算力标识的算力服务需求匹配系统,在此系统中,算力网络可以根据算力标识对用户的算力需求进行初步匹配。

2 基于算力标识的算力服务需求匹配方案

2.1 算力标识体系总体架构设计

算力标识(CRID, Computing Resource Identifier)作为算力资源在算力网络中的唯一标识,独立于网络中各类资源与用户变化。算力网络通过唯一的算力标识可以对网络中多级泛在异构的算力资源进行管理与整合,同时算力标识体系还将算力资源的通信地址,结合算力资源的网络属性(时延)与计算属性(算力特征与计算能力)为算力资源使用者更加快速准确地匹配最佳算力节点。同时,网络中的算力资源在获取CRID前需要进行注册与鉴权,以确保算力资源的合法性与算力交易的安全与可追溯性。

如图1所示,本文提出的架构由用户端、算力网络解析服务器、算力资源通信服务器、算力资源管理服务器、国家鉴权注册中心、算力网关以及算力资源节点组成。

图1 基于算力标识的算力服务需求匹配系统Fig.1 Computing service demand matching system based on com- puting power identification

算力资源使用者通过用户端发送CRID获取符合自身算力服务需求的算力资源列表。

算力资源通信服务器通过CRID对算力资源节点的通信地址进行解析。

算力资源管理服务器通过CRID获取实时算力资源的状态信息。

算力网络解析服务器对CRID进行解析获取与算力资源通信服务器与算力资源管理服务器的通信,从而获取 CRID与算力资源节点通信地址、可用算力资源数据的映射。用户通过访问算力网络解析服务器得到候选算力资源列表,选择所需算力资源。

2.2 算力标识方案设计

本文借鉴DNS解析映射机制,将算力网络中的算力资源经过层次化抽象成树状层次化模型后可按照域名组织规则进行编码、注册和管理。算力资源抽象层次树从根结点向下逐层为国家域、算力域、算力提供商、产品代码、算力形态、算力模型、算力能力等级,资源抽象树的叶子为具体的实例化名称。其中,算力位置标识符号包含国家域和算力域,指代算力资源的位置属性;算力身份标识符包括算力提供商与产品代码;算力属性标识符包含算力形态、算力模型、算力能力等级,表明算力自身属性信息。本标识体系通过包含算力位置标识符、算力身份标识符与算力属性标识符满足算力网络中算网一体化管控的要求,有效支撑算力网络中用户需求匹配的功能。算力标识的树形结构示意图如图2所示。

图2 算力标识架构Fig.2 Architecture of computing power identification

标识模型的详细域名如表1所示。加入网络中的算力资源可以是已加载具体算力等级的资源,也可以是未运行任何实例的弹性空载资源,相应的资源抽象树缺乏相应的层次编码。加载所有算力标识结构中的属性的算力标识称为完全算力标识,具有空载字段的算力标识称为部分空载算力标识。此种标识方法可以在保证全局唯一性的同时还具备一定可扩展性,即算力标识可通过一定的扩展机制应对网络中算力资源规模与部署的变化,从而满足算力资源发展的需要。

表1 算力资源属性表Table 1 Attributes of computing resources

根据节点类型采用从叶子节点到根节点的方式书写算力标识,各层用“.”隔开。例如,某位于北京的天翼云节点,算力形态为GPU,等级在100-1000FLOPS,则算力标识为:

B.GPU.0086X.CT.NC.CN

在此标识中,CN代表中国区域,NC代表华北大区,CT标识中国电信天翼云,0086X为产品代码。此算力标识中未包含算力模型字段,表示此算力资源暂未运行特定的算力模型。

2.3 算力标识与通信地址分级映射方案

本节针对网络中算力资源节点数量庞大、归属不同且多级异构的特点,设计了基于算力标识与通信地址分级映射的方法,映射过程示意图如图3所示。

图3 算力资源通信地址的获取方案Fig.3 Acquisition of communication address of computing resources

算力资源获取算力标识后,获得接入网络的许可。在首次接入网络时,算力资源节点需要将自身的算力标识发送至算力网关,算力网关将此算力资源节点的算力标识与通信地址进行映射。在获取算力标识后,算力网关将此算力标识上传至算力资源通信服务器,算力资源通信服务器将获取算力标识与算力网关通信地址的映射。

当用户试图通过完全算力标识或部分空载算力标识获取可用资源列表时,可发送算力标识至算力网络解析服务器,算力网络解析服务器向算力资源通信服务器发出获取算力资源通信地址的请求,在接收到算力标识后,算力资源通信服务器通过算力标识找到算力资源所属网关,网关可查找自身维护的标识-地址映射表,返回CRID所对应的算力资源的通信地址。

2.4 算力资源属性信息映射与获取

由于网络中存在大量实时的算力交易,网络中众多算力资源节点的状态、可用算力与算力资源价格可能时刻发生变化。因此,需要算力资源管理服务器维护这些实时变化的算力属性信息。图4描述了获取算力资源属性的方案。首先,在算力资源通过入网申请后需要与算力资源管理服务器进行通信与连接。在用户进行算力资源申请后,算力网络解析服务器需要依据用户端发送的CRID向算力资源管理服务器发起算力资源属性信息获取请求,算力资源管理服务器依据CRID解析并获取对应算力资源的实时属性信息(可用算力大小、价格、存储空间等)。

图4 算力资源属性信息的获取方案Fig.4 Acquisition of computing resources attributes

由于单一的算力资源管理服务器运行的集中式数据库缺乏扩展能力,算力资源属性信息的映射可借鉴DNS机制,采用分布式的部署方案。

2.5 算力资源列表的生成

当用户发出的请求包含完全算力标识时,算力网络解析服务器无需生成算力资源列表;当用户发出的请求包含部分空载算力标识时,算力网络解析服务器在获取CRID所对应的算力资源节点通信地址与算力资源属性信息后,首先依据算力标识筛选出匹配的算力资源,然后根据算力资源列表中所包含的算力资源的通信地址、网络状态、端到端时延、可用算力、报价等指标进行综合排序,并形成算力资源列表,列表长度可根据需求进行规定。用户可与一个或多个算力资源节点进行签约,同时由用户发送资源占用报文,此时算力资源管理服务器需及时对算力资源属性信息进行更新并通知算力资源节点保留算力资源并准备建立网路连接。

3 算力网络中算力服务需求匹配应用案例

为验证算力标识系统在算力服务需求匹配上的合理性,在上述理论研究的基础上,团队利用北京、江苏两地的算力资源节点,完成机器视觉解决方案场景验证评估,将传统固化的工控机模式升级为5G+AI+云+边缘模式,既能满足工业控制场景中对实时性的要求,又能实现海量数据处理与AI训练快速迭代。

如图5所示,在本案例中,共有两类算力节点。第一类为靠近现场的边缘计算节点,此类节点的特征是靠近用户,通常可以保证较低的网络时延与迅速的任务响应,但算力资源有限,无法执行大算力需求的任务,因此选择在此类算力节点部署现场实时控制与交互任务,在本案例中拟在此类算力节点部署推理模块。第二种算力节点为集中式云计算节点,此类节点可提供强大的算力,适用于各类任务部署,但网络时延较大且传输质量较难控制,因此本案例选择在此类算力节点部署离线模型训练任务等具有大算力需求但时延要求不高的任务。

图5 基于算力标识的算力服务需求匹配验证Fig. 5 Verification of computing service demand matching system based on computing power identification

首先为AI训练模块选择大算力节点,通过算力标识查找具有大算力且满足特定归属的云计算中心算力,部署相应的训练任务,本案例中选择了苏州某天翼云节点,直接输入明确指定节点的算力标识0086X.CT.CN,算力网络解析服务器根据算力标识返回节点通信地址,选择所需算力后建立机器人与云计算节点间的网络连接。在选择部署推理模块的算力资源节点时,应选择时延较低的算力资源节点,但对算力要求并不苛刻,因此使用部分算力标识CT.NC.CN,并规定时延优先,算力网络解析服务器根据发送的算力标识生成候选算力列表,用户选择时延最低的处在北京的边缘计算节点。

测试完成了智能拣选接口的20余项功能,端到端的应用层指令执行时延为30-77ms,指令成功率100%,推理时长600-700ms。测试表明,通过算力标识的算力服务需求匹配系统在服务需求匹配上具有较高的灵活性与便捷性,使得业务发起方可以按需选择最优的算力节点。

4 结论与展望

数字经济逐渐成为我国经济增长的主引擎,算力作为数字时代的核心资源与生产要素,逐步呈现泛在多样、高效互联、绿色安全的特征,需要通过算力网络实现高效调度与融合供给,高效利用多级泛在化的算力资源、实现算力利用率最大化已经成为当前信息通信网络发展的重要方向。在“东数西算”国家战略背景下,算力资源将更加泛在化、多样化、复杂化,因此迫切需要建立一套统一的算力标识体系与描述语言,赋能算力流通属性的同时,为算力的感知、管控、服务提供基础和标准。本文提出了一种统一的算力资源描述语言,同时探索了一种基于算力标识的算力服务需求匹配系统,基于算力标识实现较为精准的资源预配,并证实了此方案的可用性及有效性。随着算网一体化服务的不断深入,为保障算力资源交易的安全性,未来还需建立国家级算力资源鉴权认证中心,确保算力资源的合法性,为高效的算力服务提供保障。

利益冲突声明

所有作者声明不存在利益冲突关系。

猜你喜欢
通信地址算力服务器
算力盗用:一种新型财产侵害*
中国电信董事长柯瑞文:算力成为数字经济的主要生产力
算力网络场景需求及算网融合调度机制探讨
通信控制服务器(CCS)维护终端的设计与实现
中国服务器市场份额出炉
得形忘意的服务器标准
计算机网络安全服务器入侵与防御
参加《检验医学》“检验医学新技术”继续教育的回执(复印有效)
声 明
声明