从“算力中心”到“算力网”
——从算力角度谈算网一体的机遇与挑战

2023-08-08 10:22张叶红董一川
信息通信技术 2023年3期
关键词:算力异构统一

张叶红 董一川 相 洋 王 晖 余 跃

鹏城实验室 深圳 518000

引言

2019 年起,国内三大运营商、华为等设备厂商先后发布了算力网络、算力感知网络、计算优先网络、算网一体等相关概念及白皮书[1-4],率先开启了对算网融合、算网一体等概念的探索。笔者认为,“算网融合”概念需要从“以网调算”和“算力成网”两个方向进行探讨,通信行业提出的“算力网络”概念通常关注前者,从网络视角切入,重点考虑如何将算力信息和计算能力嵌入网络,通过网络的路由与分发服务实现全网资源的分配调度。然而,若从“算”的视角观察,想要真正将“算力”互联成为“算力网”,除通过网络信息对算力信息进行调度的技术手段外,还存在着异构性兼容、协同效率优化等诸多问题。分散在各地的算力资源真的能协同调度吗?全网算力一体化仍面临着哪些问题?本文从“算”的角度切入,探讨算网融合过程中“算力成网”面临的关键挑战。

1 从“算力中心”到“算力网”

近年来,随着智能计算产业的快速发展以及人们对ChatGPT等超大规模模型能力的认知不断提升,各行业对算力的需求迅速攀升,算力逐渐成为数字经济时代的核心驱动力。因此,算力中心作为新型基础设施的重要组成部分,已纳入全国各大城市的重点布局和规划中。然而,当前分散在各地的算力基础设施水平不一、形态各异、发展不均衡,严重制约了各地算力、数据等资源的高效使用,急需以部署整体化算力基础资源为核心,对算力进行统筹和协调发展,形成效率更高且可广泛支撑新型计算模式的算力服务体系。

“算力互联”并不是一个新的理念,早在21世纪初,国内外便提出了“网格计算”(Grid Computing)的概念,通过将各大超算中心的算力进行聚合,有效支持各类科学研究应用[5-6];美国谷歌、微软,国内华为等云厂商,也纷纷提出各自的数据中心互联(Data Center Interconnect,DCI)解决方案,实现企业内部的数字网络平台建设;云际计算(JointCloud Computing)[7]、天空计算(Sky Computing)[8]等概念面向云计算产业,通过云服务间的开放协作,实现多云平台间的高效协作。上述工作大多面向超算、企业内数据中心、云计算等传统算力类型的互联需求开展,对近年来兴起的人工智能算力(简称“智算”)互联问题,以及超算、智算、云计算等不同类型算力的互联协作尚未进行深入探讨。

“算力网”在以上概念及技术的基础上进一步拓展,是一种覆盖智算中心、超算中心、数据中心等大型异构算力资源的新型算力基础设施,通过对分布在不同地域的异构算力中心进行高速网络互联,形成一台跨地域部署的“大计算机”,实现多中心间的资源共享、自主协作与统一服务,以提升各算力中心的整体运行效率、系统能效和服务能力,如图1所示。

图1 “算力网”概念示意图

2 算力网建设的技术挑战

“算力网”作为网络和计算融合的重要体现,具有广泛的应用前景和发展潜力,其系统天然的高度异构性与复杂性也使得算力网大规模建设与落地应用面临一系列重要挑战。

2.1 多层次异构性VS细粒度互操作

“算力网”建设的重要目标之一,是实现各算力中心间从底层计算、存储资源到上层应用、服务的多层级互操作。然而,目前全国各算力中心通常面向各自需求、基于不同架构独立建设,软硬件异构性极高,为算力互联互通与任务广域调度带来了极大挑战。

在算力资源互联互通方面,各算力中心的集群管理平台异构性是其面临的主要问题。如对于计算资源的互联,涉及到各平台支持的使用方式不同,平台提供的外部访问接口不统一;对于存储资源的统一管理,存在因为各算力中心数据安全策略不同,导致的访问权限差异,同时也存在不同类型的底层存储(如对象存储、文件存储、API形式开放的存储等)导致的访问接口差异。因此,在实现此类异构算力中心的互联互通时,需要对用户屏蔽各平台底层差异,在各类不同的中心间探索统一的互联方式和标准,实现对异构算力中心资源的统一管理和访问。

在任务统一调度方面,需考虑如何屏蔽各算力中心从底层计算芯片、驱动程序,到上层开发框架、应用软件等多层次的异构性。以人工智能(Artificial Intelligence, AI)场景为例,目前大部分AI技术与模型均基于国外主流硬件(如NVIDIA GPU)及主流计算框架(如PyTorch)设计,缺乏对国产软硬件的有效兼容,导致在算力网的任务调度环节,无法有效调动大量的国产算力资源。当前,国内AI硬件(如寒武纪思元、百度昆仑芯、燧原邃思等)和AI计算框架(如PaddlePaddle、MindSpore、OneFlow等)也已进入高速发展期,对国产软硬件实现更好的适配和兼容,将进一步有助于解决不同算力中心间异构算力的调度问题。如何真正实现“一次编程,随处运行”,从而支撑异构算力资源的统一服务与自主协作,是算力网建设过程中面临的重要挑战。

2.2 远程通信代价VS跨域协同优化

算力网内的计算、存储资源等广泛分布于不同地理位置,为实现异地资源的协同使用与协同优化,跨地域的远程数据传输不可避免,特别是以“东数西算”、大模型跨域协同训练为代表的算力网业务增长迅速,很多场景数据传输量大且对传输效率需求较高。

如在“东数西算”业务中,其传输数据量可达PB级;超大规模模型跨域分布式训练业务单次数据传输量在10GB级以上[9],且为确保训练效率,需要的数据交互速率可达100Gb/s级。由此可见,当前基于公网的通用数据传输技术无法满足长距离、高带宽、低时延等算力网业务需求,且当前网络传输方面缺乏基于通信技术来简化网络协议栈的相关研究,尚未针对算力网业务流量特征优化传输控制协议。如何实现高速、极简、算网原生的数据传输,利用新型网络技术提高算力网资源的整体利用率,实现算网一体概念中“网”对“算”的有效支撑,是算力网互联技术需要解决的关键问题之一。

2.3 算力中心自治性VS算力一体化运营

“算力网”建设的一个重要目标是实现各地算力资源的统一服务和统一运营,从而对算力进行统筹和协调发展,以提高全网算力资源的综合使用效能。然而,现实情况中,由于各算力中心大多独立建设,隶属于不同利益主体,其对自身资源分配、数据访问、业务调度等关键环节具有自主决策与控制需求,且通常使用不同的运营标准与服务体系,很难在现有框架内实现完全中心式的一体化运营。

因此,在算力网的建设过程中,需要在认证授权、互联适配、网络接入、计量计费等多个方面考虑如何使用非侵入式的技术手段规避过于标准化导致的各主体自主权削弱问题,在各中心“自治性”与算力“一体化”之间实现利益均衡。

3 算力网参考架构

针对上述挑战,本文提出一套算力网参考架构。如图2所示,算力网系统主要包括调度适配器、统一数据存储、网络设施与控制、云际管理与调度以及运营平台几大部分,各部分之间通过标准化接口进行对接,各业务系统的具体功能设计如下。

图2 算力网系统功能架构图

调度适配器:调度适配器通过在任务与算力中心间增加抽象层,通过低代价、非侵入的方式屏蔽算力中心异构硬件、异构系统等差异,对算力网提交来的任务进行适配转换后提交给算力中心本地管理调度系统;同时,适配器会收集各算力中心的任务状态及运维监控信息并上报算力网调度系统,使得算力网可以通过统一的接口收集各中心及任务状态信息,从而对全网资源进行协同调度优化。为保证算力网长稳运行,调度适配器接口访问的服务水平需满足稳定性、可靠性以及性能要求,并同时满足各算力中心的安全控制逻辑以及安全实施策略。

统一数据存储:为提高计算任务的执行效率,实现“算随数动”“数随算动”的调度策略,统一数据存储系统基于算力中心的异构存储资源,构建统一的数据存储系统,为计算任务所需要的大量数据集、模型、算法等数据提供高速访问与共享交换服务。首先,需构建全局统一存储视图,从而使得算力网调度系统可以感知数据集在各个算力中心的存储情况;由于各分中心之间的存储介质采用的子存储系统本身通常是异构的,对外提供的接口可能是华为云对象存储的OBS、阿里云对象存储的OSS、广泛应用的私有部署对象存储平台MINIO、FTP方式以及自定义存储访问API等,统一存储系统的一项重要功能是对异构存储系统和接口进行适配和统一化,以便在任务调度过程中实现跨中心的数据迁移。

网络设施与控制:在算力网各类资源中,除计算、存储资源高度异构外,实现算力互联的网络基础设施也通常存在异构性(如以太网、全光网等),算力网的网络设施与控制系统通过异构网络融合,支持多元化异构网络类型,实现异构网络资源信息的采集上报;当算力网调度系统确定任务的目标计算节点后,网络控制系统在现有网络协议的基础上,额外考虑算力作业对网络的需求,动态调整算力作业中数据包的路由策略,将算力作业等信息路由至指定节点,并通过QoS等技术,保障网络的时延、丢包、带宽等网络性能参数,实现网络系统对算力调度系统的有效支撑与协同优化。

云际管理与调度:该系统负责接入各个算力中心,对算力、网络等资源进行统一管理和协同调度,统一对上层应用提供作业操作等能力,以实现全网资源的高效使用。主要功能模块包括资源管理、作业管理、作业调度等。其中资源管理模块实现各算力中心的算力、网络等资源信息采集、监控、管理;作业管理提供了各类任务作业的管理功能;任务调度模块根据集群负载、数据拓扑、网络状态、能耗等调度因子选择最优算力中心执行作业。

一体化运营:算力网的运营系统实现多个算力中心算力、数据等资源的一体化运营。首先,通过用户统一认证与授权确保不同算力中心的用户可以互相认证并分配全局统一的用户身份;在用户对资源的使用过程中,对各算力中心的资源贡献进行统一的计量和费用结算;同时,通过构建数据市场、模型市场与应用市场,支持算力网用户进行数据、模型、应用服务等资源的发布、订阅、交易及使用,从而真正实现全网资源的开放共享。

4 应用案例分析

“算力网”作为新型强力算力底座,可有效支撑“东数西算”“一带一路”等国家重大战略的实施落地。以面向“一带一路”的语言服务场景为例,目前中国已经同140个国家和31个国际组织签署共建“一带一路”合作文件,其中共涉及12语系、28语族、132种语言。由于语种使用人口、地理分布的不均衡、社会信息化水平的差异以及语料收集渠道的隔离,造成语种数据资源的极度不均衡,或产生性能参差不齐的模型及应用,形成天然的数据和模型“孤岛”。

针对大规模多语言模型及其应用在低资源语料分散、数据开源意愿不强、各语种数据资源极度不均衡等问题,可基于算力网的构建整合“一带一路”沿线国家的计算及数据资源,进行以中文为核心的“一带一路”多语言大模型研究及应用平台建设,联合优势企业单位、科研院所、优势研发平台,在数据、模型不出本地的前提下,通过多方跨域协同计算,突破多语言模型研究及应用关键技术,促进“一带一路”国家语言互通,成为国家战略落地的重要支撑,如图3所示。

图3 面向“一带一路”国家重大战略的多语言大模型跨域协同计算

5 结语

随着数字经济建设的不断深入,各行各业的发展越来越依赖于强大的算力底座,将单点算力互联成网,推进算力资源的协同使用已是大势所趋。“算力网”的建设旨在构建自主创新的技术体系,以建立互联互通、高效协同的一体化算力基础设施为目标,推动实现数字经济时代算力供给模式的变革。在算力网的建设过程中,依然面临着多层次异构性兼容、远距离通信优化、一体化运营机制建设等关键技术挑战,如何在算网融合的新趋势下,基于网络能力释放算力能力,真正实现互联算力的高效协同,仍需在算力网建设过程中进行深入探索。

猜你喜欢
算力异构统一
基于网络5.0的重叠网形态算力网络
卫星通信在算力网络中的应用研究
中国电信董事长柯瑞文:算力成为数字经济的主要生产力
试论同课异构之“同”与“异”
基于SiteAI算力终端的交通态势感知系统
坚持严管和厚爱相统一的着力点
碑和帖的统一,心和形的统一,人和艺的统一
统一数量再比较
异构醇醚在超浓缩洗衣液中的应用探索
overlay SDN实现异构兼容的关键技术