算力网络研究与探索

2023-05-09 03:27张宏科,权伟,刘康
中兴通讯技术 2023年1期
关键词:算力架构调度

在国家数字经济发展战略与“十四五”发展规划的推动下,加快信息网络基础的协同化、服务化、智能化进程,深化国家新型基础设施建设(“新基建”),已成为中国进行大国博弈的重要基础。在“新基建”中,5G、大数据中心以及人工智能等相关技术对新一代信息网络提出了新的大算力、大模型处理等算力需求。这推动现有网络从基本的信息数据通信向信息数据智能化处理转变。2021 年5 月,国家发展和改革委员会、中央网信办、工业和信息化部等四部委联合印发了《全国一体化大数据中心协同创新体系算力枢纽实施方案》[1],强调要推动中国数据中心网络算网一体化、智能化的发展。“东数西算”工程同样强调构建以算力和网络为核心的体系、优化全国算力整体布局的重要性[2]。在此背景下,算力网络应运而生。算力网络旨在通过泛在算力与网络的融合,突破数据中心、超算中心、云计算、边缘计算等“孤岛”状态下的计算能力限制,构建算网一体的新型智能、高效、按需的算力服务体系,满足国家与行业急需,促进国家数字经济的发展。

1 算力网络的现状与挑战

算力网络作为中国提出且主导的科研技术,已得到业界的广泛认可。诸多产学研团队包括中国科学院、北京交通大学、中国移动、中国联通、中国电信等,已开展算力网络的研究。各单位基于已有的设备、系统、平台以及应用场景,经过长期的积累已取得诸多成果,例如《中国电信云网运营自智白皮书》《中国移动算力网络白皮书》《中国联通算力网络白皮书》《中国通信学会算力网络前言报告》的陆续发布[3-6],算力感知网络概念的提出等[7]。在国际上,互联网研究工作组(IRTF)设立的在网计算研究组(COIN)致力于算网融合的新型传输架构的研究,互联网工程任务组(IETF)提出分布式方案架构,国际电信联盟(ITU)开展算力网络架构和场景的研究。相较于中国算力网络的蓬勃发展,国际上的研究进展相对缓慢。

目前,算力网络的研究呈现百花齐放的繁荣景象,但相关架构、标准的设计依赖于传统网络技术,尚未形成统一的标准体系。目前,算力网络的研究面临着诸多新需求和新挑战,例如:算力如何一体化?算网如何融合?数据与算力如何满足应用服务需求等。因此,算力网络研究需要明确新需求与新挑战所带来的问题,例如:算力网络中算力主要服务哪些主体?算力如何实现计算?算力依托哪些实体进行计算等。此外,算力网络作为一种新的网络架构,更需要从根本上明确算力网络研究与建设过程中基础理论体系、架构设计、关键核心技术等方面的问题与挑战。

2 算力网络的建设与建议

从算力网络的建设目标与技术发展理念来看,算力网络是通信、计算、存储以及智能化调度的高度融合。算力网络以泛在算力资源为基础,网络通信为纽带,智能化调度为核心,实现网、云、边、端、业务的高效协同与适配,满足行业高差异化算力服务需求。算力网络在实际建设中通常存在两种方向:“网中有算”和“算中有网”。“网中有算”是指以网络为中心,算为网用,算力作为基础资源嵌入网中,网络利用算力来提升网络感知、资源调度以及服务功能的编排能力,实现智能高效的网络算力服务。“算中有网”是指以云为中心,网为算用,网络作为连接纽带将离散的数据中心、超算中心等泛在算力进行融合,实现以云为中心的算力资源运营。基于以上分析,面对算力网络的建设需求与挑战,我们从总体建设目标、理论体系架构、关键核心技术3个方面提出研究建议。

2.1 总体建设目标

算力网络作为中国率先提出的新型网络架构,相关研究应以技术自主可控、功能性能国际领先为目标,实现智能、高效、灵活的算力资源融合调度,满足行业的差异化算力服务需求,为国家算力网络发展与实施提供支撑。具体来讲,在“算中有网”和“网中有算”两个主要研究方向中,网络是不可或缺的一部分,是算力网络的重要基础支撑与纽带。算力作为一种高效的计算资源,可以提高网络的资源管理、传输调度、路由规划等性能。网络可以连接、协同更多算力资源,提升算力的大数据、大模型处理效率。“网算”与“算网”相辅相成。因此,算力网络的建设应统一融合算力与网络,同时突破算力与传统网络的技术限制,构建“统一调度、弹性适配”的算力网络平台(如图1 所示),实现全国范围内算力的高效协同调度与应用,为中国数字经济打下算力基础。

▲图1 算力网络平台设计与技术标准体系

算力网络平台可分为应用层面、适配层面和网络层面。应用层面利用算力来提升服务质量,通过建立应用层面的融合资源池,将超算中心、数据中心等云平台算力进行融合。应用层面的算力服务单元依据资源池进行划分,并实现了统一的调度和弹性分配,满足超算任务、人工智能(AI)任务等分布式与大模型的算力需求。网络层面利用算力来支撑整个网络的融合,强化节点的计算能力以及节点间的主动智能融合与协同能力。适配层面利用算力强化调度方法,实现应用层服务与网络层资源的动态适配调度。此外,算力网络建设需要建立完善的技术标准体系,包括算力建设标准、节点互联标准、数据共享标准、应用结构标准等,为算力网络平台建设与应用提供支撑。

2.2 理论体系与架构

“算中有网”与“网中有算”都表明网络是泛在算力的纽带,是算力网络不可或缺的一部分。然而,当前网络面临架构静态僵化、异构并存、智能受限的状况,行业“高移动、高可靠、高安全、确定性”等差异化服务,成为算力网络建设的新需求与新挑战。此外,新型网络建设正处于谋求网络深度融合、提升网络智慧的新发展趋势中。此趋势与算力网络研究与建设方向不谋而合。因此,算力网络研究不仅要考虑算力,更要关注新型网络,算力与网络不能只是“算中有网”或“网中有算”的分离式协同,而是要实现“算力+网络”的融合突破。目前来看,算力网络研究刚好与新型网络建设相呼应:一方面网络融合可以更好地实现异质异构、分布不均的泛在算力资源的互联;另一方面,算力可以满足大数据、大模型、AI 任务等高性能计算需求,实现应用服务、网络以及基础算力之间更高效、更智能的适配调度。算力网络与新型网络研究相辅相成。针对以上需求与挑战,我们提出“三层三域”算力网络架构(如图2所示)。

▲图2 “三层三域”算力网络架构

在“三层三域”算力网络架构中,“三层”包括广义服务层、映射适配层、融合网络层。广义服务层主要负责服务与功能的标识和描述,具体服务包括:虚拟计算平台、虚拟存储平台、计算容器等虚拟服务以及传输服务功能单元、安全防护服务功能单元等功能服务;映射适配层主要负责服务需求与网络资源的动态适配,通过感知网络状态与服务需求实现服务与算力资源的动态适配;融合网络层主要负责网络与算力资源的协同自组管理,主要包括卫星网络、数据中心网络、超算中心以及泛在算力单元(计算、存储)、通信设备等。此外,架构在“三层”之间还设计了层间解析映射,以强化层间交互性。广义服务层与映射适配层的解析映射,是将用户的服务需求映射转化为对算力资源的需求。映射适配层与融合网络层的解析映射,是将用户对网络的资源需求映射转化为对实体算力资源的调度,指导算力资源的协同与运行过程。“三层”与层间解析映射的设计既实现了用户与网络的解耦,服务与资源的解耦,又为算力服务与资源的高效适配奠定了基础。

“三域”包括实体域、感控域、知识域。实体域用于格式化描述网络实体组件以及服务功能虚拟实体,实现资源与虚拟服务功能的统一命名;知识域用于服务、策略、网络对象三者的映射经验信息收集与量化,生成拓扑知识库、状态知识库、功能知识库等;感控域对服务功能、执行策略以及网络对象进行数字抽象,以知识域的经验知识为基础,利用算力对服务、执行策略以及网络对象的适配进行动态模拟,生成最优适配策略并指导实体域完成服务。此外,架构在“三域”之间设计域间解析映射,强化各域之间的交互性:知识域与感控域的解析映射是为了将知识域中各类知识库与感控域中的各类策略进行映射连接,便于在感控域策略生成过程中对知识域中的知识进行提取与借鉴,提高感控域策略的准确性;感控域与实体域的解析映射是为了使感控域高效感知实体域资源状态以及属性变化,便于策略调整以及策略下发,实现对实体域资源的精确调度;知识域与实体域的解析映射是为了将知识域中的各类知识库与实体域资源进行对应,根据实体域中资源的属性变化来调整、更新对应知识库。“三域”与域间解析映射的设计既实现了知识、策略、资源的动态解耦,又为用户服务、网络以及泛在算力资源的智能高效处理提供逻辑支撑。

2.3 关键核心技术

算力网络研究与建设要实现“算力+网络”的深入融合目标,建立智能、高效、按需的算力服务平台,从而满足用户高差异化算力服务需求。针对当前网络与泛在算力资源异质异构、分布不均、资源跨网调度困难、智能化程度不足等问题,算力网络研究与建设应从多维标识、智能映射、按需组网、协同传输、智能计算、系统安全6个方面进行关键核心技术突破。

1)多维标识关键技术。算力网络建设集计算、存储、传输资源为一体,关联卫星网络、数据中心、超算中心、云平台等多种网络资源及平台。网络与设备的异质异构,导致算力网络资源调度困难,融合受限。因此,研究需要突破多维标识关键技术,建立算力网络一体化标识体系,实现对泛在算力资源的计算、存储、传输能力以及其他功能属性的统一命名。

2)智能映射关键技术。算力网络是多种平台、网络以及泛在算力资源的深度融合,但融合后的网络资源数量繁多、服务能力差异大,在进行统一的多维标识后需要实现用户服务需求与网络资源的高效动态适配。因此,研究需要突破智能映射关键技术,设计建立完备的解析映射体系,实现用户与网络、服务与资源的智能、高效映射。

3)按需组网关键技术。算力网络建设是为了满足国家与社会产业的发展需求。高铁、工业互联网以及智能制造等行业的发展对网络提出“高移动、高可靠、高安全、确定性”的差异化算力需求。因此,算力网络需要突破按需组网关键技术,根据差异化需求进行网络资源的智能高效编排,将融合后的网络资源进行动态组网调度与管理,满足用户服务需求。

4)协同传输关键技术。算力网络是多种平台、网络以及泛在算力资源的融合,各平台、网络以及设备存在配置差异大、分布不均衡等问题,面对大规模、大模型的计算需求,算力资源需要进行分布式跨平台协作。因此,研究需要突破协同传输关键技术,根据计算服务需求对算力资源的数量、类型、位置以及互联传输设备进行协同传输管理,保障数据在各算力平台、网络以及资源间的高效交互,为算力服务的计算执行提供高效的传输通信支撑。

5)智能计算关键技术。算力网络面对高差异化计算服务需求,不仅需要考虑计算、存储、传输资源的选取问题,还要考虑资源费用、节能等问题。因此,研究需要突破智能计算关键技术,根据服务需求、资源配置、资源费用、节能等进行资源选取、任务分配、路由规划的综合考虑,提升算力网络计算、存储以及传输的智能性,减少服务资源消耗并保障算力服务的高效性。

6)系统安全关键技术。算力网络作为多种平台、网络以及泛在算力资源的融合,多种异质异构网络、资源、平台的互联,使得整体算力网络的安全风险呈指数级增长。因此,研究需要突破系统安全关键技术,在满足算力网络大范围、跨平台、分布式协同计算需求的同时,解决算力网络系统安全防护问题,实现服务与安全的双重保障。

3 结束语

算力网络作为中国率先提出的新型网络架构,是推动信息产业发展、支撑 “十四五”发展规划中“网络强国、数字中国”发展战略的重要基础。当前算力网络领域的研究呈现出繁荣的景象,但在架构、标准设计等方面尚未达成共识。未来算力网络的研究与建设要立足中国算力基础设施现状,着眼于算力与网络的融合发展趋势,研究探索算力网络基础理论体系,突破关键核心技术,建立算力网络服务平台,满足国家与行业急需,促进国家数字经济的发展。

猜你喜欢
算力架构调度
卫星通信在算力网络中的应用研究
算力网络中基于算力标识的算力服务需求匹配
基于FPGA的RNN硬件加速架构
中国电信董事长柯瑞文:算力成为数字经济的主要生产力
基于SiteAI算力终端的交通态势感知系统
功能架构在电子电气架构开发中的应用和实践
《调度集中系统(CTC)/列车调度指挥系统(TDCS)维护手册》正式出版
一种基于负载均衡的Kubernetes调度改进算法
虚拟机实时迁移调度算法
LSN DCI EVPN VxLAN组网架构研究及实现