梁芳 佟恬 马贺荣 曹畅
(1. 中国联合网络通信有限公司研究院,北京100048;2.山东港口烟台港股份有限公司矿石码头分公司,烟台 264004)
随着数字经济的快速发展,数据作为核心要素,对其承载和处理的需求高速增长。算力作为数据处理能力,迎来了大规模发展时期,成为数字经济的重要生产力和重要载体。但我国存在东西部算力资源与供需不平衡的问题,影响了我国区域发展、产业发展、能源发展,掣肘了我国数字经济的高速均衡发展,因此,“东数西算”工程成为我国数字经济高质量发展的必然要求。本文对东数西算下算网建设的具体需求进行了分析,提出了 CUBE-Net 3.0 算力网络架构,并对下一步算力网络发展给出了建议。
随着东数西算工程的实施,用户侧的需求是面向体验结果的需求,即无论身处何处都能获得及时、可靠、高性能的算力服务,而对算力提供地点、算力服务底层技术等要求并不太关心。这实际上是要求网络基础设施侧能提供“高速路”“多服务”“一体化”的能力,主要是高速泛在、高可靠、低时延通信网络、多样化算力云资源接入要求和一体化算网协同调度要求,具体如下。
由于我国东西部将产生大量的交互和跨域流量,因此对东数西算工程的基础设施即通信网络建设提出以下要求。
(1)“宽”道路
在数据中心建设中,呈现了东部DC以服务本区域算力需求为主、西部DC以服务全国算力需求为主的特征,产生大量跨省流量,出省带宽比例高,预计在完成东数西算规划中的机架数时,我国骨干网传输带宽需求将达到现有运营商骨干带宽的3 倍左右,东西部的骨干网带宽将达到2 000 T以上。因此,对我国通信网络“高速路”建设的带宽流量提出了较高的要求。
(2)“快”物流
时延是影响用户算力服务体验的关键因素之一,不同类型的算力服务对时延要求不同。根据各类算力业务的时延需求,可分为热业务(低时延业务)、温业务(时延相对敏感业务)和冷业务(时延不敏感、数据读写频度较低)三类。由于不同业务对时延要求的不同,东数西算工程的部署应能按照不同的业务需求进行不同网络SLA的配置,实现网络“高速路”快慢车道的有效划分,完成网络资源的合理利用,推动东数西存(东部热点区域完成数据计算、西部进行备份存储)、东数西训(东部部署算法仓库、西部完成离线大数据分析)、实时性要求不高的业务部署于西部节点。
(3)“零”丢损
通常来说,数据中心内部网络的可靠性远高于长途网络的可靠性,但东数西算的一些业务场景,如多云协同、存算分离、业务远程集约化部署等,将本属于数据中心内部的网络连接,或者城域、区域内的连接,扩展为长途传输连接,并由于开销的代价,对长距离传输的网络可靠性提出更为严苛的要求,包括网络无故障、无丢包、无突发拥塞、故障快速自愈、网络性能确定(路由、时延、带宽等)等方面。
(4)“低”成本
东数西算工程推动了东西部向长途传输需求的高速增长,但“舍近求远”的网络线路的搭建,提高了身处东数西算上下游企业的运营成本,暂不能满足企业“降本增利”的思路和用户侧“高性价比”的需求。因此,建议采取多方面措施以降低网络建设和运营成本。
搭建了“高速路”的基础能力,面向多样云资源能力等算力服务,需要能够满足多样化算力云资源接入能力。对网络的需求主要为以下两个方面:一是客户入云的需求,包括终端客户访问云端资源、获取云端算力服务的需求,云租户接入云资源池,对云上应用和业务进行运营和维护的需求,算力设施服务商接入云资源池,对算力设施进行运营和维护的需求等;二是数据中心间或云间互联的需求,其中云间互联需求包括公有云内部互通、混合云间互通、多公有云间互通、数据迁移与备份等。
实现了基础能力和多样服务,需要建立一体化机制充分发挥能力,因此东数西算工程的实施对网络的智能管控和统一协同调度服务能力提出了更高要求。实现跨网、跨地区、跨企业的算力高效调度,需要智能、感知、灵活、确定的网络支撑,网络需要基于算力和网络的全局资源视图,根据网络部署状况进行全局的编排调度。
(1)实现对全局算力资源的自动感知,按需自动创建面向应用的全局多级算力资源自动分配调度、算网一体化服务编排、动态弹性算力和网络资源的协同调整。
(2)可编程的调度和协同服务,主要包括多云之间、云和数据中心之间资源调度,跨行业、跨地区、跨层级的算力资源调度;跨域专线业务开通等一键式开通,其中云间协同服务要求网络能够智能、自动、实时感知应用,并基于需求提供灵活、实时、可靠的全局可编程的调度和协同服务。
根据上述“东数西算”工程对通信网络和算力服务的需求分析,网络需要整合不同类型算力资源,根据业务场景特点,通过调度平台按需统一调度,满足业务对多种算力协同、多云协同的应用需求。上述复杂的应用场景对算力调度的要求更高,涉及全局资源感知、资源采集、统一管控、统一注册/建模/度量、最优化灵活调度、计费与结算、生命周期管理等多方面。因此,算力网络是实现东数西算战略的重要承载方式。
2019年,我国提出了“算力网络”的概念[1]。算力网络是指在计算能力不断泛在化发展的基础上,通过网络手段将计算、存储等基础资源在云—边—端之间进行有效调配的方式,以此提升业务服务质量和用户的服务体验,超前的概念实现了与东数西算战略的契合,加速东数西算战略落地。同时,东数西算的战略提出也为算力网络的发展注入深场景和大意义,行业内加速了算力网络技术的研究,并在国内外取得了显著的进展[5-9]。
在国际,以运营商和华为技术有限公司为代表在IETF开展了Computing First Network Framework系列研究,在ETSI和BBF(宽带论坛)上分别启动了NFV-EVE 020和SD-466项目的研究;在ITU-T,中国电信联合中国联通在SG13组发布了Y.2501,同时中国联通和中国移动分别牵头启动了Q.CPN、Y.A SA-CPN、Q.BNG-INC与Y.CAN等 SG1和SG13组的相关标准制定。
图1 CUBE-Net 3.0顶层架构图
在国内,CCSA方面,三大运营商联合开展算力网络系列标准研究,开展包括算力网络需求与架构、算力路由协议技术、算力网络标识解析技术、算力网络控制器技术、算力网络交易平台技术、算力网络管理与编排技术、算力度量与算力建模技术等全方位的标准技术研究工作,有力地推动了算力网络的技术发展。
算力网络是面向承载网算网融合演进的新型网络架构,通过算力资源与网络资源的协同调度,将不同应用的业务请求通过最优路径调度到最优的计算节点,实现用户体验最优的同时,保证网络资源和计算资源利用率最优化。面向东数西算的建设需求,本文提出了新的算力网络架构设计思路,即基于第三代面向云的无处不在的宽带弹性网络(Cloud-oriented Ubiquitous Broadband Elastic Network 3.0,CUBE-Net 3.0),通过“联接+计算”的算网一体理念,以云网为基、数智为核,实现算网联动,融入云原生、边缘计算、人工智能、区块链、内生安全、确定性等新技术元素,打造了新一代数字基础设施建设[1-3],实现不同技术和产业要素的深度融合,加速东数西算战略的落地。图1为CUBE-Net 3.0 顶层架构图。
(1)打造全光底座的算力承载底座
构建“ROADM+OTN”光电双平面立体架构,形成覆盖国家枢纽的“5+4+31+X”的云—网—边一体化算网布局,打造架构领先、体验领先、运力充沛、智能开放的全光传送底座。从带宽驱动的管道网络向体验驱动的全光算力网络演进,强化大带宽、低时延、高可靠、高安全的算力输送服务能力,提供高速泛在、灵活接入,实现一跳入算,为东数西算算力资源通信服务提供高质量运力保障,降低了传输时延,提升了传输效率,筑基了高速泛在低时延的算力底座。
(2)构建IPv6+的算网架构
以用户为中心和以支持IPv6协议的网络全面部署为基础,开展“IPv6+”新技术研究加速网络演进,打造低时延、广联接、智能化、便捷化的云—网—边多级算力接入的IP承载网,扩展了SRv6段路由标识(SID)功能,构建了云—网—边一体的可编程服务(SID as a Service)体系,使能了新型组播 (BIERv6)、VPN+切片、服务功能链(SFC)、随流检测(iFIT)、应用感知网络(APN6)等IPV6+承载技术,具备了承载能力、调度能力、感知能力和运维能力,践行了“转发融合,管控分离,一体编排”算网一体架构,实现了多样算力接入的能力。
(3)实践面向云—网—边一体的算力网络智能调度体系
基于面向云—网—边一体的算力网络管理编排体系,构建算网一体化调度平台,实现算网统一管控,协同编排和灵活调度,支持公有云、私有云以及端到端网络的一体化编排调度能力。具备在云—网—边之间按需分配和智能调度计算资源、存储资源以及网络资源的能力,满足不同计算场景对带宽、延迟、算力等的需求,提供了随需可调、场景多样、质量感知一体化算力服务协同调度能力。
目前,在行业内的共同努力下,我国算力网络发展取得一定先发优势,为东数西算工程建设贡献了力量,但仍存在算力供给不足、算力需求有待激发、创新研发不足、算网产业融合不深等发展难题。因此,建议继续从优化算网布局、提升算网资源效率、增强算网管控与编排、保障算网安全等方面进行提升,从而进一步面向东数西算深场景开发,促进我国数字经济发展。
随着全国一体化大数据中心体系规划布局的完成,枢纽节点将作为我国算力网络的骨干连接点,发展数据中心集群,开展数据中心与网络、云计算、大数据之间的协同建设,并作为国家“东数西算”工程的战略支点,推动算力资源有序向西转移,促进解决东西部算力供需失衡问题。但我国运营商骨干网的核心节点和骨干节点主要在省会城市及部分重点城市,需经省会等骨干节点转接到部分国家算力节点,增加了传输时延。因此,需要运营商侧进一步进行骨干网络的结构调整和优化,并对光缆网络的路由和传输承载网络的组网结构进行优化,减少数据在网络上的绕转和转发时延,缩短网络传输时延,解决供给侧的根本问题,从而催生多云协同、存算分离、云边协同等创新服务模式,促进东数西算坚实落地。
算网深度融合阶段为算力感知网络,即通过无所不在的网络连接分布式计算节点,实现服务的自动化部署、最优路由和负载均衡,从而构建可以感知算力的全新网络基础设施,保证网络能够按需、实时调度不同位置的计算资源,提高网络和计算资源利用率。为实现这一阶段,需要全行业上下游产业的配合,如何从供给侧推动产业协同,仍需在“降本增效”上进行探索,一方面运营商需要采取措施多方面降低网络建设和运营成本,从而降低网络带宽租用成本;另一方面需要通过智能管控系统提供业务按需开通、带宽按需动态调整等灵活的短租网络连接服务,提高网络利用效率。因此,算网产业协同发展将为东数西算大产业协同发展提供有力的能量。
算网管控与编排是“五数”体系中“数纽”层着力要解决的问题,也是实现东数西算工程总体目标的重要基础能力。在东数西算业务场景的驱动下,云边算趋向泛在化,网络更加扁平化、灵活化、服务化,需要进一步加强技术创新内驱力,破解算力度量、算力编排与调度等难题,通过IPv6+、AI、边缘计算、区块链等技术对业务、算力资源和网络资源的协同感知,将业务按需调度到合适的节点,为算网资源综合最优、高效调度打基础,实现面向算网一体的算力网络编排调度体系的研发,并能联合业界内各方力量共同研究、共同推动,探索出实现算网管控与编排的协调调度机制。
随着当前国际局势的变化,网络安全已成为我国发展的重要课题。在东数西算下,海量数据在跨域流通时,面临着更严峻的网络安全风险,现有的外挂式安全体系难以满足“东数西算”工程的安全需求,应积极研发新型安全技术体系或架构,基于网络内生安全技术,在网络层提供高水平的网络安全体系,避免基于网络对算力系统、应用和数据的攻击,提高安全保障和服务能力。但构建自感知、自免疫、按需分配的网络内生安全能力现仍为前沿技术能力,尚需产业界共同努力以尽快实现网络内生安全技术的产业化,从而作为算网安全的根本内生能力,全力保障“东数西算”工程安全运行。
以5G为代表的新一代信息技术的快速迭代,带领各行业数字化转型的快速升级,全社会数据总量爆发式增长,数据资源存储、计算和应用需求大幅提升,内在促生了东数西算战略工程,算力网络架构及体系天然适合作为东数西算工程的具体解决思路。同时,由于东数西算工程实施及其应用场景也对算力网络提出了一些需求,作为设计思路,本文阐述了CUBE-Net 3.0算力网络创新体系。未来,建议从优化算网布局、提升算网资源效率、增强算网管控与编排、保障算网安全方面加强,助力东数西算的下一阶段发展,全面推动数字经济的持续健康发展。