雷波 马小婷 李聪 唐静 周舸帆
(中国电信股份有限公司研究院网络技术研究所,北京102209)
随着数字产业化与产业数字化进程的提速升级,新型数字基础设施已经成为推动智能化数字中国建设、数字经济高质量发展的重要基石。云网融合作为新型基础设施的本质特征,代表了信息通信技术自主创新的重要发展方向,推动着社会数字化向更高层次、更广范围、更深程度扩展。《“十四五”数字经济发展规划》明确指出,要推动云网协同和算网融合发展,加快构建以算力、算法、数据等多维资源协同为核心的全国一体化数据中心体系。同时,“东数西算”重大工程建设全面启动,也标志着国家层面对云网融合的认可和推动。本文从算与网的协同发展历程出发,探讨云网融合下网络基础设施的发展方向,并通过相关技术的分析,提出一种具有固移融合、算网融合、云光融合特性的新型组网方案。所提方案以云为核心,进行园区、入云、云内、云间四部分组网方案设计,四部分既可彼此独立发展也能按需灵活组合,适配多样化业务服务需求。
在全社会数字化与智能化的算力时代中,大数据、人工智能、物联网、区块链等关键技术的应用带来了全球数据的爆发式增长,同时也成为算力需求攀升的核心驱动力。根据分析[1],人工智能对算力资源的需求正以每3.5个月翻一倍的速度增长;物联网行业对算力的拉动效应也十分显著,预计到 2025 年,全球物联网设备将超400 亿台,数据量将达到80 ZB,算力将达到3 300 EFLOPS。然而,随着摩尔定律的失效,单点算力计算性能的增长显然难以满足算力需求的指数级攀升,如何解决热点区域算力资源供需失衡的问题是算力发展面临的痛点之一。
(1)数量堆叠,增加算力密度
通过芯片工艺升级或芯片数量堆叠等方式不断增强单台设备的计算能力,同时尽可能部署更多服务器,增加区域算力密度。以建立超级算力节点的方式,提升热点区域的算力能力,势必会产生巨大的成本开销。当区域算力需求下降时,算力资源将会闲置。因此,单独规划建设算力,资源利用率极低。
(2)易地而建,减低运营成本
算力服务器根据建设成本易地而建,并利用网络强大的连接能力实现数据与资源的有效拉通,降低运营成本。以东数西算工程为例,与东部地区比,西部地区在能源、气候、建设运营成本上的优势明显,通过网络连通东部的海量数据与西部的计算资源,在保障充足算力供给的同时进一步降低算力资源的使用成本。
(3)化整为零,提高算力效率
借助网络的强大连通能力将泛在算力资源汇聚成算力网络,并通过网调云、云调网技术路线,基于用户需求实时动态分配算力资源,满足多样性业务差异性服务需求。利用网络汇聚云边端泛在算力,通过通信、计算等多维资源联合优化编排提升算力利用率,推动算力资源普惠性发展。
现阶段仅依靠工艺升级或数量堆积的方式暴力解决热点区域供需矛盾,将加剧快速增加的业务需求与算力基础设施的建设成本间的矛盾。以网强算,利用无处不在的网络连通分布式算力节点,通过集中调度分散的算力资源,提升算力资源利用率。然而,要实现算力服务像水电一样的普惠性发展,就要求网络不断增强传输处理能力,以保障数据跑得更快、更远。
从发展历程上看,计算技术与网络技术的进步总是相辅相成,二者的互补融合持续推动信息技术的发展。在传统封闭式网络中,网络庞杂、设备功能单一、通用性不足、设备更新维护成本过高,难以适配业务发展趋势。在通信网中,创新地引入云化技术,在使网络更加灵活的同时,也激发了新型云化网元设备的发展。以SDN/NFV技术为例,SDN基于控制面、转发面分离,利用集中控制器实现底层硬件的可编程化控制,摆脱硬件对网络架构的限制。正是由于算力的不断增强,控制面才有能力以集中方式管控整个网络,进而通过开放接口打破传统网络“烟囱式”服务架构,实现网络对用户服务的快速响应。NFV通过软硬件解耦,进行软件功能化与模块化,并以通用服务器代替专用封闭的网元设备,使得网元软件功能摆脱了对特定昂贵硬件的依赖,在不影响网络性能的同时极大降低建网成本。同时,基于虚拟化技术,NFV通过硬件资源池可以弹性伸缩适配业务需求,显著提升硬件利用率,提升网络部署的灵活性。
计算技术的进步将持续不断地为网络技术创新发展注入新动能。随着大数据、人工智能、数据中心、区块链等新技术的快速发展,以及工业互联网、自动驾驶、元宇宙等新型应用的不断涌现,网络不仅需要承载更高的下行与上行流量、更多样的业务,更需要通过更深层次的云化技术突破单纯的连接功能,为新兴业务提供差异性、确定性的一体化服务。
从信息技术发展的视角来看,云网融合已经成为算力时代信息基础设施自主创新的重要方向。在网络与计算技术的联合推动下,云网融合经历了从1.0阶段的云网协同,到2.0阶段的网随云动,以及正在步入集成数据中心、网、算力、云、大数据、AI、安全、绿色多种要素的3.0云网一体全新阶段。在云网融合3.0阶段,网络基础设施需要进一步向智能化、综合化方向发展,为多样性业务提供敏捷智能、安全高效、绿色低碳的一体化资源供给[2],并自适应未来复杂不确定性新业务。具体而言,网络基础设施应满足但不限于以下需求。
(1)终端灵活安全接入:随着新业务种类的增加,多样性接入方式进一步加剧了网络冗杂程度。网络基础设施亟需打通多种接入模式间的壁垒,为泛在终端提供无地址约束、敏捷高效、安全可信的接入服务。
(2)业务按需灵活入云:随着各类应用服务上云进程的加快,网络需要根据业务需求提供差异化云网资源配置,并按需选择最优入云路径,提供端到端差异化确定性承载服务。例如,与云监工、订餐等娱乐性服务业务相比,远程医疗、远程教育等时延敏感性业务要求网络提供更低时延的确定性承载。
(3)数据中心高效转发:网络带宽的不断增长导致海量数据转发将占用大量的CPU算力资源,这严重制约了数据中心网络的转发能力。网络亟需通过算力资源合理管理,提升数据转发能力,带动数据中心降本增效。
(4)云间可靠高效互联:随着云计算产业的发展与成熟,以云间互联为目的的网络部署需求与日俱增。在云网融合的大背景下,网络需要为云间网络提供无损确定性传输。
云网融合的实现涉及众多新兴网络技术演进和前沿技术创新,本章节基于当前热点网络技术发展分析云网融合下承载网的统一运营、确定传输和资源一体编排的实现,进一步探讨新型网络基础设施融合新动向,并基于网络关键技术分析,提出了一种以云为核心的超融合组网方案。
云网融合的实现离不开现有网络技术的不断演进与发展,其中包括基于IPv6承载技术进行云网统一承载,实现跨网智能开通与运维;基于确定性网络技术提供云网融合下接入网、局域网、数据中心网络、广域网以及网络端到端的确定性保障;基于算力网络技术进行云网端多维资源统一管控与调度,自下而上开展资源融合调度,彻底打破云网边界等。
2.1.1 IPv6承载技术
IPv6不仅可以缓解IPv4协议地址紧缺的问题,而且为云网融合的全面连接、高可靠性提供广阔的网络技术创新空间[3]。IPv6承载技术主要包含IPv6单栈相关技术和以SRv6为代表的IPv6协议增强创新技术。随着IPv6在全球的规模部署,互联网从双栈逐步向IPv6单栈演进的趋势日益明显[4]。IPv6单栈技术包括但不限于适用于移动网络的464XLAT技术[5]以及适用于多域互联网络的IPv6-only Underlay Network[6],以上技术可以在不同场景下实现在网络边缘对于IPv4业务进行接入和承载。构建IPv6单栈网络不仅可以满足云计算、物联网和工业互联网等海量编址需求,同时简化网络协议层次、简化网络运维,并且支持基于IPv6地址的人和物的标识管理能力,有利于身份溯源与安全管理。
IPv6协议增强型技术包括SRv6技术、APN6应用感知技术、iFIT技术、BIERv6技术等。SRv6技术简化了复杂的网络协议,可将业务意图翻译成网元可执行的转发和处理指令,助力灵活端到端连接的建立。APN6利用IPv6数据报文扩展头携带相关应用感知信息,使得网络感知到业务信息,便于提供差异化SLA服务。iFIT技术将OAM指令携带在IPv6扩展报头中,进行网络性能的高精度实时检测。BIERv6技术利用IPv6特性的新型组播技术,简化网络部署并且具有良好的可扩展性。IPv6承载技术能够有效简化网络并提升网络广连接、自动化、安全性等,是构建云网融合中的网络基础设施必不可少的新技术。
2.1.2 确定性网络技术
确定性网络技术是构建下一代网络基础设施体系、提升数据传输服务质量的关键技术之一,可面向工业互联网、车联网等对网络时延抖动、可靠性要求极高的垂直行业,提供确定性的网络质量保障技术。确定性网络技术需求广泛,涵盖局域网、数据中心网络和广域网,以及网络端到端的确定性。
确定性网络技术的来源主要是由于终端接入的不确定性,以及网络本身的局限性。所谓终端接入的不确定性,是指用户可随时随地,通过不同的终端灵活接入网络。例如,用户可使用手机终端通过4G/5G等移动方式接入互联网,也可使用宽带、Wi-Fi等在家中上网。终端接入的位置、方式不同,导致网络边缘侧无法提供“确定性”的网络QoS指标,进而无法实现端到端的SLA保障;其次,网络本身的局限性也难以保证确定性的传输质量,比如移动网络的空口侧传输极易受到环境的影响,传统IP网络在出现高并发、大流量的场景时将导致网络拥塞和高时延、高抖动。确定性网络技术是一套涵盖了流量整形、队列调度、时钟同步等多维技术的集合,共同保障网络的确定性,其主要包含带宽确定性、路径确定性与时延确定性三个层面[7]。三种确定性指标相互依存,通过确定性网络技术构建一张各类参数(带宽、时延、抖动等)均在确定性范围内的可靠网络,为各行各业的升级创新提供基础。
2.1.3 算力网络技术
算力网络技术作为实现云网端统一管控的新型网络架构,也是云网融合战略体系中的一种关键技术。算力网络以网络为平台,通过网络控制面(包含集中式控制器、分布式路由协议等)收集和分发服务节点的算力、存储、算法等资源信息,并结合网络信息和上层应用(如工业互联网)需求,提供最佳的计算、存储、网络等资源的分发、关联、交易与调配,从而实现整网资源的最优化配置和使用。算力网络技术可以自下而上展开资源融合,彻底打破云网边界,真正实现云网一体。
算力网络技术首先需要通过解决算力与网络资源的整合,实现多维资源的联合编排。各大运营商、通信类厂商都在针对算力度量、算力标识、算力感知、算力路由等技术开展研究,希望通过抽象整合基础设施层的各类资源,为用户的上层应用提供保障。其次,抽象后的资源如何为用户提供算力服务,是提升算力网络服务便捷性的关键一环。通过构建以用户需求为核心的算力网络交易平台,解析各类应用对算力的需求并为其匹配最佳资源方案,形成统一的资源供给机制。最后,为了满足服务普惠性需求,算力网络技术在实际部署层面,主要有集中式部署、分布式部署和混合式部署三种方案。集中式部署方案基于编排管理平台集中收录资源信息,并根据用户选择建立用户与计算节点间的连接;分布式部署方案借助IP路由协议进行资源信息的收集与分发,用户通过查找资源信息表选择适合的计算节点;混合式部署方案采用分布式资源信息收集、集中式资源交易调度,满足用户需求[8]。
云网一体化的实现不仅需要网络技术不断演进,更需要重视基础设施中前瞻技术发展。以下基于网络中算力与通信的融合发展,重点从网中有算、算中有网、DPU智能网卡三个方向探讨新型网络基础设施进一步融合动向。
2.2.1 网中有算
网中有算是指数据在网络传输的同时,利用网卡、交换机、信道等网络元素进行数据处理,有效减少数据传输再处理产生的时延,例如在网计算、空中计算等技术。网络中交换机、智能网卡等设备拥有流处理核心,可以作为执行部分计算任务的平台。将深度学习等人工智能模型卸载到智能网卡中[9],数据在智能网卡中传输的同时完成计算与处理。同时,在网计算还被证明可以在共识协议、在网缓存等多种场景下提升通信系统性能[10]。空中计算利用信道的叠加特性和节点的并发传输,直接在空中对来自不同用户的数据进行快速计算,实现通信计算一体化[11]。此外,空中计算与分布式架构的联邦学习结合,在通信时完成全局参数汇聚可增强数据隐私安全性;与深度学习等算法结合,设计适用于人工智能的框架,更好服务于与机器学习相关的上层应用。
2.2.2 算中有网
算中有网是云网融合发展的另外一个理念,通过网络实现异构分布式资源或设备的统一管控与调度,从而提供标准统一、高效便捷、安全可靠的服务。分布式解耦机框技术(Distributed Disaggregated Chassis,DDC)深度解耦服务器设备、云化管控平面,并基于转发资源池思想构建网络云模型,借助网络互联运行远端服务器或数据平面的容器,优化资源使用方式,实现资源的按需使用与弹性伸缩[12]。算中有网技术实现了基于体系结构的解耦与云化,使得解耦后的设备通过网络灵活弹性运行远端资源或服务功能,从软硬件维度上全面突破单个机框资源限制。
2.2.3 数据处理单元智能网卡
传统以计算存储分离为主要特征的计算机,在运行人工智能等大数据训练任务时,需要进行频繁的数据读取、计算、存储,产生巨大的“数据中心税”开销。随着人工智能技术的不断发展,CPU产生的性能损耗、算力开销、功率损耗以及性能提升带来的成本不断上升,甚至超过了其承受范围,成为限制先进算法探索的重要因素。数据处理单元(Data Process Unit,DPU)以软件定义技术、虚拟化技术为支撑,卸载了CPU中的网络、存储、管理等平台软件,解放了更高成本的主机CPU算力。以DPU为中心的智能网卡具有节能减排、提升效率,且节省空间的优势,成为了云网融合中未来基础设施新设备的重点突破方向之一。
随着网络技术的不断演进与新兴技术的革新,云网融合下网络基础设施的创新升级可以从接入网、入云网、云内网、云间网四部分进行开展。通过对网络关键技术与基础设施融合动向的探讨,提出一种以云为核心的新型超融合组网方案(见图1),具体如下。
(1)园区部分:针对园区多种接入方式共存的现状,提出云原生园区网方案。在该方案中,网关设备上云,并将功能拆解为原子能力,用户通过统一网关接入,按需进行网络功能服务化重构,从而满足泛在终端接入需求。
(2)入云部分:网络需要感知算力资源,基于算力路由获取全域分布式算力信息。当用户入云时,网络根据用户业务需求为用户分配最优入云路径,同时基于确定性网络技术提供云、边、端全连接的确定性承载。
(3)云内部分:为提升数据中心效率,提出基于DPU的新型数据中心组网方案。该方案利用DPU管理分散的服务器,当业务数据到达数据中心时,DPU根据解析结果决定数据的处理位置与芯片类型,并基于I/O处理能力调配CPU、GPU等不同类型的服务器。
(4)云间部分:根据多数据中心协同处理的需求,云间网络能够提供不同地域、不同类型的多云互联。为实现云云协同、云边协同时的无损确定性传输,提出云+光融合的高效云间互联方案。
图1 新型超融合组网方案
该新型超融合组网方案具备以下三大特征。
• 固移融合
用户种类与数量不断增多,接入方式具有多样性,且拥有单独专用的协议栈,导致网络庞杂,管理维护难度大。在新型组网方案中,接入网络需要将无线网络、物联网、光纤固定网络等多种接入方式结合起来,通过统一的接入网关实现多种业务场景下的泛在接入。并借助虚拟化和云计算相关技术,将不同的网络功能通过统一的基础设施呈现出来,实现固移融合的一体化网络供给。
• 算网融合
针对云、边、端协同场景,网络需要感知业务需求和算力资源,为新型互联网业务提供通信、计算、存储、算法等多种资源的协同优化配置。为满足用户的差异化算力需求,在该超融合组网方案中,算力资源需要借助无处不在的网络进行调度与整合,以网络为基础实现多要素资源的一体化供给,提高算力资源利用效率。
• 云光融合
随着云业务的不断增加,承载网络不仅需要应对大数据流量传输,还要为特定的垂直行业提供确定性承载网络服务。新型超融合组网方案充分发挥光网络的高可靠、大带宽、低时延特性,为行业用户提供云间互联的确定性品质专线,并通过云光融合的一体化服务供给,实现多业务的灵活确定性承载。
新型超融合组网方案的四部分以云为纽带紧密结合,同时可以彼此分解独立发展。以下将分别介绍园区、入云、云内、云间四部分的实现方案。
园区存在有线接入、无线Wi-Fi接入、无线4G/5G接入等多种接入方式共存的现状,为满足企业用户多种接入模式的互联互通需求,实现多类型设备快速接入园区网,接入侧面临固定和移动网络无缝传输的挑战。如图2(a)所示,现有接入方案已经实现了转发平面和控制平面的解耦,并对数据管理功能、移动性管理、会话管理功能、用户平面功能等统一功能进行抽象处理。然而,各接入方式彼此独立,拥有单独的控制面和转发面,难以满足泛在终端动态灵活接入。为了提升资源的利用率,实现设备到网络层面的无缝连接,提出基于用户定制的云原生园区网部署方案。
云原生园区网的目标是实现对底层网络资源进行抽象处理,并通过多种类型网络的转发面、控制面分离,为用户提供更加敏捷的服务。如图2(b)所示,云原生技术将虚拟化部署的转发面和控制面进一步云化,将网元功能拆分提取为原子能力,对控制平面中数据库服务、策略服务、鉴权服务、转发服务、接入服务等通用功能抽象化形成单独微服务。在进行业务请求响应时,利用可编程方式,根据不同接入类型进行不同的流程编排,按需弹性组装原子能力模块,实现服务化重构,为不同业务转发提供敏捷服务,极大提升资源利用率。
图2 用户定制的云原生园区网方案
通过固定和移动网络功能的服务化,基于云原生技术架构的园区网不仅实现固定和移动网络的同时部署,而且其良好的兼容性为新业务开发和系统升级改造提供了极大的创新空间。例如,云原生园区网凭借微服务设计等技术改造现有管理系统或吸纳新增网元设备,缩短了业务开发周期,实现了容量弹性伸缩。用户定制的云原生园区网凭借其开放、共享、包容等特性,有效地提升服务的灵活性和业务的适应性,并自然适应未来新业务的复杂不确定演进。
在传统网络中,数据包转发时通过路由表查找到最短路径,再通过IP进行尽力而为承载,实现业务入云。随着边缘计算、端计算算力形态的出现,算力资源从单一化的集中式部署方式,往多级化的分布式部署方式发展,承载网连接了多种类型的算力资源。在云网融合的大背景下,网络需要将算力资源进行整合,针对业务场景和用户需求,通过权衡算力资源与网络通信性能,为用户选择最优的入云路径。
基于算力路由与确定性承载的入云网络如图3所示,在该方案中,用户通过算力网关接入,网关实现对用户及应用需求的多维度感知。基于IPv6技术,网络侧实现计算节点实时负载信息的感知,并根据通信时延与算力资源建立路由表,形成以用户为中心的资源视图。以用户对网络时延、传输抖动与算力资源类型、算力大小等需求作为选路依据,综合考虑用户需求与实时的算力、存储、网络等多维资源可利用状态,为业务流选定最优的云资源池。
图3 基于算力路由与确定性承载的入云网络
在实现用户需求和资源匹配的基础上,基于算力路由建立用户与目标算力位置的端到端通信链路。根据用户业务的不同需求,入云网络可提供高带宽保障、确定性时延、抖动可控、无损传输多维度的确定性承载,提供端到端的确定性服务。首先,以用户峰值带宽为指标明确用户带宽需求,通过上下行带宽限速实现带宽确定性;然后,根据用户低时延、零丢包、高可靠性等不同类型的需求,基于SRv6等技术为用户划分合理路径,解决传统IP报文转发造成的前后报文路径不可控问题;最后,在指定的路径上设置抖动可控的端到端承载方案,消除排队转发抖动,确保所有报文的传送时延被严格限制在一定范围内。
基于算力路由与确定性承载的入云网络方案,可以实现对于用户需求、网络算力资源的多维度感知,并根据业务需求提供一线多用、多等级并存的确定性承载服务。
在传统数据中心组网方案中,以CPU为核心的服务器通过网络接口控制器接入Leaf-Spine网络,多台服务器汇聚形成数据中心网络,参见图4(a)。当业务请求到达数据中心后,CPU首先对数据进行解析,根据解析结果判定数据处理位置。随着数据中心数据量的增多,数据解析将占据CPU大量算力资源,严重影响了业务程序的运行效率。
为充分发挥数据中心计算能力,新型数据中心网络引入DPU新型处理芯片进行网络重构,以提供高性能的数据处理能力,方案架构如图4(b)所示,DPU可以嵌入多个CPU、GPU、FPGA等专用硬件。DPU的专用处理能力分担I/O处理,进行网络中数据压缩/解压缩、内存分配、多线程调度和数据搬运等流量处理,实现纯网络通信加速。因此,当业务到达数据中心后,DPU可以取代CPU进行数据分析,并根据数据解析结果选择合适的数据处理芯片。DPU在释放CPU巨量算力的同时,提升I/O性能,适合用于数据驱动的人工智能算法处理场景,以及对时延要求极高的场景。同时,利用DPU承担操作系统ROM的角色管理散乱的边缘服务器,有效解决边缘服务器铺设存放缺乏统一管理的难题。DPU将算力分布在更靠近数据发生的地方,基于网络、存储的虚拟化功能,新型数据中心网络具有资源灵活调配的优势,可提升整个数据中心资源池的资源利用效率。此外,针对加解密、数据防火墙等安全防护需求,将隔离规则写入DPU中,在运算主体之外做安全防护,有效避免服务器本身的规则被服务器运行程序修改,在主机CPU之外进行安全处理,可以在降低CPU开销的同时,进一步增强网络的安全防护。
图4 基于DPU的新型数据中心网络
以DPU为基础的新型异构架构为数据处理提供计算、存储、网络等虚拟化基础设施服务,进一步实现数据中心网络的扁平化和简洁化,有助于带动整体数据中心降本增效,并加强数据中心网络的安全防护。
传统云间网络通过IP网络与光网络进行互联,两种网络彼此分离。POD内部由实体路由器等网元设备组成,并通过交换机选择连通方式(见图5)。传统云间网络难以满足数据中心间数据无损确定性传输。基于云化和全光网技术,提出云光融合的云间网络部署方案。该方案中,充分利用全光网的能力来构建高容量、高性能、高可靠的新型云间网络,具有云内网络简洁化和云间网络全光化两大特征。云内网络依托于NFV技术将IP层功能进行分解,虚拟化的路由功能在服务器中实现,光传输设备直连云底层基础设施中,有效减少背对背节点。云间网络利用全光网实现架构扁平化、调度全光化和运维智能化,其中主要节点之间由Full-Mesh连接,通过光层直达,实现毫秒级低时延、高速大带宽的网络连接。此外,引入SDN理念达到转发控制分离、网络能力开放的目的,打造端到端智能可控的全光云间网络。
图5 云光融合的云间网络方案
该方案基于虚拟化技术、全光传输、全光智能调度等多种手段实现云+光+IP的深度融合,利用全光网络打造大带宽、低时延的云间互联网络,有效服务于多云协同业务。
以国家数字经济政策和国家级重大工程建设为导向,在业务数字化、技术融合化、数据价值化的共同作用下,云网融合已进入一体化、智能化发展阶段。在云网融合阶段,新型数字基础设施势必满足泛在互联、确定性承载、多维异构资源融合管理的需求。本文提出了具有固移融合、算网融合和云光融合特性的新型超融合云网一体化方案。该方案以云为核心,通过泛在终端接入、业务按需灵活入云、数据中心高效转发和云间高效互联,实现自下而上、多网络、多要素的融合,为多样化业务提供差异化服务保障,并助力网络基础设施自然适应未来新业务的复杂不确定性演进。