郝建武 张建东 张亚伟 李振
(1.华为技术有限公司数据通信产品线,北京 100095;2.华为技术有限公司中国电信系统部,北京 100073)
随着企业生产业务上云逐步成为趋势,企业对承载云业务的智能云网提出了更高要求,其中要求提供确定性网络的诉求非常迫切。企业业务上云分为互联网应用上云、信息系统上云、核心系统上云三个阶段,网络需求差异性显著,互联网应用上云追求性价比,要求敏捷上云、快速开通;信息系统上云要求大带宽和低时延,例如远程教育要求带宽>400 Mbit/s/教室,VR课堂要求带宽>50 Mbit/s/学生,时延<20 ms;而核心系统上云则有更严格的确定性指标要求,例如工业制造中的离散自动化控制系统需要时延<10 ms,抖动<1 ms。本文首先对智能云网面临的挑战进行了分析和研究,并定义了确定性网络实施部署的两个阶段,然后详细阐述了每个阶段的关键技术实现,希望能够进一步促进确定性网络技术的推广和应用。
运营商在搭建一张满足各行各业诉求的智能云网时,将面临各种挑战,其中网络确定性的挑战尤为突出,具体如下。
在搭建智能云网时,一般将网络分为云接入、云汇聚、云骨干几个部分。根据经验,所有用户都同时用到最大带宽的可能性很低,会有一定的并发度,因此从接入到汇聚再到骨干,规划的带宽会有一定收敛,这种方式充分利用了IP网络统计复用的能力,此消彼长,达到资源共享的目的,可以极大地降低建网成本。但是由于收敛比的存在,如果网络中存在高速率、多接口进入,低速率、单接口流出,容易造成拥塞,承诺的网络带宽将得不到保证。
视频类服务已经成为当前网络承载的最重要业务,但视频流普遍存在突发现象,业务流突发是导致网络拥塞的主要原因。未来,随着XR、全息影像、元宇宙等业务的兴起,网络中突发、拥塞现象将会越来越严重。
网络中的路由器通过端口大缓存,可以解决拥塞丢包问题,但报文拥塞时会进队列缓存,此时会产生较大的时延,一般路由器端口缓存时间在10 ms以上。传统业务对网络时延要求一般在100 ms以上,时延要求低,但uRLLC类业务(如电网差动保护业务),对承载网RTT时延要求会达到2 ms,这就要求承载网中不能产生拥塞,并要求运营商提供的网络时延是确定的、可承诺的;同时,也对网络的抖动提出了很高的要求,网络提供确定的低时延,就不能出现突发的抖动,尤其工业控制类信令业务对抖动要求很高,需要承载网提供确定性抖动服务。
随着SR等新技术的应用,拓扑无关的无环替换路径(Topology-Independent Loop-free Alternate,TI-LFA)、Candidate PATH等技术结合双向转发检测(Bidirectional Forwarding Detection,BFD)快速检测,可保证承载网中断类故障50 ms内倒换,网络可靠性得到了极大的改善,保证了在出现故障情况时,网络能够尽快的恢复。但当前对于质量类故障,如业务的零星丢包、报文的CRC误码等问题,还没有很好的技术措施。
运营商智能云网如果能够提供确定性网络能力,将会大力促进制造、物流、运输、影视(AR/VR),医疗等各行业的数字化转型;同时,也可以提高网络技术水平、扩大服务范围、提升服务能力并形成溢价空间,成为新的收入增长点。
从技术演进和现网部署的成熟度分析,笔者认为确定性网络技术可以大致分为两个阶段。
(1)采用网络切片技术,实现业务的隔离和质量保障。在此阶段,通过网络资源的预留,实现不同类型业务之间的资源隔离,从而使得切片内的业务不受切片外部业务的影响,提供了一定程度的网络确定性;网络切片技术可以满足多数场景下,业务发展初期的确定性要求,但当业务规模发展后,在同一网络切片内业务快速增长,仍然可能出现业务的突发干扰,影响网络切片内的确定性体验。
(2)在网络切片的基础上,采用门控机制,对业务流进行周期划分和资源预留,保证任意业务的确定性转发。采用门控机制后,切片内部的业务流不再会出现突发而互相干扰,可以提供更有保障的确定性服务。但门控机制对网络部署的要求较高,还需要比较长的时间逐步成熟。
网络切片技术:智能云网确定性体验第一阶段。网络切片首先是在无线网络中提出的概念,是面向丰富多样的5G业务需求提出的重要架构创新,无线网络切片相关的技术研究主要是由3GPP主导。IP网络切片相关的技术研究主要由IETF主导,包括架构、协议的标准制定等。IP网络切片典型应用场景参见表1。
表1 IP网络切片典型应用场景
基于IP的网络切片可以提供业务隔离、资源隔离和运维隔离三个层次的隔离。
• 业务隔离:针对不同业务在公共网络中建立不同的网络切片,提供业务连接和访问的隔离,业务隔离可以满足部分对服务质量要求相对不苛刻的传统业务隔离需求。
• 资源隔离:资源隔离对企业工业控制类业务尤其重要,因为这类业务通常有着十分严格的服务质量要求,不允许任何来自其他业务的干扰。资源隔离按照隔离程度可以分为硬隔离和软隔离。
• 运维隔离:对于一部分网络切片租户来说,除了需要业务隔离和资源隔离提供的能力,还要求能够对运营商分配的网络切片进行独立的管理和维护操作。
网络切片架构一般分为管控层和设备层两大部分,而设备层又可以分为控制平面、数据平面、转发平面。由于当前IPv6已经在智能云网等主流网络中普遍应用,本文论述的网络切片架构也以IPv6技术为基础。一个完整的网络切片架构和部署流程如图1所示。
(1)接收网络切片业务请求:IP网络切片控制器通过北向的业务管理接口,接收来自用户的网络切片业务创建需求,包括业务的端点、连接关系、带宽、时延、隔离性以及可靠性等。
(2)规划网络资源切片:网络资源切片可以由运营商根据对网络资源的规划策略预先部署,也可以由一个或一组用户的业务需求触发按需创建。
(3)创建网络资源切片:基于网络资源切片的规划结果,网络切片控制器通知网络资源切片范围内的各个网络设备和链路为该网络资源切片分配所需的网络资源。
(4)创建业务切片:根据网络切片的连接和访问隔离需求,网络切片控制器为用户创建独立的业务切片。
(5)业务切片映射到资源切片:网络切片的边缘设备需要根据运营商指定的切片业务映射策略,将切片业务流映射到资源切片,从而为不同的网络切片业务提供差异化和有保证的服务。
图1 网络切片架构及部署流程
在网络切片方案中,根据业务需求和网络设备的能力,对网络中的转发平面资源进行划分,分配给不同的切片使用,当前一些可选的技术主要包括灵活以太网(Flexible Ethernet,FlexE)、灵活子通道(Flex-Channel)等技术。
2.2.1 FlexE技术
FlexE技术通过在IEEE 802.3的基础上引入FlexE Shim层实现MAC与PHY层解耦,以及灵活的速率匹配(见图2)。
图2 FlexE技术原理
FlexE Shim把FlexE Group中的每个PHY划分为20个时隙(Slot)的数据承载通道,其中每个Slot所对应的带宽为5 Gbit/s。把FlexE Client原始数据流中的以太网帧以Block原子数据块(64B/66B编码的数据块)为单位进行切分,这些原子数据块通过FlexE Shim的Calendar机制实现在FlexE Group中的时隙映射和传输,实现严格的隔离。
由于OIF标准定义的时隙粒度是5 Gbit/s,为了满足垂直行业的应用诉求,华为等业界厂家实现了1 Gbit/s的时隙粒度,5 个1 Gbit/s数据通过时分复用的方式占用一个FlexE标准5 Gbit/s时隙,实现小颗粒子时隙扩展,同时整体方案兼容FlexE 1.0/2.0标准定义的主体架构(见图3)。
图3 FlexE切片实现原理
各个资源是按照TDM时隙划分,严格隔离,满足了资源独享与隔离的要求。在设备内部也严格按照物理口的属性分配物理资源,每个FlexE接口都拥有独立的转发队列和Buffer,具有传统以太端口的特征。
2.2.2 Flex-Channel技术
在一部分网络切片应用中,需要一种能灵活实现资源切分的技术,但不希望引入额外的接口配置和管理开销,这时可以选择Flex-Channel技术。
Flex-Channel技术是指基于网络级的HQoS机制分配独立的队列和带宽资源的业务通道。通道之间带宽严格隔离,通过在物理接口或FlexE接口下为网络切片配置独立的带宽预留子通道,实现带宽的灵活分配(见图4)。Flex-Channel技术提供了一种灵活、细粒度的接口资源预留方式,使得每个网络切片独占带宽和调度树,为切片业务提供资源预留。
图4 Flex-Channel切片实现原理
在网络的每台设备上都为特定业务划分独立的SQ资源保障,并通过E2E的切片实例将每台设备上的预留资源贯通,实现端到端的业务切片。如果SQ资源是基于FlexE接口,可以形成层次化切片(片中片);如果SQ资源是基于物理接口,可以作为细粒度的单层切片使用,切片的粒度可以控制在Mbit/s级别。
IP网络切片将一张基础IP网络划分为多个逻辑网络,在传统IP网络基于目的地址转发的基础上增加了网络切片资源的操作,相应地使IP网络从单一平面变为多平面网络。这要求IP网络建立基于二维数据平面标识的转发机制,数据报文中要同时携带指示拓扑/路径的标识以及指示切片资源的标识。
为了部署网络切片,需要引入网络切片ID(Slice ID)的概念,用来指示数据报文进入哪个切片。在IPv6网络中,通过IPv6逐跳选项扩展报文头(Hop-by-Hop,HBH)来携带网络切片ID信息。逐跳选项扩展报文头用来携带需要被转发路径上的每一跳设备去处理的信息,它的Next Header协议号为0,报文头格式如图5所示。
图5 HBH报文
一个逐跳选项扩展报文头的Value区域由一系列的Option区块构成,使得一个逐跳选项扩展报文头可以承载多份不同种类的信息。
逐跳选项扩展报文头同样在SRv6头节点进行封装,其位置在IPv6报文头和SRH之间,具体参见图6。
图6 HBH报文携带Slice ID
在HBH扩展头里,除了标准头部,可以看到Slice ID占据32位,HBH扩展头字段的详细解释如表2所示。
表2 HBH报文携带Slice ID字段详细含义
网络切片除了需要进行转发平面的资源切分和引入数据平面的切片标识之外,对控制平面也提出了新的功能要求。IP网络切片的控制平面包括网络切片控制器与网络设备之间运行的集中控制协议,以及在网络设备之间运行的分布式控制协议。
2.4.1 切片资源属性控制协议发布
在网络中,设备的一条物理链路上为不同网络切片预留的带宽资源可以通过三层子接口、二层子接口等方式呈现(主要应用在FlexE类型的资源切片中,Flex-Channel方案通过切片实例实现,不需要接口实体)。在发布网络切片的资源属性时,需要IGP协议做一定的扩展。在IPv6网络中采用Slice ID模式进行网络切片时,建议使用二层子接口模式,这种模式下可以减少IP地址的使用,同时降低IGP协议报文的压力。当使用二层子接口方式呈现不同网络切片的预留资源时,需要使用IGP L2 Bundle机制发布三层接口下的二层成员接口的带宽等属性信息。为了标识每个二层子接口所关联的网络切片,需要在L2 Bundle Attribute Descriptors中新定义NRP-IDs Sub-TLV,具体参见图7。
图7 NRP-DI协议字段
NRP IDs Sub-TLV中可以携带一个或多个NRPID,用于描述一个二层子接口与一个或多个网络切片的关联关系。当一个二层子接口同时关联多个网络切片时,这些网络切片可以共享同一个二层子接口的带宽以及其他的TE属性信息。
2.4.2 切片属性BGP-LS上送
BGP链路状态协议(BGP Link-state,BGP-LS)主要用于收集网络中的链路状态和TE属性信息,上送给网络控制器。与传统的基于IGP等协议的方式相比,BGP-LS提供了一种收集网络拓扑和状态信息的新方式,可以使信息的收集更加简单和高效。
在基于Slice ID的网络切片方案中,为了将网络切片的信息收集并上报给网络切片控制器,需要对BGP-LS进行相应地扩展。由于每个网络切片关联一个逻辑拓扑,且多个网络切片可以关联同一个逻辑拓扑,网络切片和拓扑/算法之间不再是一一对应的关系,这时需要在控制平面新增网络切片标识,并通过BGP-LS将网络切片与逻辑拓扑/算法之间的关联关系上报给网络切片控制器。
网络切片技术可以在网络中为业务提供安全隔离、确定性带宽、低时延的服务,切片效果的核心在于转发平面使用资源预留技术,表3给出两种网络切片技术效果对比。
表3 网络切片技术效果对比
网络切片技术已经在运营商的网络中开始商用部署,尤其在智能云网中,可以很好地满足金融、政府、教育等行业在数字化转型过程中对业务上云的安全隔离、确定性带宽、低时延的要求;运营商也可以在一张物理的智能云网中,为不同行业提供多张行业专网,在减少投资的同时,为行业客户提供更好的服务保障,获取更大的收益。随着整个切片网络的规、建、维、优体系的进一步成熟,网络切片技术在今后几年会更加成熟,成为网络建网的重要规范。
确定性IP技术(Deterministic IP,DIP):智能云网确定性体验第二阶段。随着工业互联网的发展,已经出现PLC云化、工控网络从局域走向广域的演进趋势。工业控制PLC业务有超低时延、有界抖动、零丢包的严格要求,当前的网络切片技术出现的新的挑战。由于网络切片技术在切片间形成隔离,确保切片间的业务不会相互影响,但在切片内还是统计复用的模式,如果切片内业务存在突发,例如工业视觉中I帧突发可以达到6~10倍,这样在切片内可能会造成抖动,尤其未来在广域部署工控网络时,问题会更加突出。在这种场景和应用下,需要进一步引入确定性网络技术。
当前在工业控制领域已经存在一些确定性相关的网络技术,如TSN、DetNet等。但TSN技术主要应用在局域的L2组网中,DetNet技术虽然扩展了L3组网应用,但由于技术要求非常高,需要网络中严格的时间同步和周期对齐,在实际的广域网络中很难部署。业界提出的DIP技术,可以较理想地解决这个问题。DIP技术在传统IP的基础之上引入周期转发的思想,通过控制每个数据包在每跳的转发时机来减少微突发,消除长尾效应,最终实现端到端时延确定性。
在网络应用中,建议DIP技术与网络切片技术组合部署:先通过网络切片技术对不同的行业进行网络切片划分,不同行业归属不同的网络切片;之后在行业网络切片内部,根据业务的诉求有针对性地部署DIP技术,实现业务的确定性保障(见图8)。
图8 网络切片与DIP组合应用
DIP在传统IP的基础之上引入周期转发的思想,通过控制每个数据包在每跳的转发时机来减少微突发,消除长尾效应,最终实现端到端时延确定性。DIP技术可以保证在最差的情况下端到端时延依然有界,且最差时延与最好时延之间的差距仅为2T。在核心节点上进行标签交换和周期转发聚合调度,解决了传统IP网络的突发累积问题,实现了IP网络的端到端确定性低时延和微秒级抖动。此外,DIP技术中核心节点无逐流状态,设备之间不需要精准时间同步,因此具有良好的大网可扩展性。
3.1.1 边缘整形技术
边缘整形技术在业务的头结点设备实现,解决了一条流的多个报文在网络入口PE设备发出时进入哪个门控的问题。
如图9所示,假定所有设备设置相同的发送周期T,例如T=10 μs,一条DIP流在一个T周期发送的字节数为:DIP预留带宽×T周期,例如1G带宽一个T周期字节数为:1 Gbit/s×10 μs = 1.25 kbyte,用户流量满足流量模型约束:单个报文包长和任意周期内发包均小于带宽B×T。
图9 DIP周期发送报文
每一条流,基于业务的SLA要求,在边缘设备对流进行整形,具体参见图10。
图10 DIP边缘整形
• 如果流的报文长度超过了一个周期分配的资源,则无法入周期,会被丢弃。
• 按照整形原理,当前门控为Q1,入口报文在从Header到Tail的队列里面取令牌,根据取令牌的队列打上对应的标签,如果取不到,则丢弃。
3.1.2 门控技术
门控队列引入能够基于时间来打开和关闭的机制,只有当门打开时队列才能被调度。DIP门控队列和普通门控队列间采用SP调度,DIP门控队列未使用的时间片,可以给普通门控队列复用,提升带宽利用率(见图11)。
图11 DIP门控技术
门控队列分为DIP门控队列和普通报文门控队列。
• DIP门控队列:基于时间控制开关,流量不区分优先级,没有QoS调度。
• 普通报文门控队列:不进行时间控制,常开,可以有QoS调度。
3.1.3 周期映射技术
DIP的周期映射技术实现相邻节点间发送周期的自动学习,周期能够固定映射,从而实现时延固定、抖动固定,是DIP技术体系的核心创新技术。
在图12的组网中,业务从R1~R2,对如何实现周期自动学习进行介绍。
所有设备部署时钟同步,同时设备所有接口门控队列开启基准时间(S)一致,设备之间发送DIP周期映射报文,自动学习两个设备之间的周期映射关系。假定DIP门控需要5个队列,计算过程如下。
(1)标签映射计算过程
•t0:上游设备T1周期首包第一bit到达本设备入口时间。
•t1:同一周期报文到达本设备出口的最晚时间。
• 计算t1=t0+T+Lmax。
• 计算t1时刻后R2出接口的第一个完整周期B,B=((t1-S)/T+1) mod 5。
• 两个节点间周期的差值delta = (B-A+5) mod 5。A是上一节点的周期号。
(2)P节点转发时延
• 最好情况:L+T+Lmax。
• 最差情况:L+ 2T+Lmax。
•L为链路时延,Lmax是设备内转发时延。
按照这个原理,报文在首跳进入一个周期后,后续各跳的对应周期就已经确定了(无论该节点属于最好情况,还是最差情况),这样端到端时延是确定的。
图12 DIP周期映射
(3)端到端的抖动
在中间P节点的周期确定后,时延已经确定,DIP业务的抖动只会发生在首尾两个节点上,业务在同一周期内是在周期初始发送还是周期末尾发送,首尾节点最大存在2T时间的抖动(见图13)。
图13 DIP抖动
3.1.4 显示路径规划技术
对于诸如工业控制类的业务,在使用DIP技术时,还需要明确业务在网络上的转发路径,这样才能真正地做到确定性时延(见图14)。因此,DIP技术需要集中控制器来进行路径的计算和部署。
• 网络控制器需要获取网络中各设备信息、设备连接方式、支持确定性IP转发能力的接口和支持确定性 IP 转发的带宽能力。
• 一条DIP业务流接入网络,网络控制器需明确这条流的网络入口、网络出口、速率、突发度、时延抖动等要求。
• 网络控制器计算网络中是否存在一条路径,经过这条路径的各设备出接口的剩余确定性带宽满足要求,且这条路径端到端的时延和抖动也满足要求。如果存在此路径,则允许这条流接入网络,并占用对应资源。
• 网络控制器下发流识别信息、整形信息、SRv6显式路径信息到网络入口转发设备。
• DIP业务流进入网络,按照规划的显式路径进行转发。端到端转发时延和抖动就可以满足此流的要求。
图14 DIP路径规划
DIP技术在一些应用场景中已经进入了测试验证和小规模试商用的阶段。
如图15所示,在跨越不同城市的实验室,部署工业控制系统,同时构造背景流量,通过DIP技术验证是否满足PLC业务诉求。
图15 DIP验证环境
经过多轮测试,无论单DIP业务流还是多DIP业务流,分别在无背景流和有背景流的环境下,都能保证稳定的抖动,抖动最大不超过15 μs,达成了确定性的时延效果,而普通背景流抖动超过2 800 μs(见表4)。
表4 DIP测试效果
确定性网络技术是下一代网络通信体系的发展方向之一,也是网络、工业、农业和服务业强国的重要推动力。形成以IPv6+为基础的确定性网络技术和产业格局对千行百业朝着数字化、网络化、智能化的方向进一步迈进具有重要意义。当前确定性网络中的网络切片技术还需在规模商用的基础上进一步打磨、完善,而DIP技术在规格、性能以及多业务路径的保护倒换、双发选收等领域还需要进一步研究和创新。确定性网络技术上的持续创新,一定会在更多行业、更多场景、更多业务上发挥价值,为千行百业输送数字动能。