熊礼霞,任枫华,宋 盈(中讯邮电咨询设计院有限公司,北京 100048)
根据探测报文的生成方式,网络性能检测方法主要分为3类:主动测量、被动测量和混合测量。主动测量通过在网络中发送探测报文的方式实现网络性能测量,如TWAMP 技术。被动测量直接监测业务数据报文,不生成额外的探测报文,也不会对检测的业务数据报文做任何修改,一般通过设定的采样比率抽取业务数据报文进行相关的网络性能指标统计。混合测量是基于原始的业务数据报文进行相关字段的扩展实现网络性能的统计。
目前,混合测量技术的研究有3 个主流方向:IETF IPPM 工作组中基于交替标记的方法、IOAM 方法以及P4联盟主导的INT方法。
本文提出的随流检测技术是一种基于交替标记方式的网络性能检测方法,通过在真实业务报文中插入随流检测信息头进行特征标记,检测对应业务在网络的时延、丢包、抖动等性能指标,属于混合测量方法。
围绕随流检测技术的应用价值,从网络演进和应用需求出发,本文将介绍随流检测的发展情况,介绍中国联通随流检测的技术方案和应用实践,总结中国联通随流检测的应用优势,并对未来演进进行分析思考和展望。
5G 和云技术的发展推动了诸如高清视频、VR 等新业务的兴起,同时,为了方便统一管理、降低运维成本,网络设备和服务的云化也成为必然趋势。为优化用户的网络体验,需要实现网络时延的显著下降和确定性保证;为提升网络的可靠性,需要提供故障主动感知及快速定界定位的运维手段。新业务和新架构对承载网的性能检测监控手段提出更高的要求,以TWAMP 技术为代表的传统测量方式采用发送模拟检测报文的间接测试方式,不能保证模拟报文与真实业务路径一致,不能完全真实反映业务级的端到端业务服务质量(SLA),丢包检测精度只能达到10-3,无法捕捉业务流量的微丢包类静默故障,无法满足5G和云时代新应用的SLA要求。
随流检测技术基于真实业务流的逐包统计和Telemetry 进行可信测量结果的实时上送,并基于业务的端到端或逐跳工作模式,获取业务的端到端或逐跳网络性能指标,实现业务服务质量实时可视和故障快速定界定位。
随流检测的应用研究主要聚焦在基于Segment Routing 的承载网络。结合Telemetry 和Segment Routing 的技术优势,随流检测不仅统计结果真实可信,而且在现网兼容和部署简化上具有突出特点。基于其端到端和逐跳的工作模式,不仅可以实现业务服务质量的端到端检测,还可以实现业务链路故障的快速定界定位。随流检测技术的应用价值如图1所示。
图1 随流检测技术的应用价值
随流检测技术的发展主要体现在国际国内标准化进程和行业主要厂家及运营商的研发应用实践,标准化进程是促进创新应用的基础,而主要厂家和运营商的研发实践也推动其技术方案的收敛统一和标准化。
随流检测技术的基础,即交替标记方案,在国际上已经制定了相关标准,主要为RFC9342(Clustered Alternate-Marking Method)和 RFC9341(Alternate-Marking Method)。
主流的随流检测信息传输封装方案聚焦在MPLS/IPv6/SRv6网络转发面,目前处于标准跟踪和工作组草案状态,主要包括IPv6 Application of the Alternate Marking Method(RFC9343)、Encapsulation For MPLS Performance Measurement with Alternate Marking 和Segment Routing Header encapsulation for Alternate Marking Method。
国内主要厂家和运营商的实际应用方案并未完全统一,随流检测信息头的字段定义和封装格式也不完全相同。
同时,国内也在积极推动关于随流检测技术的标准制定。主要厂家和运营商的草案布局覆盖架构、接口和转发面方案,涉及国标/行标/企标,主要包括:国标的《IPv6+技术要求 第15 部分:基于IPv6 的随流检测》;行标的《IP 网络随流检测技术要求》和《电信运营商网络带内流信息的自动化质量测量技术要求》;企标的《中国移动SPN IOAM随流检测技术规范要求》。
随流检测技术的应用部署与网络承载技术强相关。针对不同网络的转发面协议,需研发相应的随流检测传输封装方案,但基于网络技术演进方向和主流运营商的网络特点,目前主要的研发应用方向为基于SRv6/IPv6的数据转发面网络。
针对SRv6/IPv6 网络的随流检测信息传输封装有3 个主流方案:基于IPv6 报文头的Destination Options Header 扩展头的方案、基于IPv6 报文头的Hop By Hop Options Header 扩展头的方案和基于SRv6 的段路由头SRH的方案,本文简称为DOH/HBH/SRH 方案。
在国内主要厂家的设备研发中,对当前的随流检测方案支持情况如表1所示。
表1 当前的随流检测方案支持情况
随流检测的应用部署涉及管控系统和转发设备。管控系统的主要功能包括业务测量的配置下发、统计上报数据的分析和检测结果的呈现,转发设备的主要功能包括被测业务的识别、检测信息的封装、检测信息的解析、检测数据统计和上报、检测信息解封装。其中,业务测量的配置下发可以通过命令行或Netconf等方式实现,数据上送则基于Telemetry技术。
图2给出了随流检测技术在应用部署中的系统架构示意。根据被测业务流的转发方向和网络路径,随流检测在应用部署时将网络路径上的节点分为头节点、中间节点和尾节点,头节点为应用部署的起始节点,尾节点为应用部署的终结节点,业务流从头节点到尾节点中经过的其他节点为中间节点。
图2 随流检测技术的系统架构示意
被测业务流网络路径的头尾节点必需支持随流检测功能,中间节点可选择性支持随流检测功能。当中间节点不支持随流检测功能时,该节点应支持报文的正常转发,不允许采用丢包处理方式,不允许采用上送CPU等降低转发性能的报文处理方式。
随流检测技术应支持基于交替标记方式的业务网络性能检测,检测的网络性能主要包括丢包、时延和抖动,并需符合RFC8321的规定。
5.1.1 丢包检测
丢包检测仅标记L 比特位,按时间周期做标记翻转,每周期上报统计报文量信息(报文量可以是总的比特数,也可以是报文个数),并在收端通过延迟统计周期的方法避免乱序造成的测量影响(见图3)。根据被测业务流的网络路径和随流检测的部署位置,不同网络节点的主要检测操作如下。
图3 丢包检测原理示意
a)头节点。设备根据配置的检测时间周期对被测业务报文的L 比特位进行交替标记,并统计和上报每周期的报文量信息。
b)中间节点。若节点设备支持随流检测,则解析被测业务报文中的检测信息内容。此时,若业务检测模式为端到端检测模式,中间节点不做检测处理,正常转发报文;若业务检测模式为逐跳检测模式,中间节点则统计和上报每个检测周期的报文量信息。不支持随流检测的节点设备正常转发报文。
c)尾节点。设备解析被测业务报文中的检测信息内容,统计并上报每个检测周期内的报文量信息。
根据上报数据,针对一个被测业务流,2 个检测节点之间的每检测周期丢包量=发端的报文量-收端的报文量,总的平均丢包量为所有检测周期的平均丢包量。
5.1.2 时延检测
时延统计采用单标记法或双标记法,其中双标记法需要标记D 和L 2 个比特位(见图4),L 比特位的标记方式与丢包检测保持一致,单标记法仅需标记D 比特位。D 比特位可在每周期内选1 个报文做标记(如第一个报文/最后一个报文),默认标记每周期内的第一个报文。在收端的周期延迟处理与丢包检测保持一致,不同网络节点上的主要检测操作如下。
图4 时延检测原理示意(双标记)
a)头节点。设备根据配置的检测时间周期对被测业务报文的L 和D 比特位进行相应的标记,并统计和上报每周期内对应报文的时间戳信息。
b)中间节点。若节点设备支持随流检测,则解析被测业务报文中的检测信息内容。此时,若业务检测模式为端到端检测模式,中间节点不做检测处理,正常转发报文;若业务检测模式为逐跳检测模式,中间节点则上报每个检测周期内对应报文的时间戳信息。不支持随流检测的节点设备正常转发报文。
c)尾节点。设备解析被测业务报文中的检测信息内容,统计并上报每个检测周期内对应报文的时间戳信息。
根据上报数据,针对一个被测业务流,2 个检测节点之间的每个周期的时延=收端在对应周期的时间-发端在对应周期的时间,总的平均时延为所有检测周期的时延平均值。
针对被测业务,随流检测应支持端到端和逐跳2种检测模式,可以按不同的工作模式进行应用部署。
5.2.1 端到端检测
针对被测业务端到端质量检测需求,可通过端到端检测模式,获取被测业务端到端的丢包、时延和抖动统计数据以及被测业务的标识和网络路径等相关信息(见图5)。
图5 端到端检测模式示意
端到端检测仅部署在被测业务网络路径的头节点,仅头、尾节点需要做随流检测的统计上报处理,中间节点不感知检测信息并正常转发报文。
5.2.2 逐跳检测
针对被测业务在网络路径上不同节点间的质量检测需求,可通过逐跳检测模式,获取被测业务网络路径不同节点间的丢包、时延和抖动统计数据(见图6)。
图6 逐跳检测模式示意
针对不同的随流检测信息封装方案,逐跳检测应用也不同,例如:采用DOH 封装方案时,逐跳检测可以实现SRv6 Policy 业务场景中SID list 所列转发节点之间的信息统计和性能监测;采用HBH 封装方案时,逐跳检测可以实现SRv6 BE 和Policy 业务网络路径中所有转发节点之间的信息统计和性能监测。
逐跳检测仅部署在被测业务网络路径的头节点,所有支持随流检测的节点都应进行相应的数据统计上报处理,不支持随流检测的节点应正常转发报文。
中国联通智能城域网以通信云DC 为中心,采用“核心(MCR)+汇聚(MER)/接入(MAR)”的简化架构,实现通信云、移动业务、宽带和专线业务等全业务的综合承载。智能城域网部署EVPN 和SR-MPLS 技术简化协议,并具备SRv6演进能力。
面向网络技术演进和创新应用,中国联通深入研究随流检测技术,提出适用于智能城域网的随流检测技术方案,下文分别从随流检测的封装方案、创新实践和应用优势上进行详细阐述。
随流检测基于真实业务报文进行,头节点根据预定义规则识别待检测业务报文,并在业务报文的报文头中插入固定格式字段以携带检测信息,后续支持随流检测的转发节点可识别报文头中的检测信息并进行相应处理。
端到端工作模式利用IPv6 的DOH 扩展头携带随流检测信息。在SRv6 BE 和Policy 2 种不同业务场景下,检测信息的封装位置如图7中端到端检测所示。
图7 检测信息在IPv6转发面封装位置
逐跳工作模式有2 种封装方案思路,即采用DOH扩展头的方式1 和采用HBH 扩展头的方式2,检测信息的封装位置如图7中逐跳检测所示。
a)方式1:采用DOH 扩展头携带随流检测信息。与端到端检测的封装位置保持一致,通过随流检测信息中的检测模式字段进行区分,可覆盖SRv6 BE 和Policy 2种业务场景。
b)方式2:采用HBH 扩展头携带随流检测信息。可覆盖SRv6 BE 和Policy 2种业务场景,实现相邻节点间的性能监测。
鉴于主流设备的支持能力和现网兼容性,目前中国联通智能城域网随流检测逐跳技术方案采用第1种思路。
采用DOH 和HBH 扩展头携带检测信息时,根据RFC8200 定义,OptionType 的高3 比特必须为0,以保证转发过程中符合下列要求。
a)当节点不支持随流检测时,正常转发报文。
b)Option Data 内容在到达目的节点前不做任何改变。
检测信息的具体字段定义如图8 所示,当Next Header值为16时,对应的后续字段定义和格式为中国联通智能城域网随流检测的应用封装方案。
图8 随流检测在IPv6转发面的封装方案
当检测信息封装格式中有Node ID 时,Node ID 和Flow ID 共同实现对被测业务的标识,Node ID 需保证在检测域内唯一,Flow ID 需保证在设备内唯一。Node ID 通过管控系统配置下发到随流检测应用部署的头节点设备,头节点设备生成不同检测业务流的Flow ID,并将Node ID和Flow ID封装到检测信息中。
当检测信息封装格式中没有Node ID 时,通过Flow ID 实现对被测业务标识,Flow ID 需保证在检测域内唯一。Flow ID 通过管控系统配置下发到随流检测应用部署的头节点设备,头节点设备将Flow ID封装到检测信息中。
中国联通智能城域网是新建网络,设备较新,在现网兼容性上的障碍较少,可基于智能城域网的单域网络部署随流检测,利用其端到端和逐跳检测能力,实现业务端到端质量SLA 实时可视检测。当业务服务质量不满足SLA 要求时,进行网络性能快速定界检测。
中国联通网络正向SRv6演进,且行业的随流检测方案都聚焦在SRv6 网络,所以中国联通可以先针对SRv6 承载业务进行相应的随流检测方案设计和应用试点,总结积累试点经验,继而按需推进规模部署。
随流检测的端到端工作模式可以对重点业务进行常态化部署,实时监测网络服务质量,例如:采用SRv6技术进行网络承载的大客户专线类业务。
随流监测的逐跳工作模式主要针对故障的快速定界定位,可以是端到端监测中的自动触发部署,根据触发策略,启动对故障的定界定位。
随流检测的网络性能检测数据可以作为现有网络数据采集的有力补充,进一步结合AI 和大数据分析,形成故障的自动预测、自动检测和自动修复,推动智能化运维。
在IPv6+技术系统中,随流检测技术不再是单一的性能检测手段,因为它直接对业务报文做检测,测量结果真实可信且精度高,可以与SRv6 Policy、APN6配合使用,形成闭环的网络优化方案,是整体创新应用不可或缺的内容。
本文从随流检测技术演进和应用落地入手,依据技术和行业发展现状,基于智能城域网网络特点、业务属性及设备能力,进行了随流检测在中国联通智能城域网的应用研究,提出随流检测应用方案,同时结合IPv6+体系技术演进给出了随流检测的进一步演进思考。随流检测技术是5G 和云时代的业务质量监测重要手段,有助于构建智能化网络运维,是IPv6/IPv6+技术演进的重要内容。