面向5G承载网络运维关键技术探讨与分析

2021-08-15 08:00尹远阳杨旭如孙嘉琪
互联网天地 2021年7期
关键词:报文时延运维

□ 文 尹远阳 杨旭如 孙嘉琪

1 5G新业务对网络运维的挑战

5G移动承载除了传统的数据业务,语音业务外,还引入了2B的专线业务、2H的FWA(Fixed Wireless Access)业务、2C的VR/AR业务,未来将引入更多的垂直行业。不同的业务在时延,带宽,可靠性等方面需求迥异。

1)5G沉浸式的360°全景VR体验、无处不在的视频直播和分享、随时随地的云接入等应用提供支持,要求5G承载网具备大带宽、低时延特性,才能有效解决超高清尤其是8K及以上视频内容的传输以及VR头显时间延迟的技术问题。

2)车联网、工业控制等垂直行业的应用,要求5G承载具备超低时延和高可靠等处理能力,要求具备实时感知网络状态,确保网络SLA指标。

3)以传感和数据采集为目标的物联网,例如智能水表、电表等应用,数据传输量小,对网络等待时间的要求不高;但对于类似穿戴血压计、心跳计等5G医疗低时延就会是相当重要的特性。

针对无人驾驶、智能电网、工业控制、远程医疗等场景,网络连接的中断、SLA的劣化,都可能会导致车毁人亡、供电中断、医疗事故等严重后果。因此,如何提供业务差异化的SLA保证能力、支持业务SLA的E2E测量和快速感知、业务故障的快速感知和快速自愈等,是5G承载网运维前所未有的挑战与必须攻破的难题。

2 网络性能检测技术分类研究

2.1 主动检测技术

主动检测技术通过构造检测报文方式获得网络SLA测量,检测发送的测试报文会消耗网络资源,准确度与实际网络存在一定偏差。

1)NQA(Network Quality Analysis,网络质量分析)可以用来测量网络上运行的各种协议的性能,如TCP、UDP、DHCP、FT P、HTT P、SN MP、DNS、TRACEROUTE、LSP Ping/Trace route服务的响应。NQA检测得到的性能指标存在精度上的差距,不能直接体现用户的真实业务在网络中的运行状况。同时,NQA不支持多点到多点的组网与跨网络层端到端的场景。

2)RFC2544是IETF标准定义的一种网络通用流量测试方法,其屏蔽了不同网络场景以及检测报文格式的差异。可以检测网络时延、抖动、丢包率等指标外,还可以测试网络吞吐量。

3)TWAMP(Two Way Active Measurement Protocol)是RFC5357定义的用于IP性能双向主动测量的协议。性能测试时,由TWAMP客户端发起测试,普通网元作为服务器端。服务器端仅需按照客户端的要求进行报文时间戳处理并反射回去,无需进行统计数据的记录和上报。TWAMP可实现在网管能力缺乏或者尚未部署时钟同步的网络中快速实现网络性能测量。

2.2 被动检测技术

被动检测技术通过捕获流经测量点的分组来测量网络状态、流量特征和性能参数。被动检测完全基于不干扰或不修改数据包的检测,主要有Netflow/sFlow(网络数据流统计协议)、Netstream(数据包采样协议)、IPFIX(IP流量信息输出协议)。

Netflow和Netstrea m、IPFIX实现原理基本相同:对经过网络接口的报文,根据报文五元组、TOS、输入/输出接口等信息来创建一条流,即对于这些值相同的报文作为一个流进行数据统计。同时,Netstrea m/Netflow支持将原始信息流再进一步的按照一定的规则进行分类、合并后生成信息流(也就是聚合流),避免网络流量较大的情况下产生大量的原始流统计信息报文而对网络造成影响,输出时信息格式有:V5、V8、V9等。

sFlow(Sampled Flow)是一种向采集器发送报告的推送技术。网络设备仅进行报文的采样工作,不需要对网络流进行统计和分析,远端的采集器可以灵活、按需的配置网络流特征进行统计分析模型。

2.3 混合检测技术

混合检测技术通过灵活组合主/被动测量方法,或结合主/被动测量优点重新设计测量机制的方式,对网络进行协同测量,但是不支持逐跳、乱序、负载分担、点到多点场景。

1)Y.1731是根据IEEE的以太OAM(802.1ag,802.1ah)相关标准进行延伸的ITU-T以太网络性能检测标准,主要是通过各种二层报文作为信令,得到二层网络的性能和故障信息。Y.1731应用局限于二层以太网络,无法适用三层业务的检测。

2)MPLS-TP/MPLS OAM(Y.1711)在Y.1731标准的基础上进行了网络侧OAM的重新定义,为MPLS网络提供了一套缺陷检测的工具及缺陷纠正机制,通过MPLS OAM及保护倒换功能,MPLS网络可以完成转发平面的检测功能,并在缺陷发生后完成保护倒换。MPLS-TP OAM是在MPLS-TP中定义的OAM机制,MPLS-TP OAM兼容现有的MPLS OAM功能,并针对传送网的特有情况进行了相应扩展,主要体现在Tunnel层与PW层上新增了故障管理、故障定位以及性能测试这三个方面的能力。

3)RFC 6374则是一套基于动态MPLS的性能监控技术,类似于MPLS-TP OAM,包含时延测量和丢包测量,测量的实体是MPLS网络的section(接口级)、LSP(隧道级)、PW(业务级),技术上吸收了TWAMP、Y.1731,支持单双向时延、单双向丢包、合成丢包统计。

3 随流检测与Telemetry技术研究

3.1 随流检测技术

随流检测技术是近几年兴起直接对实际业务流进行测量的检测技术,也是实现从“被动式”运维变为“预防式”运维重要手段。当前比较热门的随流检测技术主要有:Insitu OAM、INT(In-Band Network Telemetr y)、RFC 8321(报文染色技术)和IFIT(in-band Flow Information Telemetry)。

In-situ OAM和INT主要原理是在原始数据报文中增加OAM检测头,在业务转发路径中根据检测头进行数据采集,再通过集中处理单元计算检测结果。In-situ OAM的数据包处理流程如下图1所示(INT的实现原理与In-situ OAM类似):

1)业务报文到达第一个节点(Ingress节点,下图中的RT1)时,Ingress节点按照预先设置的采样方式匹配并镜像出该报文,根据测量任务的需要对指定业务流的报文插入IOAM检测头,包含时间戳、node id、接口id、sequence number等信息。

图 1 In-situ OAM机制示意图

2)报文转发到中间节点Transit(RT2/RT3/RT4)时,Transit节点对指定业务流的报文插入当前节点的时间戳、node id、接口id。

3)报文转发到最后一跳Egress(RT5)节点时,Egress对指定业务流的报文插入当前节点的时间戳、node id、接口id。解封装后,把指定周期内的采集数据上送分析器。

4)采集分析器对统计周期内的报文进行解析,上报给上层遥测应用程序。

随流检测技术在报文中逐跳增加检测数据,转发面性能影响较大,对业务自身转发性能影响也较大,数据传输效率降低,上送采集器的数据量大,对控制面上送通道及采集器影响大,当报文丢弃后采集信息也丢失,无法实现逐跳丢包检测。

RFC 8321(报文染色技术)是一种基于端到端,主要基于IP包守恒原则:对于穿越网络的流量,其进入网络时的IP包数目应该与出网络的IP包数目一致(无分片情况下)。在网络中网元时间同步的情况下,通过在承载网络入口和出口分别读取报文并记录时戳,计算出报文传输的延时。该技术具有部署方便、统计精度高等突出优点。

IFIT基本原理与RFC 8321类似,采用染色机制,对网络实际流量进行直接测量,主要在用户报文插入Telemetry指令头(TIH),用于通知处理节点按指令处理,TIH还支持携带可选扩展头,可支持灵活的功能扩展。在MPLS/MPLS-SR场景中,为最大程度前向兼容,IFIT检测头封装在MPLS栈底与MPLS净荷之间,无需深度处理MPLS净荷,解决了RFC 8321在MPLS/MPLSSR场景的不足。此外,IFIT在每个节点逐点上报信息,能精准定位丢包点,实现逐跳丢包检测,图2为In-situ OAM和IFIT技术上报方式对比。

图 2 In-situ OAM与IFIT对比

通过上述研究分析,对几种随流检测技术进行综合对比,如表1所示:

表 1 几种技术总体对比

表 3 Telemetry与传统网络监控方式的对比

通过比较,随流检测技术相比传统主动测量与被动测量技术,随流检测技术具备更高的测量精度、更简化的部署运维。同时在随流检测技术中,IFIT技术相比iOAM/INT技术,具备更小开销,并实现精准的定界优势;此外,相比RFC 8321,IFIT更易兼容存量网络,易于部署,具有更灵活的扩展性。同时IFIT在提供IP业务流端到端、逐跳SLA(主要包括丢包率、时延、抖动、实时流量)测量时,可快速感知网络故障,并进行精准定界、排障,能满足5G移动承载网络精细化运维的重要手段。

3.2 Telemetry技术

网络遥测技术Telemetry是一项远程的从网络设备上高速采集数据的技术。设备通过推模式(Push Mode)周期性的主动向采集器上送设备的状态(如光模块质量)和性能数据,提供了更实时、更高速的数据采集功能,非常适合IFIT检测数据的采集。

Telemetry基于YANG(Yet Another Next Generation)模型组织采集数据。YANG是一种数据建模语言,可以作为各种传输协议操作的配置数据模型、状态数据模型、远程调用模型和通知机制等。YANG数据模型定位为一个面向机器的模型接口,明确定义数据结构及其约束,可以更灵活、更完整地进行数据描述。业界主流设备北向接口正逐渐采用YANG数据描述规范,因此Telemetry支持向第三方数据分析处理公司开放API,方便设备与第三方对接。IFIT还需要设备支持高精度的采样周期、上送通道带宽小的北向协议Telemetry,才能在5G移动承载网中提供大量的基于业务流级,实时、高精度、准确反馈客户实际流量的性能检测,从而提升5G时延、丢包率敏感类业务的用户体验

4 5G移动承载中的IFIT随流检测技术应用

5G业务对时延、带宽提出了更高要求,网络丢包率、时延等SLA是影响传输带宽的关键因素之一。可是,在5G移动承载场景中,对于网络性能劣化类故障(如少量丢包、时延过大等)往往难以快速排障定界,是网络运维的一大痛点。为保障5G移动承载网络提供高质量、稳定可靠的网络服务,可在5G移动承载网络中部署基站粒度N2/N3流量的随流检测技术,开启IFIT逐跳检测,实现对网络故障快速定界,如图3所示

图 3 端到端业务SLA随流感知、故障定位

采用IFIT+Telemetry实现全网实时性能数据的采集,可构建大数据智能运维系统,对网络可能发生的风险进行分析评估、调整优化,实现自动化、智能化的运维。在5G移动业务承载场景部署IFIT随流检测技术,结合控制系统,可实现全网基站7*24小时N2/N3流量监控,E2E SLA可视化,实时掌握网络健康状况,在故障发生前进行干预、调整,主动运维,降低网络故障发生率。对于网络出现异常故障,无法保证业务SLA指标,网络可按需开启随流IFIT逐跳监控,快速排查故障点,进一步提升5G承载网SLA感知及网络运维效率。

5 总结

移动网络从LT E逐渐演进到5G,无线业务从带宽、时延、连接灵活性等多方面提出了更高要求,同时也对IPRAN移动承载网络提出了新的要求。相比传统检测技术,IFIT基于随流测量原理,提供更高精度的SLA测量,同时支持双归、ECMP/LAG等各种灵活组网场景;另外,IFIT吸收iOAM/INT等随流检测技术优势,提供更好的扩展性,同时使用染色机制降低复杂度,相比iOAM/INT引入更少的开销,更适合承载网应用场景。IFIT提供IP业务级的端到端和逐跳测量,满足日常运维监控及故障快速定界等诉求,是未来5G移动承载的重要运维手段,同时也是运营商降低Opex重要手段。■

猜你喜欢
报文时延运维
基于J1939 协议多包报文的时序研究及应用
以太网QoS技术研究及实践
计算机网络总时延公式的探讨
计算机网络总时延公式的探讨
基于Python的汽车CAN总线报文格式转换系统的设计与实现
基于物联网的IT运维可视化管理系统设计与实现
基于报文类型的限速值动态调整
基于GPS的电力运维轨迹定位系统
IT运维管理系统的设计及应用
《舍不得星星》特辑:摘颗星星给你呀