赵保珠 李楠 张家慧 魏正荣 陈大卫
(国网上海信通公司 上海市 200072)
传统的分组网络运维,由于配置、拓扑、链路状态等网络性能指标不可视化,无论是处理网络故障,还是变更调整业务,严重依赖运维人员的经验能力以及从业人员的责任心,配置记录缺失错漏、人为失误等都极易造成网络中断的事故,这为网络留下了大量隐患。加上业务、网络、IT等系统互相独立,需要分别维护,部门间互相协调配合,效率低。随着业务的增加,网络规模不断扩大,业务系统变得复杂,维护效率越来越低,运维人员身累心也累,业务部门由于业务受影响,抱怨也难以避免。于是SDN,大数据运维,运维AI等技术不断涌现,大大提高了网络的运维效率。但是SDN等技术的部署和应用,离不开对于网络实际状态的感知,实时性越高、精度越高,控制器对网络的分析控制、变更调整也就越准确。由此,Telemetry技术应运而生,它可以实时、准确、快速地采集到有关网络运行的各类数据,并加以分析处理,同时,将数据传递给网络控制器,实现网络的精确调优等。
2021年5月至2021年6月,国网上海市电力公司信息通信公司联合深圳市特发泰科通信科技有限公司组织开展了“基于切片分组网SPN技术的虚拟电厂多业务智慧融合承载平台”科技创新项目实施。通过实验网络,从业务的角度研究验证了SPN网络技术承载虚拟电厂业务的可行性。SPN作为电力融合通信的承载网络,其网络的运维管理能力必须高效可靠。SPN的运维管理,将融合大数据运维、运维AI等新技术,采用SDN为架构,由此需要一种能够实时、准确、快速地采集到有关网络运行的各类数据的技术,为上层的SDN应用、控制提供数据支撑。就目前来看,telemetry是最值得关注的技术。
Telemetry技术到底是一个什么样的技术呢?简单来说,Telemetry技术是一项远程的从物理设备或虚拟设备上高速采集数据的技术,且采集颗粒度精细,采集数据种类多而全面,同时设备通过推模式(Push Mode)周期性滴主动向采集器上送设备的状态数据和统计数据,相对传统拉模式(Pull Mode)的一问一答式交互,TELEMETRY提供了更高效、实时、精确的数据采集功能。
TELEMETRY技术作为一个网络监测技术,分为网络设备侧和网管系统侧两大部分,对于网络设备侧,TELEMETRY负责采集设备状态和统计数据,推送给网管系统侧。TELEMETRTY按照YANG模型组织数据,利用GPB格式编码,并通过GRPC协议传输数据,数据获取更高效,对接更便捷;对于网管系统侧,telemetry技术负责接收和存贮网络设备侧上报的数据,经过分析器分析后为网络配置调整和流量优化提供依据。telemetry技术原理框图如图1所示。
图1:telemetry技术原理框图
相比较传统的网络监控技术,telemetry具备几大优势:
(1)Telemetry的实时性更好。SNMP通常的监控数据的采集周期为5分钟(分钟级),采集的数据通过网络传输后,还会受到网络传输时延影响,导致实时性差,不能反映网络的微冲突。而telemetry为亚秒级,推送的采集报文内含时间戳,所以不受网络传输时延影响,能反映出具体时间点的可观数据、事件,亚秒级的推送周期,也能更好、更真实地诊断出网络的微冲突。另外,拉模式很难支持超大规模网络,而telemetry则能够支持大规模网络的实时监控。
(2)Telemetry的采集数据更全面。Telemetry可以采集网络流量数据、控制平面数据、管理平面数据,涵盖了网络运营过程的全部数据。而传统的运维管理技术,需要多种工具协同,还存在监控的数据死角。比如NetStream、sFlow只能监控网络流量数据,对控制平面数据就无能为力,syslog则是监控网络事件,做不了其它。Telemetry支持采集和分析的数据包括:设备、单板、芯片、接口、队列、光链路等等。
(3)Telemetry的效率更高。传统广泛使用的SNMP和CLI,是采用“拉模式”,需要网管设备发出查询申请,网络设备进行报文解析,然后再依据网管申请作出应答,对网络和网络设备的资源消耗大,性能要求高。而telemetry则采用“推模式”,网管设备向网络端订阅需要采集上报的数据类型、频度等,网络设备主动上报。且一次订阅,长期运行,简化了查询申请和报文解析的过程,因此效率更高,也减少了对网络设备资源的消耗。如图2所示。
图2:SNMP与telemetry信息采集模式对比
(4)Telemetry的数据更加标准。Telemetry采用GPB对采集的数据进行编码,采用YANG模型对采集到的数据进行建模处理,并通过GRPC(Google Procedure Call Protocol)协议传输数据,使得数据的获取更高效,智能对接更便捷。且标准化的数据模型,也有利于网络的扩展。而传统的CLI,Syslog等都无明确的数据模型要求,扩展性差。如图3所示。
图3:telemetry的数据标准化
狭义的telemetry仅指网络设备支持telemetry数据采集的功能,但是,广义的telemetry还包含了对采集的数据进行存储、分析以及以及控制等应用。由telemetry快速精准地掌握网络实时状况,为上层的管理、控制、应用服务赋能,实现智能的管理运维、流量调优、端到端的性能实时监控等应用。采用telemetry技术后的网络架构后,网络模型将如图4所示。
图4:基于telemetry技术的网络新架构后
Telemetry技术为智能运维赋能,有一个重要应用,就是网络流量的自动调优,这也能大大提升网络的运维配置效率和网络的健壮性。智能运维系统包括分析器、采集器和控制器等,采集器利用TELEMETRY技术采集IP网络设备的带宽利用等数据,然后发给分析器进行分析决策,分析器将决策结果发送给控制器,进而由控制器调整流量转发路径。得益于Telemetry技术高效、精确、实时数据采集功能,用户对流量路径的变化真正做到无感知,大幅提升用户体验!如图5所示。
图5:基于telemetry实现网络调优
Telemetry的另一大应用就是实现Inband-OAM,即带内业务质量检测。由于Inband-OAM是基于真实业务流做出网络业务质量检测,相比传统的方式更加准确高效。而端到端的业务质量实时监控能力,则是其带来的又一大提升。如图6所示。
图6:Inband OAM(带内业务质量检测)
国网上海市电力公司信息通信公司在进行SPN电力通信承载网试点验证业务承载能力的同时,也对网络的telemetry技术和OAM进行了能力测试。重点测试了网管对网络性能监控的准确性、监控参数、以及流量调优应用能力等。
测试项目1:验证设备是否支持telemetry功能,网管可以通过订阅的方式获取网络性能参数,报文符合规范:
如图7所示搭建测试组网,完成相关配置,被测设备与服务器之间建立Telemetry会话,以CPU和内存为例来进行验证(期待结果:设备可以通过Telemetry协议接口主动将CPU利用率、内存利用率推送到服务器)。
图7:telemetry验证测试组网图
验证结论:设备支持性能上报接口telemetry功能,抓包分析设备上报的telemetry报文符合规范。
测试项目2:验证测试基于telemetry的In-band OAM的端到端和逐跳性能监控能力:
在上海电力实验室配置5台SPN设备,部署端到端HOVPN业 务,NE26/NE39/NE63为UPE,NE61为SPE,NE62为NPE,依次部署NE26-NE62端到端和逐跳IOAM实例64个,通过仪表测试(思博伦)结果和网管上报结果,对比验证IOAM的性能。
验证结论:试验设备支持端到端监测实例为64个。在测试结果上,制造的丢包书、IOAM实例的总丢包数和仪表每条的总丢包数一致,差值为0个;丢包流结果绝对偏差不超过+/-3%,串入10km和20km光纤,IOAM实例的平均时延和仪表平均时延偏差不超过+/-10%。
测试项目3:验证基于流量拥塞的自动路径优化功能,在各种流量分析数据中优选,近似于业务真实流量,隧道可以基于流量信息自动进行优化路径。
部署源深和灵石路之间的SR-TP隧道1和SR-TP隧道2,隧道均为无保护隧道,配置带宽CIR为0,采用负载均衡算路策略;仪表分别为隧道1和隧道2 加载3G流量;控制器开启基于流量的调优功能,流量采集时间周期配置为15min,全局拥塞阈值配置为10%。等待至少2个流量采集周期后,查看控制器自动调优结果(期待结果:隧道1和隧道2的路径相同,预期均走的橙色实线路径)。
验证结论:经过数次测试验证,隧道1和隧道2均能完成路径切换,测试网络具备基于流量调优的功能。
Telemetry技术可以满足用户要求,支持智能运维系统管理更多的设备、监控数据拥有更高精度和更加实时、监控过程对设备自身功能和性能影响小,为网络问题的快速定位、网络质量优化调整提供了最重要的大数据基础,将网络质量分析转换为大数据分析,不仅能提升分组网络的可运维能力,还有力地支撑了分组网络智能运维的实现。telemetry的数据采集能力、性能监测能力、流量调优能力等,在本次项目中已经得到了初步的测试验证,有助于提升分组网络运维能力和网络性能。
Telemetry技术,其精准的数据采集能力,可以帮助SDN实现无感的拥塞流量调优;其实时数据采集能力,能够实现网络流量的微突发检测,避免微突发流量带来的丢包与重传,提升网络性能;全面的数据采集则可以打开网络黑盒,提升分组网络的可运维能力和性能。Telemetry技术带来的网络数据“可观测性”,在网络安全方面也有很大的应用空间。未来,Telemetry技术必将得到更多的具体应用。