陈楠
(民航珠海进近管制中心,广东珠海,519015)
2021年3月,为进一步推进粤港澳大湾区的空域优化管制服务,民航珠海进近管制中心进行了珠海终端区转场工作,同时正式启用了全国民航系统推广的民航通信网作为重要的地地通信传输体系。自转场完成后,民航珠海进近管制中心民航通信网TDM承载网的eSight监控上长期性断续出现两起TDM业务中断告警,引起了值班人员的关注。通过不断地进行测试与排查,最终确定引起故障地原因为设备地以太网端口模式不匹配导致。本文通过对实际运行出现地两起故障案例进行铺陈介绍,并详细地介绍了故障分析思路与解决故障实际采取的措施,通过结果反面印证解决方案的有效性,并进一步总结了出现该类以太网端口模式不匹配的可能原因,以供读者参考。
自2021年3月开始,珠海进近管制中心民航通信网TDM承载网AR3260设备上有一路雷达长期出现频繁瞬断现象。通过在民航通信网TDM承载网的eSight监控上设置对该端口的流量性能监控,监控该雷达接口的流入及流出带宽利用率,并截取一周时间内该端口的性能监测数据曲线,如图1所示。
图1 雷达端口性能监测数据
由图1的雷达端口性能检测数据曲线可以看出,该端口每天均有数次业务瞬断的现象发生。若该路雷达长期出现频繁瞬断的情况,瞬间变化状态期间极易对接入该雷达的管制自动化系统的目标点迹融合处理结果产生干扰,影响自动化系统计算得到的飞机航迹的精确度,对管制员的空中交通指挥工作带来影响。而若将此端口雷达业务进行长期屏蔽处置,则无法有效覆盖该雷达扫描区域范围内的飞机,易出现飞机点迹位置偏移,甚至是飞机点迹识别不到的现象,对管制员的空中交通指挥工作带来不利影响。
2021年3月自珠海终端区转场完成后,珠海进近管制中心民航通信网TDM承载网AR3260设备节点上长期出现两路甚高频超控业务频繁瞬断的现象,监控告警提示为“VC状态Down”告警。这两路甚高频超控业务出现该情况的告警频次较高,且持续时长从十几秒至几小时不等。图2为随机选取的两天时间内出现的该告警情况的日志记录。
图2 甚高频超控业务频繁中断
甚高频业务是管制员进行空中交通指挥工作时所使用的地空通信手段,通过甚高频业务可以完成管制员与飞机机长之间的信息交流通信。甚高频超控业务是相邻两个管制区域内所配备的共用甚高频业务,超控方管制员使用该甚高频业务作为应急业务,当原指挥方管制员的甚高频业务出现异常时,超控方管制员可以在危急情况下使用该甚高频超控业务指挥飞机进行盘旋、复飞等处置。这两路甚高频超控业务长期性出现频繁中断的情况,可能会导致甚高频超控业务在发生紧急情况下不可用,影响管制的空中交通指挥工作和飞机的飞行安全。
对以上两起故障案例进行原因排查分析,发现“VC状态Down”告警的直接导致原因是两个华为AR3260设备节点之间的LDP标签分发协议的对等体均进入下线状态,此情况可能为中继链路不通,或中继链路出现路由震荡等原因导致,但无法直接判断是由具体何种原因导致。经过持续性地观察,发现在出现以上两路甚高频超控业务“VC状态Down”告警情况的同时,经常性会伴随出现该设备节点的上联干线端口由“全双工”模式自协商为“半双工”模式的告警提示信息,如图3所示。
图3 “全双工转换成半双工” 提示信息
根据如图3所示的以太网端口模式的变更情况,对发生以上两起案例的民航通信网TDM承载网的华为AR3260设备节点的以太网干线端口、业务端口状态及业务配置情况进行逐一排查。如下图4为一台华为AR3260设备以太网干线端口的状态显示,可以看出该端口的双工模式为“半双工”,自协商功能已使能,对比原先配置的“全双工”的工作模式,可以看出该业务端口已经被自协商为“半双工”模式的状态。
图4 AR3260设备以太网干线端口协商为“半双工”模式
经排查所知,民航通信网TDM承载网的配置规范中并未涉及到对端口模式的配置,因此民航TDM承载网AR3260设备节点的各干线端口设置均为默认的“自协商”模式,同时发现部分端口模式自协商为“全双工”模式,而部分端口模式自协商为“半双工”模式。而自协商成“半双工”的情况总结有以下两种:
(1)华为AR3260设备与交换机之间的端口速率适配问题
华为AR3260设备的端口为百兆速率网口,而交换机端口为千兆速率网口,两个直连的端口速率不一致,经过端口的速率自协商适配后会偶发性地出现端口协商成“半双工”的模式,导致业务中断。
(2)华为AR3260设备与光端设备以太网端口设置协商问题
华为AR3260设备端口初始设置为“自协商”模式,光端设备以太网端口初始设置为“全双工”模式,但最终华为AR3260设备端口经自协商后变为“半双工”模式。根据华为官方手册的说明文档可知,在两个节点之间的直连端口,如一端端口为自协商模式,另一端端口为全双工模式,则模式为自协商的端口将协商为“半双工模式”[1],导致业务中断。
图5 TDM网拓扑图(含隐患标识)
根据对故障情况进行原因的排查分析可知,以上两起故障案例所出现的TDM业务瞬断情况均是由设备节点的以太网端口模式不匹配所致。以太网端口模式主要指以太网端口的连接速率、双工模式及协商模式[2]。目前在以IP网络为基础的网络设备中,常见的以太网端口的连接速率有10M、100M和1000M三种,双工模式有半双工模式和全双工模式两种,协商模式有自协商模式和不协商模式。
“半双工”工作模式表现为允许两台设备节点间传输的数据在两个方向上进行,但同时只允许一个方向的数据传输。而“全双工”工作模式在“半双工”工作模式的基础上,允许两个方向的数据同时进行传输。若以太网端口工作模式为“半双工”模式时,在双方传输的业务数据量较小时,业务能正常进行通信,而在业务数据量较大时,就会造成业务的完全中断现象。实验证明在流量达到15%及以上时,以太网中会存在冲突、错包、甚至业务中断现象[3]。
自协商指链路两端节点自主进行信息交换与协商,通过侦测对端的通告信息,如连接速度、双工模式等[4],从而相互协商出匹配双方最好的连接性能。但端口处于自协商阶段时,端口出现数据量过大或网络出现延迟抖动等情况,数据碰撞及丢包现象会增多[5],这些情况可能导致最终协商不成功,一方出现“全双工”模式,而另一方出现“半双工”模式的现象,最终引发上述两个故障案例中的TDM业务中断现象。
根据实践结果证明,将民航通信网TDM承载网的AR3260设备上联以太网干线端口配置手动修改为“强制全双工”模式,并联系相应运营商将光端设备的对应端口配置手动设置为“强制百兆全双工”后,未再出现以上两个故障案例中的雷达中断和甚高频超控业务瞬断的告警现象。图6为雷达业务恢复后的性能监测示意图,可以看出在修改配置后的后续持续性观察中,故障恢复后的雷达业务端口的流入及流出带宽利用率均保持较为平滑的曲线,未再出现瞬断的现象。
图6 雷达端口性能监测数据(已恢复)
本文分析了两个实际运行情况中出现的民航通信网TDM业务中断的故障案例,给出了详细的故障原因排查思路和分析方法。首先对故障现象及监控提示的告警信息进行分析,提出可能产生的原因列表。再通过持续性的故障情况汇总,进一步对已发生的相关故障情况进行关联,就同时间引发的告警事件信息进行比对及相关性分析,确定故障出现的直接原因。然后通过对各华为AR3260设备节点的以太网干线端口、业务端口状态及业务配置情况进行全面排查,总结分析各类可能的以太网端口工作模式情况,找到故障点,并提出相应的解决方案。最后通过在逻辑推演及相同设备实验平台的充分实践测试得到可行性结论,证明解决方案切实有效。最终在实际运行平台采用可行性解决方案施工验证,解决以上两个实际故障案例中的雷达中断和甚高频超控业务瞬断告警故障。
产生以太网端口模式不匹配原因,除了上述两个实际案例出现的由以太网端口设置自协商模式,但自协商不成功之外,还可能存在以下几种情况:
(1)可能因为网线或光纤等线缆存在质量问题导致。当网线或光纤等线缆质量达不到标准时,通信网络的传输质量将会下降,可能导致原本处于“自协商”模式的端口会出现协商成“半双工”模式的现象,最终引起直连的两端以太网端口出现模式不匹配现象。
(2)可能因为以太网端口的工作模式设置不一致导致。若直连链路两端的以太网端口工作模式初始设置不一致,同时未设置“自协商”模式,两端端口无法通过自协商达成一致,可能会出现以太网端口工作模式不匹配现象,最终引起该以太网端口业务出现丢包,甚至是中断的现象。
(3)可能因为忽略端口速率适配问题而引起了以太网端口模式改变的情况。实际运用过程中,大部分的大型传输网络的架构基本都会存在路由器与交换机相连的情形。当交换机的以太网端口为千兆速率口,而与该交换机直连的路由器的以太网端口为百兆速率口时,交换机和路由器直连的两端以太网端口进行速率适配时,两端以太网端口的带宽会协商成百兆速率传输端口,与此同时,两端以太网端口协商端口速率时,可能会导致以太网端口模式由“全双工”模式切换为“半双工”模式的现象,最终出现直连的两端以太网端口出现模式不匹配情况。