张誉 刚占博 王望 商龙
摘 要:采用故障树分析法,对某装备网络通讯链路异常故障进行分析,对导致通讯异常的各线路进行分析,定位故障原因,并制定解决措施,保证装备的可靠性。
关键词:网络交换设备;故障分析;通信链路
1 通信异常现象及故障问题定位
某装备通电检查时,主机1、主机2出现异常报故现象,当主机1作为主控端时,故障显示为:主机1接收主机2故障”,当主机2作为主控端时,故障显示为:主机2接收主机1故障”。系统断电重新启动后,故障依旧。
根据主机1与主机2之间的交联关系,判断此故障为主机1与主机2之间通信链路异常所致,而主机1与主机2之间的信息交互备份是通过网络交换设备进行的。通过监控网络数据,发现网络交换设备与主机2之间的通信链路时通时断,定位为网络交换设备故障。
2 网络交换设备工作原理
网络交换设备由冗余交换板、路由交换板、电源板、底板、航插板、转接板等部分组成,冗余交换板是网络交换设备的主交换功能组件,两块板卡冗余备份,均对外提供百兆交换网口和镜像网口,两块交换板之间通过千兆网口互联。路由交换板实现网络交换设备冗余镜像网口功能和单网口功能。电源板为冗余交换板和路由交换板供电。底板提供冗余交换板、路由交换板、电源板信号互联和物理承载功能。航插板承载网络交换设备各航插连接器,汇集电源和串口、以太网口信号。转接板为背板和航插板之间信号传递提供物理通道。
如图1所示,交换板A和B 为冗余交换板,为两块同样的板卡,其出来的P1至P7网口均互为备份。双口主机1-7为双网卡设备,两网口逻辑上为一个网口,共享同一个IP和MAC 地址,其中一个为active 模式,另一个为block 模式,终端A和B同时只有一个工作。
所有终端设备均为百兆网口,交换板A和B支持基于端口的镜像,配置接口为SPI,CPU通过SPI总线管理交换芯片,处理器负责板卡的状态监控,通过网口实时上报板卡的状态信息,包括各端口的up/down、速率和全半双工信息及其变化。CPU的监测网口接入网络交换设备,将板卡监测信息上报给监控设备。
路由交换板包含两个独立网络交换设备C和D,其中网络交换设备D实现单口终端A和B与冗余交换板A和B互联,网络交换设备C实现双口记录设备与冗余交换板A和B的镜像端口互联,网络交换设备C上的各网口均设置为不同VLAN内,防止广播风暴,且不影响端口镜像功能。
3 故障定位
网络交换设备有A、B、C、D、E、F、G、H 共8个端口,采用测试设备对各端口逐个测试,发现F端口工作异常,现象为网络交换设备与测试设备之间数据包时通时断,通信链路不稳定,其他端口工作正常。根据网络交换设备的故障现象,首先网络交换设备进行功能测试,陪测设备包括28V电源、测试计算机和测试线缆。
通过对网络交换设备进行功能测试,发现该设备接口板的通信链路不稳定。
根据网络交换设备功能测试发现的故障现象,并结合设备的软硬件设计原理进行下一步分析排查,列出网络交换设备F端口工作异常的故障树,如图2所示。
对上述故障树因素逐个进行排查如下:
X1 冗余交换板A故障
打开机箱上盖,目视冗余交换板A电源指示灯和工作指示灯指示正常,通过调试串口和网口访问板卡处理器工作正常,该故障分支可排除。
X2冗余交换板B故障
打开机箱上盖,目视冗余交换板B电源指示灯和工作指示灯指示正常,通过调试串口和网口访问板卡处理器工作正常,该故障分支可排除。
X3路由交换板故障
打开机箱上盖,目视路由交换板电源指示灯和工作指示灯指示正常,通过调试串口和网口访问板卡处理器工作正常,该故障分支可排除。
X4 電源板故障
故障放生时,各交换板电源指示灯正常,网络交换设备正常工作,该故障分支可排除。
X5 转接板故障
目测转接板和航插板对插的连接器外观正常,螺钉紧固正常;目测转接板和交换背板对插的连接器外观正常,但固定该连接器的三组合螺钉有松动现象,将网络交换设备断电后使用十字螺丝刀紧固该螺钉。将网络交换设备重新上电,进行功能测试,网络交换设备所有接口功能正常,并通过长时间测试,F端口通信链路稳定,故障消除。
X6 航插板故障
目测航插板上各航插连接器外观正常,螺钉紧固正常。目测转接板J1与航插面板J2连接器对插紧固正常,没有松动现象。该故障分支可排除。
X7 交换背板故障
目测交换背板上各CPCI插板连接器外观正常。转接板J2与交换背板J9连接器对插紧固螺钉松动,紧固后故障消除。
4 故障机理分析
转接板作为交换背板与航插板之间的信号互联,包括全部网口和调试接口,转接板与交换背板之间通过三组合螺钉紧固,三组合螺钉松动引起转接板与交换背板A1针脚接触不良,造成网络交换设备物理链路故障,最终导致网络交换设备与主机2等外设之间通信异常。转接板部分信号定义如表2所示。
现场采用网络交换设备专用调试线缆和测试设备进行网络交换设备单机功能测试,网络交换设备F端口通信链路不稳定,该故障现象与检查通电时故障现象相同,故障复现。
结束语
基于以上故障问题排查情况,对生产组装人员进行培训,在《网络交换设备装配工艺》中增加对固定螺钉进行涂胶处理,增加对转接板与交换背板之间的固定螺钉扭矩检查。
网络通信异常问题是大型交联系统的常见问题,在问题排查的过程中应运用科学的方法剖析症结,总结可能导致的关键因素并归类分析,从而找到发生问题的根本原因。此次采用故障树分析法,高效的找到问题原因,并排除故障。