吴 丹,孟 娜
由于静态链路聚合自身的缺陷造成交换机无法感知到光纤模块已损坏,数据继续经此链路转发就会出现严重的网络丢包现象,影响正常通信工作。该类非典型故障发生概率低且迷惑性强,信息工程人员很难及时判断并排除故障,势必会造成正常医疗工作的中断。笔者将类似非典型网络故障的排查方法、步骤做一梳理,以期为医院信息网络工作人员提供类似故障的处理经验,并提示网络维护人员应当结合设备的使用年限定期测试、更换临界设备,预防类似故障再次发生[1]。
笔者所在医院院内网络经历过多次升级改造,形成了以2台H3C 9512E为核心,使用第二代智能弹性架构技术(IRF2)的三层网络架构[2-4],各汇聚层连接核心层采用静态链路聚合方式,主干网络达到万兆级别,经过多年运行始终保持平稳状态。但由于静态链路聚合自身的缺陷造成交换机无法感知已损坏的光纤模块,数据继续经此链路转发会出现严重的网络丢包现象,从而可能会造成内网通讯中断。
与故障相关的网络拓扑结构如图1所示。(1)核心层:由2台9512E交换机组成,各有两块主控业务板互为冗余,使用IRF2(第二代智能弹性构架技术)对外虚拟成1台交换机,2台核心之间通过心跳线相连用于同步配置和数据传输[3]。下连设备方式和地址分别是,9512E-1单链路连接服务器端汇聚层交换机,服务器地址132.X.X.200、132.X.2.88;链路1与链路2配置成静态链路聚合模式联通汇聚层与核心层[4]。(2)汇聚层:采用静态链路聚合实现,汇聚组的创建、成员接口的加入完全由手工来配置,不允许系统自动添加或删除。静态聚合模式下的成员端口选中状态不受网络环境的影响,稳定性较高[5]。S5800-1上行端口号分别是:①链路1上Ten-GigabitEthernet 1/0/25,聚合组显示XGE1/0/25;②链路2上Ten-GigabitEthernet 1/0/26,聚合组显示XGE1/0/26。(3)接入层:楼层交换机作为接入层使用并按楼层划分网段,上行单链路到S5800-1,下行连接客户端。该次故障发生的保健楼7层包含客户端地址136.X.7.7、136.X.7.17,8层包含客户端地址136.X.8.7。
图1 网络拓扑结构
最早接到的报修电话是医院保健楼7层护士站,反映地址为136.X.7.7的客户端处理和保存医嘱过程缓慢。检测发现136.X.7.7和136.X.7.17大量丢包,同时8层136.X.8.7客户端无丢包现象。陆续接到保健楼其他楼层的报修电话反映同样问题,再次确认8层客户端业务运行正常,如图2所示。
图2 通信故障测试结果
由于正常工作时间各楼层之间数据访问频繁,分析故障节点在保健楼,与核心层、服务器无关,开始逐项排查。(1)排查保健楼7层交换机。7层客户端之间访问正常,实测上行端口通讯正常,排除故障可能。(2)排查保健楼广播风暴。查看汇聚层S5800-1的CPU占用率和Ten-GigabitEthernet 1/0/25、Ten-GigabitEthernet 1/0/26端口广播包的增长情况,排除此项可能。操作如下:①第一步:键入代码
图3 CPU占用率
图4 端口状态
图5 历史数据清零后端口状态
图6 链路聚合状态
以上潜在故障点都排除以后,在S5800-1中键入命令关闭链路1上行端口Ten-GigabitEthernet 1/0/25,强制数据包经链路2转发,此时监测到7层客户端不再丢包,业务运行恢复正常[7]。同时检测8层客户端业务运行正常。对调Ten-GigabitEthernet 1/0/25和Ten-GigabitEthernet 1/0/26的光纤跳线,业务运行正常。确定Ten-GigabitEthernet 1/0/25端口的光纤模块损坏,更换光纤模块并启用Ten-GigabitEthernet 1/0/25端口,故障排除[8]。后期检测此模块光通率低于正常值。