引言: 笔者单位因工作需要,购置了4台服务器连接到网络中。将4台服务器装好系统,连接好网络的时候,发现整个服务器局域网网络延时非常高,甚至经常有丢包现象,而且发生延时的服务器还在变化。经一步步测试排查,终于解决了问题。本文向大家介绍故障排查及解决的过程。
公司近期采购了4台服务器(联 想X3850X6),用 作虚拟化服务器,安装了VMware ESXi系统,每台服务器均有4个RJ45千兆网口(以下简称电口),2个光适配器,每个光适配器有2个万兆光纤口,总计4个万兆光口(以下简称光口)。为了保证业务连续,每台服务器管理网络与应用网络需要分开,并且管理网络与应用网络均需要做负载均衡。公司拥有两台HP5406企业级交换机,用作机房服务器汇聚。每台HP5406汇聚交换机均拥有1个光模块(HP J9538A),5 个电模块 (HP J9534A),如图1所示。
图1 模块信息图
每个光模块拥有8个光插槽,最多可以8个万兆光纤收发器;每个电模块拥有24个千兆网口;两台交换机的A1-A4都已经用作上联核心交换机,剩余A5-A8光口可以用,正好可以连4台服务器,用作服务器的应用网络(运行应用业务数据),交换机的电口F3-F6连4台服务器的电口,用作管理网络(管理ESXi机和用作VMotion)。连线情况如表1、表2所示。
简单来说就是每台主机都接了2根网线和2根光纤,2根网线分别上联2台交换机用作管理,2根光纤分别上联2台交换机用作跑应用,都用2根线则是为了负载均衡或防止单点故障。
4台服务器都装好系统,连接好网络的时候,发现整个服务器局域网网络延时非常高(通过Ping命令测试),高达几百毫秒,甚至经常有丢包现象,而且奇怪的是不是这四台联想服务器卡,是局域网内其他服务器延时(如域控、RTX、PDM、K3、CAD等),并且不是所有服务器一起延时,而是一会这台服务器卡,一会另外一台服务器卡,并且本人Ping CAD卡的时候,别人Ping CAD又正常,但是他可能Ping k3卡,而且延时的服务器还在变化,一会又变成另外一台机器卡,现象非常神奇。
表1 与交换机1连线说明
表2 与交换机2连线说明
1.由于是新连接了服务器之后网络才开始出现这种延时现象,所以首先把4台服务器连接到交换机上的网线光纤全部拔掉,果然网络延时现象立马消失,由此可以判断,是这4台服务器引起的故障。
2.为了定位到底是哪台机器引起的,采取逐步接入的方法找出故障点。先接入ESXi3的VNET04到huiju1的A5口,观察发现网络正常。再接入ESXi4的VNET04到huiju1的A6口,没过几分钟,网络延时现象出现,拔掉A6口光纤,延时现象立刻消失。难道是交换机承受不了同时2台万兆网卡服务器接入?细细想来不太可能,毕竟HP5406是企业级交换机,不应该在性能上承受不了。
继续测试,在ESXi3连接A5,ESXi24不连A6的时候,再将ESXi25的VNET04口连接到huiju1的A7口,观察后发现网络也正常,之后A8口接入也正常。同样的方法测试第二台HP交换机,现象类似,也是再接入A6口之后,就网络延时,只要不接A6端口,网络就正常,唯一不同的是,二台交换机的A5口接入之后,会有少量的延时,但是问题不大,只有几十毫秒的延时。问题集中在A6端口,与此同时连接A6端口的都是第二台联想服务器ESXi4,怀疑它有问题。
3.此时分析,虽然接入两台交换机A6都有问题,且问题相似,应该是同一个问题,只要解决一个,另外一个也就好解决了。为了防止环路导致的情况影响测试,故采取只连一台服务器的方式继续寻找根源。根据线路走势,怀疑对象分别为:服务器ESXi4、光纤、光纤收发器、HP交换机。
4.为了测试联想服务器是否有问题,采取交差测试的方法,将ESXi4连到之前测试正常的端口A7,观察一段时间,发现网络正常,此时A5、A8端口也都连着设备,网络依然正常,排除联想主机问题、排除光纤问题(因为光纤用的是原来的光纤)。
5.此时只剩下光纤收发器和HP交换机需要测试,再交换测试光纤收发器,发现只要不连接A6端口,网络就正常,不管哪个光纤收发器只要插到A6口,连上设备,网络就发生故障,排除光纤收发器故障,问题集中到交换机上,并且两台交换机都在A6的地方有问题,可能是这款交换机有问题。
6.拨打800电话咨询,客服建议报修交换机的光模块板卡J9538A。再咨询HP总代的HP工程师,建议对交换机的系统版本降低测试。一个从硬件角度一个从软件角度怀疑,由于备件发货需要时间,3天后才能到货,故优先采取刷ROM系统版本的方法测试。
7.向总代工程师要来系统ROM文件,详细的操作手册以及相关工具,征求相关领导的同意,在下班之后,开始实施交换机版本降级。
图2 系统版本图
8.首先备份好两台交换机的配置文件,然后再开始正式实施。
在一台PC机器上允许TFTP.exe程序,将相关ROM文件放入TFTP当前目录,登录汇聚交换机huiji1,运行copy flash tftp
提示要删除primary image,按Y执行删除操作,交换机开始重装系统读秒,刚重装好系统的时候,Ping 交换机延时会比较高,CPU使用率也比较高,此时不要着急,慢慢会降下来,等一切都稳定下来之后,代表系统安装结束,执行reboot命令重启交换机即可。
运行show version,如图2所示,已经顺利刷新到我们想要的版本。
9.再将各服务器连入交换机测试,发现网络一切正常,同样的方法对第二台交换机更换系统版本,再测试,网络仍然一切正常,故障彻底解决。
1.故障发生,运维的第一个任务,把故障恢复到正常状态,因为是做了变更导致,那么就恢复到变更之前。
2.开始寻找原因,逐步变更,为分析问题提供资料,争取定位故障点。
3.分析故障,罗列可能发生故障的模块。
4.交差测试与排除法减小怀疑对象范围。
5.反复测试,再分析,直到找到最有可能故障的模块。
6.电话咨询800、与其他专家(故障处理求助)。
7.之前所述,故障处理一起都以对业务影响最小为前提,所以必须在下班以后操作,并且恢复系统本身也是一个变更操作,需要得到领导的同意方可。
8.因为经过电话求助,有详细的操作说明,实施反而是最简单的了,当然也如之前所述,备份工作是恢复网络故障的关键,所以备份操作必不可少。
9.测试验证问题是否还存在。后经询问,这两台交换机在之前曾经有同事给交换机升级过系统版本。