鱼兆虎 王永艳 王勇
摘要:接入层交换机是局域网中连接用户和汇聚层或核心层的重要桥梁设备,它的工作状态的好坏直接影响着整个局域网的运行稳定性。该文讲术的是由于交换机操作系统存在BUG或系统版本低下引起的故障!由于这种因素引起的网络故障现象发生机率并不高,解决起来可能会走一些弯路,为此现在就将该故障的具体解决过程详细陈述出来,以提醒网管人员在处理类似的网络故障时,重视对交换机操作系统的检查,以便快速排除故障。
关键词: 操作系统;网络故障;交换机
中图分类号:TP393 文献标识码:A 文章编号:1009-3044(2014)28-6627-02
随着医院信息化的发展,医院的基础网络架构变得越来越复杂,新网老网并存,内外外网并存,医院网络带宽需求也越来越大,网络故障的频率越来越高,而且,一些少见的比较隐性的、怪异的故障,解决起来费时费力,接入层交换机,作为网络中的重要一环,一般情况下,只要是主流的品牌交换,性能还是比较稳定的,不过,这并不意味着交换机设备不会发生故障,随着工作时间的推移,工作使用环境的变化,交换机内部的元器件也会发生老化现象,由于出厂时间较早,交换机本身的操作系统不够成熟,当某个网络事件发生时,容易触发交换机工作性能下降,此时交换机发生故障的机率就比较高了。该文下面的一则网络故障,就是由于交换机操作系统版本较低,使得在某一网络环境下性能急剧下降,导致部分局域网出现无法上网的故障!由于该故障少有发生,解决起来比较棘手,为此笔者就将该故障的详细排查经过还原出来,与各位朋友共同交流! [1]
1 故障现象
1.1 网络环境
发生故障的区域是我院的体检中心,其网络环境见原拓扑图,体检中心共有26个终端工作站,用两台24口的华三S3100百兆交换机,通过又胶线级联后再用多模光纤上联至华三S7506E核心交换机,二层纯内网架构,两台级联的交换机单独划分在一个VLAN里,使用时间也就两年多。
1.2故障表现
某天下午突然接到体检中心电话说收费电脑的网不通了,工作站进不了,当信息科工作人打开威盾内网安全管理软件查看时,发现该科室有多处工作站不通,随到现场排查,发现Ping主服务器不通,但约二三分钟后又都自动通了,通了后全天都正常,接下来的几天,都是早上七点四十到八点刚上班那段时间,也总是出现类似故障,偶尔下午也会发生一两次,开始时,一周只有一两天发生,后来几呼天天早上都会发生,早上体检人多时,严重影响正常医疗工作。故障模拟如下:
部分PC(PC-1,PC-4) PING HIS服务器通畅,PC-2、PC-3 Ping主服务器不通畅;此时,交换机V30,V36的CPU使用率瞬时达到65%以上后立即又恢复正常;PC-1 ping PC-2通畅,PC-1 ping PC-3不通畅,ping HIS服务器不通畅。
2 分析与检修
出现断网后:1) 通过TELNET能够远程登录到两台交换机,说明从核心到该接入层交换机是通的,查看了交换机的CPU使用率、日志及STP状态,除了个别端口反复UP或DOWN外,均未发现异常,怀疑是个别电脑跳线接触不良引起的,于是,更换了端口反复UP或DOWN的那两台工作站电脑跳线、网卡及墙上的超五类模块,交换机出错日志如下:
2) 通过上面的排查处理后,故障还是存在,重启交换机能好一会儿,但第二天还是有类似故障发生,只是交换的端口没有上面的出错日志了,日志发给交换机厂商分析说机器没有问题,于是再自行排查,将原先两台做级联的交换机,增加了一条链路,两交换机都用光纤连到核心交换机上,如上图中的现拓扑。
3) 采用不同链路以后,故障还是存在,于是又做了如下排查:
将一台同型号的备用新24口交换机更换了其中一台;怀疑电压不稳,又给两台交换机配上了UPS后备电源;咨询了几家网络公司,为防止STP波动,启用了交换机的边缘端口,甚至将STP协议滤过掉,故障还是会发生;怀疑是体检中心某台设备引起的,信息科人员早上去蹲点,一台一台帮他们开机,还是没发现问题所在。
4) 怀疑有病毒或网络风暴,请网络公司过来测试流量也没发现问题,考虑到总是在早上发生,当所有PC同时启动时,交换机CPU使用率有个一过性的急速上升,数据处理能力下降,导致部分数据不能从交换机(V30)传输出去,由此怀疑交换机处理能力不足导致,于是,使用高性能24口千兆交换机H3C S5120 SI 替换V30(h3c s3100)百兆交换机,进行测试,结果,接在千兆交换机上的电脑,故障消除,接在百兆交换机上的电脑,故障依然存在。
5) 两台百兆交换机才用两年,难道会同时老化,处理性能下降了,何况换了一个新的同型号的备用交换机也不行,难道真的都要用千兆的吗?经多方咨询怀疑是交换机系统版本太低引起的,虽然不能确认上述故障就是由交换机后台系统的版本太低引起的,但是,我們知道最新版本的后台系统存在的BUG会更少,运行起来自然也就更稳定,于是,先将故障交换机通过搭建FTP服务器对交换机的操作系统进行升级,从低版本操作系统Release 5103P01升级到新版本Release R5203P07。[2] 结果,连接在千兆和百兆交换机上的电脑一切正常。
6) 将另一台原先的百兆交换的操作系统也升级到最新版本,换回那台千兆的交换机。升级后,两台原来的百兆交换机,除了交换机的内存使用率比原来高些,达到50%,其它情况一切正常,各终端工作站的应用也都能正常使用。
3 讨论
交换机故障问题大致包括物理层故障、端口协商以及自环问题、Vlan问题、设备兼容问题等,从上面的故障排除过程来看,当出现网络故障时通常按以下步骤检查排除:(1)根据故障信息分析故障类型,尽量按照先易后难的顺序,如:是硬件故障还是软件引
起的故障;(2)确定故障范围;(3)进行故障隔离,对故障范围内的网络基础设备,在排查故障时尽可能地按照“终端工作站-连接线缆-端口模块-网络跳线-交换机”这样的顺序依次逐一进行排查[3]。当然,网络故障原因复杂、多变,还存在一些用常规方法无法排查的疑难故障,比如网络病毒、网络拓扑缺陷、个别元器件老化等,这些故障没有特有规律可寻,不妨静下心来多想想自己平时很少注意到的一些细节因素,依靠自身的经验积累和借助一些网络工具来分析解决。另外,我们在购买交换机组建局域网的时候,应该去选用那些质量可靠、品牌过硬、内存容量较大的交换机设备,毕竟这样的设备自身有较强的抗干扰能力。
参考文献:
[1] http://network.51cto.com/art/201001/176044.htm.
[2] http://network.51cto.com/art/200912/169625.htm.
[3] 何其才,陈芳.网络联通性故障的排除方法[J].医疗卫生装备,2007,11,28(11).