董亚洲 郑志刚
摘 要:机房管理员在工作中,经常会遇到各种各样的交换机故障,造成网络不能正常运行,影响我们的工作、学习和生活。快速、准确的查出故障并排除故障是一个管理员的工作职责,本文就常见的故障类型和排障步骤作一个简单的介绍。
关键词:交换机;硬件故障;软件故障
交换机,英文名称为“SWITCH”。常用以太网交换机之间的连接可以通过两种方式:堆叠和级联。堆叠是指通过交换机自带的堆叠线缆,把多个交换机的堆叠模块进行连接。级联是指通过交叉双绞线把两台或多台交换机连在一起。由于各个厂商的技术不同,堆叠和级联的交换机个数也不相同。
交换机是交换以太网的核心设备,交换机一旦出现故障,与它相连接的内网设备可能出现网络功能瘫痪。这对于一个网络管理员来说交换机故障的诊断与排除的尤其重要。
1 交换机常见故障分类
所有交换机故障一般可以分为硬件故障和软件故障两大类。硬故障是指网络设备本身的硬件系统发生了故障,这类故障一般智能通过更换硬件设备来解决。交换机的硬件故障主要指电源、背板、模块、端口等部件的故障,可以分为以下几类:
1.1 电源故障
由于外部供电不稳定,或者电源线路老化或者雷击等原因导致电源损坏而不能正常工作。由于电源缘故而导致机内其他部件损坏的事情也经常发生。
如果面板上的POWER指示灯是绿色的,就表明是正常的;如果该指示灯灭了,则说明交换机没有正常供电。这类问题很容易发现,也很容易解决,同时也是最容易预防的。
针对这类故障,首先应该做好外部电源的供应工作,一般通过引入独立的电力线来提供独立的电源,并添加稳压器来避免瞬间高压或低压现象。如果条件允许,可以添加UPS(不间断电源)来保证交换机的正常供电。
1.2 端口故障
这是最常见的硬件故障,无论是光纤端口还是双绞线的RJ-45端口,在插拔接头时一定要小心。如果不小心把光纤插头弄脏,可能导致光纤端口污染不能正常通信。如果在搬运时不小心,更可能导致端口物理损坏。
一般情况下,是某一个或者几个端口损坏。所以,在排除了端口所连计算机的故障后,可以通过更换所连端口,来判断其是否损坏。
1.3 模块故障
交换机是由很多模块组成,比如:堆叠模块、管理模块(也叫控制模块)、扩展模块等等。这些模块发生故障的几率较少,不过一旦出现问题,就会遭受巨大的经济损失。导致此类故障可能的可能性有:插拔模块不小心,搬运交换机时受到碰撞,电源不稳定等。
1.4 背板故障
交换机的各个模块都是接插在背板上的。如果环境潮湿,电路板受潮短路;或者元器件因高温、雷击等因素而受损造成电路板不能正常工作。比如:散热性能不好或环境温度太高导致机内温度升高,致使元器件烧坏。在外部電源正常供电的情况下,如果交换机的各个内部模块都不能正常工作,那就可能是背板坏了。对此类故障,唯一的办法就是换背板。
从上面的几种硬件故障来看,机房环境不佳极易导致各种硬件故障,所以我们在建设机房时,必须先做好防雷接地以及供电电源、室内温度、室内湿度、防电磁干扰、防静电等环境的建设,为网络设备的正常工作,提供良好的环境。
2 交换机的软件故障
所谓软故障是指系统、配置上的故障,就是指因为误操作,错误配置,病毒等引起的网络设备的故障,这类故障通常能够通过更改设置,重新安装软件来排除,它可以分为以下几类:
2.1 系统错误
交换机系统是硬件和软件的结合体。在交换机内部有一个可刷新的只读存储器,它保存这台交换机所必须的软件系统。这类也和我们常见的WINDOWS、LINUX一样,由于当时设计的原因,存在一些漏洞,在条件合适时,会导致交换机满载、丢包、错包等情况的发生。
对于此类问题,我们需要养成经常浏览设备厂商的网站的习惯,如果有新的系统推出或者新的补丁,请及时更新。
2.2 配置不当
初学者对交换机不熟悉,或者由于各种交换机配置不一样,管理员往往在配置交换机时,难免会出现配置错误。比如:VLAN划分不正确导致网络不通,端口被错误的关闭,交换机和网卡的模式配置不匹配等原因。这类故障有时很难发现,需要一定的经验积累。
如果不能确保配置有问题,请先恢复出厂默认配置,然后再一步一步的配置。
2.3 密码丢失
这可能是每个管理员都曾经经历过的。一旦忘记密码,都可以通过一定的操作步骤来恢复或重置系统密码。有的则比较简单,在交换机上按下一个按钮就可以了。而有的交换机则通过一定的操作步骤才能解决。
此类情况一般在人为遗忘或者交换机发生故障后导致数据丢失,才会发生这种故障。
2.4 外部因素
由于病毒或者黑客攻击等情况的存在,有可能某台主机向所连接的端口发送大量不符合封装原则的数据包,造成交换机处理器过分繁忙,致使数据包来不及转发,进而导致缓冲区溢出产生丢包现象。还有一种情况就是广播风暴,它不仅会占用大量的网络带宽,而且还将占用大量的CPU处理时间。网络如果长时间被大量的广播数据包所占用,正常的点对点通信就无法正常进行,网络速度就会变慢或者瘫痪。
3 交换机故障的一般排障步骤
交换机的故障多种多样,不同的故障有不同的表现形式。故障分析时要通过各种现象,灵活运用排除方法(如排除法、对比法、替换法),找出故障所在,并及时解除。
3.1 排除法
当我们面对故障现象并分析问题时,无意中就已经学会使用排除法来确定发生故障的方向了。这种方法是指依据所观察到的故障现象,尽可能全面的列举出所有可能发生的故障,然后逐个分析、排除。在排除时要遵循由简到繁的原则,提高效率。使用这种方法可以应对各种各样的故障,但维护人员需要有较强的逻辑性思维,对交换机知识有全面深入的了解。
3.2 对比法
所谓对比法,就是利用现有的、相同型号的且能够正常运行的交换机作为参考对象,和故障交换机之间进行对比,从而找出故障点。这种方法简单有效,尤其是系统配置上的故障,只要简单的对比一下就能找出配置的不同点,但是有时要找一台型号相同、配置相同的交换机也不是件易事。
3.3 替换法
替换法是指使用正常的交换机部件来替换可能有故障的部件,从而找出故障点的方法。它主要用于硬件故障的诊断,但需要注意的是替换的部件必须是相同品牌、相同型号的同类交换机所有。
4 为了使排障工作有章可循,我们可以在故障分析时,按照以下的原则来分析
4.1 由远到近
由于交换机的一般故障(如:端口故障)都是通过所连接计算机而发现的,所以经常从客户端开始检查。我们可以沿着客户端计算机——端接模块——水平线缆——跳线——交换机这样一条路线,逐个检查,先排除远端故障的可能。
4.2 由软到硬
谁都不想动不动就拿螺丝刀去先拆了它再说,所以在检查时,总是先从系统配置或系统软件上着手进行排查。如果软件上不能解决问题,那就是硬件有问题了。比如:某端口不好用,那我们可以先检查用户所连接的端口是否不在相应的VLAN中,或者该端口是否被其他的管理员关闭,或者配置上的其他原因。如果排除了系统和配置上的各种可能,那就可以怀疑到真正的问题所在——硬件故障上。
4.3 先易后难
在遇到故障分析所得的可能性较多、较杂时,必须先从通过简单操作或配置来着手排除。这样可以加快故障排除的速度,提高效率。
5 总结
由于交换机故障现象多种多样,没有固定的排障步骤,而有的故障往往具有明确的方向性,一眼就能识别得出。所以只能根据具体情况具体分析,我们主要以预防为主,要注意机房的环境卫生,温度和湿度;操作时按规范要求进行;做好软件及配置文件的备份工作。当发生故障时,及时认真做好故障处理情况记录,以积累自己的经验。
[参考文献]
[1]刘晓辉,肖铁岭,姜贵平,等,编著.《网络故障现场处理实践》.