浅谈计算机网络故障的诊断与排除

2014-04-04 23:14高荣民
河南科技 2014年4期
关键词:配置文件网络设备网卡

高荣民

(扎煤公司培训中心,内蒙古满洲里 021412)

浅谈计算机网络故障的诊断与排除

高荣民

(扎煤公司培训中心,内蒙古满洲里 021412)

当今世界计算机是人类工作、生活不可缺少的一部分,无论是教学、医疗、军事等等,都是在计算机的精确计算下得到了突飞猛进的发展,但是网络故障又是一件令人头疼又不能不面对的一个话题。对于局域网络而言,网络故障大致可分为四类:即链路故障、配置故障、协议故障和服务器故障。链路故障通常是由于接插件松动或设备件损坏所致,而其他故障往往是人为的设置所致。由此可见在检查和定位网络故障时,必须认真地考虑可能出现故障的原因,以及应当从哪里开始着手,一步一步进行追踪和排除,直至恢复网络的畅通。

网络设备;故障诊断;排除

1 故障的主要原因与现象

虽然故障千奇百怪,出现故障的原因多种多样,但总体来说就是硬件问题和软件问题,即网络连接性问题、配置文件和选项问题、网络协议问题及网络拓扑问题等。

1.1 网络链路

网络链路是故障发生后首先应当考虑的主要原因。链路的问题通常是由网卡、跳线、信息插座、网线、交换机等设备和通信介质引起的。例如,当某一台计算机不能浏览wed时,首先想到的就是网络链路的问题,这就要通过测试来验证。FTP是否可以登录,是否看得到网上邻居,是否可以收发电子邮件,Ping是否能得到网络内同一网段的其他计算机,只要其中一项回答为YES,那就不是链路的问题。当然,即使回答为NO,也不表明链路肯定有问题,而是可能会有问题,因为如果计算机网络协议的配置出了毛病也会导致上述现象的发生。另外,观看网卡和交换机的指示灯是否闪烁及闪烁正常。

1.2 配置文件和选项

所有的交换机和路由器都有配置文件,所有的服务器、计算机都有配置选项,而其中任何一台设备的配置文件和配置选项设置不当,同样会导致网络故障。例如,路由器的访问列表配置不当,会导致Internet连接故障;交换机的VLAN设置不当,会导致VLAN间的通信故障,彼此之间都无法访问,更不用说访问Internet了;服务器权限的设置不当,会导致资源无法共享或无法获得足够权限的故障;计算机网卡配置不当,会导致无法连接的故障等。因此,当排除硬件故障之后,就需要重点检查配置文件和选项的故障了。当某一台计算机无法接入网络,或者无法同连接至同一交换机的其他计算机通信时,应当检查接入交换机的配置;当同一VLAN或几个VLAN内的交换机无法访问时,应当检查接入、汇聚或核心交换机的配置;当所有交换机都无法访问Internet时,就应当检查路由器或代理服务器的配置;当个别服务无法实现时,应当检查提供相应服务的服务器配置。

1.3 网络协议

网络协议,其实就是在网络设备和计算机网络中彼此“交谈”时所有的语言。因此,如果说没有网络协议就没有网络,这句话一点都不过分。没有网络协议,网络内的网络设备和计算机之间就无法进行通信,所有的硬件设备也不过都是一堆摆设而已。这就如同没有操作系统和应用软件,计算机就是一具没有灵魂的躯壳。因此,网络协议的配置在网络中居于举足轻重的地位,决定着网络能否正常运行。网络协议的含义非常广泛,既包括交换机和路由器执行的网络协议,也包括计算机和路由器执行的网络协议。其中任何一个协议配置不当,没有正常工作,都有可能导致网络瘫痪,或者导致某些服务被终止,从而出现网络故障。

1.4 网络服务故障

网络服务故障主要包括3个方面,即服务器硬件故障、网络操作系统故障和网络服务故障。所有的网络服务都必须进行严格的配置或授权,否则就会导致网络服务故障。例如,服务器权限的设置不当,会导致资源无法访问的故障;主目录或默认文件指定错误,会导致Web网站发布错误;端口映射错误会导致无法提供某种服务等。因此,当排除硬件故障之后,就需要重点检查配置文件和选项的故障了。当企业网络内所有的服务都无法实现时,应当检查网络设备的配置,尤其是连接网络服务器的交换机的配置;如果只有个别服务无法实现时,则应当检查提供相应网络服务的相关配置。

2 网络故障排除过程

在开始动手排除故障之前,最好先准备一支笔和一个笔记本,将故障现象认真仔细地记录下来。也就是说,应当养成一种良好习惯,在开始着手进行排除故障时就开始做笔记,而不是在事情做完之后才来做。认真而详实地记录,不仅有助于一步一步地记录问题、跟踪问题并最终解决问题,而且,也为自己或同事以后解决类似问题时提供完整的技术文档和帮助文件。注意在观察和记录时一定要注意细节。

2.1 识别故障现象

网络管理员在进行故障排除之前,必须确切地知道网络上到底出了什么毛病,是不能共享资源,还是不能浏览Web,或是不能登录QQ等。知道出了什么问题并能够及时识别,是成功排除故障最重要的步骤。对一名优秀网络管理员的最基本要求,首先就是对问题进行快速定位。也就是说,能够及时找到处理问题的出发点。

为了与故障现象进行对比,必须非常清楚网络的正常运行状态。因此,了解网络设备、网络服务、网络软件、网络资源在正常状态下的表现方式,了解网络拓扑结构、理解网络协议、掌握操作系统和应用程序,都是故障排除必不可少的理论和知识准备。再次强调,在识别故障现象之前,必须明了网络系统的正常运行特性。

识别故障现象之时,应该询问以下几个问题:(1)当被记录的故障现象发生时,正在运行什么进程?(2)这个进程以前运行过吗?(3)以前这个进程的运行是否成功?(4)这个进程最后一次成功运行是在什么时候?(5)故障现象是什么?

2.2 对故障现象进行详细描述

当处理由用户报告的问题时,对故障现象的详细描述显得尤为重要。当用户说无法浏览Web网站时,仅凭这些信息,恐怕任何人都无法做出准确的判断。这就要亲自动去现场操作,运行一下那个程序,并注意出错信息。例如,在使用Web浏览器进行浏览时,无论输入哪个网址都返回“该页无法显示”之类的信息;使用Ping程序时,无论Ping哪个IP地址,都显示超时连接信息等,诸如此类的出错信息会为缩小问题范围提供许多有价值的信息。注意一个错误信息,并在用户手册中找到它们,从而得到关于该问题更详细的解释,是解决问题的关键。另外,亲自到故障现场进行操作,也有机会检查用户操作系统或应用程序是否运行正常,各种选项和参数是否设定正确。如果在操作时没有任何问题,那就可能是操作者的问题了。不妨让用户再试一次,并认真监督他的每一步操作,以确保所有的操作和选项都被正确地执行并设置。

当然,在亲自操作时,应当对故障现象作出详细的描述,认真记录所有的出错信息,并快速记录所有有关的故障迹象,制作详尽的故障笔记。实际上它们究竟表明了什么,这些故障现象是否相互联系呢?在寻找问题答案的过程中,很有可能又导致更多的故障现象产生。所以在开始排除故障之前,应按以下步骤执行:

(1)收集有关故障现象的信息。(2)对问题和故障现象进行详细的描述。(3)注意细节。(4)把所有的问题都记下来。

2.3 列举可能导致错误的原因

接下来要做的就是列举所有可能导致故障现象的原因了。网络管理员应当考虑导致无法浏览Web的原因可能有哪些,网卡硬件故障、网络连接故障、网络设备故障、TCP/IP协议设置不当等。在这个阶段不要试图去找出哪一个原因就是问题的所在。只要尽量多地记录下自己所能想到的,而且是可能导致问题发生的原因就可以了。或许认为可以根据出错的可能性把这些原因按优先级别进行排序。注意千万不要忽略其中的任何一个细节。

2.4 缩小搜索范围

网络管理员必须采用有效的软、硬件工具,从各种可能导致错误的原因中一一剔除非故障因素。对所有列出的可能导致错误的原因逐一进行测试,而且不要根据一次测试,就断定某一区域的网络是运行正常或是不正常。另外,也不要在自己认为已经确定了的一个错误上停下来,而不再继续测试。因为此时既可能是搞错了,也有可能存在的错误不止一个。所以,应该使用所有可能的方法来测试所有的可能性。

除了测试之外,还要注意做以下几件重要的事情:

千万不要忘记查看网卡、交换机和路由器面板上的LED指示灯。通常情况下,绿灯表示连接正常;红灯表示连接故障;不亮表示无连接或线路不通;长亮表示广播风暴;指示灯有规律地闪烁才是网络正常运行的标志。

千万不要忘记查看服务器、交换机或路由器的系统日志,因为在这些系统日志中,往往记载着产生的错误及错误发生的全部过程。

如果有幸拥有并安装了诸如CiscoWorks、HP OpenView之类的网络管理软件,千万不要忘记用它们来检查一下哪些设备出现了问题。一些网络管理软件往往具有图形化的用户界面,因此,交换机各端口的工作状态可以一目了然地显示在屏幕上。除此之外,许多网络管理软件还具有故障预警和报警功能,从而在缩小搜索范围时省下不少的力气。

当然,在这一步骤中最不能忘记的还是要记录下所有的观察及测试的手段和结果。

2.5 隔离错误

网络管理员经过反复的测试,此时也明白了到底是哪一部分故障导致了问题的发生,并最终确定很有可能是计算机出错了。于是便开始检查该计算机网卡是否安装好、TCP/IP协议是否安装并设置正确、Web浏览器的连接设置是否得当等一切与已知故障现象相关的内容。然后剩下的事情就是排除这个故障了。此时,由于对所发生的故障已经有了充分的了解,那么,故障排除也就手到擒来了。但是,不要就此匆忙地结束工作,因为还有更重要的事情等着去做。

2.6 故障分析

作为网络管理员,必须搞清楚故障是如何发生的,是什么原因导致了故障的发生,以后如何避免类似故障的发生,拟定相应的对策,采取必要的措施,制定严格的规章制度。

对于一些非常简单明显的故障,上述过程看起来可能会显得有些烦琐。但对于一些复杂的问题,这却是必须遵循的操作规程。

最后,记录所有的问题,并保存所有的记录。经常回顾曾经处理过的故障也是一种非常好的习惯,这不仅是一种经验的积累,便于以后处理类似故障,而且还会启发思考许许多多与此相关联的问题,从而进一步提高理论和技术水平。

3 网络故障诊断方法

网络的故障多种多样,不同的故障有不同的表现形式。在分析故障时要通过各种现象灵活运用排除方法,例如,排除法、对比法、替换法等。在实际应用中,要根据不同的故障现象使用不同的方法,或者几种方法综合使用。

3.1 排除法

排除法主要是指根据所观察到的故障现象,尽可能全面地列举出所有可能导致故障发生的原因,然后逐一分析、诊断、排除。

使用排除法,虽然可应付各种各样的网络设备故障,但要求网络管理员拥有深厚的理论功底、丰富的实践经验、较强的逻辑思维能力,并且全面了解、掌握并灵活运用各种网络测试工具和管理工具,善于分析问题和解决问题。同时,由于导致故障现象发生的因素比较复杂,往往是一因多果或一果多因,因此,在解决和排除故障时,会耗费较多的时间。因此可见,应当仔细观察故障现象,并根据经验依次排列可能的故障原因,先从最可能导致故障的原因开始调查,从而缩短故障定位和解决问题所用的时间。

归根到底,其他所有故障排除方法都是从排除法演变而来,包括对比法和替换法,只是对比法和替换法在某些场合中比排除法更具有针对性。

3.2 对比法

顾名思义,就是对比故障设备和非故障设备之间的“软”、“硬”差异,从而找出可能导致故障的原因。可用于对比的内容包括:

网络设备。当网络设备所连接的所有计算机都发生通信故障时,可对比型号和配置完全相同的网络设备。比如,某建筑物内拥有4台型号和配置完全相同的交换机,当其中一台交换机所连接的计算机发生通信故障时,就可以与另外3台交换机进行对比,查看各种LED指示灯、配置文件、运行状态(如CPU、内存、带宽占用率)有什么差异。

端口(包括GBIC/SFP插槽)。当连接至某个端口的计算机或网络设备发生通信故障时,可对比类型和配置完全相同的端口或插槽。比如,当某个端口或插槽发生连接故障时,可以用与之类型和用途(例如,都用于连接至划分有多VLAN的网络设备)完全相同的端口或插槽进行对比,比较LED指示灯、端口状态(up还是down)、端口设置(如端口属性设置、VALN或Trunk设置、认证安全设置等)是否相同。

线卡。当连接至某个线卡的计算机或网络设备发生通信故障时,对比型号完全相同、配置基本相同的线卡,查看各端口工作状态、配置文件的差异。

系统配置。当配置修改后发生故障时,可对比配置修改前和修改后的网络设备工作情况,以及其他有相同或类似用途、配置基本相同的网络设备的运行状态。

系统映像。对比安装相同版本、更高版本系统映象的其他同型号网络设备的工作是否正常。

使用与所怀疑发生故障的网络设备完全相同的设备进行替换,或使用相同的端口、插槽或模块进行替换,并对两台设备或端口的不同连接进行对比,在对比结果中找出故障点并进行排除。这种方法虽然简单有效,但有时可能出现故障的设备不止一台,那么排除起来就会非常麻烦了。

3.3 替换法

替换法从某种意义上来说与对比法是相同的,都是使用已知正常的网络设备或网络设备部件进行替换,并打出故障的部件进行排障。替换法主要用于网络设备硬件故障的诊断,但需要注意的是,替换的部件必须是相同品牌、相同型号的同类网络设备才行。同时,替换法还是平时维修计算机的一种方法,可以说该方法在硬件维护方面的应用是非常广泛的。可用于替换的内容包括:

网络设备。当网络设备(特别是固定端口网格设备和傻瓜网络设备)所连接的所有计算机都发生通信故障,怀疑网络设备主板发生故障时,可以用型号和配置完全相同的网络设备进行替换。

端口(包括GBIC/SFP插槽)。当连接至某个端口的计算机或网络设备发生通信故障时,可以将跳线连接至其他类型和配置相同的端口进行测试。

交换引擎。当整个网络瘫痪时,可以使用相同型号的管理引擎进行替换,并导入预先备份的配置文件,然后测试网络是否恢复正常。

线卡。当连接至某个线卡的计算机或网络设备发生通信故障,怀疑线卡发生故障时,使用型号完全相同的线卡替换,插入原有GBIC/SFP模块并连接原有设备,重新激活各端口,然后测试各端口工作状态和网络连通性。

GBIC/SFP模块。当连接至某个插槽的计算机或网络设备发生通信故障,怀疑GBIC/SFP模块损坏时,可以用型号完全相同的GBIC/SFP模块替换并测试。

链路。当网络设备之间、网络设备与其他网络设备之间、网络设备与网络终端设备之间的通信发生故障,怀疑光纤或双绞线跳线、网络物理链路有问题时,可以使用测试或使用正常的跳线和链路替换,而后再进行连通性测试。

系统配置文件。当配置修改后发生故障,怀疑配置文件错误时,可用预先备份的配置文件替换现有配置文件;或者将其他类似网络设备的配置文件导出,并作适当修改后,替换现有配置文件,测试网络通信是否恢复正常。

系统映像。当系统运行不稳定、频繁瘫痪、屡遭攻击时,替换为最新版本,然后观察系统运行状态。

4 网络故障诊断顺序

在排除网络故障时,绝不能没有目的地乱碰运气,而应当遵循应有的规则和策略,只有如此,才能有条不紊地、以最快的速度定位和排除故障。

4.1 先易后难

排除网络设备故障应当和平时工作一样,先从最简单位、最有可能的导致故障的原因开始,逐一进行排除。网络管理员应将导致某种故障的所有原因一一列出,然后再从中挑选出发生概率最大、可能性最高、最易于诊断和排除的原因,并由此入手,这样才能提高故障排查的速度。例如,当某个端口所连接的计算机发生通信故障时,应当先使用网络管理软件,或者远程登录至该网络设备,查看故障端口的工作状态。或许故障原因就是端口由于某种原因down掉了。这样,只需在Cisco CAN中enable该端口,即可恢复该端口的连接。

当使用enable无法解决问题时,再查看网络设备的配置,是否有访问列表或其他设置影响到计算机的访问。

确认配置没有错误后,到发生故障的网络设备处,将发生故障的跳线连接到其他相同类型和配置的端口,查看故障是否恢复。

如果故障仍未恢复,再查看用户计算机网卡工作状态是否正常,驱动是否正确安装,IP地址信息设置是否正确。

如果客户端确认无误,再测试故障计算机整体链路(包括水平布线、信息插座至计算机的跳线、配线架至网络设备的跳线)的连通性。

4.2 先软后硬

与解决计算机故障类似,在排除网络设备故障时,也采用先“软”后“硬”的原则。所谓“软”就是指应当先借助网络管理工具软件,远程查看网络设备的各种配置(包括三层路由配置,访问列表配置,端口属性配置,VLAN和VLAN Trunk配置等)、客户端的IP地址信息、端口的工作状态、网络设备的性能(CPU和内存占用情况等)和运行状态,确认是否由系统软件配置等“软”因素导致了网络设备故障。然后,再试图用修改系统配置文件、升级系统软件、重新激活端口或VLAN的方式,修复网络设备的“软”故障。

所谓“硬”,是指在“软”的手段不能奏效,进而怀疑端口、模块、板卡甚至网络设备本身,以及网络链路发生故障时,以替换相应硬件或链路的方式,修复网络设备的“硬”故障,恢复正常通信。

例如,当某台计算机无法连接到网络时,应当先查看可能导致该故障的“软”的问题,包括:

网络设备端口是否处于UP状态,激活该端口。

网络设备端口是否指定到正确的VLAN,重新将该端口指定至相应的VLAN。

网络设备端口的传输速率、双工模式设置是否正确。如果是双绞线端口,可以设置为自适应速率;如果是光纤端口,则应当与网卡的传速率和工作模式相同。

网络设备端口是否配置有基于端口的安全认证和策略。如果设置有安全策略,可以先删除这些策略,然后再进行测试。

网卡是否正常工作。如果处于被禁用状态,应当启用并激活该网络连接。

网卡驱动程序是否正确。如果不正确,试着下载最新版的驱动程序。

网卡的IP地址信息设置是否正确。如果不正确,应当重新设置IP地址信息。然后,再检查并排除可能导致该故障的“硬”的问题,包括:

将跳线连接至另一个能够正常工作的、同一VLAN的端口,查看网络通信能否恢复正常。

测试整个物理链路是否畅通,然后再逐段测试可能的链路故障,并更换有问题的跳线,重新打制发生故障的模块(或更换模块)和配线架端口。

更换计算机的网卡,重新安装网卡驱动程序和TCP/IP协议,并设置正确的IP地址信息。

4.3 先边缘后核心

所谓先边缘后核心,是指在诊断和隔离网络故障时,应当先从最边缘的客户端开始,依次向接入层、汇聚层和核心层进行,进而定位发生故障的位置,判断发生故障的设备,分析发生故障的原因。

例如,当某个客户端无法建立与网络的连接时,所执行的诊断过程如下:

(1)测试同一接入层交换机上、处于同一VLAN的其他客户端。如果同一接入交换机上、处于同一VLAN的其他客户端能够正常通信,则将故障定位在故障计算机,以及其所连接的端口(如物理损坏或配置错误)和所使用的物理链路上(如水平布线故障、跳线故障等)。否则,可能是接入层交换机与汇聚层交换机的连接发生故障,或是汇聚层交换机配置错误。

(2)测试同一接入层交换机上、处于其他VLAN的其他客户端。如果同一接入交换机上处于其他VLAN的客户端能够正常通信,则将故障定位在故障用户所连接的接入层交换机上。否则,可能是接入层交换机与汇聚层交换机的连接(如端口故障、配置错误、跳线故障等)发生故障,或者是汇聚层同配置错误。

(3)测试连接至同一汇聚交换机的其他接入层交换机上的计算机。如果连接至同一汇聚交换机上的其他交换机可以实现与网络的通信,那么,可以将故障定位在汇聚交换机与接入交换机的连接上(如端口故障、配置错误、垂直主干布线故障、跳线故障等)。否则,可能是汇聚交换机与核心交换机之间的连接发生故障,甚至是核心交换机发生故障。

(4)测试连接至核心交换机中同一线卡上的其他汇聚层交换机。如果连接于同一线卡上的其他汇聚交换机连接正常,那么故障可能是线卡端口与汇聚交换机上行端口连接故障(如端口故障、配置错误、建筑群主干布线故障、跳线故障等)。否则可能是线卡故障或配置故障。

(5)测试核心交换机上其他线卡所连接的汇聚层交换机。如果连接至不同线卡的交换机都无法正常连接,则可能是核交换机配置错误,或者是交换引擎故障,甚至是系统映像故障。

5 结语

通常情况下,网络发生故障的可能性比较小。与之相对应,网络链路由于接插件比较多,而任何一个接插件的松动或故障,都可能导致物理链路的中断。因此,在发生网络故障时,如果确认是物理硬件故障,那么,应当先检查链路的完整性,而后再查看端口或设备是否发生故障。

例如,当某台计算机无法连接至网络时,在排除软件故障后,接下来要做的第一件事就是使用测线仪测试整个物理链路的连通性。确认链路连通完好后,再试着更换计算机所连接的交换机端口、插槽、模块,或者更换网卡。

TP393

A

1003-5168(2014)04-0007-04

猜你喜欢
配置文件网络设备网卡
网络设备的安装与调试课程思政整体设计
一种基于C# 的网络设备自动化登录工具的研制
互不干涉混用Chromium Edge
Server 2016网卡组合模式
基于Zookeeper的配置管理中心设计与实现
忘记ESXi主机root密码怎么办
为View桌面准备父虚拟机
挑战Killer网卡Realtek网游专用Dragon网卡
RHEL7 Network Teaming(网卡绑定)配置与测试
基于列车监测网络设备的射频功放模块设计