浅谈路由器故障的几点原因

2014-04-04 23:14:30高荣民
河南科技 2014年4期
关键词:配置文件路由器命令

高荣民

(扎煤公司培训中心,内蒙古满洲里 021412)

浅谈路由器故障的几点原因

高荣民

(扎煤公司培训中心,内蒙古满洲里 021412)

由于路由器往往位于网络边缘,用于实现网络与Internet、以及网络之间的相互连接。因此,路由器的故障相对较为容易判断。也就是说,当整个网络都无法接入Internet,或者无法实现与其他网络的互联时,在排除了可能的广域网物理故障后,基本上可以判断为路由器故障。

路由器;故障;原因

1 路由器一般故障

既然路由器既有硬件设备,也有操作系统和配置文件,因此其故障也可以大致分为两类,即硬件故障和软件故障。其中,硬件故障主要是业务板故障、接口故障和电源故障,而软件故障则主要是系统软件故障和配置故障。

1.1 硬件故障

路由器的硬件故障主要是指电源故障、主板故障(含CPU和各种内存)、模块故障和端口故障。

1.1.1 电源故障

电源故障表现为当打开路由器的电源开关时,路由器前面板的电源灯不亮,风扇不转。这时要重点检查电源系统,看供电插座是否有电,电压是否在规定的范围内。如果供电正常,应该检查电源线是否完好,接触是否牢靠,必要时可以换一根,如果还不行,可以判定问题应该出在路由器的电源上。可以查看路由器电源保险是否完好,如果烧坏应该更换。如果还不能解决问题,送修返厂。

1.1.2 主板故障

主板故障的表现为虽然能够正常加电,但系统无法正常引导至工作模式,所有接口的网络通信中断,路由器停止正常工作,或者循环重新启动,或者系统挂起,或者系统没有任何响应。甚至借助Console端口和超级终端,也无法登录至系统进行诊断和管理。

1.1.3 模块故障

系统其他部分都能正常识别并正常工作,但却无法正确识别有故障的模块。或者,虽然模块可以被正确识别,但即使正确配置后,该模块上的所有接口仍然不能正常工作。此时,往往是因为模块存在物理故障。若欲确认是否为模块故障,可以使用相同型号的完好模块替换怀疑有问题的模块,即以替换法进行故障诊断。

1.1.4 端口故障

在保证配置正确的情况下,当端口故障发生时,将只影响发生故障的端口通信,而同一路由器,甚至位于同一模块中的其他端口的正常通信不受影响。将其他同类型的端口修改为故障端口的配置进行替换测试,可以确认是端口故障。

1.1.5 硬件兼容性故障

路由器接口和模块的兼容性故障大量发生。该故障最明显的现象是安装的网络模块不能被系统检测到,或者模块不能正常工作,甚至会导致路由器的循环重新引导。只需一些简单的操作步骤,就能够识别和确定兼容性故障。

如果在show diag命令输出中没有显示模块硬件信息,重新安装该硬件模块,也可以将该模块安装至不同的插槽。一些模块不支持热插拔,因此,网络模块的插拔应当在电源关闭的情况下进行。重新安装模块后,重新引导路由器。

如果在show diag命令输出中显示有模块硬件信息,但是不能在show run命令或show ipinterface brief命令输出信息中看到该模块接口,检查硬件安装文档。一些模块需要在安装后重新配置路由器。

在show diag命令输出信息中,记录类似Unknown WAN card或WIC modulenot supported/disabled in this slot的错误信息,表明相应插槽中的硬件不兼容。查阅路由器和模块文档,确认该模块被路由器所支持,并检查支持该模块的Cisco IOS软件映像。

1.2 软件故障

1.2.1 系统故障

IOS作为路由器操作系统,保存在路由器Flash中,因为操作失误(如删除了Flash中的文件)或者其他原因(如突然断电),可能会使Flash中的IOS丢失,而使路由器无法正常启动。以Cisco的路由器为例,如果路由器开机后总是进入rmon状态,这时往往说明系统软件IOS存在问题。

发生故障时,可以使用保存在ROM中的备份操作系统软件,虽然该IOS通常会比Flash中的IOS版本稍微低一点,但完全可以使路由器继续工作。当路由器重新启动和工作后,必须重新将合适的IOS上传到Flash中。

1.2.2 系统缺陷

路由器操作系统(IOS)也存在系统漏洞,也会遭到网络黑客的恶意攻击。例如,仅2007年2月,Cisco IOS操作系统就被发现存在3个严重的远程安全漏洞,远程攻击者可能利用这些漏洞进行攻击,甚至完全控制网络设备。虽然目前尚未有公开的针对这些漏洞的攻击程序,但是从漏洞本身的特点来看,找到攻击方法并定出攻击程序并不需要太长时间,可能很快就会有相关攻击程序和攻击行为出现。因为使用相关Cisco设备的用户应当尽快安装相应的IOS补丁。

同时,由于路由器往往位于网络的边缘,直接连接至Internet,因此遭受攻击的可能性非常大。而且路由器一旦瘫痪,将导致整个网络实现与其他网络的通信,甚至无法接入Inernet。而对于使用路由器作为核心的网络而言,将直接导致整个网络陷入瘫痪。因此,路由器也应当与计算机一样,必须定期更新IOS。

1.2.3 配置错误

配置错误是最容易出现也是最难排除的故障。容易发生配置故障的地方有很多,例如,接口配置错误、路由协议错误、IP地址和掩码错误、ACL(访问控制列表)错误、修改配置后没有保存等。

其中,最容易出错的就是ACL。ACL可能的错误包括:错误应用了ACL端口;错误禁止了源地址、目标地址、端口号;ACL语句的顺序不恰当;列表最后没有Permit语句。

路由器配置错误导致故障,处理过程如下:

(1)借助Console线将计算机串口连接器Console端口,正确设置超级终端的参数。

(2)在路由器重新引导后的60秒内,按下计算机的(Break)键,将路由器引导至ROMmon模式。

(3)将寄存器配置修改为0×2142,并重新启动路由器。在“rommon1〉”提示符下执行confreg0×2142命令。然后在“rommon2〉”提示符下键入reset,路由从Flash重新引导,并且不加载配置文件。

(4)在每个设置问题中都键入n,或者按(Ctrl+C)组合键跳过初始化配置过程。

(5)在Rorter〉提示符下键入enable并搂(Enter)键,进入enable模式,显示Router#提示符。

(6)执行copy running-config startup-config保存空的配置。如果怀疑某个命令导致了该故障,也可以编辑配置文件。使用copy startup-config running-config复制该配置文件,键入configure terminal命令并按(Enter)键,然后修改该配置文件。

(7)配置文件修改完成之后,将寄存器配置修改回0×2012。执行config-register0×2012命令修改寄存器配置,然后再执行copy running-config startup-config命令保存该配置。

1.2.4 配置丢失

在路由器启动过程中,系统会搜索Srartup-Config文件,并根据该文件对系统进行配置。如果找不到该文件,系统将进入Setup模式,以人机对话方式进行路由器的初始配置。也就是说,如果启动配置文件丢失,系统就不能对路由器进行具体配置,即路由器无法完成其功能。

若要恢复配置文件,必须先通过Console口连接到路由器,通过TFTP方式将原来备份的配置文件复制到NVRAM,或者重新进行配置。

1.2.5 密码丢失

查看和配置路由器都必须有相应的访问密码。因此,该密码一旦丢失,将无法继续配置和管理路由器。借助密码恢复技术,可能通过Console端口重新设置路由器密码。

1.3 安全故障

通常情况下,高CPU占用率往往由安全问题所导致,如网络中有蠕虫或病毒在运行,特别是网络拓扑和配置没有改变的情况下。例如,当网络内有计算机感染红色代码病毒后,Cisco路由器常表现为以下症状:

NAT或PAT表中有大量的流量(如果使用NAT或PAT)。

网络中有大量的ARP请求或ARP风暴(由IP地址扫描导致)。

IPInput、ARPInput、IPCache Ager和CEF进程占用了过量的内存。

APR、IPInput、CEF和IPC占用了大量的CPU处理能力。

高CPU占用率导致网络中断或传输速度率非常低。

如果使用NAT,还将导致IPInput占用高的CPU占用率。

达到中断程度的低内存环境和持续高的CPU占用率(甚至可能会达到100%)可能会导至Cisco IOS重新加载。

1.4 其他故障

1.4.1 网络链路电磁干扰严重。例如,客户机的网卡故障、网线接头故障、线缆串扰等原因,都有可能产生数据碰撞、网络流量增大。路由器负载增加、网络变慢甚至瘫痪等问题。

1.4.2 网络规划存在问题。有些时候,路由器配置似乎没有问题,可路由器就是不能正常工作,或者工作不稳定,总出现一些莫名其妙的问题。这时不妨先放弃配置调试,回过头来看看网络规划和拓扑结构是否存在问题。比如,是不是重复使用网段,网络掩码的计算是否正确等,问题往往就会迎刃而解。

1.4.3 版本功能受到限制。有时需要做某些特定的配置或实现某种功能,虽然经反复检查确认配置正确,但相应的功能就是实现不了。这时,先不要怀疑设备有问题,最好先看一下系统软件的版本号,并查找相关的技术资料,看看所使用的版本软件是否支持该功能。由于IOS系统软件往往有许多版本,而每个版本支持不同的功能。如果支持的软件版本不支持该功能,那就应该找到相应的软件,先进行升级或更换IOS。

1.4.4 闪存容量有限,有时在对系统软件进行升级时,发现系统无论怎么样也不能完成升级,这时不防检查一下要升级的软件的大小是否超过了路由器的Flash容量。

2 路由器的诊断

2.1 故障诊断工具

网络故障诊断从故障现象出发,以网络诊断工具为手段获取诊断信息,确定网络故障点,查找问题的根源,排除故障,恢复网络正常运行。

网络诊断可以使用多种工具,包括路由器诊断命令、网络管理工具和包括局域网或广域网分析仪在内的其他故障诊断工具,ICMP的ping trace命令可用于诊断网络的连通性,并可追踪发生故障的位置。Cisc的show、debug命令,也是获取故障诊断有用信息的网络工具。例如使用show interface命令,可以非常容易地获得待检查的每个接口的信息,show buffers命令可以定期显示缓冲区大小、用途及使用状况。使用show processes cpu命令和show memory命令,可用于跟踪处理器和内存的使用情况。网管应当定期收集这些数据,在故障出现时用于诊断参考。查看路由表显示并输出日志文件,也是查找和定位网络故障的有效办法。

与交换机类似,路由器的前面板也提供了许多LED指示灯,可用于进行最直观的故障诊断。

2.2 故障诊断步骤

当发生路由器故障时,建议采用以下步骤诊断和排除故障:

2.2.1 确定故障的具体,分析并列举所有可能导致该故障的原因。例如,路由器不能正常工作,可能的原因非常多,可能是路由器文件系统丢失、配置文件错误、模块硬件故障、线路故障等。

2.2.2 收集所有能够有助于隔离故障的信息,推断最有可能的故障原因。从网络管理系统、协议分析跟踪、路由器诊断命令的输出信息、路由器日志记录,以及厂商技术文档等资料中收集相关信息,并由此推断出可能的故障原因。

2.2.3 制定诊断计划,从最可能的原因开始查起,从最可能导致故障的原因开始,借助各种诊断工具和诊断方法,逐一排除可能的故障原因,并最后定位故障。

2.2.4 采取相应的措施,排除路由器故障。根据导致故障原因的不同,采用更换路由器硬件、修改配置文件、更新系统映像、恢复物理链路等方式,彻底排除故障。

2.2.5 做好故障诊断排除记录。将故障现象描述、故障诊断和排除过程详细记录下来,并对故障作出点评,分析避免可能导致该故障的措施和手段,以备日后查阅。

3 故障分层诊断

诊断网络故障的过程应该沿着OSI七层模型从物理层开始向上进行。首先检查物理层(如硬件、端口和线路),然后检查链路层(如接口属性配置),再次检查网络层(如接口IP地址信息设置、路由协议设置等),以此类推,设法确定通信失败故障点,直接通信恢复正常为止。

物理层的故障主要表现为:设备的物理连接方式错误;连接电缆故障;Modem、CSU/DSU等设备的配置及操作错误。

确定路由器端口物理连接是否完好的最佳方法是使用show interface命令,检查每个端口的状态,解释屏幕输出信息,查看端口状态,协议建立状态和EIA状态。

查找和排除数据链路层的故障,需要查看路由器的配置,检查连接端口的共享同一数据链路的封装情况。每对接口要和与其通信的其他设备有相同的封装。通过查看路由器的配置检查其封装,或者使用show命令查看接口封装情况。

排除网络层故障的基本方法是:沿着从源到目标的路径,查看路由器路由表,同时检查路由器接口的IP地址。如果路由没有在路由表中出现,应该通过检查来确定是否已经输入适当的静态路由、默认路由或动态路由。然后手工配置一些丢失的路由,或者排除一些动态路由选择过程的故障,包括RIP或IGRP路由协议出现的故障。例如,对于IGRP路由,选择信息只在同一自治系统号(AS)的系统之间交换数据,查看路由器配置的自治系统号的匹配情况。

TP368

A

1003-5168(2014)04-0001-03

猜你喜欢
配置文件路由器命令
买千兆路由器看接口参数
科教新报(2022年24期)2022-07-08 02:54:21
提示用户配置文件错误 这样解决
只听主人的命令
搭建简单的Kubernetes集群
互不干涉混用Chromium Edge
忘记ESXi主机root密码怎么办
移防命令下达后
这是人民的命令
你所不知道的WIFI路由器使用方法?
蓝色命令