■山东 张红 何钰
网络故障的出现往往是广大网络运维人员最不愿意看到的,但是网络运营不会是一帆风顺的,那么怎么样才能保证网络的一帆风顺呢?
只有在网络建设中做到规范和有序,熟练的网络故障排查技能是必不可少的。笔者从事网络数据运维10余年,本文将从自己的角度谈下自己在处理网络故障的心得。
通过多年网络故障出现的情况来看,大都是组网或网络使用不规范造成的。一个稳定可靠的网络需要合理的前期规划,决不能脑袋一热随意买来设备组网使用。首先组网时要摸清网络的需求,特别是要考虑到后期网络的升级或扩展性。
举个例子,一个网站设计维护的公司大概二三十人,租用我们的宽带出口。公司负责人考虑问题就很简单,只要把宽带出口引进来,然后随意买几个家用路由器就可以上网了。
但这样时间一久就会出现问题,因为没有前期规划,接入宽带出口的ONU 设备随意放置,路由器级联串接,随着天气温度的升高和网络需求的增大,经常出现上不网的情况发生。这就是一个随意组网的典型案例。
这也是很多较小网络通用的做法。这就和上面讲到的“规范”二字相悖,规范的做法是将网络设备集中统一放到机柜中,将诸如ONU 设备、交换机、路由器合理的放置在一起,保证设备运行的正常散热。其次在设备选择上还要根据上网的需求合理购置。
比如上面举得例子,大概有二三十人上网办公,那就要根据房间的布局合理选择企业级路由器。
网络故障除了没有做到规范外,也有一部分是没有良好的网络预见造成的,也就是说一个合格的运维人员要有较好的网络前瞻性,从而避免网络故障的出现。
这一点可以从设备的及时巡检和设备的备份上说起。设备的巡检可以从表面上看是不是有异常告警声音,红色警示灯是否常亮,要做到定时定期专人巡检,从而保证及时发现设备故障,及时处理。设备的巡检同样可以通过专业设备网管或通用设备网管进行及时查看,这样也能将一些异常告警信息及时处理。
这里对设备的异常告警信息需要着重强调下,想要在网络故障处理方面上升一个层次的话,需要会看,能看懂,能处理设备的异常告警信息,这是一个能力不断递增、向上进步的阶段,有时候异常告警信息能够帮助我们快速定位网络故障,从而将故障迅速排除。
其次网络设备是需要备份的,通常在核心网络中设备是热备的,但是如果满足不了热备条件可以选择冷备。
上面我们着重从如何预防网络故障谈起的。接下来谈网络故障真的出现时,我们该怎么办?
在谈这个问题前,需要提前做好三个功课,第一,熟悉网络组网情况;第二,熟读设备说明书特别是设备配置说明书;第三,要做好细节工作,同时还要有绘制网络拓扑图的习惯。
做好上面三项功课后,可以说你对网络已经了然于胸了,下面要做的就是根据网络出现的故障,如何处理呢?
首先要根据网络影响的面积,在简单了解故障现象后,自己要有主见,主见就是自己测试,看下网络故障出现在核心层,汇聚层,还是接入层。那怎么判断呢?这就需要ping 或者trace 命令,故障的处理前提是要确定出现故障的环节,这是最关键的。有些运维人员处理故障半天都找不到故障点,这说明处理故障的思路和方向是不对的。
其次找到故障点后,迅速判断是设备配置有误还是设备硬件的问题。这里就需要用到我们上面谈到的巡检和设备告警信息的查看。
举个例子,环路故障经常困扰大家,但是现在市面上的很多交换机都支持loopback 检测功能,我们只要将将设备的这个功能打开就可以。打开后不但可以将故障端口阻塞或者关闭,还可以通过查看告警信息迅速定位。
同样,如果是硬件故障,就用上我们上面讲到的设备的备份(冷备或热备)。当然,如果设备是热备那就不用操作,网络就会自动切换过来,如果是冷备的话,直接更换设备就可以了。
再次就是网络出现故障后,总结很重要,故障总结的同时也是自我提升的一个过程,自己的网络故障能力也随着不断总结中潜移默化中得到提高。这里的总结是落实在纸面上,不要怕麻烦,只要做到事事有总结,经验就会做到不断积累。处理故障的能力就会不断增强。
最后要和大家说的就是一个处理故障的心理素质,这个尤其重要,简单的说出现故障后自己要做到心怀不乱,镇定自若。这个素质需要不断的锻炼,不断的养成。
以上从两个大的方面讲了如何在组网规范和网络预见性上降低网络故障出现的频次,接着又从解决网络故障需要提前做好三个功课,最后又从四个方面谈了故障出现后处理的步骤。
故障的出现是在所难免的,那么我们可以从预防故障的出现,以及及时处理网络故障两个方面入手,将网络运营好,在网络故障迅速处理上做好工作。
大家所在的单位或部门网络不尽相同,或者相差很大,网络管理员的职责也不尽相同,但是网络故障的处理思路是大致相同的,那就是要用心去经营网络,才能将将网络最大限度的维护好,运营好。同时也希望以上心得能够帮助到工作中的读者。
网络安全和信息化2020年2期