引言:网络核心层设备虽然非常稳定,但是一旦出现异常将会产生很大的负面影响。本次笔者将在运维中遇到的实际情况,从问题的发现、原因查找和故障排除整个过程进行反思总结。
在某次机房安全检查时,笔者突然发现内网和外网核心交换机故障灯亮起了红灯。
笔者首先对机房进行物理环境检测,结果设备正常,虽然有一层的灰尘,但对排风影响不大;室内空调温度正常;静电地板出风口正常(我们采用的是空调向下吹风)。
接着,登陆核心交换机,查看设备运行状态、设备日志、风扇转速和温度等,结果发现是设备温度过高,超过了设备板卡报警温度,导致故障灯亮起。
笔者发现网络核心温度过高后,马上对机房的其他汇聚层交换机进行全面“体检”,汇聚层温度状态都为normal,于是立即将情况向主管汇报。在机房查经过一系列问题排查,物理环境基本都没有问题,也没有查找到原因所在。
图1主进风口防尘网清理
经询问售后工程师,原来是我们对自己的设备了解不充分造成的,只知道核心交换机前后有出风口,前面是电源的进风口,后面是4个风扇的主排风口。但事实上设备的主进风口并不在前面而是在侧面,而设备侧面又紧挨着机柜侧面板,两者相距仅有5cm左右。当我打开机柜侧面板一看交换机侧面主进风口已经挂满了厚厚一层灰尘絮状物,至此在算找到了罪魁祸首。
设备的主进风口防尘网清理方法如图1所示,以供参考。经过这件事情,自己也经行了认真反思总结。
首要原因就是对自己的设备了解不清楚、认识不全面,核心设备虽然非常稳定,但是一旦出现问题影响会非常大。次要原因就是由于空调冷却采取的是下吹风,在工程交付时可能由于地面没有清理干净,造成地板下面有一定的积灰。
在以后的工作中,会详细了解设备的结构,只有知道主进风口位置,才能避免它不被遮挡影响设备散热,因为小问题而引发大故障。