更换磁盘阵列磁盘

2018-11-09 02:02
网络安全和信息化 2018年5期
关键词:磁盘阵列磁盘日志

故障现象

笔者单位在九十年代初期就建立了小型数据中心机房,从那时开始一直维护使用到现在。最初有几台服务器,发展至今已有三十余台服务器。早期采购的服务器以SUN的服务器为主,也搭配一些其他服务器,SUN服务器的存储采用SUN StorEdge351磁盘阵列。SUN StorEdge3510磁盘阵列与服务器采用DAS通过FC光纤直接连接,做的RAID5+Spare(9块 146GB磁盘做RAID5,1块146GB磁盘做全局热备),从笔者承担网管工作以来,设备运行一直很稳定,极少发现问题。直到近期,笔者和同事在日常巡查机房时,发现某个机架传出报警声。

故障排查

嘀嘀嘀的报警声,听上去声音不大也不刺耳,我们并没有很快判断出是机架上哪一台设备报警,通过观察设备指示灯和其他设备,大致确定是SUN StorEdge3510磁盘阵列报警。登录服务器发现磁盘阵列可读写,不影响数据。

看看设备上贴的标签,标签上写着10.0.14.14,这是磁盘阵列管理地址。找了一台笔记本设置好相同网段的地址,通过超级终端telnet连上去,提示输入密码Password,想了想不确定密码是什么,输入几次密码都不对。这下有点儿不知所措,想到直接连COM口看看,但是又找不到COM串口线。

好在磁盘阵列是通过光纤直接连接服务器,登录服务器以root身份运行pkginfo | grep sccli(操作系统是 Sun Solaris9),发现安装Sun StorEdge 3000 Family CLI,可 以 使用磁盘阵列管理命令。在命令行下输入 sccli,进 入 sccli>,输入show events,查看磁盘阵列日志信息,发现有警告显示“ALERT: SCSI drive failure (CH2 ID11)、CH2 ID11:ALERT: redundant path failure detected、CH2 ID11:SCSI Target ALERT: unexpected select timeout”。怀疑11号磁盘有问题。

在sccli>下,输入show disks,查看磁盘阵列中磁盘的信息,10号磁盘Status状 态 显 示USED,11号 盘Status状态显示FRMT。11号磁盘显示的状态很奇怪,磁盘有问题一般状态显示BAD。先替换11号磁盘看看,找出备用的磁盘阵列磁盘,按照磁盘阵列的ID号规则(如图1),找出11号磁盘,替换11号盘。在sccli>下,输 入show disks,查看磁盘阵列中磁盘的信息,10号磁盘Status状态显示USED,11号磁盘Status状态显示rebuild,但是报警声一直未停。再查看一下磁盘阵列日志,发 现“CH2 ID10: ALERT:redundant path failure detected、CH2 ID10: SCSI Target ALERT: unexpected select timeout、ALERT:SCSI drive failure (CH2 ID10)”,我们很疑惑,难道10号磁盘也坏了?在磁盘阵列里10号磁盘是设置为备盘的,而且状态显示USED,不是 BAD。

至此,我们考虑可能11号磁盘和10号磁盘并没有坏,干脆把换下的11号磁盘换掉10号磁盘看看会怎么样。替换完磁盘,查看磁盘状态信息,显示FMRT,格式化,后来显示STAND-BY,LD(逻辑驱动器)信息显示GLOBAL(全局热备),感觉磁盘故障解决了。

图1 磁盘驱动器插槽ID号规则示意图

但是报警声没有停,奇怪的是11号磁盘,怎么可以使用换掉10号磁盘?很怀疑10号磁盘没有坏,可能只是10号磁盘从安装到磁盘阵列前就已经使用过,磁盘上有数据,装到磁盘阵列上又没有进行配置(设置为 GLOBAL),导 致 11号 磁盘出现故障,10号磁盘热备盘没有启用,磁盘阵列报警。但是换下的11号磁盘能换下疑似有故障的10号磁盘继续使用,可能是11号磁盘最开始被格式使磁盘能继续使用的缘故。

通过查看show logical-drives,磁盘阵列状态显示Good。通过mute命令清除了报警声,磁盘阵列中的磁盘运行状态正常。为了更好地保障业务,尽可能避免风险,我们用新磁盘更换了磁盘阵列10号磁盘。

实际上,最终我们将磁盘阵列的10号和11号的磁盘全部更换为了新磁盘。这次故障处理经历,让我们感觉很疑惑。虽然故障没影响到单位业务,但却暴露了我们网管工作的一些弱点。

经验总结

根据此次故障处理过程中遇到问题,笔者进行了思考并做了总结。

1.网络管理员一定要记好机房设备的维护管理的重要信息,例如,管理地址、管理的用户名和密码等。

2.网络管理员要将设备管理的线缆存放好,便于排查故障时使用。

3.网络管理员要注意磁盘阵列中磁盘排列顺序,避免在维护时拔错磁盘。如本文SUN StorEdge 3510磁盘阵列磁盘顺序如图1。

4.网络管理员在日常巡查时,要及时查看磁盘阵列的日志情况,及时发现问题并解决。

5.对于老旧设备,网络管理员要做好简单、冗余和可热插拔配件的储备,以便维护更换,保障业务不间断,例如,硬盘、风扇、电源等。

6.对于老旧设备,网络管理员要提高数据备份的频率(周期)。

7.建立设备操作台账,避免留下故障疑惑点或隐患。

猜你喜欢
磁盘阵列磁盘日志
叶腊石聚合成型及其旋转磁盘的制作方法
一名老党员的工作日志
它的好 它的坏 详解动态磁盘
扶贫日志
解决Windows磁盘签名冲突
雅皮的心情日志
游学日志
Windows系统下动态磁盘卷的分析与研究
县级电视台播出质量上存在的问题及解决办法
存储虚拟化的三个层次