基于安全预警技术的冗余磁盘阵列系统设计

2014-01-01 02:54
通信电源技术 2014年5期
关键词:磁盘阵列存储设备存储系统

郭 群

(辽宁对外经贸学院信息管理系,辽宁 大连116052)

0 引 言

随着计算机技术的发展,系统硬件成本在不断下降,一方面系统管理已经逐步成了影响系统拥有成本和用户满意的最重要因素之一,存储是数据持续长久保存的地方,计算机系统管理工作绝大部分就集中在存储管理上。磁盘阵列(RAID)是存储系统的核心部件,存储管理主要是基于RAID的容量分配、系统备份恢复、负载平衡等。另一方面CPU处理速度提升迅速,而磁盘驱动器的数据传输速率却无法大幅提高,两者速度上的不匹配严重制约了系统整体性能的提升,磁盘阵列很好地缓解了这一矛盾,磁盘阵列通过使用多磁盘并行同时存取数据来大幅提高存储系统的数据吞吐量。

独立磁盘冗余阵列(Redundant Arrays of Independent Disks)是为了集成多个小的廉价磁盘来代替大的昂贵磁盘、在单个磁盘失效时不影响数据的可用性而开发的基于冗余的数据保护技术。它是一种由多块廉价磁盘构成的冗余阵列,可以充分发挥出多块硬盘的并发存储优势,提升吞吐率、增大容量,能够提供容错功能确保数据可用性。

安全预警技术是针对存储设备潜在故障的监测和获取技术,利用各种传感技术、S.M.A.R.T技术、磁盘增长缺陷表技术等对磁盘内盘片、磁盘阵列内磁盘、磁盘阵列间磁盘等各级存储设备进行实时检测,并借助预先收集整理磁盘故障的经验数据、系统的性能信息、实时检测到的故障信息等,对各级存储设备的运行状态进行判断,获取预警信息,以触发相应级别的数据保护。

安全预警技术应满足两个性能指标。故障检测的精确度:用于衡量一个故障检测结果的正确程度,一般应控制在80%以上。故障检测模块对存储系统总体性能的影响:因为采用故障检测模块后,系统的性能下降到15%以下;因此安全预警技术必须考虑系统的当前状态,尽量降低它对存储系统的影响。

1 安全预警系统组成

安全预警系统主要包括两个部分:故障检测模块、故障决策模块。故障检测模块主要用于磁盘、阵列健康状况信息检测,充分利用各种传感技术、S.M.A.R.T技术、磁盘增长缺陷表技术对系统中的不同设备对象进行检测,包括单盘检测、阵列状态监测、环境检测等。故障决策模块负责实时采集系统健康信息,除定时例测外,还可以预先收集整理磁盘故障的经验数据,融合系统的性能信息和检测到的故障信息,在预定义的决策规则下形成三个层次的健康状态信息,包括扇区层次、磁盘层次和阵列层次,即形成一个基于规则的故障决策库,能根据事先设定的健康阈值或其他预警策略发出预警信息。其故障预测应该保证一定的正确性。

安全预警技术的一个难点是在对存储设备系统故障进行预测时,需要综合考虑磁盘故障信息、设备生命周期性能、磁盘驱动器自检测技术、磁盘S.M.A.R.T参数、标准I/O接口以及存储设备的工作温度、耗能、器件工作状态等因素,并针对预警目标进行优化,保证预警的准确性,避免故障预警错误造成的设备资源浪费。

根据已有的存储设备故障信息形成故障决策库,并结合故障决策库提出完善的能检测不同存储设备潜在故障的预警检测接口规范,能收集整个存储系统的状态信息,帮助识别系统中性能不好或即将产生故障的存储节点或磁盘,为提高存储系统的可靠性提供预警信息。

2 故障预警检测的接口与规范

预警技术(Early Warning Technique,EWT),结合故障决策库判断存储设备的状态,给存储系统增加了状态监控和主动防御的特性。传统存储系统中数据的可靠性通常是采用冗余技术或者备份技术来实现的,如果存储设备出现了如风扇损毁、磁盘温度过高、误码率过高、性能下降等问题,系统通常不会进行主动处理,而是等待设备或者磁盘完全故障后才通过数据重建或热切换到镜像节点的方式来保持存储业务的持续性,大大增加了数据的损毁风险。EWT引入了主动监控的思想,它对存储系统进行及时控管,定时对系统中的各个存储节点工作温度、节点能耗、数据误码率、传输性能、器件工作状态等健康指标进行分析,当健康指标超出预定阈值时,及时产生预警信息,系统随后自动启动相关的数据保护措施。EWT的监控功能还可以动态地分析数据在存储系统中的分布和负载特征,为存储系统进行自适应的数据迁移提供决策依据。

EWT存储设备健康预警监测接口如图1所示。在磁盘阵列内部,由专门的磁盘健康监测器负责实时收集各类磁盘状态数据,如磁盘S.M.A.R.T信息、磁盘增长缺陷数据、健康备份保留扇区使用情况、磁盘响应时间以及阵列机箱内辅助传感器收集的工作环境信息(如磁盘外部温度、震动、功耗等)。根据已建立的故障预测模型结合故障决策库生成预警信息,并基于预警阈值触发相应的数据可靠性方案:当磁盘部分介质即将损坏时,磁盘健康检测器将触发内部自愈程序进行修复;当预测到磁盘即将产生故障时,立即向磁盘阵列发出磁盘预警信息,触发磁盘的数据保护。阵列健康监测器负责收集与磁盘阵列健康相关的状态信息(包括各成员磁盘运行状况、阵列运行状态、机箱温度、功耗、风扇转速、阵列I/O性能、响应时间等),当阵列健康监测器监测到阵列运行状况欠佳时,将结合故障决策库生成预警信息,以指导数据在盘列之间进行保护。

图1 EWT存储设备健康预警监测接口

当存储系统产生预警后,可将需要保护的数据主动迁移到合适磁盘位置。将出现故障磁盘的数据迁移到合适位置,分三种情况:(1)盘内数据自愈技术;(2)磁盘间数据移植技术;(3)盘阵间数据迁移技术。盘内数据自愈针对一个磁盘内的扇区数据,盘间数据重建针对盘阵内不同磁盘间的数据;盘阵级数据迁移针对盘阵间的数据迁移。

EWT的故障防御性主要体现在它可以针对某个具体的存储系统进行参数配置,包括I/O负载量、联机工作时间、最高工作温度、工作能耗、性能指标、器件工作状态等。当EWT监控到存储系统的潜在故障时,它会对该存储节点、存储设备采用降级工作的策略,即降低其工作量、减少其工作时间、提高风扇转速、降低磁盘温度等。主动防御给存储系统提供了及早发现及早解决的特性,可有效延长存储设备的寿命,避免故障扩大化,提高数据可靠性。另外,可扩展性是EWT的目标,EWT技术可由磁盘节点扩展到对整个存储网络的监控和防御。EWT能够对存储网络环境中的资源进行监控,不仅能监控存储节点,还主动控管其他资源,使得整个存储系统具有更好的自适应性。EWT使用的标准可与业界的服务器管理标准以及存储管理标准兼容,确保EWT技术的应用范围。

3 结束语

随着信息技术的迅速发展,信息和数据在不断增加,人们对硬盘数据存储可靠性的关注程度也逐渐升温。信息和数据对企业非常重要,导致存储数据的保护任务加重。在这种情况下,如何对磁盘阵列等存储系统进行安全预警成为一个挑战。磁盘阵列安全预警技术引入了主动监控的思想,它对存储系统进行及时的控管,定时对系统中的各个存储节点工作温度、节点能耗、数据误码率、传输性能、器件工作状态等健康指标进行分析,当健康指标超出预定阈值,及时产生预警信息,系统随后自动启动相关的数据保护措施,因此,可以准确地提前发出预警信息,从而有效地保障存储设备和数据安全。磁盘阵列采用多磁盘并行的方式扩展了存储系统容量,提高了存储系统性能,冗余技术提高了存储系统可用性。目前磁盘阵列已成为应用最广泛的存储系统,是构成更大规模存储系统的基础设备。

[1] 曹 强,黄建忠,万继光,谢长生.海量万络存储系统远离与设计[M].武汉:华中科技大学出版社,2010:122-128.

[2] 李 颖.磁盘阵列技术及其选择[J].电脑编程技巧与维护,2011,(16):135-136.

[3] 石方夏,岳凤芝.信息化建设中的RAID技术应用分析[J].现代电子技术,2010,(17):59-63.

[4] 王志昌.计算机RAID存储技术解析 [J].中国科教创新导刊,2010,(08):162-163.

[5] David P Helmbold,E Long D D,Sherrod B.A dynamic disk spin down technique for mobile computing[J].Computing and Networking,1996:130-142.

猜你喜欢
磁盘阵列存储设备存储系统
分布式存储系统在企业档案管理中的应用
天河超算存储系统在美创佳绩
LSIRAIDBIOS实现磁盘阵列重建
浅析铁路视频监控存储设备设计
华为震撼发布新一代OceanStor 18000 V3系列高端存储系统
基于电池管理系统的数据存储系统设计
Windows环境下禁用USB存储设备程序设计与实现
存储虚拟化的三个层次
防止USB接口泄密