存储高可用性的技术标准与实现方法

2018-07-16 12:04凌霞
电子技术与软件工程 2018年10期
关键词:高可用性故障率存储系统

文/凌霞

1 存储安全背景和现状

1.1 存储数据安全风险分析

随着我国信息化建设逐步推进和完善,企业信息化程度不断提高,数据已成为企业的重要资源,数据的安全性、可靠性越来越成为企业生存和发展的关键,数据安全保护成为每个企业需要解决的重要课题。

国外权威机构统计,造成数据损失的最大原因是非计划宕机,30%由硬件故障导致,其中存储设备故障对数据威胁最大,后果最严重硬件故障30%,其他分别是操作失败27%,软件25%,应用15%其他3%。

1.2 存储设备硬件可用性分析

影响存储可用性因素主要有故障率和修复周期,其中存储的修复周期包括RAID重建和备件更换周期,据统计实际应用中修复周期平均为3天,所以故障率成为决定存储可用性的关键指标。

存储设备主要由存储控制器和硬盘组成,两者的设计平均无故障时间(MTTF)为百万小时以上,其平均年故障率为0.88%,但在实际使用中,硬盘受外界因素(读写压力、电源、温度等)影响,故障率远大于设计值。

本企业借助服务器虚拟化技术,将60多个子系统整合到由4台服务器与一台存储组成的虚拟化平台中,在减少物理服务器的同时,存储的数据变得高度集中,出现了“鸡蛋放入一个篮子”的现象。如何提高虚拟环境下存储可用性,保证存储数据的安全,是我们在减少物理服务器的同时,存储的数据变得高度集中,

出现了“鸡蛋放入一个篮子”的现象。如何提高虚拟环境下存储可用性,保证存储数据的安全,是我们将要探讨解决的课题。

2 存储高可用性的技术标准与实现方法

2.1 存储高可用性的技术标准

评价存储设备高可用性的标准有很多,经过实践和研究,可以从技术和应用两方面进行分析:

2.1.1技术标准:存储系统的故障恢复指标

技术标准就是对存储高可用性技术在性能上提出相应标准,主要分以下两方面

业界一般使用RPO与RTO两个参数来衡量存储系统的故障恢复指标。

RPO(Recovery Point Objective)是指发生故障时可接受的最大可容忍数据丢失。不同的数据复制技术,将会影响数据的丢失等级,其中同步数据复制技术使RPO可以达到秒级。

RTO(Recovery TimeObjective)是指故障发生后,从系统宕机导致业务停止开始到完全恢复之间的时间段。不同的系统切换技术,直接影响RTO的效率,其中系统自动恢复技术可以使RTO达到秒级

可见构建高可用存储环境,在设备故障率上要求就是尽可能将设备故障率进一步降低;在设备故障恢复指标上的要求就是使RPO和RTO达到相关业务系统的要求,同时将业务中断时间与数据丢失尽可能趋近于零。

2.1.2应用标准

应用标准就是对存储高可用性技术的适用性提出的标准,主要包括:

读写性能:是指基于该技术构建的存储高可用性系统具有较好的读写性能,在读写次数(IOPS)和吞吐率上无明显下降。

兼容性能:是指基于该技术构建的存储高可用性系统能够充分兼容不同品牌、型号的存储设备,同时也能兼容各种操作系统。

实施性能:主要指基于该技术构建的存储高可用性系统无需对现有结构做大的改动,实施时中断业务时间较短。

管理性能:主要指基于该技术构建存储高可用性系统易于运维和扩展。

2.2 存储高可用性的传统方法

目前实现存储高可用性的较常见技术是基于操作系统和基于存储系统两种,两者各有优缺点。

2.2.1基于操作系统的存储高可用性

基于操作系统实现存储高可用性是利用操作系统来实现数据镜像。这种技术的优点是对不同存储设备的兼容性较好;缺点是需要特定的操作系统支持,在现有系统环境中实现难度太大;会增加服务器资源开销,甚至可能影响正常的系统运行。因此,这种技术具有相当的局限性,对些特殊的应用无法支持,比如:oracle rac。当业务系统比较庞大,会造成系统部署难度加大、管理复杂度增加

2.2.2基于存储系统的存储高可用性

基于存储系统的存储高可用性是利用存储间复制技术实现。这种技术的优点是功能强大,效率高,不占用操作系统资源;缺点是对存储的型号要求较高,通常是局限在同一型号之间;存储系统故障切换需要一定的时间。这种技术适合同品牌存储构建小型存储高可用性系统时使用

2.3 存储高可用性的虚拟化技术

鉴于传统技术在实现存储高可用性上存在诸多不足的现状,目前一种解决存储高可用性的新技术——存储虚拟化。

2.3.1存储虚拟化架构和原理

存储虚拟化是在物理存储系统和服务器之间增加一个虚拟层,它管理和控制所有存储并对服务器提供存储服务。

存储虚拟化技术就是把不同品牌、不同架构、不同容量、不同性能的存储整合成一个存储资源池——虚拟存储,提供统一有效的存储服务。相当于将存储卷管理的功能从服务器系统迁移到了存储虚拟化设备上,存储虚拟化设备工作于服务器系统和存储系统之间,对于所有的物理存储来说,存储虚拟化设备是服务器;而对于服务器来说,存储虚拟化设备则是存储,存储虚拟化设备整合所有的物理存储上的逻辑卷形成虚拟存储池,然后根据应用实际需求划分虚拟存储,由虚拟存储来为服务器提供存储服务。服务器不直接与存储硬件打交道,存储配置变化对服务器层完全透明。

图1:虚拟机的传统存储与虚拟化架构存储

图2:存储虚拟化的镜像标识

2.3.2存储虚拟化实现高可用性的方式

存储虚拟化技术实现存储高可用性主要是通过存储虚拟化设备进行数据镜像来实现的。

虚拟数据镜像是一种新型的存储虚拟化设备的工作方式,由存储虚拟化设备负责将数据同时向两个镜像存储数据之间进行写复制,且保持虚拟存储之间的数据同步;为了确保虚拟存储读写数据的可靠性和连续性,数据必须在不同存储系统之间镜像,如果其中一个存储系统失效或需要存储离线维护时,存储虚拟化设备仍然能继续提供存储的访问服务,当失效的存储系统恢复服务时,存储虚拟化设备自动重新进行虚拟镜像存储之间的数据同步,保证不同存储间数据一致。

3 存储虚拟化高可用性的应用

3.1 存储系统的目前架构

3.1.1实际环境的现状

本企业虚拟服务器环境由4片刀片服务器、1台DS 5300存储、2台光纤交换机组成,如图1,运行了60个虚拟机系统。 DS 5300作为虚拟服务器的数据存储,虚拟服务器数据定期进行备份。

3.1.2实际环境的存储高可用性亟待提高

现有存储架构在故障率、故障恢复上都存在不足。虽然DS5300已经是全冗余的企业级存储子系统,但从整个系统层面考虑,DS5300是整个系统的单点故障点。在故障率方面,由于整个系统的数据存储在DS5300上,因此存在单点故障,很难将故障率进一步降低。在故障恢复方面,目前使用VDP工具在每天凌晨对虚拟服务器进行数据备份,虚拟服务器数据量已达5T,一旦DS5300发生故障,将损失一天的数据,且数据恢复过程至少4个小时,现有存储结构和已无法降低RTO和RPO的指标,整个系统的数据安全存在隐患。

3.2 存储虚拟化的设备选型

IBM、HDS、EMC等许多厂商都提供了存储虚拟化的产品,企业需要根据自身实际情况,选择适合的存储虚拟化产品。主要可从以下4方面考虑:

(1)支持两个以上的存储间进行数据复制,避免存储单点故障,且产品本身具有双机冗余的工作方式。

(2)支持数据同步复制,具备故障自动快速恢复能力,以降低RPO与RTO。

(3)具备广泛的兼容性,能够兼容现有的系统与存储、良好读写性能、易于部署、易于实施、管理简单、综合成本合理。

(4)充分考虑产品的成熟度与技术运维支持能力。

综合以上几点,及企业的现状,选择IBM卷控制器(简称SVC)存储虚拟化产品来提高企业的存储高可用性。

3.3 存储虚拟化的架构设计

为了在实施期间减少对虚拟机系统的影响,降低实施难度,保留原系统架构,只需将一对SVC控制器接入原SAN网络即可,物理连接图(见图3-1)。SVC控制器在正常工作状态下,会把写入数据同时写到DS5300和DS5020存储中,确保数据冗余,起到对业务数据保护的作用

当主存储系统DS5300出现故障时,SVC控制器会自动把数据读写路径切换到备存储系统DS5020上,由于SVC控制器为主机提供存储服务,SVC控制器数据链路切换对于主机来说是透明,所以主机上的应用无需其它操作,依然可以继续运行,SVC控制器确保了整个系统的RPO和RTO都达到了0。

3.4 存储虚拟化的实施步骤

完成上述架构改造后(图1),对现有的存储和SVC进行以下配置:

(1)在DS5300存储上创建一个逻辑盘,由16块容量为600G 15K 光纤硬盘,以RAID 5的方式组成,在逻辑盘中再创建一个6.54T大小的逻辑卷,并将逻辑卷映射给SVC使用。

(2)在DS5020上进行同样的逻辑卷的创建,并映射给SVC使用。

(3)在SVC中将以上两个存储逻辑卷以image模式(不做条带化处理保留原来格式,必要时可以脱离SVC直接使用)进行同步镜像,组成一个虚拟卷,并将这个虚拟卷映射给虚拟服务器使用。

(4)为了提高系统读写性能,将较高性能的DS5300的逻辑卷设置为主卷(见图2中带*),负责系统的全部读写,较低性能DS5020的逻辑卷则为从卷,只进行镜像同步写入。

(5)在虚拟服务器中加入来自SVC的逻辑卷,使用动态存储迁移功能对虚拟机进行在线迁移。

3.5 存储虚拟化的技术评估

3.5.1设备故障率的评估

预设条件:按照存储有16块盘,组成RAID5;硬盘年故障率为5%;设备修复时间为3天;存储故障指在第一块硬盘故障修复期内,再发生1块硬盘故障导致RAID 5失效,设备故障恢复性能评估。

对DS5300存储的硬盘模拟损坏测试,当人为拔出2块硬盘时,RAID 5和主卷已经失效。

RTO测试:SVC自动主从卷切换,从卷5秒内自动接管,对外提供的服务未发生中断,全过程无需人工干预。

RPO测试:SVC采用同步镜像方式,故障发生后,对虚拟机系统进行检查,未发生数据丢失。

通过模拟故障实验可以看出,的RTO和RPO近似为零,与实施之前(RTO约4小时、RPO约1天)相比,存储可用性得到有效提高。

3.5.2存储虚拟化综合应用的性能评估

评价存储系统的读写性能有2个指标分别是每秒读写次数 (IOPS)和每秒读写吞吐速率(MBPS),使用测试软件HD TUNE PRO先对DS5300和DS5020的卷分别进行测试,然后将这两个卷通过SVC组成的虚拟卷进行同样的测试,其结果如下:

读写次数测试:三者的IOPS读性能基本一致;在写性能上,DS5300在数据块小于4K时性能较好,DS5020则相对较差,而SVC提供的写性能处于两者之间,更加接近于DS5300。

吞吐率测试:三者的吞吐率在读性能上基本一致;在写性能上,数据块大于32K时DS5300写性能优势明显,DS5020性能最差,SVC的写性能介于二者之间,更接近于DS5300的性能。

通过以上测试可以看出,SVC的读写性能处于DS5300和DS5020之间,更加接近于性能最好的DS5300,SVC组成的存储系统读写性能无明显下降。

4 存储虚拟化高可用性的总结与展望

通过存储高可用性的实现方式进行研究和分析,针对传统存储可用性存在的不足,提出利用存储虚拟化技术来实现存储高可用性的解决思路。同时,实现存储虚拟化在企业的应用实例,证明了该技术不仅能够保持存储现有性能和只需对存储架构进行微调的前提下,达到高可用性的目标,而且具有良好的扩展性和灵活性,为今后系统的扩展预留了空间。

综上所述,我们认为存储虚拟化技术不但可以应用在新建系统设计中,还可以较好地应用在现有系统的存储高可用性改造和提升中。存储虚拟化技术作为存储高可用性技术的发展方向,值得企业在今后的系统架构设计中不断推广应用,同样通过存储虚拟技术建立应用系统的容灾备份系统。

猜你喜欢
高可用性故障率存储系统
分布式存储系统在企业档案管理中的应用
天河超算存储系统在美创佳绩
超长公路隧桥高可用性监控平台方案分析
探索零故障率的LED智能显示终端
基于故障率研究的数字保护最优检修周期
OpenStack云计算平台高可用性的研究
一种虚拟化集群心跳算法
华为震撼发布新一代OceanStor 18000 V3系列高端存储系统
一种基于STM32的具有断电保护机制的采集存储系统设计
降低空气开关跳闸故障率的措施研究