罗世雄
(湖南省邮电规划设计院有限公司,长沙 410126)
存储资源池的规划和设计遵从稳定可靠、易扩展、高性能、管理灵活的原则,按照分级存储的理念,为应用提供更多的存储及数据服务,如数据共享、数据容灾、备份恢复等,满足不同业务的服务水平要求[1]。按照ITIL管理域功能要素,提升应用服务水平质量和系统管理水平,建立合理分级存储和存储服务的架构,提供多种数据支撑服务[2]。
作为整个数据中心数据承载的核心架构,存储云平台应具备高可靠、高性能、易扩展、易管理的特点[3]。存储资源池的规划和设计应借助存储自动化平台,实现存储的资源自动智能供给等控制服务,改变传统存储管理手工操作的模式,实现存储的自动化运维管理,实现存储资源即服务(Storage as a Service)[4]。
为满足存储的不同要求,根据存储设备性能建立分区存储策略,提供统一的高可用数据存储服务和存储管理服务。
各种应用类型对应的适用存储选择,见表1所示。
表1 存储选型表
数据中心不同业务系统产生数据的类型不同,需采用不同的技术满足不同要求,以达到高可靠、高性能、高可扩展性和管理灵活的特点。
结构化数据是以行和列为组织形式,数据的I/O通常与一个事务相关,每个I/O的数据量相对较小,但是I/O的频率很高,故要求存储系统具有较高IOPS性能。结构化数据典型的是数据库数据,包括Oracle等商用数据库。
非结构化数据是以文件为组织形式存放在存储设备上的数据。前端应用系统对非结构化数据I/O通常采用大数据块顺序读写,但I/O次数较少,故要求存储系统提供大I/O带宽和存储扩展。非结构化数据典型的是多媒体文件等。
目前较主流存储方式,主要有FC-SAN、IP-SAN、NAS、分布式存储等方式[4,5],详见表2所示。
对数据中心各业务的服务级别需求分析,产生出服务目录、服务级别协议,建立数据中心统一的数据存储管理和服务规范及标准,设计和实施符合不同服务级别的数据保护和恢复解决方案,定义符合业务需求的IT服务及其相关的服务内容和服务级别,根据服务级别设计出合理的存储资源池架构。存储服务目录定义如表3所示。
由于应用业务需求、成本考量等因素的不同,不同应用对同一存储服务相同服务指标的要求和服务级别是有偏差的,所以对存储服务的每一个服务指标都定义了不同的服务级别。
存储服务级别是以业界存储服务的最佳实践为基准,以主流存储厂家知识和经验作为校正,以访谈不同业务需求及目前存储服务情况和搜集现状数据来完善服务级别,根据运行效果不断校正偏差,得出存储资源池服务级别分类如表4所示。
根据数据中心应用系统数据保护和恢复的实际需求,结合业界数据保护和恢复方面的最佳实践,提出分级的数据保护恢复服务,确定数据保护服务各级别的定义。数据保护服务采用恢复时间点目标(RPO)、恢复时间目标(RTO)、可恢复性3个关键性能指标对其量化。数据保护级别分类如表5所示。
5.3.1 级别1
数据保护的最高级别,必须实现数据0丢失与0停机,确保数据完整性、有效性,且发生故障后,无需恢复数据即可100%恢复且正常提供业务服务。
表2 存储类型分类表
表3 存储服务目录定义
表4 存储资源池服务级别分类表
表5 数据服务级别分类表
要求数据有完整的备份和容灾措施,能够防止物理和逻辑灾难,实现数据RPO=0。建设有完整的本地可用副本,在物理灾难发生时,无切换时间完成生产数据到副本数据切换;必须防止物理站点灾难,建有异地数据副本,当本地所有副本不可用时,数据切换到异地副本;有效防止逻辑错误,能恢复一个月内任意时间点状态数据,满足业务任意时间点回滚,保证数据的0丢失。
适用核心业务系统,此类业务系统发生灾难,将严重影响业务开展。
5.3.2 级别2
必须实现数据的0丢失,确保数据的完整性、有效性,且发生故障后,能够在4 h内100%恢复且正常提供业务服务。
要求数据有完整的备份和容灾措施,具有100%数据可恢复性。要求有完整的本地备份,能够防止物理和逻辑灾难,能通过数据保护方案保证业务连续性,在4 h内完成生产数据切换到副本数据;建有异地的数据副本,当本地副本不可用时,数据切换到异地副本,数据要求RP0=0,RTO≤4 h。
适用重要业务系统,此类业务系统发生灾难,将局部影响业务效率。
5.3.3 级别3
一般服务级别,确保数据的完整性、有效性,RPO和RTO≤24 h,必须实现数据100%恢复。
要求数据有完整的备份措施,具有100%数据可恢复性,必须建有完整的本地备份,能够防止物理和逻辑灾难,实现数据RPO≤24 h。
适用一般业务系统,此类业务系统发生灾难,不会对业务造成较大影响。
对数据中心应用系统业务重要性分类:核心业务、重要业务、一般业务,结合对数据保护服务级别的要求,核心业务系统数据保护为级别1,重要业务系统为级别2,一般业务为级别3。
存储自动分级技术利用不同存储介质(SSD、SATA盘等)在成本和性能方面的差异性,通过性能统计、分析后,自动将热点数据迁入高性能存储层(SSD盘),非热点数据迁入普通存储层(SATA盘),保证业务系统性能持续自动优化,同时避免了人工调优的繁琐和误操作,也减少了购置、电力等成本,实现成本和性能的最优比例。
6.2.1 CPU计算能力
处理器需要完成I/O处理、数据传输控制等软件功能,阵列中CPU是核心数据处理单元,也是支持大容量数据读写计算的关键。存储控制器主频、核数与其性能呈正比,故尽可能配置处理能力更强的CPU以满足大量计算I/O性能需求。
6.2.2 Cache缓存
对于数据库和虚拟机等大量数据访问应用,为提高I/O能力,应尽可能让I/O在CPU和Cache之间发生,降低对物理磁盘读写,因此缓存越大、算法越好,缓存命中率越高,随机I/O的处理性能就越好,存储容量与Cache容量成正比例配置。
6.2.3 前端端口主机端HBA卡端口数≥2-3,再考虑到为未来系统预留,共配置16个8 Gb前端端口。
6.3.1 存储设备冗余设计
构架设计采用冗余的体系构架,实现电源、磁盘等关键部件冗余保护。
(1)采用双交换机、双主机HBA卡搭建存储与主机之间的多条访问路径;
(2)全面在线升级能力:所有硬件部件、功能性软件及存储系统的内部微码均具有在线升级能力;
(3)系统中硬件部件为可热插拔且能不间断修复,微码可在不影响用户操作和应用运行的情况下重新装入;
(4)不间断电源系统,具有电池备份系统。当AC电源失败时,电池备份系统提供对Cache中数据的保护,保证Cache中的数据能全部写到硬盘中。
6.3.2 数据保护高可用
在数据可靠性方面提供RAID0、1、01、10、5等多种RAID保护;
动态备盘——非RAID的数据保护方式,降低磁盘重建时间;
存储电源配置冗余,防止意外断电而失去Cache内容。
6.3.3 存储架构高可用对于核心存储系统,利用高端存储系统的数据同步复制功能、持续数据保护功能,有效防范存储设备的单点故障。
6.4.1 服务质量(QoS)技术
对存储系统中的计算、缓存及硬盘资源等进行智能分配和调节,在整个存储路径上进行端到端的细粒度控制,从而满足不同重要性业务在同一台存储设备上的不同QoS要求。主要通过三方面来保障:
(1) 按业务重要性来划分业务响应优先级,先保证高优先级业务;
(2) 通过I/O流控机制,限制某些业务由于流量过大而影响其它业务;
(3) 允许用户为高优先级业务指定最低性能目标(最小IOPS或最大时延)。
6.4.2 缓存分区技术
不同应用配置不同大小的缓存分区,该分区的缓存资源被该应用独占,根据业务实际情况动态调配不同分区中的前后端并发。主要通过对以下三类资源划分隔离区确保性能:
(1)在存储内并行执行主机I/O数量;
(2)业务占有的缓存大小;
(3)并发访问后端硬盘的I/O数量。
6.4.3 端到端的数据完整性校验技术
数据在读、写、存储过程中,出现了错误,没被立即检测出来,此现象叫静默数据破坏(Silent Data Corruption),产生静默数据破坏原因主要有Firmware错误等。为防止静默数据的产生,DIF数据校验技术通过在存储每个扇区数据后加DIF字段,在后续数据流过的关键通道上设置校验点,实现数据完整性检查。
存储管理平台具有全面先进的自我监测、自我诊断和自我修复算法。存储管理平台为三层系统架构,分别为接口层、管理逻辑层、存储管控层。
7.1.1 接口层
通过存储管理平台的建设,实现存储资源池的虚拟化、抽象化、自动化和可视化,存储云平台提供主流的API接口(如Rest),使存储服务能无缝的纳入到已有的云管理平台,提供完整的资源服务。
7.1.2 管理逻辑层
“软件定义存储系统”为平台核心技术,通过该系统将物理存储资源池化、抽象化、标准化,并提供基于资源池预定义的存储自动化服务。存储资源的池化和抽象化可根据数据中心的存储服务目录进行配置,存储自动化服务由基于抽象的资源池封装提供,存储资源标准化在自动化服务策略中配置,使存储自动化服务符合数据中心的存储规划和运维规范。另该系统还支持多租户、计量、自服务等云计算特性。
“存储资源管理系统”从物理存储和“软件定义存储系统”中抽取信息,以提供多维度(指物理存储、存储资源池等)详细的配置管理等。
“统一存储管理门户”基于软件定义存储系统和存储资源管理系统。该门户是存储管理平台对外的统一接口,根据不同用户的不同运维管理任务进行客户优化,以一个界面完成一项任务的方式整合零散的存储管理信息。
7.1.3 存储管控层
存储管控层即与底层存储的接口层,主要包括获取存储管理所需的存储信息、发布存储自动化控制命令。管控层支持多种主流面向云的接口协议,包括SMI-S接口和OpenStack Cinder。
实现从存储、SAN交换机、服务器端到端的存储自动化调配。实现基于策略的存储资源自动化,设定不同的存储供给策略来满足规划和标准化要求,使得配置符合存储最佳实践,同时通过自动化消除由于手工操作给整个存储资源的稳定性带来的风险。
支持多租户设计和存储服务的定制化,可为不同部门指定不同租户,设定不同的存储服务和存储配额。可在用户界面中查看各自的存储服务内容,并根据需要申请相应的存储服务。内置审批流程,管理员在收到存储服务请求时,可进行审批操作。
对不同存储阵列采用相应的接口程序来保证异构存储阵列接入,优先采用行业标准接口。通过将异构存储资源抽象化,将设备级的操作封装成面向存储资源的操作,并能自动执行从创建、变更到回收的整个存储生命周期流程。管理员也可以从平台中添加、调配、管理和共享存储资源。
通过SMI-S等标准接口来实现异构存储阵列的监控,实现从主机到存储端到端的可视性,快速了解主机相关存储资源的使用情况。通过周期性数据采集,自动展现最新存储资源性能、健康状态等,协助管理人员定位分析问题。
(1) 保护原有投资原则:未到设备报废年限,满足虚拟化条件存储设备应尽量利旧。
(2) 性能匹配原则:对未到设备保护年限,但性能较低,在利旧虚拟化后,可能导致平台整体性能降低、影响应用效果的设备,应单独利旧,规划承载对性能要求不高、非关键性的业务系统。
新技术的规模化应用,数据海量增长的态势,存储不仅会在容量上提升,同时也要满足新兴业务的性能要求及数据服务等要求[6]。本文从数据中心角度出发,提出存储服务分级设计以满足不同的存储服务要求,通过存储管理平台实现数据中心存储的全自动化,为存储资源池规划部署提供有价值的参考。