一种基于vSAN的分布式存储系统构建和应用

2015-11-16 16:10于耳
中国教育信息化·基础教育 2014年8期
关键词:虚拟化

于耳

摘 要:作者研究分析了当前高校数字化图书馆的特点、任务需求,剖析了当前主流的存储解决方案优缺点,运用VMware公司最新发布的vSAN分布式存储系统技术,以上海公安高专数字化图书馆存储建设为实例,探索当前存储扩容最佳解决方案。

关键词:VMware;虚拟化;vSAN;分布式存储;存储协议

中图分类号:TP393 文献标志码:A 文章编号:1673-8454(2014)16-0072-04

一、引言

网络化、自动化、数字化等计算机技术日新月异,加快了各行各业现代化改革的步伐,图书馆业界也面临着从传统图书馆向由传统文献信息资源与数字化信息资源相结合的现代化图书馆转变的新阶段。高校图书馆的数字资源建设主要包括引进数据库、自建数据库两方面。而在后者当中,各馆特色资源的数字化以及数字特色资源的建设尤其重要,并已经逐步成为主流。高校由于其职业的特殊性,数字资源建设由于对知识和文献数据相关内容进行整理、使用、传播、共享、保存,其对于教学、培训、科研的辅助作用,乃至整体提高文化和专业素质,意义深远。

上海公安高专数字化图书馆系统信息基础平台一直处于建设完善过程中,随着数字图书数据批量化录入,同步还引进了各类现成的专业数图资源检索系统,数字图书资源每年容量扩充需求约10TB,随着存储大数据需求的增加,其存储需求容量随之快速增长,同时还要求扩展维护方便,快捷、保持业务不中断,安全稳定,性价比高等等,反而对存储的性能(尤其是对IOPS)没有太多太高的要求。面对需求,持续建设也刻不容缓。

二、传统的存储解决方案和面临的问题

对于高校数字化图书馆的存储现状,目前通常采用以下两种传统方法来解决数据量快速增长问题:

1.在原有的生产存储上进行扩容

如果已经具备了统一存储数据中心,可以在其架构上进行磁盘柜的扩展。按照16盘位计算,满配2TB SATA盘的扩展柜设计,考虑到安全性、RAID、热备盘以及后续扩展需求,如此配置的扩展柜可以满足图书馆系统的容量和安全需求。但这种方案也面临了以下问题:

(1)由于高校核心生产存储一般都会采用知名品牌,其产品价格成本高(尤其是硬件产品过保后的成本)。

(2)应对存储的数据安全问题,会采用增加磁盘(采用RAID技术、热备盘、多LUN)来保证,均要消耗存储磁盘,而专业存储的磁盘价格非常高。

(3)虽然存储的统一和整合能够提高管理的方便性,但同时核心存储的稳定性和高可用性愈发重要。任何存储故障发生,都将导致所有业务系统的停止。

(4)现在已有很多高校数字图书馆系统采用了虚拟化技术,如果现有核心存储已经承载了整个院校虚拟化的核心服务,比如上海公安高专的在线虚拟机数量达150台,已经承载了全校70%信息化平台服务。在此基础上若再增加数字图书系统内的多业务系统的接入,不仅现有的统一存储中心的性能受到影响,资源也将过度的消耗。

2.新购数字化图书馆的专用存储

根据数字化图书馆存储的实际需求,有的高校还会选择性价比更高的中低端存储(如国产存储),虽然从容量、性价比来说可以一时满足目前高校的需求,但从长远来看,同样也会存在以下问题:

(1)后续扩展性和安全问题。随着后续存储空间容量的需求,需要增加新的扩展柜,但存储机头的性能不会增加,逐步会形成“烟囱式”的存储架构,低性能存储机头后面连接很多扩展柜。不仅仅存储会面临存储性能问题,同时只要存储机头发生故障,所有数据都会无法访问。

(2)性能问题。中低端存储能否应对数字化图书馆后期批量导入或者突发式的访问高峰,都是疑问。到时一旦发生性能问题,在中低端存储上没有太多可以扩展的技术手段,后续风险较大。

(3)管理问题。后期维护和管理都无法与现有存储进行融合,也将降低管理效率。

传统存储解决方案都存在这样那样的问题,有没有一种崭新的技术,既可以解决存储容量、扩展性、安全性问题,又有性价比较高的存储解决方案呢?此时新发布的VMware vSAN技术步入笔者视野。

三、vSAN(Virtual Store Area Network)技术介绍

VMware Virtual SAN是全新的软件定义的存储层,可以扩展vSphere虚拟化管理程序以将计算和直连存储池化。通过建立服务器直连硬盘和固态硬盘(HDD和SSD)集群,Virtual SAN可创建专门针对虚拟机设计和优化的分布式共享数据存储。

Virtual SAN内置在vSphere内核中并采用分布式体系结构:利用SSD提供高性能读/写缓存,利用HDD确保经济高效的数据持久性。该技术基于高度可用的体系结构并且无单点故障。它可以应对磁盘、服务器和网络级别的故障并且不丢失数据,因为它内置了冗余机制,可以为磁盘和主机上的数据透明地存储多个副本。

Virtual SAN实现了基于策略的存储管理方法。可以通过将简单策略与各个虚拟机或虚拟磁盘关联起来指定存储属性,如容量、性能和可用性。存储可以根据指定的策略立即完成资源调配和自动配置。无论位于集群中的什么物理位置,虚拟机都会维持自己的独特策略。工作负载条件变化时,Virtual SAN会动态地自行调整并实现负载平衡,以遵守每个虚拟机的策略。

分布式存储的主要特点是:

1.Hypervisor层实现:无需其他硬件和软件,与vSphere管理无缝整合,简化了存储层的管理,充分利用DRS实现对运算、存储和网络资源的全面优化分配,存储策略的制定可以具体到某个虚拟服务器。内嵌在VMware vSphere内核的VMware Virtual SAN将提供最佳性能和可扩展性。

2.分布式架构:VMware Virtual SAN利用SSD硬盘实现高性能的读/写缓存,并利用硬盘实现高性价比的数据长期保存。endprint

3.读/写I/O缓存:Virtual SAN通过在服务器端SSD硬盘中内置缓存,加快读/写磁盘I/O的速度,将存储延迟降到最低限度。

4.内置故障防护:该技术利用分布式RAID和缓存镜像确保磁盘、主机或网络发生故障时绝不丢失数据。

5.无中断容量可扩展性:我们可以通过为集群添加主机或为主机添加磁盘,可无中断的对Virtual SAN数据存储的容量进行扩展。

6.以虚拟机为中心的基于策略的管理:该技术采用可自动转换为系统配置的策略信息,将存储要求与各个虚拟机或虚拟磁盘关联起来。

7.自行调节存储和动态存储负载平衡:Virtual SAN自动无中断地保持为每个虚拟机指定的存储容量、性能和可用性级别。该技术可以与VMware vSphere Distributed Resource Scheduler进行互操作,实现端到端计算和存储平衡。

8.与vSphere数据服务集成:该解决方案利用vSphere快照、vSphere克隆、VMware vSphere Data Protection和vSphere Replication,跨集群或站点提供数据保护、备份、快速克隆和数据传输以便进行灾难恢复。

9.广泛的硬件兼容性:Virtual SAN是独立于硬件的解决方案,可以在所有服务器OEM厂商提供的硬件上部署。

四、vSAN分布式存储在上海公安高专数字化图书馆中的部署

对于以上vSAN的理解,如仅仅从字面上看,vSAN是指虚拟的SAN(Store Area Network),常常会被误以为是SAN的替代品。其实vSAN只是将物理的存储资源转化成虚拟的存储资源池,物理存储资源是存储虚拟化的基础。这就好比是服务器虚拟化,并不是要替代物理的服务器,而是要提升物理服务器的使用效率。

从vSAN分布式存储的特点来看,其完全符合上海公安高专数字化图书馆对目前存储的要求,而且上海公安高专基于VMware的服务器虚拟化已经历经了三期的部署,虚拟化平台的先进性、稳定性、安全性都取得了非常大的成效。在此基础上部署vSAN分布式存储,与原有服务器虚拟化进行无缝的融合,又大大提升了安全性和运维的高效性。

结合上海公安高专数字化图书馆对存储的要求,此次vSAN存储服务器硬件配置设计如上表。

由于vSAN可以实现存储服务器之间Raid的技术,不计高速缓冲SSD空间,每台服务器可以提供18TB可用容量,采用N-1的模式,4台服务器可以提供3台服务器的存储空间容量,即3×18TB=54TB容量可用。

结合公安高专的实际硬件和网络特点,我们最终设计的拓扑结构图如图2。

在每个服务器中配置2个万兆的端口,交换机配置方案中采用2台24口的万兆二层交换机,来保证内部的高速通讯。

1.实施过程中注意的事项

在vSAN部署过程中,需要注意以下几点:

(1)vSAN 要求提供存储的主机上的每个磁盘组都至少有 1 块 SSD 和 1 块磁盘。每个磁盘组最多可以包含 1 块 SSD 和 6 块磁盘。如果 HDD 超过 6 块或 SSD 达到或超过2块,则需要另行创建一个磁盘组。为 vSAN 数据存储提供容量的每个主机都至少有一个本地磁盘组。每个主机最多可以包含 5 块磁盘组。

(2)SSD硬盘的容量不计入 vSAN 数据存储总容量。调整环境大小时,不要在总容量计算中计入 SSD 容量。建议将每个磁盘组中 SSD 容量与 HDD 容量的最小比例设定为 1:10,换句话说,如果我们有 1TB 的 HDD 容量,则建议 SSD 容量至少为 100GB。如果所选 SSD 的性能合适,则很容易使 vSAN 的性能提高 5 倍到 10 倍。默认情况下,可用 SSD 容量的 70% 将用作读取缓存,30% 将用作写入缓冲区。因为在vSAN规划设计中,缓存容量最好大于缓冲区容量。

Virtual SAN(vSAN) 群集目前最多可以包含 8 台主机,最少为 3 台。(请注意,这是目前vSAN的限制,以后会有所变化)。

(3)建议使用两个 10GbE 网卡处理vSAN VMkernel 流量,虽然 1GbE 就完全够用了,但在 I/O 密集型环境下可能会有一定的局限性。VSS和 VDS 均受支持。建议每个物理网卡上都有一个 vSAN VMkernel,一定将其配置为“活动/待机”两种状态,这样如果有 2 块物理网卡端口,则 2 个vSAN VMkernel 都有自己的端口。还要注意到,不支持一个主机上的多个 vSAN VMkernel 网卡位于同一个子网中,要求不同的vSAN VMkernel位于不同的子网。

(4)调整环境大小时,一定要把数据副本考虑在内。

(5)定义虚拟机存储策略时,请避免使用不必要的“闪存读取缓存预留”。vSAN 具有内部读取缓存优化算法,可以完全依靠该算法来实现缓存操作。

2.vSAN不足之处

由于vSAN是当今IT领域里,运用纯软件技术将软、硬件界限变模糊的一种最新概念的技术, 所以使用中发现vSAN还存在一些相关的不足,有待完善。

(1)vSAN 目前不支持容量大于 2TB 的虚拟机。

(2)vSAN 不支持 FT、DPM、Storage DRS 或 Storage I/O Control。但应注意,vSAN 会根据需要进行内部调度和平衡控制。Storage DRS 和 SIOC 适用于 SAN/NAS 环境。

(3)vSAN采用基于TCP/IP的存储协议RDT(Reliable Datagram Transport),以提供类似iSCSI的存储访问方式。这种方式的存储访问,需要消耗部分主机端的系统资源(需要进行相关数据包的拆包和存储协议信息的组合),当IO吞吐量比较大的时候,基于TCP/IP协议的存储访问,其效率肯定不及FC协议的访问效率。

(4)作为一种比较新的分布式存储,其产品成熟度也有待提升。因此在部署此种存储架构的同时,需要对数据安全性考虑更加完善(例如需要配合常规数据备份保护方式)。

五、vSAN分布式存储部署最终实现的效果

以上海公安高专数字化图书馆实施vSAN分布式存储部署实例,在数字化图书馆存储系统中应用情况判断,归结起来有以下好处:

1.可以在原有VMware架构体系内实现大容量存储的需求,与VMware sphere无缝结合,可以大大提高使用范围和管理效率,并可保护现有的软硬件投资。

2.可以通过增加副本数量的设置,保证图书馆数据保留多份,提升数据的安全性。

3.vSAN存储与成本相对较高的IP SAN集中存储性能相当,完全可以担当中高端IP SAN存储的任务。 实际使用下来,由于vSAN存储服务器配置的SSD和SATA硬盘互相呼应,当多个图情数字业务系统有多任务高并发的突发流量产生时,在IOPS比较大或者吞吐量增大的情况下,与理论上完全能自动实现先将数据缓存到SSD高速硬盘,再写入到普通SATA硬盘结果相符,没有出现当多个检索系统服务器在同时多任务高并发运行时,存储后端有读写速度缓慢或减慢现象。

4.方便的海量扩展性。对于后续存储空间的增加,只需要配置普通的PC服务器,按照之前的配置要求加入到相应的存储服务器组即可完成,无需停机或者业务停顿,业务的连续性也得到了保证。

5.前景最为看好的是:采用了vSAN分布式存储后,可以不再依赖某种存储或者几种存储。后续扩容可以避免高昂的存储硬件服务成本和硬件扩容成本。只需考虑普通PC服务器的服务和硬件扩容成本,后续存储投入成本几乎是对半,具有很高的性价比;几乎支持所有的图情数字业务系统的扩容需求。对于高校的数字图书馆存储中心来说,如需要部署方式简单、快捷,业务又不中断,更不用考虑对已有的存储架构产生性能等方面的影响,vSAN非常有吸引力。

(编辑:鲁利瑞)endprint

猜你喜欢
虚拟化
基于OpenStack虚拟化网络管理平台的设计与实现
对基于Docker的虚拟化技术的几点探讨
虚拟化技术在CTC/TDCS系统中的应用研究
虚拟化技术在计算机技术创造中的应用
高速公路服务器虚拟化技术应用与探讨
存储虚拟化还有优势吗?