郭 锂,蒙庆全,叶惠文
(华南师范大学 教育信息技术中心,广东 广州510631)
在社会信息化日益深入,知识增长迅速的今天,各种网络教学平台和数字化教学资源在高校教学活动中的参与程度越来越高,各高校对教学资源建设的投入也越来越大。学校里的数据资源就相当于商业社会中的银行资金,一旦数据资源管理系统出现故障或学习资源被破坏,师生将无法进行正常的教学和学习。随着教育信息化程度的不断推进,高校对于数据支撑系统的稳定性和可靠性的要求随之提高。同时,在经历了信息化建设的10多年过程后,由于存储技术的进步、资金预算有限等众多因素,各高校在数据存储管理方面也普遍遭遇了一些问题和困惑,如:
目前高校绝大多数的应用服务器采用直连式存储,每增加一台服务器就需要增加相应的存储,导致了存储分布散、扩容难、利用率不高、异构化严重、不易管理等问题。
在不同的时期,各校都购置了各种各样的存储设备,其中多数设备是依赖当时硬件系统和应用系统理念来配置的,随着时间推移应用系统升级,存储设备的性能和容量不再满足要求,存储设备的动态扩展和兼容问题以及提高旧硬件设备的再利用率的问题也随之出现。
随着各高校教学资源数据量的与日俱增,由于人为误操作、硬件故障、系统错误、不可抗灾难等因素引发的数据损坏丢失问题也给管理人员愈加带来困扰,灾难备份与数据保护成为管理工作面临的困难之一。
面对这些各高校普遍存在的代表性问题,华南师范大学在分析高校数据存储管理新需求的基础上,结合虚拟存储和CDP等新技术,构建了一套存储虚拟化应用方案,实现了对存储资源进行统一管理和按需分配,提高了资源利用率和系统稳定性,降低了系统的投入和维护的成本。
存储虚拟化这个名词正越来越受到大家的关注,其相关技术作为一种适应当前社会数据爆炸性增长速度并缓解企业数据管理压力的高端解决方案,已经为许多大型公司企业所普遍采用。随着技术和产品的成熟发展,尤其是产品性价比的不断提升,存储虚拟化技术在教育行业中的应用也变得不再遥不可及。
虚拟存储的概念可以理解为:通过一定的技术方法将所有存储设备集中在一个存储池(Storage Pool)中进行统一管理,并可根据服务器的需要分配存储空间,对服务器而言就好像一个超大容量的虚拟磁盘。这种可以将多种不同的存储物理媒介和存储子系统整合起来,为使用者提供大容量、高数据传输性能的存储系统,就称之为虚拟存储。[1]当前虚拟存储的实现方式主要分为以下三种。
(1)基于服务器端
此种方式主要是在服务器平台上安装管理软件,通过服务器端将镜像映射到外围存储设备上,除了分配数据外,对外围存储设备没有任何控制。由于控制软件是运行在主机上,占用主机的处理时间,服务器端常常产生性能瓶颈问题。[2]
(2)基于存储子系统端
此种方式中实施虚拟的位置在于存储设备本身。在存储子系统端的虚拟存储设备主要通过大规模的RAID子系统和多个I/O通道连接到服务器上,智能控制器提供LUN访问控制、缓存和其他如数据复制等的管理功能,此技术多被传统储存设备厂商采用。
(3)基于网络设备端
此种方式是通过网络设备端实施虚拟存储,将逻辑镜像映射到外围存储设备,除了分配数据外,对外围存储设备没有任何控制。其优势在于,其实施介于服务器和存储设备两个环境之间,可能是最“开放”的虚拟实施环境,最有可能支持任何的服务器、操作系统、应用和存储设备。
华南师范大学虚拟存储解决方案中采用上述第三种方式(基于网络设备端的虚拟存储),主要考虑到其便于支持众多不同类型的服务器、操作系统、应用和存储设备,扩展性和兼容性较强,且价格成本相对较低。存储虚拟化软件在设备上创建一个逻辑空间,在物理磁盘空间和逻辑磁盘空间之间建立映射关系的方式来管理源数据,存储硬件的增减、调换、分拆、合并对服务器层完全透明。采用这种开发式存储架构优势在于:支持常规的标准存储协议,实现强兼容,同时可提供二次开发API接口列表,有利于实现与教学辅助平台的无缝链接,以最高的效率、最低的成本来满足各类不同应用在性能和容量等方面的需求。
CDP(Continuous Data Protection,CDP)连续数据保护是当前数据备份领域内的一项新技术,它能够持续实时地跟踪捕获数据变化,并记录到专用的存储设备或通过网络发送到专用服务器上;在故障发生时,能够将被保护的数据状态恢复到任意时间点。[3]数据保护系统可以基于块、文件或应用实现,可以为恢复对象提供足够细的恢复粒度,将容灾指标数据恢复点目标(Recovery Point Objective,RPO)和恢复时间目标 (Recovery Time Objective,RTO)提高到一个新的台阶[4]。
华南师范大学作为教育信息化建设起步较早的“211”师范类教学科研型大学,学科涉及门类众多,多年来陆续建设有大量的精品课程、视频资源、学习平台、各类应用和管理系统,其数据存储管理的需求在国内高校中具备一定的代表性,可归纳总结如下。
(1)当增加一个应用模块时,通过系统能自动或手动虚拟一个与应用的虚拟服务器对应的虚拟磁盘。当减少一个应用模块时,系统能自动或手动删去相应的所虚拟的磁盘。
(2)实现将各种的存储器阵列集成一个虚拟存储器池,在物理上视为一个磁盘。根据应用模块随时划出一个存储空间与应用虚拟服务器对应,完成数据的存储管理。
(3)实现存储增删的动态管理,即,当应用发展的需要发现存储阵列中容量不足时,可随之增加虚拟磁盘容量。
(4)具有对多种不同厂家和型号的存储阵列的管理功能。
(5)支持应用模块的各种数据需求(数据类型、容量、运行系统等),能够自动或手动生成多个虚拟存储空间的链接表,供用户选择合适的对应数据存储服务。
(6)能够建立各种存储阵列的参数与信息词典,清晰描述出各个存储器的基本参数。
(7)能够实现存储空间预警功能。
为解决上述需求,经过多次研究和讨论,通过各种测试和实验,华南师范大学构建了一套存储虚拟化应用解决方案,本方案的目的是实现资源的有效利用,通过将新旧资源的重新整合,实现对海量教学资源及众多的应用系统进行有效的支撑,并且根据应用系统的需求动态分配存储资源。本方案中虚拟存储支撑平台的结构如图1所示。
图1 虚拟存储支撑平台架构示意
本方案主要采用信核数据三种 “存储引擎、SAN引擎、虚拟化引擎”的技术实现。信核数据设备采用OSN(Open Storage Network)开放式存储平台技术,通过标准的FC/IP/SAS/Infiniband等协议管理存储设备,从而获取存储中的卷组信息。
(1)实现异构存储虚拟化
1)构造虚拟系统平台,支持多品牌存储设备整合
本方案中采用的OSN(Open Storage Network)开放式存储平台技术能够构建网络存储虚拟化平台、统一管理异构设备和各种数据、整合不同类型的存储资源,如ATDX、IBM、Dell等公司的存储设备,其异构结构如图2所示。
图2 多品牌整合结构
2)虚拟系统对多品牌组成的存储池管理方法
虚拟存储管理解决方案将应用服务器与后端存储进行透明的分离,通过集成 CDP、SnapShot、DR、HA 等多项增值保护功能,建立完整的数据保护体系,以经济高效的方式将数据损失风险降至最低,保证在发生任意单点故障的情况下,业务能够保持7×24小时的连续运行。
(2)实现存储虚拟化与前端主机虚拟化的融合
前端主机采用了Red Hat KVM主机虚拟化软件,每个虚拟机的文件系统都创建在虚拟化存储系统上。服务器平台上运行Red Hat GFS高性能的群集文件系统,允许多个物理服务器安装同时访问同一虚拟机存储,实现安装数据库文件、系统数据等。这样建立起来的系统,实现了服务器和存储系统的无缝融合。
(3)数据迁移
在不改变原有数据的前提下,将数据从现有的存储平滑迁移至其他存储阵列上,对前端的业务等应用没有影响。
(4)虚拟存储的动态负载均衡
本方案中,在网络层通过Block块的技术去实现数据的同步写入,不依赖主机和存储系统,实现灵活的架构配置和管理。可在不影响现有应用的情况下,透明实现存储集群,实现了以下几点:
1)支持FC SAN+IP SAN综合网络存储架构,实现统一存储和应用混合使用。
2)支持 Standard、MPIO 和 Cluster,支持 Active/Active和Active/StandBy模式。
3)实现基于FC和IP的数据同步,对业务网络不造成负担压力。
4)提供Cache能力,加速提升了存储IO能力。
5)实现存储故障自动切换和存储修复自动切换,可提供99.99%的可用性,支持业务持续应用。
6)提供现有存储自动迁移服务,最大限度地减少业务宕机时间。
(5)CDP在线系统级实时保护和恢复系统
本方案中的CDP模块利用数据镜像和数据复制(同步或异步)策略,实现将待备服务器的待备数据纳入CDP平台的保护体系,以确保数据发生错误时,数据恢复到最新的时间点。同时,采用配合数据复制卷的时间点快照技术(快照流),通过时间指针的方式,按增量快照的方式记录下数据复制卷的变化,每一个快照对应一个时间点,记住了数据多个时刻的历史变化过程,产生多个基于时间点数据影像 (自动情况下精确到每十分钟,手动情况下精确到秒级)。这些数据影像不仅时间点细致精确,而且通过快照的回滚操作还可以直接使用,用户经过简单的设置就可以对快照数据进行操作,解决误删除、误操作、病毒破坏等造成的数据丢失。
华南师范大学的存储虚拟化应用方案,经过一年多的论证、建设和测试,实现了高稳定性、易维护性、高效低成本的建设目标。方案在利用现有的主机和存储系统等硬件环境下,实现了存储数据整合;有效的利用了闲置的、不同接口的存储设备;提高了存储的利用率;同时也优化了原存储的性能。系统中配置的CDP在线保护模块确保了整合后数据的安全性和教学平台的连续性,避免了各种不可测因素造成的数据丢失,实现数分钟立即恢复教学应用的保障效果。
目前,在新建成的虚拟存储系统支持下运行了如下7个应用系统:“课程中心”网络资源学习平台、移动学习平台、精品课程点播平台、教育信息技术中心网站、机房管理中心、直播系统平台、教学主楼教学观摩系统目录服务器,所有系统应用存储合计占用20T空间,运行稳定良好,具体列表1所示。[5]
系统经过一年的反复实验,证实其安全、易操作,能够较好地缓解学校目前数据存储和管理的压力,并可以灵活适应将来的扩展需求。与旧有存储结构相比,其优势主要体现在以下几点:
(1)可以集中管理分散的不同品牌的存储设备,可以提高存储空间的利用率。
(2)可以通过一个统一的存储管理界面平台或界面,来管理现有的存储设备。
表1 虚拟存储系统支持的应用平台
(3)可以随需扩展不同的异构存储品牌,同时通过TVM功能迁移将原来存储上的数据,通过底层技术迁移到新的存储上。
(4)可以实现在异构的不同存储系统之间进行数据容灾或复制。
(5)可以按不同的存储性能分层存储,例如根据磁盘品种(SSD/FC/SAS/SATA)进行分类。[l4]
(6)可以实现存储容量的灵活分配,可以超出物理磁盘空间,随需扩容。
(7)使用OSN PA功能后,可以提高低端存储系统的性能。
在高校教学支撑平台中采用存储虚拟等相关技术,是解决当前教育数据海量增长的一条新思路。华南师范大学在大数据量、多应用、多品牌的存储系统环境下探索出的基于网络设备端的存储虚拟化应用方案,实现了对旧有资源的高效整合,解决了数据管理工作中的问题,为高校及教育科研单位的存储设备的有效使用和管理找到了一条新路径,我们将在后续的工作中继续总结经验,向读者提供更具有借鉴价值的实践指导。
[1]任永坚.存储管理和数据保护.[EB/OL].http://www.infocore.cn/xzzx.aspx?ref=3.2010.6[l5]
[2]付云生.王开云.虚拟存储技术的研究与比较[J].计算机科学,2011(10):202-203,238.
[3]李红艳.块级连续数据保护系统元数据管理方法[J].计算机应用,2012,32(8):2141-2145,2149.
[4]李珺晟.浅谈CDP连续数据保护技术及其应用[J].数字技术与应用,2011(6):191.
[5]张效严.郭翠英.高校信息化多应用虚拟支撑平台的应用研究[J].中国教育信息化,2012(2):93-96.