白巧花
摘要:在新的业务变化发展和信息化建设转型时期,传统的集中式建设模式在资源共享、灵活调配等方面的不足逐步凸显,无法实现对资源的快速、持续供给,不能较好地适应未来业务的发展需要。基于此,结合当前主流的IT技术发展趋势、实际的建设要求和存储建设应实现的关键目标等,探索集中存储高可用改造的实现和应用,为企业业务网集中存储高可用改造提供参考。
关键词:存储高可用;架构改造;双活
一、数据中心业务网存储现状分析
随着近年来应用系统的不断发展,集中式存储系统较好地满足了系统上线所需的空间资源,并针对少数业务连续性等级较高的应用系统实施了不同数据中心之间的数据实时复制,还通过磁带备份等多种手段,有效增强了系统和数据的安全性。但业务网存储系统也存在以下一些问题:
(一)数量多,均为单点,处在更新周期
业务网存储系统以日立、华为品牌的高端磁盘阵列为核心设备,以及各品牌光纤交换机、NAS设备、磁带库、PC服务器等硬件设备和数据同异步复制管理、备份管理等软件设备,涉及十余个品牌的中高端软硬件设备,设备数量和种类多、相关厂商多;同时,各系统数据直接存放于磁盘阵列中,虽然都是高端存储,但均为单点运行,存在单点故障隐患;最后,少数老旧集中存储的磁盘阵列和光纤交换机等配套设备已使用多年,已经或即将EOS,正处在更新周期。
(二)无统一规划,没有根据业务重要性及需求划分
此前数据中心存储系统没有统一的规划,没有一套根据应用分类分级和特点制定的存储资源池建设标准。受系统上线时间要求、存储容量及可扩容容量等多重因素限制,重要系统和非重要系统的数据“集中”存放于一台或几台存储中,没有根据系统重要程度和性能需求进行区分。同时,新购存储设备均采用公开招标,采购周期常,采购设备多样,提高了管理和运维的复杂度。
(三)容量不足与空间利用率低并存
每年都有要新上线的系统,所需要的存储空间较大,剩余存储资源有限而只能通过不断扩容解决容量不足的问题。与此同时,因无法准确预计未来空间的实际需要,当前存储空间多采用静态分配,而存储空间一旦被分配后即无法收回,同时为满足数据安全、可靠性(采用RAID技术)以及未来扩展的要求,很多系统都预分配大量容量,却长期处于闲置状态,实际利用率低(很多情况不足30%)[1]。
(四)软硬件紧耦合
当前应用系统仍主要采用集中式架构,存储层与数据库层、中间件层及应用层等架构耦合度高,存储软件依赖于相应的存储硬件,选择范围集中在少数几个存储厂商,不论是硬件层面的存储扩容还是软件层面的高可用改造、数据复制等均只能通过购买该原厂商的产品或服务来实施。
二、规划目标和原则
(一)技术方向
传统的集中式系统建设模式下,计算、存储等资源根据不同应用各自建设,在有效支撑业务开展的同时也形成了资源专有化配置的特点。在新的业务变化发展和信息化建设转型的时期,传统的集中式建设模式在资源共享、灵活调配等方面的不足逐步凸显,无法实现对资源的快速、持续供给,不能较好地适应未来业务的发展需要。实施架构转型,存储层面要结合自身业务特点和不同应用场景,结合现有的技术资源,做好技术架构研究,做好转型规划。通过架构改造与实施,实现系统快速交付、动态调整、弹性部署,提高IT资源共享效率,降低总体成本,保证业务连续性。
(二)规划目标
通过对存储系统的现状进行详细分析,结合当前主流的IT技术发展趋势和实际的建设要求,存储建设应实现的关键目标包括:
1.资源池规划和建设
根据业务分类分级及特点,进行资源池的统一规划,对存储的实现方式,例如集中式、分布式等进行统筹考虑和规划;统一资源池的标准,抽象资源池的服务能力。
2.统一规划、分布部署
存储架构及资源池建设按照“两地三中心”进行整体规划,单数据中心高可用、双数据中心存储部署以及未来的“两地三中心”进行分步部署。
3.架构的延续性和扩展性
单数据中心内的高可用架构能扩展为双数据中心内的存储架构,进而从双数据中心的存储架构能扩展为“两地三中心”或多中心架构。
4.完善的容灾能力
存储架构不仅具备解决物理故障的能力,包括设备级故障,还可以解决站点级故障。单数据中心高可用建设完成后,存储架构具备设备级物理故障容灾能力;双数据中心存储体系建设完成后,存储架构具备站点级物理故障容灾能力
5.架构先进性
结合数据中心基础设施云建设,面向IaaS云平台的存储标准化设计,从传统的“SACLE-UP”纵向扩展方式转向“SCALE-OUT”横向扩展,有能力通过资源池和架构扩展方式保持其先进性。
(三)实施原则
1.对系统影响小,平滑迁移
参考此前存储规划及各应用系统实际,结合系统业务连续性和重要程度以及现有设备的实际情况,统筹开展存储系统规划。通过详细规划设计,稳步地实施和测试,使得应用系统安全稳定地运行在此存储平台上。需要迁移的应用系统,应对应用系统的影响降至最低,同时需确保应用系统迁移前后数据的一致性、用户访问的一致性,应在迁移过程中保证其文件存储位置、路径、内容等不变,实现平滑迁移。
2.实现软硬件松耦合
通过存储虚拟化的方式将逻辑卷与硬件“解耦”,打破孤岛之间的疆界,让存储资源能够共享,数据能在各个存储的硬件组件间自由流动。软硬件逐渐“解耦”的过程,就是将同类硬件的不同细节部分隐藏起来,并与上层隔离开。这样,上层就不必因为下层硬件的不同而修改,增加了可移植性和灵活性[2]。同时,管理方式应当简单明了,根据标准化的运维流程,采用统一的IT自动化的运维工具,减轻运维人员的压力,避免人为操作过程当中的失误。
3. 根据业务重要性及需求实现分级分类
根据应用分类分级和特点制定的存储资源池建设标准,根据系统的业务连续性等级进行分级分类。先规划资源池和抽象资源池的能力,标准化资源申请流程,提高效率,降低管理和运维的复杂度。
4.扩展性好,适合未来发展需求
在“解耦”的基础之上,才能进一步做资源的池化。因为池化就意味着资源不受硬件的限制,能被自由地分配、使用和调度。在数据中心内,能够跨越异构的磁盘阵列,形成一个大的存储资源池,统一管理和分配来自不同存储厂商的存储资源。具有较好的可扩展性,适应未来业务发展需求。
三、实施路线
(一)总体路线图
综合上述规划目标和实施原则,结合存储设施现状,业务网存储系统的建设可大体分为三个阶段:
1.第一阶段
根据规划,第一阶段的建设内容如下:
(1)根据系统的业务连续性等级进行分级分类,完成“中心内高可用、中心间容灾”的存储高可用架构改造;
(2)结合数据中心基础设施云项目,通过存储虚拟化网关构建一套更加灵活,可用性更高的存储架构,支撑现有系统迁移和未来系统建设发展要求;
(3)结合基础设施云项目的进展,研究制定存储资源池标准,符合IaaS云平台对存储资源池的要求;
(4)逐步完善与IaaS云平台标准化接口管理层的对接,完成单数据中心内存储资源池服务能力的抽象。
2.第二阶段
(1)根据各应用系统的实际,研究从单数据中心存储高可用扩展为双数据中心存储体系;
(2)结合数据中心云基础设施项目,完善IaaS云平台的存储资源池和丰富标准化接口,探索双中心数据归档和备份机制建设;
(3)完善资源池服务能力的抽象,增加双数据中心存储资源的服务化。
3.第三阶段
(1)探索存储架构从双数据中心双活扩展为“两地三中心”或多中心,实现数据级容灾;
(2)进一步完善IaaS云平台的存储资源池和丰富标准化接口,增加具备异地容灾的资源池;探索“两地三中心”或多中心数据归档和备份机制建设;
(3)完善资源池服务能力的抽象,增加容灾的服务化。
(二)实施效果
1.实施存储高可用改造,能够解决现有存储系统中单点故障隐患,使业务连续性等级为三级和四级的应用系统达到或超过相应的时间要求,整个应用系统的可靠性显著提升。
2.实施存储高可用改造,能够有效对接基础设施云平台的建设需求,初步探索实现了存储资源的“池化”和“解耦”,有效提升了存储设备的兼容性,提高了资源扩展能力。基于存储虚拟化的动态存储分配,能够不断整合存储资源以及释放闲置空间,而不需要预先分配专用的物理存储,结合系统实际运行情况以及资源使用情况动态调整分配的虚拟存储空间,减少预配置资源的浪费[1]。
3.实施存储高可用改造,能进一步完善容灾建设。在灾备中心可通过数据复制的方式完善同城容灾建设,实施相对简单,容灾能力较之前有大幅提升。
(三)实施风险
分别以日立、华为设备形成的存储高可用方案,其实施对上层应用无影响,因分别以在用设备为基础改造,也不存在多路径软件、OS软件和相关硬件的兼容性问题,无需再进行兼容性测试和验证等,实施复杂度较小,实施风险也较小。如在现有日立和华为存储之间做异构高可用,通常有新购网关和存储两种方式。因现有存储数量多且均为高端存储,如采用网关的方式,由于网关的处理性能和可靠性较高端存储有差距,可能会造成“小马拉大车”;如采用高端存储的方式,则容易固化于某存储品牌,且存储厂商也不建议兼容其他品牌存储长期运行。此外,异构高端存储的高可用,从规划角度也不清晰,无大规模应用案例,实施复杂风险较高,还可能由软件微码升级等导致兼容性问题,不利于系统长期稳定运行。
四、技术细节及实施难点
(一)双活原理
1.基于存储设备的双活
基于存储设备的高可用,不同于存储间的数据同步复制技术,存储“双活”要求两台存储设备同时对同一个业务提供读写访问的内容,当其中任何一个存储设备故障时,业务的读写访问不受影响。这种技术,要求两台存储设备之间能够实时地进行数据通讯,能够采用分布式锁机制避免写逻辑错误,能够通过第三方仲裁避免脑分裂。同时,能够利用存储设备对自身状态的检测进行故障隔离与恢复,使数据访问总是处于良好运行状态。
2.基于存储网关的双活
通过存储虚拟化网关提供的分布式联合能力,扩展了同步距离内两个位置间的访问能力。存储虚拟化网关通过缓存一致性技术支持跨远距离共享、访问单个数据拷贝。实现主备主机同时访问同一套卷的愿望[3]。
(二)数据迁移
存储虚拟化改造对于应用服务器主机而言,相当于更换硬盘,因此必然涉及文件系统的变动。有些OS可以实现变更文件系统的同时不影响顶层的数据,例如基于LVM的AIX、HP-UX和Linux,而对于未使用LVM建立文件系统的Linux以及低版本的Windows server,就需要停止业务进行文件级迁移。对于Vmware虚拟化平台,则可以通过Storage vmotion技术,利用一个临时卷实现热迁移。因此,需要根据应用系统的具体情况来设计具体的改造流程。
进行数据迁移时,不建议采用直接将原物理卷映射给存储网关,封装成虚拟卷后再映射给服务器主机的操作方式。一方面,映射过程中一旦发生误操作将导致数据损坏,很不安全,另一方面,原先的LUN配置是为主机直连存储而设计的划分方案,不一定适用于存储网关架构。因此,建议在保持原物理卷不变的基础上,利用剩余空间和扩充的存储资源组织虚拟卷,然后对业务系统进行逐个迁移。
(三)对数据备份方案和容灾的影响
存储虚拟化对于备份方案来讲主要是满足规划时考虑存储虚拟化平台数据吞吐带宽的规划,虚拟化平台通常采用集群横向扩展方式,每增加一对虚拟化控制器,也就是横向增加了处理能力、数据缓存和被管理存储空间能力。对于容灾而言有两种改变:一种是采用虚拟化存储平台实现容灾方案,这就需要删除原有的存储复制关系,并通过虚拟化存储平台重建容灾架构,存在一定的工作量,优点是后期管理和切换方便;还有一种是保留原有容灾架构,虚拟化存储平台采用影像模式,关闭写缓存,修改工作量较小,但后期切换时步骤相对复杂。
(四)仲裁机制
在两个存储虚拟化网关群集相互失去联系后,生效中的一致性组分离规则将定义哪个群集继续操作以及哪个暂停I/O,但仅使用分离规则来控制哪个站点是优胜者时,优胜者仍可能会在出现故障站点,可能需要手动干预才能恢复仍正常运行的站点I/O。高端存储和存储虚拟化网关仲裁会动态地自动处理此类事件,建议在第三个数据中心设置仲裁[4]。
五、结语
本文通过对数据中心业务网存储系统的现状分析,结合当前主流的IT技术发展趋势、现有的技术资源、自身业务特点、实际的建设要求和存储建设应实现的关键目标等,探索集中存储高可用改造的实现和应用。通过架构改造与实施,有效提升了存储设备的兼容性,提高了资源扩展能力,保证了业务连续性,容灾能力较之前有大幅提升,为企业业务网集中存储高可用改造提供参考。
参考文献
[1]董军.数据中心网络存储管理发展趋势探析[J].中国金融电脑,2014(8):63-65.
[2]韩吉义.数据资源存储高可用建设研究与实践[J],内蒙古林业调查设计,2021,44(3):75-78.
[3]马强.铁路客票系统异地灾备中心方案设计[D].北京:中国铁道科学研究院,2015.
[4]mob604756f19185.Exadata里装了些什么?[EB/OL].[2021-04-24].https://blog.51cto.com/u_15127572/2728859.
作者单位:北京信息职业技术学院