李雪锋
摘 要:本文详细描述了EMC VPLEX的数据中心双活容灾方案,包括方案选择、搭建流程、故障模拟测试、业务迁移、后续规划等等。通过VPLEX双活容灾方案,建立了一个统一的、整体部署的存储异地容灾系统框架,实现了两校区数据中心的双活容错,提高了数据中心的连续可用性和安全性。
关键词:双活容灾;数据安全;实时同步;存储虚拟化
中图分类号:G482 文献标志码:B 文章编号:1673-8454(2015)09-0059-03
一、建设背景
随着学校信息化建设不断发展,越来越多的业务系统随之出现,如办公自动化、财务信息查询、电子邮件、科研管理、教务管理、餐饮管理、网盘、资源保障等系统,为全校师生在教学、科研、管理和生活等各个方面提供服务与便利。然而,不同的业务与数据分布在闵行校区和中北校区,数据的安全性与业务连续性的问题随之而来。例如网盘业务运行在中北校区中心机房,如果发生机房断电、网盘服务器宕机或者存储层面损坏,都会直接导致网盘业务不能正常访问,给师生造成巨大的影响。
针对数据安全和业务连续性问题,学校采用EMC VPLEX异地容灾方案,可以确保数据零丢失和业务零停顿,实现中北校区与闵行校区数据中心双活容灾。
二、系统架构方案
在现有网络架构的基础上,华东师范大学闵行校区和中北校区通过EMC VPLEX方案实现数据中心双活容灾。其基本架构如图1所示。
基于两校区各有一台EMC vnx5500存储,采用EMC VPLEX的解决方案来实现两校区的同步异地容灾。在闵行校区和中北校区各部署一台VPLEX设备,通过两台brocade 300光纤交换机将VPLEX的后端端口与存储EMC vnx5500控制器做成双链路冗余,VPLEX的前端端口用于生产服务器的连接。中北校区与闵行校区之间通过四根万兆以太网(带宽>=1Gb/s,RTT<=5ms)进行连接,用于两校区的数据复制与通信。在第三点故障域部署Witness,主要用于监视两校区的VPLEX健康检查与故障切换。当任何一台VPLEX出现故障,Witness会通知另一台VPLEX来接管,保障业务正常进行,实现两校区数据中心的双活容错,提高数据中心的连续可用性和安全性。
三、异地容灾
1.方案选择
通过对EMC、DELL、NetAPP等主流供应商进行综合考察与对比,结合学校自身实际情况,最终我们选择EMC VPLEX存储虚拟化技术方案来实现两校区数据中心异地双活容灾。整个方案构建了一个统一的、整体部署的存储系统框架,能够充分提供高可靠性、高性能以及简便管理等优势和特点。
(1)节省成本和兼容性好。在规划异地容灾时,中北校区和闵行校区已各有一台EMC vnx5500,选择使用EMC解决方案,既可以节省成本,又可以实现VPLEX与vnx5500的完美兼容。
(2)实现异地业务数据实时同步,保证数据一致性。中北校区和闵行校区相隔超过30公里,使用EMC解决方案可以实现异地实时同步,保证业务数据在两校区的一致性。
(3)实现了业务数据异地容灾,有效解决校区单点故障隐患。VPLEX将中北与闵行的存储做成一个虚拟卷,当服务器写数据到虚拟卷时,实际上是写到中北和闵行这两个存储,相当于在两校区都有一模一样的数据。
(4)实现两校区虚拟机的故障迁移。如将中北和闵行的服务器虚拟化后添加到同一个vcenter中,由VPLEX为vcenter提供共享存储,当中北的服务器(或者闵行的服务器)发生故障时,虚拟机可以飘移到闵行(或者中北)继续工作,不影响业务,对于用户完全透明。
2.EMC VPLEX 搭建流程
EMC VPLEX的整体框架搭建工作主要包括以下三个过程。
(1)前期准备工作。存储vnx5500配置、光纤跳线、网线跳线、brocade交换机配置、主机powerpath配置等
(2)VPLEX初始化工作。Hostname与管理端口配置、meta-volume配置、时间同步配置、WAN interface配置、logging volume配置等。
(3)Witness的搭建。Witness需要部署在一台虚拟机上,并且要处于异于cluster-1与cluster-2的第三点故障域。
在VPLEX的搭建过程中,有两个十分重要的卷:meta volume和logging volume。Meta volume主要用于存储虚拟卷到物理卷映射、device、虚拟卷和系统配置信息等。每一个VPLEX配置四个meta volume,两个作为online状态,之间为mirror关系;另外两个作为backup,用于每日23:30备份online的meta。Logging volume主要用于记录当发生脑裂时数据的变化,当问题修复后,系统使用logging volume来将改变的信息同步到之前挂起的卷,保持信息一致。每一个VPLEX配置两个logging volume,之间为mirror的关系。
3.虚拟卷创建流程
EMC VPLEX通过存储虚拟化技术,将两校区存储进行虚拟化,做成一个虚拟卷。下面笔者来介绍创建虚拟卷流程。
(1)卷分配和标记卷。在中北和闵行的vnx5500上分别划分相应大小的卷给VPLEX,VPLEX层面识别到新卷后并其进行标记,使新卷受VPLEX管理。当新卷被VPLEX标记后,意味着这个卷属于VPLEX所有。
(2)创建区间。分别在中北和闵行的VPLEX上创建区间。区间用来对标记的新卷进行空间规划,可以将标记卷的全部空间来做成一个区间,也可以在标记卷中划分一部分空间来做成一个区间。比如标记卷容量大小500G,可以将500G的空间做成一个区间,也可以创建一个100G的区间,其余400G可以留着,有需要的时候继续创建区间。
(3)创建设备。在中北和闵行的VPLEX上创建设备。这个过程就是区间与设备映射的过程,每一个区间对应一个设备。针对设备创建类型有四种可选:RAID-0;RAID-1;RAID-C;1:1mapping of extents to devices。
①RAID-0指在每个VPLEX上都要有至少两个区间,用来做成raid0,提高数据读写速度;
②RAID-1指在每个VPLEX上都要有至少两个区间,用来做成raid1,提高数据安全性;
③RAID-C指实现多个区间拼接成一个大区间;
④1:1mapping of extents to devices:就是extent与device之间一一对应。
(4)创建虚拟卷。在创建虚拟卷中,需要创建一个consistency group(CG),这个CG包含这个全局的虚拟卷,在CG中需要设定一定的规则,如winner:cluster1(5 second);winner:cluster2(5 second)。
(5)服务器的注册。服务器的注册,VPLEX可以识别服务器的HBA卡信息,将HBA卡信息注册到VPLEX中,给服务器分配存储做准备。
(6)建立存储视图。目的就是将服务器的HBA卡信息、VPLEX的port以及虚拟卷三者结合到一起,实现VPLEX分配给服务器存储的目的。
通过上面步骤,我们就成功建立了虚拟卷,在应用服务器经过磁盘扫描后,就可以识别到通过VPLEX分配的虚拟卷。
4.VPLEX故障模拟测试
在业务正式迁移到VPLEX之前,需要对VPLEX进行各种故障模拟测试,主要包括VPLEX前端口冗余性测试、VPLEX后端口冗余性、集群脑裂测试、一台VPLEX的控制器冗余测试、Witness故障、一台VPLEX与Witness同时故障、一台SAN 交换机故障、闵行VPLEX到Witness的网络故障、中北VPLEX到Witness的网络故障、中北VPLEX到Witness及闵行到中北的网络同时故障、中北VPLEX到Witness及中北到闵行的网络同时故障、虚拟机两校区飘移测试等。所有测试都成功完成,RPO与RTO达到预先设计的目标。上述测试也表明,对于终端用户而言,是完全透明的,用户无需做任何的更改与配置,整个过程都可以正常访问应用系统。
5.业务迁移方案
EMC VPLEX搭建与测试完成之后,下一步就是进行相关业务迁移,主要涉及Oracle数据库、人事系统、cas-ldap、portal门户、科研、教务、网盘、研究生、Lenovo虚拟平台等。根据主机层面是否安装赛门铁克的集群软件SFRAC,将使用两种不同方式迁移业务。
(1)针对服务器层面已经安装SFRAC的业务系统,如人事系统、科研系统等。操作方案:
1)通过VPLEX为业务系统服务器分配4块磁盘(包括1块用作业务数据盘和3块用作仲裁盘);
2)通过赛门铁克的SFRAC将原有业务数据磁盘与通过VPLEX分配的用作业务数据的磁盘做成镜像;
3)将用于服务器HA的3块仲裁盘替换为VPLEX分配的另外3块磁盘。
(2)针对服务器层面并未安装SFRAC的业务系统,如网盘、Lenovo虚拟平台等。操作方案:
1)将直接由EMC vnx5500分配给业务系统的磁盘重新分配给VPLEX;
2)VPLEX对业务系统的磁盘进行封装,最后做成一个虚拟卷;
3)将虚拟卷重新映射给业务服务器,服务器挂载磁盘,并提供业务访问。
通过上述两种方案,将涉及的业务成功地迁移到VPLEX上面,迁移后的网络拓扑如图2所示。
6.进一步规划
VPLEX通过存储虚拟化技术,将中北校区与闵行校区的存储合二为一,实现数据层面的同步异地容灾,但针对应用层面还需要做进一步的规划。
(1)虚拟化规划。计划购买两笼刀片放置中北和闵行两个校区,部署ESX来实现两校区的虚拟机的漂移。
(2)实体服务器规划。针对对闵行校区,运行在实体服务器上的业务,将在中北购置服务器,通过集群软件,来实现两校区容灾。
四、ESRS支持
ESRS(EMC Secure Remote Support)为EMC硬件和软件产品提供了一个安全的远程支持工具。支持广泛的EMC硬件和软件产品,是一个基于IP的远程支持方式,允许客户管理远程支持,包括授权拨入客户的EMC设备及EMC产品的 “connect home”。整体架构方案如图3所示。
在ESRS部署中,需要在学校部署两台服务器,一台为网关客户端服务器,主要用于故障反馈及远程访问支持;另一台为策略服务器,主要用于访问控制和日志审计。当EMC VPLEX设备出现故障时,通过网关客户端会将符合策略要求的日志发送给EMC公司后端支持,支持人员发现报警日志,联系学校用户,进行远程支持。
五、结束语
EMC VPELX建立了一个统一的、整体部署的存储异地容灾的系统框架。通过存储虚拟化技术,将两校区存储统筹管理,实现两校区数据中心的双活容错,提高数据中心的连续可用性和安全性。
参考文献:
[1][EB/OL].http://www.emc.com.
[2]王树鹏,云晓春,余翔湛.容灾的理论与关键技术分析[J].计算机工程与应用,2004(28):54-58.
[3][EB/OL].http://www.brocade.com.
[4][EB/OL].http://www.symantec.com.
(编辑:杨馥红)