重新考虑云计算的灾难恢复

2018-02-24 04:24MaryShacklett

中国信息化周报 2018年50期

Mary Shacklett

2018年9月4日，微软Azure云服务由于数据中心冷却问题而导致突然中断，影响了美国中南部的很多用户。一位IT专业人士表示：“微软Azure云服务在当天的大部分时间一直处在宕机中断的状态。虽然我们是一家全国性的公司，但所有的流量都经过德克萨斯州的达拉斯，所以我们公司的业务受到了很大影响——它导致我们的许多业务流程放缓。”

作为一家领先的公共云服务提供商，微软Azure这次的宕机中断事件并不是孤例。谷歌云和亚马逊AWS的云平台都经历过停机中断的事件，对他们的用户造成了不利影响。

通过这样的事例企业应当意识到，如果尚未修改基于云计算的灾难恢复计划，那么应当需要立即实施。

迫在眉睫

“到目前为止，我们还没有考虑修改自己的灾难恢复计划。”美国西海岸的一家金融服务公司的一位IT经理表示，“当我们回顾与云计算供应商签署的合同时，我们发现几乎所有合同都包含免责声明条款，即如果发生灾难，云计算提供商将不会对其服务的安全性或数据恢复服务等级协议（SLA）负责。而这真的让我们感到担忧。”

对于使用软件即服务（SaaS）供应商而又依赖第三方云计算提供商来托管其服务的企业而言，这种担心将会进一步加剧。

当SaaS公司使用的第三方云计算提供商的服务在遇到宕机中断时会发生什么？“这种情况很少发生，我们会让客户与我们的云计算提供商保持联系。”加州一家SaaS公司的一名高管表示。

不幸的是，如果企业正在经历一场灾难，可能发现自己的第三方服务商并没有安全责任。因此，将业务迁移到云中的企业，必须以不同的方式思考。

灾备策略

专为内部计算而设计的灾难恢复计划与云计算的应用并不同步，云计算需要考虑诸如系统和数据复制，与供应商的协作测试，以及甚至故障转移到备用供应商等策略。

以下是用于修改云计算灾难恢复计划的最佳实践的7个建议。

定期备份和复制系统和数据

网络基础设施供应商Saalex IT公司销售总监Michael Flavin说：“目前很多企业并没有考虑到云计算的巨大风险。企业可以保护自己免受云中断的方法之一是通过对其系统和数据进行安全备份，以便可以实施故障转移。这可以通过定期将数据复制到第二个备份数据中心来实现。”

了解停机期间还原系统的顺序

在原有的数据中心时代，需要确定哪些系统在停机期间必须首先恢复，以及之后的哪些系统恢复相对来说比较简单。而更容易确定的原因是所有这些系统都在企业自己的直接控制之下。

混合计算的情况并非如此，其中应用程序和数据可以从一个云平台移动到另一个云平台，或者在云平台和内部部署数据中心之间移动。超过半数的企业领导者认为组织之间的沟通可以帮助他们实现这样的愿景。

“当客户与我们沟通合作时，我们做的第一件事就是与他们确定哪些系统需要先恢复。然后我们进行测试，以确保恢复工作的真正有效。”混合IT解决方案提供商US Signal公司云计算工程和研发总监Derrin Rummelt说。

了解恢复顺序以及不同系统和数据组的运行和存储位置对于企业来说至关重要。这是因为在某些情况下，可能需要采用另一个云平台或数据中心来完成系统的功能。因为即使其中一个资源不可用，企业的灾难恢复也会受到威胁。随着应用程序和数据的修改，这将变得更加复杂，因为很多企业无法重新测试新的修改是否会引入额外的风险。因此，灾难恢复不再有效。

定期测试灾难恢复计划

即使企业的系统和数据保持相对不变，也始终存在风险，也就是云计算供应商为用户提供的基础设施和平台可能会引入新的更改，这些更改会影响用户自己的系统和数据的性能。防止这种情况发生的唯一方法是每年与云计算供应商一起测试灾难恢复计划，以确保恢复确实有效。

Saalex公司的Flavin说：“一家公司可以在其IT中使用多个SaaS、PaaS和IaaS云平台。通过定期测试这些系统，甚至通过复制，也可以确保每个云场景中的灾难恢复都能正常运行。”

那么，这些用户能切实地完成这项任务吗？“我们最近对一些企业进行了一项调查，34%的受访者表示他们每年都会测试灾难恢复计划。”美国Signal公司产品和服务执行副总裁Amanda Regnerus表示，“30%的受访者表示他们每六个月测试一次灾难恢复计划，40%的受访者表示他们每两年或更长时间测试一次灾难恢复计划。而这些公司的灾难恢复状况有些令人担忧。”

定义灾难恢复目标

随着持续复制技术的采用和灾难恢复专业化，推动了更多灾难恢复即服务（DRaaS）公司的发展和成长，对于那些计划为其混合计算环境进行灾难恢复的公司来说，可以获得更多可用的帮助。

但是，如果没有定义灾难恢复目标，则这些帮助都不会非常有效。

提供虚拟复制服务的Zerto公司技术传播者Steve Blow说：“我们为企业提出的建议是，根据其IT环境的规模和正在运行的工作负载类型，为数据设定一个30秒以下的恢复点目标（RPO），以及几分钟到一小时之间的恢復时间目标（RTO）。”

管理供应商的关系

“在许多方面，用户还没有很好地管理与供应商之间的关系。”一家总部位于美国西海岸公司的IT经理表示，“我们还没有仔细研究合同，还没有与供应商讨论服务等级协议（SLA），我们从未测试过灾难恢复，尽管我们知道他们在全国各地都设有数据中心。”

这样的案例还有很多。除非是拥有专职合同管理人员的大型企业，否则用户的不堪重负的IT人员可能难以跟踪供应商或花费时间维护与供应商的良好关系，这可能有助于灾难恢复规划和执行。

“我们与云计算服务提供商合作的一件事就是每年与他们沟通交流。也会定期与他们商讨，以确定共同策略，并讨论和解决问题。”服务于零售业的SaaS公司Island Pacific公司首席技术官Benjamin Baghdadi说，“这确实帮助我们与云计算提供商建立了密切的合作关系，让我们知道他们会在灾难中迅速做出回应。”

选择拥有并运营自己的数据中心的SaaS供应商

当用户与云计算供应商进行合作以获取SaaS解决方案时，建议邀请书（RFP）的关键点应该是他们是否拥有并运营自己的云计算数据中心。拥有和运营其解决方案所运行的云平台的SaaS运营商在灾难恢复方案中是一个更好的选择，因为如果发生服务中断的事件，云计算供应商就应该对故障负全部责任。

管理风险

为混合云环境调整灾难恢复计划的最后一个要素是风险管理。

当一位IT专业人士被问及企业管理层如何评估进入云端的风险时，他说：“我认为高层管理人员将会非常谨慎地权衡风险与成本，但可能倾向于节省成本。”

权威机构的一项调查结果表明，三分之二的公司采用云计算的原因主要是因为可以节省成本。

这就强调了为什么云计算策略还必须包括与企业管理层和组织董事会进行良好沟通的原因，即向云平台迁移业务也为用户带来了不能获得完全控制的新风险，尤其是当涉及灾难恢复时。

如果企业的管理层已经了解这些风险，并且已相应地重新调整了灾难恢复计划，那么他们应该对自己的云计算战略感到更加安全。