Sandra Gittlen
数据备份和恢复有点像黑盒。在灾难发生之前,用户通常不知道情况是否完全在自己的掌握之中。特别是随着云计算和混合选项的增长,这些措施一直处于不断的改进当中。为此,我们请了4位网络专业人员来分享他们的故事。请他们讲述一下自己的亲身体验,告诉我们到底是什么让他们意识到应该做更多措施来加强企业的备份和恢复流程,以及他们是如何实现这一目标的。
导火索:2011年5月,一场龙卷风袭击了密苏里州的乔普林市。附近城镇的志愿消防队长Tim Pearson被叫来帮助救援。担任堪萨斯州匹兹堡州立大学基础设施和安全主管的Pearson说:“我来到了自己曾经熟悉的小镇,但是我却什么都认不出来了。人们只能通过在十字路口写上街道的名字,才能帮助确定方向。”
Pearson在密苏里州乔普林市数据中心工作的同事们确保网站正常运行都非常吃力,更不用说让他们想办法让网络恢复在线了。这让Pearson意识到,虽然匹兹堡州立大学采用了传统的磁带备份方法(每周备份一次),并将这些存储了数据的磁带放在保险库中,但是这种方法在应对该地区的恶劣天气方面缺乏足够的可靠性。他指出,“我们必须重新审视我们的漏洞。”
解决方案:最初,Pearson和他的团队通过将另一台戴尔Equalogic存储阵列和其50%的虚拟计算能力放置在大学主数据中心对面的图书馆地下室里来解决大学的地理脆弱性问题。此外,该团队还在威奇塔州立大学(WSU)部署了一台戴尔MD3200存储阵列,匹兹堡州立大学使用高速光纖通过堪萨斯研究和教育网络连接到该阵列。数据每天可以通过手动方式被多次复制到辅助站点(库)中。数据备份每晚会被发送到威奇塔州立大学,从而消除了繁琐的磁带处理过程。
Pearson说:“从保险库中检索磁带可能需要一周的时间,并需要一天的时间才能恢复。破坏了主站点和辅助站点的灾难将使从磁带中恢复数据变得更加困难。”
尽管库和WSU阵列都工作良好,但是匹兹堡州立大学的团队决定进一步改进备份和恢复,使用Hedwig的分布式存储平台(软件定义存储)实现自动编排。Hedvig使用商定的策略来实时管理多个节点之间的数据复制:主数据中心、库和WSU存储阵列。他说:“只要3个节点中的两个启动并运行,我们的数据就可以访问。”
最近,由于路由器意外重启,到威奇塔州立大学的链接暂时关闭,系统获得了测试的机会。Pearson说:“Hedwig发现了一个问题并隔离了它们,在15分钟后链接重新上线后立即启动了威奇塔州立大学的存储阵列系统。我们的数据中心在整个事件中保持着正常运行状态。”
尽管遗留系统仍然安装在带有iSCSI连接的Unix服务器上,但是Hedvig与大学的遗留系统配合默契。Pearson称:“虽然大多数供应商都不支持这种类型的传统配置,但是Hedvig却能很好地处理它们。面向客户的代理接口(小型物理或虚拟Linux服务器)被作为多协议连接器接入到了Hedvig存储环境的,并提供了一系列块和面向对象的协议,包括NFS、Amazon S3甚至iSCSI。”
匹兹堡州立大学的IT团队在测试中将可恢复性作为了其日常维护的一部分,在减少了节点数量的同时还记录下了响应时间。所有的存储网络配置都经过了充分记录和更新。
Pearson 称:“我在消防队和乔普林数据中心的工作经历让我意识到,所有的事情都不能想当然,我的建议是尽可能在存储网络中实现地理多样性。”
导火索:爱荷华州惩教服务部(DCS)为爱荷华州东北部的11个县提供惩教服务。Dwain Caldwell在爱荷华州的DCS司法机构工作,该部门的系统管理员Caldwell说,“两起事件推动了我们对备份和恢复方式做出调整。一个是人为事件,另一个是自然灾害。”
Caldwell表示,几年前,该机构的一个内部人员访问了一个网站,在不知情的情况下遭到了勒索软件的攻击。勒索软件侵入了主文件系统,不过Caldwell和他的团队很快就进行了处理。虽然团队可以通过有效的备份进行恢复,但是恢复正常操作所需的时间超过了预期。他称:“培训内部员工是有用的,但是我们无法控制社交工程。我们能够控制的是如何更快地恢复运行。”
第二起事件是一场自然灾害,风暴导致洪水涌入了主站点所在的建筑物,并导致主站点建筑物断电。Caldwell称:“在发生这种情况以前,我想当然地认为不会出现完全停机的故障。这个事件发生之后,我认识到,在没有第三种替代方案的情况下,将主要站点和次要站点放在一起是一种不靠谱的策略。”
解决方案:近年来,DCS司法机构和惩教部门一直在致力于虚拟化他们的计算环境,包括使用虚拟桌面基础设施。目前DCS司法机构的虚拟化率约为80%,这使得实施新的数据备份和恢复计划变得更加简单。
DCS司法机构使用Nutanix Core超融合基础设施来处理数据中心和远程站点中的VDI、数据保护和灾难恢复。Caldwell说,“我们能够设置自己的备份和恢复策略,如果有人犯了错误,我们会在幕后做这些工作。”
Nutanix经常生产和存储生产环境的快照,因此如果DCS遭到了勒索软件的攻击,Caldwell和他的团队可以自动将系统恢复到最近的快照,通常每次只需要15分钟。
IT团队已经对恢复时间进行了测试,包括关闭服务器机房以使节点脱机。Caldwell称:“测试的目的是看看该节点上的虚拟机需要多长时间才能在其他节点上重新上线。”
恢复应用程序与恢复数据密切相关,因为大多数应用程序都依赖于数据。Caldwell称:“用户需要访问历史数据,就像访问应用程序本身一样。”
遇到Nutanix系统无法提供数据的情况,如遭遇洪水或风暴等灾难,Caldwell可以利用存储在同一城市和其他地理位置的EMC Data Domain存储设备上的备份数据,不过备份位置越近,备份的数据就会频繁。他说:“我们的方法是将最好的备份转移到了一个虚拟沙盒环境中,然后再将其推送到主数据中心。”
Caldwell指出,“如今的备份解决方案比以前更多。过去企业必须要确保恢复磁带的环境与原始配置完全匹配。在我们的虚拟机管理程序环境中,我们能够更快速高效地获取数据。此外,虚拟化环境和自动化使得两名IT团队成员就可以负责所有的存储职责,因此我们能够更好地执行备份和修复工作。”
导火索:总部位于加州温哥华的Aquilini集团有很多子公司,包括Vancouver Canucks和Rogers Arena体育馆。该公司自身还负责运营这些场馆的食品和饮料服务等所有业务,以及酒店、建筑公司,餐厅、蓝莓和蔓越莓农场。这些投资遇到的一个共同主题是保护数据的安全,无论是客户信息、监控摄像机镜头还是销售点交易。当发生了第三方主导的SAN升级出错并且可能丢失大量数据时,他们的存储保护措施得到了测试。
Aquilini集团IT主管Bryce Hollweg表示,“我们的数据如果丢失了,那么将会导致收入损失和客户不满。”幸运的是,该公司内部IT团队已经备份了数据,并能够恢复所有数据。但是这一事件让Hollweg更加积极主动地备份全部数据,甚至是云端应用程序生成的数据。
解决方案:Aquilini集团已将约1500名员工的工作迁移到了Microsoft Office 365上。虽然微软公司在确保应用程序正常运行方面做的很出色,但是与大多数SaaS(软件即服务)提供商一样,他们并不太愿意承担确保数据完整性的责任。Hollweg称:“我们有一些敏感数据会使用Office 365网络,因此我们需要保护它们。此外,企业邮箱的数据泄露无疑会导致生产力下降。我们能够设置的安全层数越多越好。为云计算应用程序设置第二层和三层防护措施不失为一种好办法。”
Aquilini集团使用Veeam Backup for Microsoft Office 365作为辅助措施,以保护Exchange Online、SharePoint Online、Teams(聊天)和OneDrive不被意外删除、支持快速恢复和满足合规性要求。这些备份可以存储在本地,也可以存储在Microsoft Azure或亚马逊网络服务等云平台上,亦或是存储在第三方提供商的设施中。
Hollweg表示,他并不介意采用多种专用工具来进行管理,甚至依靠一支精干的团队也可以,因为防护是根据存储的数据类型特别定制的,这样恢复起来更快且更容易。他称:“隔离信息是一种很好的措施,即便有人破解了代码,他们也无法可能窃取全部的数据。”
导火索:当佛罗里达州杰克逊维尔的IT咨询机构CSI Companies公司决定用VMware虚拟化其环境(包括SQL Server)时,作为公司IT总监的Matt Greaves希望他们原来的恢复时间不会发生变化。
Greaves称:“在对所有虚拟机进行恢复测试后,我们发现结果很可怕。在整个网站的恢复测试中,我们原本认为可能需要30个小时,但是实际上花了90多个小时。这是一个巨大的痛点。我们每周需要支付3000到4000人的薪水,即使薪酬系统宕机两小时也会造成严重的问题。”
CSI公司先前使用的备份和恢复软件需要IT团队手动设置执行备份的时间,备份时段以及备份哪些应用程序。这样不可避免地会存在一些断档,导致数据备份不完整,或是备份不及时。如果需要进行灾难恢复,唯一的选择是通过手动方式挖掘和恢复单个事务日志。
解决方案:Greaves决定使用虚拟化环境,并部署一个直接与VMware环境挂钩的Rubrik独立存储设备。 IT可以为vCenter中列出的虚拟机制定一个专门的策略,并自动对数据进行分级分类保护。
他说:“由于制做了由策略驱动的备份点,因此我可以设置SQL服务器每隔几分钟获取一次事务日志快照,然后每隔几小时获取一次完整的数据库快照。事务日志现可以根据需要自动帮助执行完全恢复。”
Greaves称:“过去,备份和恢复是日常管理工作的一部分。如今,如果有警报并且需要调查,我们只需要管理Rubrik就可以了。關于说明书,工作人员可以通过位于公司的SharePoint网站上的最佳实践表快速了解Rubrik的使用情况。”
虽然Greaves想将包括备份和恢复在内的应用程序和基础设施转移到云端,但是高昂的价格让他有点犹豫不决。他说:“对于基础设施而言,迁移到云端并开始使用很容易,不过所有工具的使用都要按每小时付费用。当我们进行成本分析时,我们发现将所有内容保存在本地数据中心在费用方面要便宜很多。”
许多IT经理对他们从本地或从辅助数据中心备份和恢复数据的能力充满信心。不过,当他们引入基于云计算的服务时,这些事情就变得不那么明朗了。
市场研究机构Nemertes Research的首席信息官兼首席研究分析师John Burke称:“我们看到许多企业在没有真正搞清楚如何处理备份和恢复问题的情况下就开始用云服务替代用于CRM等应用程序的本地服务。”
客户往往过度关注故障转移功能和业务连续性,而没有考虑到数据损坏问题或回滚到前一周数据所需要的时间。Burke指出,“这并不是一种默认功能。”
Enterprise Strategy集团的高级IT验证分析师Vinny Choinski对此表示认同。他强调说:“对于SaaS来说,数据恢复是你自己的责任。如果有人删除数据怎么办?谨慎的做法是确保自己了解应用程序的恢复环境。”
关于如何筛选备份和恢复服务提供商,一个办法是询问SaaS提供商他们选择哪家。另一个办法是选择SaaS提供商的合作伙伴,因为他们能够更为轻松地实现备份服务与SaaS的整合。
虽然签约针对SaaS的备份和恢复服务可能会增加应用程序成本,但是Burke和Choinski都表示,这样做可强化对数据的保护。
本文作者Sandra Gittlen为IDG的特约撰稿人,同时还是大波士顿地区自由撰稿人兼编辑。她的文章涉足技术、商业、医疗保健、金融和生活方式等众多主题。
原文网址
https://www.networkworld.com/article/3432128/real-world-backup-woes-and-how-to-fix-them.html