博客

《人鼠与大自然:为灾难做准备》(Of Mice and man and Mother Nature: prepare for Disaster)

通过 约翰·威廉森
| 最小值

大多数人不愿去想灾难——这就是为什么,尽管有了所有可用的信息,当灾难真的发生时,大多数人还是准备不足。企业也是如此。没有人会质疑数据中心的中断,或者更糟的是,数据中心的完全丢失,在收入、生产力和声誉方面可能是灾难性的。然而,只有一小部分企业拥有全面且经过充分测试的灾难恢复策略,该策略包括工具、流程和人员。我们最近对我们的客户进行了一次非正式的调查,以了解他们在数据中心灾难和DR方面的经验。我们想与您分享他们的一些故事,以促使您思考您的DR策略(或缺乏的策略)。

可能会让你惊讶的是,一些受访者承认他们根本就没有DR策略——除非你考虑诸如“希望和祈祷”和“买所有的牛奶、面包、卫生纸和水”的策略。

然而,灾难有很多种形式,从壮观的悲剧——飓风、龙卷风、火灾和地震——到可预测的(设备故障和人为错误),再到滑稽的小事。

Nutanix社区的一名成员回忆说,由于一只啮齿动物咬断了电网,医院整个周末都停电了。“UPS(不间断电源)启动了,但发电机没有。”存储设备供应商花了30个小时才来到现场,这意味着“医院在接下来的周一取消了每一个非紧急的预约,损失了数百万美元。”董事会从未批准容灾站点。在故障发生的那一天,投资回报率很容易达到400-500%。”

Nutanix咨询建筑师韦恩•康拉德(Wayne Conrad)指出,在2012年的飓风桑迪(Hurricane Sandy)中,企业的命运各不相同:“高盛(Goldman Sachs)总部被点亮了,就像一棵圣诞树,而所有的医院都陷入了黑暗。为什么?高盛公司意识到DR和防灾准备就像购买保险,而医院则在用更少的预算削减开支。如果你面临一笔令人讨厌的信用卡账单,她会说,‘嗯,我就不付车险和房险了。IT领导层在灾备站点上一直都是这样做的。”

一些用户做出了明智、真诚的努力,但还是遇到了问题:“在我的上一份工作中,我们将数据中心的核心放在一栋可以抵御F5级龙卷风的建筑中。城里最安全的地方。事实证明,夏天的高温是我们服务器面临的最大威胁,因为为了省钱,他们在下午就开始关闭大楼那部分的空调。”

当然,也有很多人死里逃生。一位社区成员说,当潜在的灾难迫在眉睫时,比如龙卷风或飓风,他会将公司的数据备份到两个外部硬盘驱动器上。“我们从来没有受到任何风暴的直接袭击,但当你在暴风雨中被疏散时,背包里储存着整个服务器室,这让人有点伤脑筋。”

Nutanix用户Tre Bell观察到,存在一种“常见的误解,即成功的备份策略等同于成功的DR策略。”他告诫说,“在不同的位置或环境中恢复系统并不总是一成不变的——恢复一个环境使其功能完全正常通常需要重新配置,而不仅仅是简单的备份和恢复。”假设有50个系统的环境中,是一个完整的损失由于一场灾难——大部分,如果不是全部,这些系统彼此之间的集成,需要重新配置一次你能够成功恢复它们新的备份位置或环境。”Bell说:“成功地恢复系统只是成功的容灾策略的第一部分——容灾测试也是至关重要的;除非执行DR测试来验证100%的功能,否则你不知道自己不知道什么。”

贝尔的观察得到了另一位受访者的经验的证实。他说,他们有两个功能完整个遗址(一个用于总部,另一个用于DR-but当他们终于在测试故障转移“我们无法切换回主网站停机时间内,我们必须在DR站点上运行几个月,直到我们得到了一次又一次。”

Bell提醒我们,进行彻底的业务影响分析(BIA)并确定目标rpo和rto是至关重要的。完成此操作后,您将执行DR测试,以确认您是否能够成功地将系统恢复到正常状态,以及是否能够满足RPOs和RTOs

一些社区成员也分享了他们的成功。Nguyen回忆说,狂风暴雨导致“八根电线杆掉落在我们的大楼外面”。电力中断,道路被热电线和变压器堵塞,所有早上能上班的人都被困在大楼里。最初,电池和发电机的备份提供电话和互联网功能。通过利用其他几个地方的资源,该公司得以继续运作,直到我们获得疏散的安全。这就是DR工作全面开始的时候。我们执行了自己的DR计划,到下午3点,我们完全远程操作,一些员工在我们的业务恢复中心工作,其他人在家工作。客户服务电话,账单,电子邮件,电话——所有我们需要保持运作的东西。经验教训:每季度进行DR演练和测试我们的DR计划过去和现在都是基础。即使是小小的灾难也会产生巨大的影响。 You need to be as prepared for a mundane disruption as for a catastrophic one.”

考虑到适当的灾难准备所带来的巨大好处,为什么没有更多的人采取措施来适当地保护自己或企业呢?在鸵鸟悖论,为什么我们对灾难准备不足,Robert Meyer和Howard Kunruether指出了几个普遍存在的认知偏差:

  • 当想起过去的痛苦教训时,短暂的记忆
  • 考虑未来时的短视视野(特别是在权衡即刻成本和保护行动的潜在利益时)。
  • 毫无根据的乐观——不会发生在我身上!
  • 在考虑风险时过度简化成本效益分析。
  • 一种追随他人行动的倾向——也就是羊群效应。
  • 当面对复杂和不确定性时,倾向于维持现状。

然而,一些好消息是,现在有一些产品可以减轻阻碍我们解决DR的一些偏见,消除与传统DR解决方案相关的复杂性和不确定性。像Xi Leap这样的dras (Disaster Recovery as a Service)解决方案提供了恢复自动化和按需非中断测试,以确保业务连续性。Xi Leap是Nutanix Enterprise Cloud操作系统的一部分,这意味着IT不需要掌握另一个管理控制台,也不需要担心在容灾故障切换过程中重新配置网络和安全设置。

Meyer和Kunruether指出,当人类准备应对灾难时,实际上可以从鸵鸟身上学到一些东西——不是把头埋在沙子里,而是通过适应环境来生存。鸵鸟以速度和敏捷弥补了无法飞行的弱点。与其什么都不做(希望和祈祷),或者默认现状(复杂的容灾系统),还不如考虑采用一个更简单、更快、更灵活的选择.如果您准备好开始保护您的数据,请检查《数据保护容灾设计指南》为更多的信息。

©2019 Nutanix, Inc.保留所有权利。本协议中提到的Nutanix、Nutanix标识和其他Nutanix产品和特征均为Nutanix, Inc.在美国和其他国家的注册商标或商标。此处提及的所有其他品牌名称仅供识别之用,且可能为其各自持有人的商标。

Baidu