“ las,如果要提前发出警告,我们可能会做好更好的准备。”
在一个确定不确定性并且灾难并不能带来警告的世界中,领导者无力冒险不准备。
我们了解每个应用程序的正常运行时间都会有所不同。例如,尽管关键的任务申请涉及金融交易,证券交易所交易,计算机化医院患者记录,紧急呼叫中心和生命支持服务的正常运行时间为24x7x365,但与工程服务,政府服务和DEVOPS相关的申请可能不会订阅此类更严格的正常运行时间。此外,IT运营挑战(例如系统升级,迁移,处理腐败问题等)不容忽视。
除复杂性外,如今,大多数企业都被锁定到一组供应商和使用的管理程序。当需要在不同的物理位置进行同步和维护应用程序数据的多个副本,无论这些地点位于同一房间还是在同一校园中的不同建筑物,甚至数千公里的建筑物,IT拓扑都变得更加复杂,运营挑战呈指数呈指数。。当然,由于合规法规,分布式业务运营,协作等,对这种复杂的拓扑的需求当然会遵守区域数据隐私法。
简而言之,IT系统必须具有弹性来处理故障和灾难,以确保业务连续性。APonemon Institute的研究报告PEGS数据中心停电的费用约为每分钟9,000美元。
牢记这些因素,我们已经建立了高可用性(磁盘,网卡,电源故障管理)和数据保护到我们的AOS平台。我们的灾难恢复解决方案将连续的可用性扩展到通过恢复计划和运行图书计划的多个集群。灾难恢复是根据RPO(客户愿意丢失的最大数据),RTO(允许在发生故障时恢复操作的时间)和成本来衡量的。DR拓扑是复制和恢复编排的结合。我们通过DR拓扑支持不同的RPO/RTO TIME。
Nutanix博士旅程
让我们浏览所支持的每种DR拓扑。
1.异步DR(异步)
可以通过将一组实体(VM和卷组)本地备份到Nutanix群集中,并选择将复制配置为一个或多个远程站点,从而配置异步灾难恢复。只有RPO> = 60分钟的时间表才能在此模式下配置。配置异步DR提供有关实施准则的更多详细信息。
2.近同步DR(近同步):
近似同步构建在异步快照上。借助近同步,我们支持在SSD上运行的轻质快照(LWS,是基于OPLOG的标记)。由于LWS所花费的时间是恒定的O(1),因此对用户IO的影响很小。该体系结构使LWS高度可扩展和分布。LWSS连续复制到远程站点。每小时会创建一个中间快照,并保留6个小时。每天创建一个每日快照,并保留5天。中间异步快照可作为检查点可帮助RTO的检查点。在AOS 5.17中,我们支持RPO长达20秒。配置靠近同步DR提供有关实施准则的更多详细信息。
3. Metro DR(地铁/同步)
使用Metro或Sync DR,我们可以在VM粒度水平上获得零RPO。在5毫秒延迟以下的站点之间支持同步复制。为了实现应用程序的持续可用性和零数据丢失,在两个群集上保持了所有数据的辅助副本,包括VM数据,VM元数据以及应用于VM的保护策略。这样可以确保在现场故障的情况下没有数据丢失。这使得VM实时迁移可以在站点之间轻松支持。
笔记:
- 以上所有DR拓扑都可以通过Prism UI进行管理。
- 以上所有拓扑支持了从主要站点到辅助站点的计划外故障转移
- 从主要站点到辅助站点的计划故障转移仅由近同步和同步DR拓扑支持。
Nutanix多站点复制
到目前为止,我们研究了单个DR拓扑如何帮助RPO和RTO要求。通过将地铁和近同步添加在一起,我们现在提供了保护关键业务工作负载的黄金标准。
多站点复制功能的亮点
- 为在多个站点上要求最严格要求的客户提供零数据丢失环境
- 在400公里或小于5毫米潜伏期内的站点0 RPO
- 无距离限制的恢复站点的20秒RPO
- 第四个站点的30分钟RPO,无距离限制
- 灾难恢复编排可以通过VMware SRM或脚本完成
现在让我们看一下特定的多站点灾难方案及其与Nutanix DR的恢复工作流程
注意:在所有情况下,我们都考虑了以下配置的4个站点A,B,C和D之间的多站点拓扑。
- 站点A是主要站点,站点C是DR站点
- 站点A和B处于生产可用性区域
- 站点C和D是恢复可用性区
- Sync Replication (0 RPO) between Sites A B
- Near-Sync Replication (20 sec RPO) between Sites A C
- Async Replication (30 min RPO) between Sites A D
- 每个站点中有4个不同的群集
方案#1:生产站点故障(单站点 - 主要群集)
恢复程序:
- Metro Remote(集群B)具有数据的最新副本
- 此数据发送到网站C(通过频段快照)
- 只传输只有20秒的三角洲快照。
- 在网站C接收的快照在恢复群集C上被激活
- 地铁/同步复制是从站点C到站点D建立的,应用可以恢复
- 当站点A(集群A)返回在线时,可以将20秒的RPO建立回到站点A(群集C到群集A)
方案#2:完整的区域故障(两个站点 - 生产可用性区)
恢复程序:
- DR Site C(群集C)的快照为20秒
- 网站C的最新快照在恢复群集C上激活
- 地铁/同步复制是从站点C到站点D建立的,应用可以恢复
- 当站点A(群集A)和站点B(群集B)返回在线时,可以将20秒的RPO建立回到站点A(群集C到群集A),并且可以将30分钟的RPO建立回到站点A(集群D集群a)
方案#3:数据损坏还原
恢复程序:
- 要么还原到任何可用的20秒LWS快照,要么还原到最后一个小时快照之一
- 然后将更改传播到所有其他站点(群集)。
概括
- Nutanix数据保护和灾难恢复提供了根据关键性和业务需求配置应用程序的选项
- 现在,关键任务应用程序可以通过存储在多个站点中的多个副本进行保护,并通过棱镜通过棱镜无缝管理。
- 所有上述功能均在AOS 5.17中可用,并带有VMware ESXI