问题

Nutanix容错问题

  • 2019年12月16日
  • 2回复
  • 3524观点

徽章

嗨,大家好,

我有一个带有四个节点的Nutanix块。我的意思是四个节点群集。

Supermicro NX30-60

我对容错的查询。目前它被设置为RF-2

每个节点都有6个磁盘。4 HDD和2 SSD

4 * 800 GB HDD

2 * 200 GB悲伤

操作系统是AHV。

1)假设如果一个主机完全失败,则VM将在其他主机上重新启动,并且不会在没有任何问题的情况下运行。

2)如果一个磁盘失败(HDD或SSD或同时两个)从第一个AHV,那么就没有影响。

3)如果两个磁盘从两个主机(第1 AHV和2ND AHV)发生在同一时间(假设一个HDD在节点上发生),那么群集中所有正在运行的VM的影响将是什么?

4)如果两个磁盘在不同时间内从两个主机(第1 AHV和2ND AHV)发生故障I. E 30分钟的差距(假设​​一个HDD在第一个节点上午6点登录,而另一个硬盘在第二个节点中的6.30秒钟内失败),那么将是什么是集群中所有正在运行的VM的影响吗?

有人可以建议吗?

谢谢,

Manivel Rr.


2回复

UserLevel 3.
徽章 +4

你好 @rajamanivel.

  1. 是的 - 为该VM和群集容量(CPU + RAM)启用了YESSEASE
  2. 单个磁盘故障:Nutanix AOS积极监控磁盘,即使在实际磁盘故障(大多数情况下)也会提醒。所以对于例如,如果磁盘接近它的生命或读取或写入OP没有在几毫秒内响应 - AOS将标记磁盘不好,并且您将看到磁盘的NCC警报或负责数据管理的组件。数据的第二个副本将在群集中另一个节点中的另一个磁盘上托管。影响将没有。您可以了解更多关于“数据路径弹性“在NutanixBible.com上。另请注意,作为Nutanix不使用RAID - 所以AOS只会重建实际数据量而不是磁盘的大小。

3和4:

双磁盘故障:

通过复制因子= 2,我们有两个数据块的两个副本。此外,对于仅利用的4TB磁盘,我们将在群集中具有1TB的块/数据较短的重建时间,因为我们的能力是利用的) - 加上AOS主动磁盘警报,因此,除非同时拉动两个磁盘,否则这可能是同时失败的两个驱动器的非常罕见的发生。

现在,如果发生这种情况,那么它将依赖于这两个磁盘在这两个磁盘上相同的块。这可能会影响有问题的虚拟机。对于关键VM,您可以始终拥有一个具有复制因子= 3的单独的容器,这将确保您在群集中分布出3个数据副本。

如果不同主机上的两个驱动器在(根据您的例如每晚30分钟内),则需要对这些驱动器上使用的容量进行计量,但重建将立即触发。

如果磁盘发生故障,将立即发生策略扫描(MapReduce框架)。它将扫描元数据(Cassandra)以查找预先托管在故障磁盘上的数据以及托管副本的节点/磁盘。

一旦发现需要“重新复制”的数据,它将将复制任务分发到整个群集中的节点。

在此过程中,在错误的磁盘和智能日志中启动驱动器自检(DST)以进行错误。

数据路径弹性在NutanixBible.com上将更多地解释Nutanix如何保护数据和元数据。

您还可以阅读以下内容更多信息:
https://next.nutanix.com/how-it-works-22/disk-fault-tollerance-8822.

希望有所帮助,试图回答你的积分,请随时讨论进一步清晰 - 谢谢

布鲁斯

徽章

谢谢BR,为您的提示响应.Much得赞赏。

谢谢,

Manivel Rr.

回复


Baidu