问题

Nutanix容错问题

  • 2019年12月16日
  • 2回答
  • 3532的浏览量

徽章

嗨,伙计们,

我有一个有四个节点的nutanix块。我指的是四个节点的集群。

超微型计算机NX30-60

我有一个关于容错的问题。目前它被设置为RF-2

每个节点有6块硬盘。4块硬盘,2块SSD硬盘

4 * 800 gb硬盘

2* 200gb悲伤

操作系统是AHV。

1)假设,如果一台主机完全故障,那么虚拟机将在另一台主机上重启,它将继续运行,没有任何问题。

2)如果一个硬盘故障(无论是HDD或SSD或同时)从第一个AHV,那么将没有影响。

3)如果两个主机(第一个AHV和第二个AHV)的两个磁盘同时故障(假设两个节点上都有一个HDD故障),那么对集群中所有运行的虚拟机有什么影响?

4)如果两个磁盘失败从两个主机(AHV 1日和2日AHV)在不同时间即30分钟的差距(假设一个硬盘失败在6点第一个节点,另一个硬盘失败在上午6.30,第二节点),那么将影响集群中的所有正在运行的虚拟机吗?

有人能给点建议吗?

谢谢你!

Manivel RR


2回答

Userlevel 3
徽章 +4

@Rajamanivel

  1. 是—虚拟机HA,集群可用容量(cpu+ram)。
  2. 单磁盘故障:Nutanix AOS主动监控磁盘,甚至在实际磁盘故障之前就会发出警报(在大多数情况下)。例如,如果磁盘接近寿命或读写OP在几毫秒内没有响应- AOS将标记磁盘坏,你将看到ncc警报,无论是磁盘或负责数据管理的组件。数据的第二份副本将驻留在集群中另一个节点的另一个磁盘上.影响将为零。你可以阅读更多关于"数据通路弹性在nutanixbible.com上。还要注意的是,由于Nutanix不使用RAID—因此AOS只会重建实际的数据量,而不会重建磁盘的大小。

3、4:

双盘故障:

当复制因子= 2时,每个数据块有两个副本。此外,使用4TB磁盘(仅使用1TB),我们将在整个集群中拥有1TB的块/数据更短的重建时间,因为我们考虑了使用的容量)-加上AOS主动磁盘警报,所以,除非两个磁盘同时被拉出,否则两个驱动器同时故障是非常罕见的。

如果发生这种情况,那就取决于这两个磁盘上有多少块是相同的。可能会影响相关的虚拟机。对于关键的vm,您总是可以使用Replication Factor=3的独立容器,这将确保在集群中分布3个数据副本。

如果不同主机上的两个驱动器在30分钟内出现故障,您还需要考虑这些驱动器上已使用的容量,但重建将立即触发。

在磁盘故障的情况下,管理员扫描(MapReduce框架)将立即发生。它将扫描元数据(Cassandra),以找到之前托管在故障磁盘上的数据和托管副本的节点/磁盘。

一旦它发现需要“重新复制”的数据,它就会将复制任务分发到整个集群的节点上。

在此过程中,启动坏盘的DST (Drive Self Test)测试,并监控SMART日志中的错误。

数据通路弹性在nutanixbible.com将会解释更多关于nutanix如何保护数据和元数据。

你也可以阅读下面的帖子获取更多信息:
https://next.nutanix.com/how-it-works-22/disk-fault-tollerance-8822

希望有帮助,已经尝试回答你的观点,请随时讨论进一步明确-谢谢

BR

徽章

感谢BR的及时回复。感谢。

谢谢,

Manivel RR

回复


Baidu