解决了

常出现错误提示“请先解除租户保护,再对该租户进行快照”。


徽章

你好!

我对Nutanix的世界还很陌生。已经处理标准服务器+存储超过十年。这里我们有2个集群,每个站点有3个节点,每个站点都有地铁可用性。每个站点(活动)中有3个激活的保护域,它们被复制到另一个站点(被动),反之亦然。

Site1:

Node1 - Node3 - Node5

pd site1 (active): PROD_001, DEV_001, INFRA_001

pd site1 (passive): PROD_002, DEV_002, INFRA_002

Site2:

Node2 - Node4 - Node6

pd site2 (active): PROD_002, DEV_002, INFRA_002

pd site2(被动):PROD_001, DEV_001, INFRA_001

在vCenter集群配置中,我们对site1中的虚拟机/主机和site2中的虚拟机/主机有明显的亲和性规则,防止运行在“奇数”节点上的虚拟机被存储在“偶数”节点上。
有时我们必须将虚拟机从一个站点迁移到另一个站点。所以我们做了一个完整的vmotion(计算和存储)。在迁移之后,我们开始不断收到这条消息的警告:

租户infr_001快照状态:Failed。租户infr_001中存在被其他租户保护的虚拟机:VM = SXXXX96租户= (PROD_002)。请先解除对租户的保护,再对该租户进行快照。

当我们将虚拟机数据文件从一个数据存储存储到同一站点的另一个数据存储时,也会发生这种情况。我搜索了互联网和nutanix的文档,没有发现如何处理这些错误。它说“unprotect vm to vstore before snapshot this vstore”,但我怎么做?它是在ncli上完成的吗?棱镜?vCenter吗?我们是不是有什么事没做?最佳实践是什么?

任何帮助都将不胜感激。

谢谢

恩里克

图标

最佳答案伊万诺夫2020年9月2日14:59

Hi Henrique,<\/p>

I have checked the history of your support cases and I have found a performance related case that was regarding the bug in VMware - when there are more than 5 NFS datastores connected via the same IP, the storage performance degrades over time. This issue is addressed in ESXi versions 6.5U3, 6.7U3 and newer. We have also applied a workaround from the AOS side and simply upgrading AOS to 5.10.4 and newer applies the fix, but the hosts need a reboot after that. That is what i can see happened in your situation - fix was already applied, but the reboot was pending. As i can see from the case, the issue was resolved after the hosts reboots were completed.<\/p>

Here is the information about that VMware bug:\u00a0https:\/\/kb.vmware.com\/s\/article\/67129<\/a><\/p>

We also have a KB about this issue with more details:\u00a0https:\/\/portal.nutanix.com\/kb\/6961<\/a><\/p>

\u00a0<\/p>","className":"post__content__best_answer"}">

查看原始

本主题已关闭供评论

11日回复

Userlevel 6
徽章 +5

嗨,恩里克,

如果我理解正确,您在站点之间执行了虚拟机故障转移,然后您就看到了错误?

这句话还缺什么吗?“当我们在同一个站点将虚拟机数据文件从一个数据存储存储到另一个数据存储时,这种情况也会发生。”数据文件会发生什么?

根据使用Metro Availability计划的故障转移,本指南中概述了该过程保护域故障切换手动(计划性故障切换)-这些是你遵循的步骤吗?

徽章

嗨Alona,

这不是站点之间的故障转移,而是重新平衡。我们经常在site1中创建过多的虚拟机,从存储/计算资源的角度来看,集群变得不平衡。由于DRS只平衡计算资源(我们不喜欢存储DRS的工作方式),因此需要手动将整个虚拟机(计算和存储)从site1迁移到site2。两个站点都是活跃的,在它们之间进行复制。

每次我们在站点之间迁移虚拟机时,都会出现这些错误。正如我所说的,我们还有一个DEV数据存储,在这里我们首先创建用于开发和测试目的的虚拟机。有时这些DEV虚拟机变成了生产虚拟机,需要迁移到生产数据存储,所以我们执行相同的迁移过程,错误也开始出现。

谢谢

恩里克

Userlevel 6
徽章 +5

恩里克,你是否碰巧使用了任何第三方,即非nutanix备份解决方案或工具?

徽章

是的,我使用Veeam备份和复制,但只用于备份。Veeam使用vmware快照对虚拟机进行备份。它做得很好,完全没有问题,创建snap,保存信息,删除snap,然后继续(我可以在日志中看到它)。我相信这些我在Prism中看到的快照错误与nutanix使用的某些类型的快照有关,它的引擎服务在节点/站点之间复制数据。我不相信nutanix使用vmware快照进行复制。我说的对吗?

谢谢。

Userlevel 6
徽章 +5

这看起来很像我们的工程团队记录的改进之一。当然,您是否能够确认警报是否指向备份中使用的代理虚拟机?

当你说到VMware快照时,记住这是一个超融合的环境,存储是由Nutanix独家处理和呈现的,这一点很重要。

你是对的,MA不依赖第三方的快照。

徽章

我们不使用代理虚拟机进行备份。

这些警报针对我们环境中的普通vm。

Userlevel 6
徽章 +5

我建议在这种情况下与Nutanix Support一起提出这个问题。

徽章

我做过很多次。从来没有人能够告诉我们一个命令或一个过程来“取消保护”虚拟机。它总是相同的行为,远程连接,在CLI中运行大量的ncc检查,收集日志,删除警告和生活继续。

说实话,我对Nutanix的解决方案很失望。它是一个黑盒子,有很多理论,很多术语复杂的“技术”,但没有人真正对它有深入的了解。我们还有一个与性能相关的问题,但两个月后仍然没有回应。我们所有的SQL数据库服务器都需要迁移到服务器+存储解决方案(HPE+3PAR),因为Nutanix的性能非常低。非常糟糕。

谢谢你!

Userlevel 6
徽章 +5

嗨,恩里克,

抱歉,我找不到任何支持案例。如果您直接向我发送最新的支持案例号,我们将能够审查该案例,并有望向您提供解决方案。

相信这是由于ISO文件连接到VM(即使CD/DVD断开)
编辑虚拟机设置并更改CD/DVD驱动器到客户端设备。
不知道是否需要,但我也断开驱动器从虚拟机。

Userlevel 4
徽章 +5

嗨,恩里克,

我已经检查了您的支持案例的历史,我发现了一个性能相关的案例,这是关于VMware的bug -当有超过5个NFS数据存储通过相同的IP连接,存储性能随着时间的推移而下降。ESXi 6.5U3、6.7U3及以上版本均可解决此问题。我们还从AOS端应用了一个解决方案,简单地将AOS升级到5.10.4并应用更新的补丁,但主机需要在那之后重新启动。这是我可以看到发生在你的情况-修复已经应用,但重启是等待。正如我从这个案例中看到的,这个问题在主机重启完成后就解决了。

以下是有关VMware bug的信息:https://kb.vmware.com/s/article/67129

我们也有一个关于这个问题的知识库,有更多的细节:https://portal.nutanix.com/kb/6961

Baidu