当您必须执行CVMS(控制器VM)的滚动重启或管理程序主机的滚动重启或仅为CVM之一的重启时,存在实例。
这是在重新启动之前执行的健康检查列表,以验证群集运行状况。
- 验证是否有任何节点或服务处于“下”状态。为较小的尺寸群集运行以下命令:
Nutanix @ CVM $群集状态
- 如果群集包含多个节点,则运行以下命令,该命令排除了从输出中启动的服务可能更方便:
Nutanix @ CVM $群集状态|Grep -v Up.
- 在继续重新启动之前需要修复出意外的节点或服务。
验证Cassandra环中是否缺少或处于“向下”状态。应该存在与IP中的IP数量相同的节点svmips.输出(下面示例中的四个节点)。如果缺少节点,则意味着它已从Cassandra ring中删除:
Nutanix @ CVM $ Nodetool -H 0环
地址状态状态加载拥有令牌
kv000000msfgt0tsk22hnmeolemt9hdkonj90tfc1jprhn0przgu6vjkcwyw
x.x.x.44 UP正常19.54 GB 25.00%00000000NUJWKYP94SEGXJFIESZM6UY1NEVSENKEZD0DK4FMDYI1JFMYSKPL
x.x.x.41向上正常15.11 GB 25.00%fv000000jzybpvdrudtmjovyihbrllq1hndrxigaqzo8bybecesiewoq6ndk
x.x.x.42向上正常23.17 GB 25.00%V00000001xcxahdrxjvlkqhxcx2xj8oatux21dpzfc46jqeltupsl9wgzkmx
x.x.x.43向上正常21.34 gb 25.00%kv000000msfgt0tsk22hnmeolemt9hdkonj90tfc1jprhn0przgu6vjkcwyw
Nutanix @ CVM $ SVMIPS
x.x.x.41 x.x.x.42 x.x.x.43 x.x.x.44
- 运行以下命令以检查cassandra状态:
nutanix @ cvm $ ncc health_checks cassandra_checks cassandra_status_check
- 验证是否有任何最近的致命文件中的文件〜Nutanix / Data / Logs目录:
Nutanix @ CVM $ ls -ltr〜/ data / logs / *致命*
查看过去1小时内的任何服务致命致命,然后验证致命服务是否在“上”状态和稳定之前,然后继续重新启动。 - 验证是否有任何星形节点已关闭或如果HA.PY.已启用。
nutanix @ cvm $ ncc health_checks network_checks ha_py_rerouting_check - 验证群集是否可以容忍单个节点故障。
Nutanix @ CVM $ NCLI群集Get-Domain-Fault-Tolerance-Status Type = node
- 查看任何未确认的警报及其创建时间
有关更多详细信息和命令,请查看KB:https://portal.nutanix.com/page/documents/kbs/details?targetid=ka032000000982pcaa.