与许多其他服务一样,在NTP崩溃之前,您不会考虑它。然后所有这些奇怪的东西开始潜入你的环境。
症状:
- 用户无法使用LDAP或其他目录集成服务登录到Prism web控制台。
- 集群服务未启动。由于在停机或维护后出现严重的时间偏差,群集不能正常工作。
- 日志收集不准确。
- 依赖于准确时间帧和事件相关性的运行状况检查返回不准确的结果。
- 棱镜中的图形不正确和倾斜。
- 用户虚拟机在虚拟化环境的主机上启动,RTC(实时时钟)不准确,导致客户操作系统时间偏移。
- 像Veeam或CommVault这样的第三方软件产品很难与集群进行交互。
- 当集群与远端站点时间不同步时,快照过期时间过早或过晚。
如果有疑问,请执行NCC check_ntp - status命令,如果不使用PASS命令,则表示需要排除故障。
简单地排除NTP问题
- NTP服务器是集群实体的外部(是的,可以将NTP配置为集群上的虚拟机,但它工作得不好,因此不推荐)。
- 在使用FQDN配置NTP的情况下,验证NTP服务器的FQDN名称可被实体解析。
- NTP IP地址是可达的(如果ping消息失败,通过ping另一个响应ping消息的目的地来验证是否启用了ping流量)。
- 检查NTP服务器返回的响应是否正确、有效。即查询NTP服务器应用层。
- 检查所有cvm和主机的NTP同步状态。这显示了每个CVM的同步源和时间倾斜值。
- 检查所有主机上的NTP配置-看看是否有任何不一致或任何缺失的配置。
如果CVM时间在未来,不要手动倒拨时钟!联系Nutanix支持以寻求协助,并提供上述输出。
国家结核控制规划卫生
- 将Nutanix AOS/PC集群与基于windows的时间源同步,随着时间的推移会导致问题。Nutanix不建议将集群时间与Windows时间源同步。使用可靠的非windows时间源。
- 使用集群外部的NTP源。
- 对于基于AHV的环境,通过Prism/ncli配置NTP服务器,同时更新cvm和AHV主机。
- 在ESXi环境下,通过Prism web console或ncli配置NTP源不触发主机自动更新/etc/ntp.conf文件。在Prism中添加NTP服务器。同时需要在ESXi主机上手动配置NTP服务器。
- 在混合虚拟化集群(AHV + ESXi)中,AHV主机通过Prism配置,ESXi主机需要手动更新。
- 在Hyper-V集群中,check_ntp插件只验证CVM的NTP配置。未检查Windows Hyper-V主机的NTP/时间配置。因此,即使NTP配置错误或不同步,检查也不会返回FAIL状态。手动确认Hyper-V主机和域控制器具有健康的Windows时间层次结构。AD PDC(s)应使用可靠的上游NTP时间源,最好与cvm使用的时间源相同(见下文)。
- 理想情况下,为了简化日志的比较并避免复杂的时间同步问题分类,管理程序和Controller vm都应该使用相同的NTP服务器。如果hypervisor和Controller vm使用不同的NTP源,NCC健康检查可能会产生INFO输出,以提高意识并确保配置是有意的。
进一步阅读:
KB-4519 NCC运行状况检查:check_ntp-详尽的NTP问题故障排除指南。
KB-3851如何处理Windows时间服务器的NTP同步问题.
有关在ESXi主机上配置NTP服务器的详细信息,请参见VMware KB使用vSphere Client在ESX/ESXi主机上配置NTP (2012069).