NTP问题:症状、诊断、治疗和预防

  • 2019年12月17日
  • 0回答
  • 4401的浏览量

Userlevel 6
徽章 +5
  • Nutanix员工
  • 433回复

与许多其他服务一样,在NTP崩溃之前,您不会考虑它。然后所有这些奇怪的东西开始潜入你的环境。

症状:

  • 用户无法使用LDAP或其他目录集成服务登录到Prism web控制台。
  • 集群服务未启动。由于在停机或维护后出现严重的时间偏差,群集不能正常工作。
  • 日志收集不准确。
  • 依赖于准确时间帧和事件相关性的运行状况检查返回不准确的结果。
  • 棱镜中的图形不正确和倾斜。
  • 用户虚拟机在虚拟化环境的主机上启动,RTC(实时时钟)不准确,导致客户操作系统时间偏移。
  • 像Veeam或CommVault这样的第三方软件产品很难与集群进行交互。
  • 当集群与远端站点时间不同步时,快照过期时间过早或过晚。

如果有疑问,请执行NCC check_ntp - status命令,如果不使用PASS命令,则表示需要排除故障。

简单地排除NTP问题

  • NTP服务器是集群实体的外部(是的,可以将NTP配置为集群上的虚拟机,但它工作得不好,因此不推荐)。
  • 在使用FQDN配置NTP的情况下,验证NTP服务器的FQDN名称可被实体解析。
  • NTP IP地址是可达的(如果ping消息失败,通过ping另一个响应ping消息的目的地来验证是否启用了ping流量)。
  • 检查NTP服务器返回的响应是否正确、有效。即查询NTP服务器应用层。
  • 检查所有cvm和主机的NTP同步状态。这显示了每个CVM的同步源和时间倾斜值。
  • 检查所有主机上的NTP配置-看看是否有任何不一致或任何缺失的配置。

枪战影片:如果CVM时间在未来,不要手动倒拨时钟联系Nutanix支持以寻求协助,并提供上述输出。

国家结核控制规划卫生

  • 将Nutanix AOS/PC集群与基于windows的时间源同步,随着时间的推移会导致问题。Nutanix不建议将集群时间与Windows时间源同步。使用可靠的非windows时间源。
  • 使用集群外部的NTP源。
  • 对于基于AHV的环境,通过Prism/ncli配置NTP服务器,同时更新cvm和AHV主机。
  • 在ESXi环境下,通过Prism web console或ncli配置NTP源触发主机自动更新/etc/ntp.conf文件。在Prism中添加NTP服务器。同时需要在ESXi主机上手动配置NTP服务器。
  • 在混合虚拟化集群(AHV + ESXi)中,AHV主机通过Prism配置,ESXi主机需要手动更新。
  • 在Hyper-V集群中,check_ntp插件只验证CVM的NTP配置。未检查Windows Hyper-V主机的NTP/时间配置。因此,即使NTP配置错误或不同步,检查也不会返回FAIL状态。手动确认Hyper-V主机和域控制器具有健康的Windows时间层次结构。AD PDC(s)应使用可靠的上游NTP时间源,最好与cvm使用的时间源相同(见下文)。
  • 理想情况下,为了简化日志的比较并避免复杂的时间同步问题分类,管理程序和Controller vm都应该使用相同的NTP服务器。如果hypervisor和Controller vm使用不同的NTP源,NCC健康检查可能会产生INFO输出,以提高意识并确保配置是有意的。

进一步阅读:

KB-4519 NCC运行状况检查:check_ntp-详尽的NTP问题故障排除指南。

KB-3851如何处理Windows时间服务器的NTP同步问题

时间同步建议Prism Web控制台指南

有关在ESXi主机上配置NTP服务器的详细信息,请参见VMware KB使用vSphere Client在ESX/ESXi主机上配置NTP (2012069)


0回答

做第一个回复的人!

回复


Baidu