你可能遇到过PE-PC连接失败或IDF db to db同步的警告。在Prism Central对集群的管理和监控方面,您可能有一个明显的问题,但也可能没有。
这些警报是干什么用的?我们怎么知道是否真的有问题?我们能做些什么来修复它呢?我愿意为你回答这些问题。
棱镜元件和棱镜中心需要双向通信,原因有很多。Prism Central中的可管理性、预测、警报可视性和报告都依赖于从PE到PC的周期性数据同步。Prism Central的虚拟机和基础设施管理、映像创建、容灾编配以及其他增强的特性,如Calm,都需要PC到PE之间的API通信。
PE-PC连接失败告警是指通信失败。这可能是一个短暂的问题,甚至是一个预期的问题,比如当PC在升级过程中重新启动,或者它可能反映了一个更长的连接丢失。
idf_db_to_db_sync检查失败,说明PE到PC的数据同步时间过长。同步完成更新两端的时间戳,检查时间戳的年龄,所以如果同步太迟,你会得到一个“失败”的结果。这可能是通信失败,但也可能是PE集群、PC或两者之间的网络的性能问题。有关该支票的更多信息,请参阅NCC健康检查:idf_db_to_db_sync_heartbeat_status_check.
知道是什么触发了这些警报可以帮助我们知道什么时候需要进一步调查。它们是在升级或计划维护期间出现的吗?如果是这样的话,这可能是好的,只是暂时的断开。系统能从短时间的通信中断中恢复过来。
如果没有现成的解释,我们还可以检查其他一些事情,以便更好地了解情况。
首先,运行一个完整的健康检查,看看PE-PC通信或同步是否再次被标记为一个问题。从体育你也应该注意cluster_connectivity_status检查一下PE-PC的连通性。如果现在一切都很好,那问题只是暂时的。如果我们在新的运行状况检查中失败,这告诉我们问题仍然存在。
其次,查看集群统计数据并检查是否存在任何差距。如果您看到集群性能或利用率数据的差距,这将表明PE没有成功地将数据同步到PC的时间。如果没有任何差距,这说明PE和PC之间的交流一直很好,或者至少能够在短时间内赶上进度。
第三件事是直接检查PC到PE的连接。你可以在PC上使用“launch Prism Element”来访问集群吗?如果是这样,PC到PE的通信现在可以工作了。或者,您可以尝试从PC执行VM管理任务,比如启动VM或更新描述文本。如果这些都能完成,PC就能与PE进行通信。
如果您看到了警报,但检查通过,没有看到问题,请确保NCC是最新的。正如文章中所描述的“PE-PC连接失败告警这种检查需要进行一些调整以减少不必要的警报。这些改进来自NCC 3.9.4,所以如果你的NCC版本较低,我建议升级。
如果PE到PC的同步显示良好,监控数据没有漏洞,但您不能从PC启动Prism Element,这通常是防火墙或代理配置的一个问题。要了解更多细节,请查看我之前的帖子在这里.
我希望这篇文章能够帮助大家消除对这些警报的困惑。如果你有问题,请在评论中提问。