当您看到有关NIC之一的警报时,第一个想法是“哦,哦!”。主机中有多个NIC,流量将切换到另一个接口,或者现在减少带宽(例如,启用LACP时)。如果环境没有在其容量的边缘运行,那么网络接口之一的损失不应立即产生影响。
NCC Health检查NIC_LINK_DOWN_CHECK每小时运行并在发现任何问题时生成警报。在大多数情况下,使用网络故障排除逻辑就足够了(确保接口是物理连接的,两端的设备都正确配置并正常运行)。
但是,在某些情况下,警报可能是假阳性的。如果在新节点上群集扩展之后,或者在某些情况下曾经连接过接口。消除先知首先是真实的可能性。验证主机与开关的物理连接性。如果您确定警报可能不正确,则NCC检查使用的文件与接口的预期状态进行了比较。如果有问题的界面在“向下”中列出了该文件中的内容,则可能会在某些方面。可以删除该文件,并将在下一次健康检查中自动重新创建文件。
对于NIC故障排除,请参阅KB-2480 NCC健康检查:NIC_LINK_DOWN_CHECK
看check_cvm_health_job_state.json文件转到KB-2556警报“主机[x.x.x.x]的NIC VMNIC [X]上的链接正在下降”