我们如何确定节点是否正在遇到NIC问题,如果是的话,那么什么?
有很多原因可能导致主机NIC错误并进行故障排除,通常涉及分析以将问题分解为网络拓扑中的某个部分。
链接拍打(接口不断上下)
电缆断开/连接
外部开关端口故障
外部开关端口的配置错误
NIC端口有故障
电缆故障
错误的SFP+模块
我们担心的两个大错误计数器是rx_crc_errors和rx_over_errors(以及rx_missed_errors/rx_fifo_errors)。
根据管理程序在主机上运行以下命令:
AHV:
Ethtool -s |egrep“ rx_errors | rx_crc_errors | rx_missed_errors”
ESXI:
ESXCLI网络NIC统计信息-N |EGREP“总收到错误|接收CRC错误|接收错过错误”
Hyper-V:
get -netadapterStatistics -Name以太网*<接口号> |fl *
rx_crc_error:
发送主机计算整个以太网帧的环状冗余检查(CRC),并将此值放在用户有效载荷后以太网帧的FCS(框架检查顺序)部分中。然后,中间开关检查此计算值和目标主机以确定帧是否已在运输中损坏。
rx_crc_errors是由第1层故障或网络上的巨型框架问题引起的。如果该数据包在接口上配置的内容上具有MTU,则它将切断指定的MTU的数据包,从而导致服务器接收错误的数据包,这会丢弃CRC错误。
有故障的电缆和/或SFP+模块是这些错误的最常见原因。如果问题定期出现在特定接口上,则应在更改窗口期间以受控方式进行测试,以根据需要交换电缆,模块和交换端口来隔离故障组件以隔离问题。
物理故障排除是一项累积努力,就像CRC一样,没有一种有效的方法来诊断主机的NIC,电缆或开关端口是不良数据传输的来源。
rx_over_errors:
当硬件在物理NIC上接收缓冲区已满,并且必须将某些接收到的数据包放在物理NIC层时,它们是引起的。在大多数情况下,此计数器报告的值将等于rx_missed_errors和rx_fifo_errors。数据包下降可能在高爆发期间发生。
这些NIC错误可以由以上所示的许多方案触发,通常可以忽略。但是,不断增加NIC错误通常指向失败的物理层组件。当错误率过多时,触发了Nutanix警报。该警报应每当提高并纠正源时进行调查。
提示:让您的网络团队检查开关端口统计信息以捕获这些主机连接到的开关侧的错误。
了解更多信息 :
KB -1381-NCC健康检查:host_nic_error_check