解决pe-pc连接问题的有用命令
我们有很多场景,你可能会看到与PE-PC连接失败相关的警报。这通常发生在PE和PC集群之间的网络连接由于任何原因中断时,例如PC虚拟机重启,PC集群升级,网络问题,HTTP代理问题(不正确的代理白名单)和端口问题等。
第一,PE什么时候发出PE- pc连通性告警:
1)在AOS 5.10中,当PE-PC连接中断至少6分钟时,警报就会被触发。(Prios to AOS 5.10 alert在2分钟的单个实例中产生)
有时,如果连通性良好且不存在上述原因,PE-PC连通性检查Prism上甚至会出现红心。
在这种情况下,如果你确认没有潜在的PE-PC连接问题,手动重置检查.如下面所示,在“运行状况”页面单击此检查,将该检查关闭并将其重新打开。
为了解决一些PE-PC连接问题,下面是一组常见的场景和有用的命令,应该在受影响的PE集群的CVM和PC集群的PC- vm上运行:
1)港口问题:为了验证端口连接是否良好,请检查PC上的9440端口是否打开:
nutanix@CVM$ nc 9440 -v
Ncat: 7.50版本(https://nmap.org/ncat)
连接到x.x.x.x:9440。
输出应该类似于上面的内容。如果端口问题仍然存在,您应该打开端口9440在个人电脑上。
2) HTTP代理问题在很多场景中,当PE或PC集群的环境中配置了http代理,但是PE和PC集群上没有正确添加代理白名单,这可能会导致PE和PC之间的连接问题。
当PE和PC上设置了代理时,必须完成以下操作:
- 在PE代理白名单中添加Prism Central IP
- 在“PC代理白名单”中添加“Prism Element IP”和所有cvm IP。
代理设置可以从Prism仪表板配置,也可以从nCLI像下面的:
nutanix@cvm$ ncli http-proxy ls
nutanix@cvm$ ncli http-proxy get-白名单
nutanix@cvm$ ncli http-proxy add-to-白名单
3)远程连接问题:在PC上注册PE集群时,PE集群和PE集群之间会建立远程连接。有时,由于上述原因,我们可以观察远程连接问题,这可能导致PC被标记为“断开”在PE仪表盘和其他问题。
用于故障诊断的有用命令:
a)列出所有远程连接:
> PE CVM:
< >核remote_connection.list
名字UUID
>电脑CVM:
< >核remote_connection.list_all
名字UUID
b)获取多集群状态:PE集群和PC集群都需要执行此命令:
CVM$ ncli multicluster get-cluster-state
集群Id: 00056528-ea71-f155-60a7-6805ca7bf746
集群名称:IN-BLR-VDICLS1
Multicluster: false
控制器虚拟机IP地址…:[10.51.148.153、10.51.148.154 10.51.148.155、10.51.148.156 10.51.148.157,10.51.148.158,10.51.148.159,10.51.148.160,10.51.148.161,10.51.148.162,10.51.148.163,10.51.148.164,10.51.148.165,10.51.148.166,10.51.148.167,10.51.148.168,10.51.148.169,10.51.148.170,10.51.148.171,10.51.148.172,10.51.148.173]
外部IP地址:10.51.148.174
标记为移除:false
远程连接存在:true <---------应该是"true"
3) health_check远程连接:通过在PE和PC上可用的RCs上运行以下命令检查nucleus RC健康状态,以完全排除它是API v3连接问题:
< >核remote_connection。health_check < rc_name >
或
< >核remote_connection.health_check_all
以上也应该从PE和PC集群运行。
4)检查API响应:如果上述RC运行状况检查失败,那么我们应该检查API响应。一旦我们登录到PE,从相同的浏览器运行以下:
https:// < pe_ip >: 9440 / PrismGateway /服务/ rest / v1 / multicluster / cluster_external_state
如果API连接成功,响应将包含"可及”:真正的
[{“clusterUuid”:“7 aca431c - 9 - bc8 4 bd0 - 803 - 9——b49e550e942”、“clusterDetails”:{“clusterName”:“无名”、“ipaddress”:“10.5.222.90”,“multicluster”:真的,“用户名”:“00055 de7 - 3 - cc7 - 05 - fb - 0000 - 000000004433”,“密码”:“41119365494582941674608439812739”,“prcCluster”:假的,“可以”:真正的},“configDetails”:{" externalIp ": " "},“过滤器”:[],“clusterTimestampUsecs”: 0,“nosVersion”:空,“nosFullVersion”:空,“markedForRemoval”:假的,“remoteConnectionExists”:真正的}
如果API响应是"可及”:假那么PE和PC之间就会出现API连接问题。下一步是检查是否为PC配置了代理白名单可能需要.
[{“clusterUuid”:“4 b7b1a77 c591 - 477 - 9501 - 37 - a39a4f8dfc”、“clusterDetails”:{“clusterName”:“无名”、“ipaddress”:“10.246.73.47”,“multicluster”:真的,“用户名”:“00056528 - ea71 f155 - 60 - a7 - 6805 ca7bf746”,“密码”:“65157945596046308979116553149711”,“prcCluster”:假的,“可以”:假},“configDetails”:{“externalIp ": " "},“过滤器”:[],”clusterTimestampUsecnosVersion“s”:0:空,“nosFullVersion”:空,“markedForRemoval remoteConnectionExists“:假的,真}):
为了进一步解决REST API问题,并查看需要检查哪些日志,这里有一篇关于此问题的文章https://next.nutanix.com/api-31/logs-to-check-for-rest-apis-and-apache-http-issues-37761.
另一个关于PE-PC连接警报的惊人帖子https://next.nutanix.com/how-it-works-22/what-to-do-with-prism-element-prism-central-connectivity-alerts-37401
接下来是什么?
如果以上任何一种情况都不能解决这个问题,我们可能需要重新设置PE-PC的远程连接,或者在进行深入的故障排除和检查日志后,重新将PE注销并重新注册到PC上。对于这种情况,最好是使用Nutanix支持,并让技术专家从那里接管。
同KBs
1)6970-PE-PC连接失败告警
2)3379-cluster_connectivity_status检查
3)5356—代理白名单错误导致PC在PE dashboard上连接断开