解决了

碳2.3和Calico CNI的部署问题

  • 2021年10月17日
  • 5回复
  • 67的浏览量

徽章

你好,

似乎在部署的最后我失败了。下面是karbon_core.out的输出

2021 - 10 - 17 t11:57:31.052z kube_prometheus。[DEBUG] [k8s_cluster=RGS-PA-K8-CLUSTER-STAGING]期望5个节点在kube-system命名空间中运行calico-node daemon pod。当前运行:4
2021 - 10 - 17 t11:57:33.093z kube_prometheus。[DEBUG] [k8s_cluster=RGS-PA-K8-CLUSTER-STAGING]期望5个节点在kube-system命名空间中运行calico-node daemon pod。当前运行:4
2021 - 10 - 17 t11:57:35.135z kube_prometheus。[DEBUG] [k8s_cluster=RGS-PA-K8-CLUSTER-STAGING]期望5个节点在kube-system命名空间中运行calico-node daemon pod。当前运行:4
2021 - 10 - 17 t11:57:36.806z印花棉布。go:552: [ERROR] [k8s_cluster=RGS-PA-K8-CLUSTER-STAGING]验证calico插件失败
2021 - 10 - 17 t11:57:36.806z k8s_deploy。go:1478: [ERROR] [k8s_cluster=RGS-PA-K8-CLUSTER-STAGING] Failed to deploy calico/flannel: Failed to deploy calico: Failed to verify calico: Operation timed out: expected 5 nodes to running calico-node daemon pod in kube-system namespace。当前运行:4
2021 - 10 - 17 t11:57:36.806z k8s_deploy。go:155: [ERROR] [k8s_cluster=RGS-PA-K8-CLUSTER-STAGING] failed to deploy cluster addons: failed to deploy K8s cluster addons: failed to deploy calico: failed to verify calico: Operation timed out: expected 5 nodes to running calico-node daemon pod in kube-system namespace。当前运行:4
2021 - 10 - 17 t11:57:36.832z k8s_lib_deploy_task。go:112: [ERROR] [k8s_cluster=RGS-PA-K8-CLUSTER-STAGING] failed to deploy K8s cluster: failed to deploy K8s cluster addons: failed to deploy calico: failed to verify calico: Operation timed out: expected 5 nodes to running calico-node daemon pod in kube-system namespace. go:112: [ERROR] [k8s_cluster=RGS-PA-K8-CLUSTER-STAGING] failed to deploy K8s cluster addons: failed to deploy K8s cluster addons: failed to deploy calico: failed to verify calico: Operation timed out: expected 5 nodes to running calico-node daemon pod in kube-system namespace。当前运行:4
2021 - 10 - 17 t11:57:36.832z k8s_lib_deploy_task。go:78: [INFO] [k8s_cluster=RGS-PA-K8-CLUSTER-STAGING] token refresher received stopRefresh
2021 - 10 - 17 t11:57:36.844z deploy_k8s_task。: 364(错误):[k8s_cluster = RGS-PA-K8-CLUSTER-STAGING]集群RGS-PA-K8-CLUSTER-STAGING: k8集群部署失败:失败集群部署插件:未能k8集群部署插件:未能部署棉布:未能验证棉布:操作超时:预计5节点运行calico-node守护进程pod kube-system名称空间中。当前运行:4
2021 - 10 - 17 t11:57:36.844z deploy_k8s_task。go:370: [INFO] [k8s_cluster=RGS-PA-K8-CLUSTER-STAGING]等待子任务在完成父任务之前完成

如果有人有任何见解如何解决这个问题,非常感谢!

图标

最佳答案JoseNutanix2021年10月18日10:28

Hi Igor,<\/p>

I suggest you open a ticket with support, so they can investigate why this pod is crashing (saw calico-node-bvct7 crashing once too). Two of three containers in this pod are alive, with calico-node crashing not finding \/var\/lib\/calico\/nodename. Usually this is sort of issues are related to network\/performance issues.\u00a0<\/p>","className":"post__content__best_answer"}">

查看原始

这个话题已经停止评论

5回复

徽章

忘记张贴,豆荚状态:

命名空间名称就绪状态重启年龄
kube-system caleco -kube- controller7f66766f7f -nd8sx 1/1运行1 74米
kube系统calico-node-2ctb4 1/1运行0 74米
kube系统calico-node-7fx7n 1/1运行0 74米
kube-system caleco -node-bvct7 1/1运行1 74米
kube-system calico-node-fjwjp 0/1 CrashLoopBackOff 23 74m
kube系统calico-node-xth2k 1/1运行0 74米
kube-system caleco - typa -6bfd55df7-ptc7d 1/1运行0 74米
kube-apiserver-karbon-rgs-pa-k8-cluster-staging-e77682-k8 -master-0 3/3运行0 77米
kube-apiserver-karbon-rgs-pa-k8-cluster-staging-e77682-k8 -master-1 3/3运行0 77米
kube-proxy-ds-dsd5v 1/1运行0 74米
kube-proxy-ds-gnng4 1/1运行0 74米
kube-system kube-proxy-ds-ph68q 1/1运行0 74米
kube-system kube-proxy-ds-tf4ml 1/1运行0 74米
kube-system kube-proxy-ds-whbpl

Userlevel 4
徽章 +4

嗨,伊戈尔,

操作超时了。你必须检查站点之间是否有足够的带宽来获取图像。

此外,您可以检查吊舱的日志calico-node-fjwjp看看它是否下载了图像,如果下载了,那为什么Calico崩溃了。

徽章

你好,

是的,带宽很好……做了一些基本的测试,所有基于K8的虚拟机初始化很好。只是奇怪的是,他的特殊吊舱不能初始化Calico网络,因此碳部署失败。但卡尔文星团并没有被移除(自动移除),所以有机会四处看看。

的豆荚calico-node-fjwjp

kube-system calico-node-fjwjp 0/1 CrashLoopBackOff

它不断地重新启动,正如人们所预期的那样,因为尚未达到就绪状态。

事件:
类型原因年龄从消息
---- ------ ---- ---- -------
警告不健康12m (x2224 over 19h) kubelet Readiness probe failed: calico/node is not ready: BIRD is not ready: failed to stat() nodename文件:stat /var/lib/calico/nodename:没有这样的文件或目录
返回2m46s (x3945超过19h) kubelet返回重新启动失败的容器

从pod的完整输出描述:

名称:calico-node-fjwjp
名称空间:kube-system
优先级:2000001000
优先级类名:system-node-critical
节点:karbon-rgs-pa-k8-cluster-staging-e77682-k8s-worker-0/10.20.25.73
开始时间:2021年10月17日星期日11:47:36 +0000
标签:controller-revision-hash = 547955649 b
k8s-app = calico-node
pod-template-generation = 1
注释:scheduler.alpha.kubernetes.io / critical-pod:
运行状态:
知识产权:10.20.25.73
“诱导多能性”:
知识产权:10.20.25.73
控制:DaemonSet / calico-node
初始化容器:
upgrade-ipam:
容器ID:码头工人:/ / 025878 de4f3ab420bdc8d572c1037ff591c892f32b1607c1f60f523c398db8de
图片:quay.io karbon /参股了:v3.14.0
映像ID: docker-pullable: / / quay.io / karbon / cni@sha256: cc951ccd15aa8c94b1b3eec673e434853f3bf8c2deb83bdb4a3f934c68e0e8ae
端口:< >没有
主机端口:<一>
命令:
/ opt / cni / bin / calico-ipam
升级
状态:终止
原因:完成
退出代码:0
开始时间:2021年10月17日星期日11:47:45 +0000
完成时间:2021年10月17日星期日11:47:45 +0000
准备:真
重新启动数:0
环境:
KUBERNETES_NODE_NAME (v1: spec.nodeName):
CALICO_NETWORKING_BACKEND: 可选:false
支架:
/host/opt/cni/bin from cni-bin-dir (rw)
/var/lib/cni/networks from host-local-net-dir (rw)
/var/run/secrets/kubernetes。来自calico-node-token-x5lvc的Io /serviceaccount (ro)
install-cni:
容器ID:码头工人:/ / 455 ed002c1d8450e362fca773854f54000022d29a11401c3943d00d691060827
图片:quay.io karbon /参股了:v3.14.0
映像ID: docker-pullable: / / quay.io / karbon / cni@sha256: cc951ccd15aa8c94b1b3eec673e434853f3bf8c2deb83bdb4a3f934c68e0e8ae
端口:< >没有
主机端口:<一>
命令:
/ install-cni.sh
状态:终止
原因:完成
退出代码:0
开始时间:2021年10月17日星期日11:47:47 +0000
完成时间:2021年10月17日星期日11:47:47 +0000
准备:真
重新启动数:0
环境:
CNI_CONF_NAME: 10-calico.conflist
CNI_NETWORK_CONFIG: <设置为config map 'calico-config'的key ' CNI_NETWORK_CONFIG '>可选:false
KUBERNETES_NODE_NAME (v1: spec.nodeName):
CNI_MTU: 可选:false
睡眠:假
支架:
/主机/ etc /公司/净。D from cni-net-dir (rw)
/host/opt/cni/bin from cni-bin-dir (rw)
/var/run/secrets/kubernetes。来自calico-node-token-x5lvc的Io /serviceaccount (ro)
flexvol-driver:
容器ID:码头工人:/ / 68 f392f6d3bde62f14185fb50c6b4109982bd63ac060ccbadc18522e84fdc60b
图片:quay.io / karbon pod2daemon-flexvol: v3.14.0
映像ID: docker-pullable: / / quay.io / karbon / pod2daemon-flexvol@sha256: e5f2c2b9e67ec463ef5b538b8bf10453cc6a6538f7288a4760ee925c51498e7d
端口:< >没有
主机端口:<一>
状态:终止
原因:完成
退出代码:0
开演时间:2021年10月17日星期日11:47:51 +0000
完成时间:2021年10月17日星期日11:47:51 +0000
准备:真
重新启动数:0
环境:<一>
支架:
/host/driver from flexvol-driver-host (rw)
/var/run/secrets/kubernetes。来自calico-node-token-x5lvc的Io /serviceaccount (ro)
容器:
calico-node:
容器ID:码头工人:/ / 96 fa1881578bd5bae774a6f25ffc108882413ef44acb6c8e450cf6b38345aa8d
图片:quay.io karbon /节点:v3.14.0
映像ID: docker-pullable: / / quay.io / karbon / node@sha256:1a643541c4d76ea412dde19454bfada5a7e03e7cbb51ddf76def9baf84bdad7c
端口:< >没有
主机端口:<一>
状态:等待
原因:CrashLoopBackOff
最后的状态:终止
原因:错误
退出代码:137
开始时间:2021年10月18日星期一07:41:15 +0000
结束:2021年10月18日星期一07:42:24 +0000
准备:假
重新启动数:327
请求:
cpu: 250
exec [/bin/calico-node -felix-live] delay=10s timeout=1s period=10s #success=1 #failure=6
Readiness: exec [/bin/calico-node -felix-ready -bird-ready] delay=0 timeout=1s period=10s #success=1 #failure=3 .准备就绪
环境:
DATASTORE_TYPE: kubernetes
FELIX_TYPHAK8SSERVICENAME: 可选:false
WAIT_FOR_DATASTORE:真
节点名(v1: spec.nodeName):
CALICO_NETWORKING_BACKEND: 可选:false
CLUSTER_TYPE: k8、边界网关协议
知识产权:自动检测
CALICO_IPV4POOL_IPIP:永远不要
=乙。* IP_AUTODETECTION_METHOD:接口
FELIX_IPINIPMTU: <设置为配置映射calico-config的key 'veth_mtu' >可选:false
CALICO_IPV4POOL_CIDR: 172.20.0.0/16
CALICO_ADVERTISE_CLUSTER_IPS: 172.19.0.0/16
CALICO_DISABLE_FILE_LOGGING:真
FELIX_DEFAULTENDPOINTTOHOSTACTION:接受
FELIX_IPV6SUPPORT:假
FELIX_LOGSEVERITYSCREEN:信息
FELIX_HEALTHENABLED:真
FELIX_PROMETHEUSGOMETRICSENABLED:假
FELIX_PROMETHEUSMETRICSENABLED:真
支架:
/lib/modules from lib-modules (ro)
/ / xtables运行。从xtables锁(rw)
/var/lib/calico from var-lib-calico
/var/run/calico from varrun -calico
/var/run/nodeagent from policysync (rw)
/var/run/secrets/kubernetes。来自calico-node-token-x5lvc的Io /serviceaccount (ro)
条件:
输入状态
正确初始化
准备好假
ContainersReady假
PodScheduled真实
卷:
lib-modules:
类型:HostPath(裸主机目录卷)
路径:/lib/modules
HostPathType:
var-run-calico:
类型:HostPath(裸主机目录卷)
路径:/var/run/calico
HostPathType:
var-lib-calico:
类型:HostPath(裸主机目录卷)
路径:/var/lib/calico
HostPathType:
xtables-lock:
类型:HostPath(裸主机目录卷)
路径:/ / xtables.lock运行
HostPathType: FileOrCreate
cni-bin-dir:
类型:HostPath(裸主机目录卷)
路径:/var/lib/hyperkube/opt/cni/bin
HostPathType:
cni-net-dir:
类型:HostPath(裸主机目录卷)
路径:/etc/cni/net.d
HostPathType:
host-local-net-dir:
类型:HostPath(裸主机目录卷)
路径:/var/lib/cni/networks
HostPathType:
policysync:
类型:HostPath(裸主机目录卷)
路径:/var/run/nodeagent
HostPathType: DirectoryOrCreate
flexvol-driver-host:
类型:HostPath(裸主机目录卷)
路径:/usr/libexec/kubernetes/kubelet-plugins /体积/执行/节点代理~ uds
HostPathType: DirectoryOrCreate
calico-node-token-x5lvc:
类型:Secret(由Secret填充的卷)
SecretName: calico-node-token-x5lvc
可选:假
QoS类:暴增
Node-Selectors: kubernetes.io / os = linux
纵容:NoSchedule op =存在
: NoExecute op =存在
CriticalAddonsOnly op存在=
node.kubernetes。io / disk-pressure: NoSchedule op =存在
node.kubernetes。io /内存压力:NoSchedule op =存在
node.kubernetes。io / network-unavailable: NoSchedule op =存在
node.kubernetes。io /没有准备好:NoExecute op =存在
node.kubernetes。io / pid-pressure: NoSchedule op =存在
node.kubernetes。io /不可到达:NoExecute op =存在
node.kubernetes。io / unschedulable: NoSchedule op =存在
事件:
类型原因年龄从消息
---- ------ ---- ---- -------
kubelet Readiness probe failed: calico/node is not ready: BIRD is not ready: failed to stat()节点名文件:stat /var/lib/calico/node
名称:没有这样的文件或目录
返回4m24s (x3945超过19h) kubelet返回重新启动失败的容器

Userlevel 4
徽章 +4

嗨,伊戈尔,

我建议你打开一张支持票,这样他们就可以调查为什么这个pod会崩溃(看到calico-node-bvct7也崩溃一次)。这个吊舱中的三个容器中有两个是活的,有calico-node崩溃,没有找到/var/lib/calico/nodename。通常这类问题与网络/性能问题有关。

徽章

你好何塞,

是的,这很好——只是想办法提高选票来获得支持,因为我过去从来没有愉快地使用它脸红:

是的,它似乎是与特定的工人节点(10.20.25.73)和豆荚属于那里,并通过kubelet通信,而不是严格从calico节点:

igor.stankovic@rgs-pa-bastion-1: ~ $kubectl -n kube-system logs -f kube-proxy-ds-whbpl
从服务器错误:得到"https://10.20.25.73:10250/containerLogs/kube-system/kube-proxy-ds-whbpl/kube-proxy?Follow =true":拨号TCP 10.20.25.73:10250: I / O超时
igor.stankovic@rgs-pa-bastion-1: ~ $

我们尝试重新启动kubelet, docker然后完全回收VM节点,但仍然相同。

听听支持者的意见会很有趣。

Baidu