本篇文档是介绍集群故障排查的;我们假设对于你碰到的问题,你已经排除了是由应用程序造成的。
对于应用的调试,请参阅应用故障排查指南。 你也可以访问troubleshooting document来获取更多的信息。

显示出集群的节点列表

调试的第一步是查看所有的节点是否都正确的注册。

运行

kubectl get nodes

接下来,验证你的所有节点都能够显示出来,并且都处于Ready状态。

查看logs

现在,挖掘出集群更深层的信息就需要登录到相关的机器上。下面是相关log文件所在的位置。
(注意,对于基于systemd的系统,你可能需要使用journalctl)

Master

Worker Nodes

集群故障模式的概述

下面是一个不完整的列表,列举了一些可能出错的场景,以及通过调整集群配置来解决相关问题的方法。

根本原因:

具体情况:

缓解措施: