SkyPilot API 服务器故障排除#

本指南包含 SkyPilot API 服务器部署常见问题的故障排除技巧。

如果本指南未能解决您的问题,请通过 SlackGitHub 联系我们。

Helm 部署故障排除#

API 服务器 Pod 处于 Pending 状态#

如果 API 服务器 Pod 处于 Pending 状态,您可以使用以下命令检查 Pending 的原因:

kubectl describe pod -n $NAMESPACE -l app=${RELEASE_NAME}-api

如果 Pending 的原因是 FailedScheduling 并且信息显示 cpu/内存不足,您可以选择

  • 向 Kubernetes 集群添加更多资源,或者

  • 使用较小的 API 服务器资源请求;例如(将 cpu 和 memory 更改为您期望的值)

# Update the resources requests while keeping existing values set in the previous commands
helm upgrade --install $RELEASE_NAME skypilot/skypilot-nightly \
--namespace $NAMESPACE \
--reuse-values \
--set apiService.resources.requests.cpu=4 \
--set apiService.resources.requests.memory=8Gi

注意

API 服务器至少需要 4 个 CPU 核和 8 GiB 内存。设置较低的值可能会导致性能下降。