SkyPilot API 服务器故障排除#
本指南包含 SkyPilot API 服务器部署常见问题的故障排除技巧。
如果本指南未能解决您的问题,请通过 Slack 或 GitHub 联系我们。
Helm 部署故障排除#
API 服务器 Pod 处于 Pending 状态#
如果 API 服务器 Pod 处于 Pending 状态,您可以使用以下命令检查 Pending 的原因:
kubectl describe pod -n $NAMESPACE -l app=${RELEASE_NAME}-api
如果 Pending 的原因是 FailedScheduling
并且信息显示 cpu/内存不足,您可以选择
向 Kubernetes 集群添加更多资源,或者
使用较小的 API 服务器资源请求;例如(将 cpu 和 memory 更改为您期望的值)
# Update the resources requests while keeping existing values set in the previous commands
helm upgrade --install $RELEASE_NAME skypilot/skypilot-nightly \
--namespace $NAMESPACE \
--reuse-values \
--set apiService.resources.requests.cpu=4 \
--set apiService.resources.requests.memory=8Gi
注意
API 服务器至少需要 4 个 CPU 核和 8 GiB 内存。设置较低的值可能会导致性能下降。