概述#

SkyPilot 将您的云基础设施 — Kubernetes 集群、云和虚拟机区域以及现有机器 — 组合成一个统一的计算资源池，该资源池针对运行 AI 工作负载进行了优化。

_images/skypilot-abstractions-long-2.png

您可以使用这些核心抽象，在统一的界面中，在此资源池上运行 AI 工作负载

集群
作业
服务

这些抽象支持 AI 生命周期的所有用例：批量处理、开发、(预)训练、微调、超参数搜索、批量推理和在线服务。

使用 SkyPilot 运行工作负载具有以下优势

集群#

一个集群是 SkyPilot 的核心资源单元：位于同一位置的一个或多个虚拟机或 Kubernetes Pod。

您可以使用 sky launch 启动一个集群

命令行界面

$ sky launch
$ sky launch --gpus L4:8
$ sky launch --num-nodes 10 --cpus 32+
$ sky launch --down cluster.yaml
$ sky launch --help  # See all flags.

Python

import sky
task = sky.Task().set_resources(sky.Resources(accelerators='L4:8'))
sky.launch(task, cluster_name='my-cluster')

您可以使用集群进行以下操作

SSH 连接到任何节点
将 VSCode/IDE 连接到它
在其上提交和排队多个作业
使其自动关闭或停止以节省成本
轻松启动和使用多个虚拟的、临时的集群

或者，您可以在启动时带上自定义的 Docker 或虚拟机镜像，或者使用 SkyPilot 的合理默认设置，这些设置会为不同的 GPU 配置正确的 CUDA 版本。

请注意，SkyPilot 集群是云实例的虚拟集合，或者是您带入 SkyPilot 的物理集群（Kubernetes 集群或现有机器）上启动的 Pod 的虚拟集合。

请参阅快速入门和启动开发集群以开始使用。

作业#

一个作业是您想要运行的程序。支持两种类型的作业

集群上的作业	托管作业
用法：`sky exec`	用法：`sky jobs launch`
作业提交到现有集群并重用该集群的设置。	每个作业都在自己的临时集群中运行，并带有自动恢复功能。
非常适合在现有集群上进行交互式开发和调试。	非常适合需要恢复（例如，Spot 实例）或扩展到许多并行作业的作业。

一个作业可以包含一个或多个任务。在大多数情况下，一个作业只有一个任务；我们将它们交替使用。

集群上的作业#

您可以使用 sky exec 在现有集群上排队和运行作业。这非常适合交互式开发，重用集群的设置。

请参阅集群作业以开始使用。

命令行界面

sky exec my-cluster --gpus L4:1 --workdir=. -- python train.py
sky exec my-cluster train.yaml  # Specify everything in a YAML.

# Fractional GPUs are also supported.
sky exec my-cluster --gpus L4:0.5 -- python eval.py

# Multi-node jobs are also supported.
sky exec my-cluster --num-nodes 2 -- hostname

Python

# Assume you have 'my-cluster' already launched.

# Queue a job requesting 1 GPU.
train = sky.Task(run='python train.py').set_resources(
    sky.Resources(accelerators='L4:1'))
train = sky.Task.from_yaml('train.yaml')  # Or load from a YAML.
sky.exec(train, cluster_name='my-cluster')

# Queue a job requesting 0.5 GPU.
eval = sky.Task(run='python eval.py').set_resources(
    sky.Resources(accelerators='L4:0.5'))
sky.exec(eval, cluster_name='my-cluster')