来源:llm/yi

在您的云上使用 SkyPilot 运行 Yi 模型#

🤖 Yi 系列模型是 零一万物 (01.AI) 从头开始训练的新一代开源大型语言模型。

更新 (2024年9月19日) - SkyPilot 现已支持 Yi 模型 (Yi-Coder Yi-1.5)!

yi

为什么使用 SkyPilot 部署而不是商业托管解决方案?#

  • 通过利用 Kubernetes 集群和多个区域/云上的多个资源池,获得最佳的 GPU 可用性。

  • 支付最低费用 — SkyPilot 会在 Kubernetes 集群和区域/云中选择最便宜的资源。没有托管解决方案的加价。

  • 可在不同位置和加速器上扩展到多个副本,所有副本都通过单个端点提供服务。

  • 所有内容都保留在您的 Kubernetes 或云账号中(您的虚拟机和存储桶)。

  • 完全私有 - 没有其他人可以看到您的聊天记录。

使用 SkyPilot 运行 Yi 模型#

安装 SkyPilot 后,一键即可使用 SkyPilot 在 vLLM 上运行您自己的 Yi 模型。

  1. 通过 vLLM 提供支持的 OpenAI 兼容端点,在单个实例上启动 Yi-1.5 34B 模型服务,可使用 yi15-34b.yaml 中指定的列表中的任何可用 GPU(您也可以切换到 yicoder-9b.yaml其他模型 以使用较小的模型)。

sky launch -c yi yi15-34b.yaml
  1. 向端点发送补全请求

ENDPOINT=$(sky status --endpoint 8000 yi)

curl http://$ENDPOINT/v1/completions \
    -H "Content-Type: application/json" \
    -d '{
      "model": "01-ai/Yi-1.5-34B-Chat",
      "prompt": "Who are you?",
      "max_tokens": 512
  }' | jq -r '.choices[0].text'
  1. 发送聊天补全请求

curl http://$ENDPOINT/v1/chat/completions \
    -H "Content-Type: application/json" \
    -d '{
      "model": "01-ai/Yi-1.5-34B-Chat",
      "messages": [
        {
          "role": "system",
          "content": "You are a helpful assistant."
        },
        {
          "role": "user",
          "content": "Who are you?"
        }
      ],
      "max_tokens": 512
  }' | jq -r '.choices[0].message.content'

包含的文件#