来源:llm/gemma

Gemma:开源 Gemini#

image

Google 发布了 Gemma,在 AI 社区引起了巨大反响。这为开源社区提供了服务和微调私有 Gemini 的机会。

在任何云上部署 Gemma#

使用 SkyPilot 在任何云上部署 Gemma 非常容易。使用此目录中的 serve.yaml 文件,您可以通过一个命令在任何云上部署模型。

先决条件#

  1. 申请访问 Gemma 模型

访问 申请页面 并点击 Acknowledge license(确认许可)以申请访问模型权重。

  1. 从 huggingface 获取访问令牌

在 huggingface 此处 生成一个只读访问令牌,并确保您的 huggingface 账户可以 此处 访问 Gemma 模型。

  1. 安装 SkyPilot

pip install "skypilot-nightly[all]"

有关详细安装说明,请参阅 安装指南

在单个实例上托管#

我们可以使用单个实例托管模型

HF_TOKEN="xxx" sky launch -c gemma serve.yaml --env HF_TOKEN

集群启动后,我们可以使用以下命令访问模型

IP=$(sky status --ip gemma)

curl http://$IP:8000/v1/completions \
  -H "Content-Type: application/json" \
  -d '{
      "model": "google/gemma-7b-it",
      "prompt": "My favourite condiment is",
      "max_tokens": 25
  }' | jq .

聊天 API 也受支持

IP=$(sky status --ip gemma)

curl http://$IP:8000/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
      "model": "google/gemma-7b-it",
      "messages": [
        {
          "role": "user",
          "content": "Hello! What is your name?"
        }
      ],
      "max_tokens": 25
  }'

使用 SkyServe 扩缩服务#

使用相同的 YAML 文件,我们可以轻松地通过 SkyServe 在多个实例、区域和云上扩缩模型服务

HF_TOKEN="xxx" sky serve up -n gemma serve.yaml --env HF_TOKEN

请注意,唯一的更改是将 sky launch 改为 sky serve up。相同的 YAML 文件无需修改即可使用。

集群启动后,我们可以使用以下命令访问模型

ENDPOINT=$(sky serve status --endpoint gemma)

curl http://$ENDPOINT/v1/completions \
  -H "Content-Type: application/json" \
  -d '{
      "model": "google/gemma-7b-it",
      "prompt": "My favourite condiment is",
      "max_tokens": 25
  }' | jq .

聊天 API 也受支持

curl http://$ENDPOINT/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
      "model": "google/gemma-7b-it",
      "messages": [
        {
          "role": "user",
          "content": "Hello! What is your name?"
        }
      ],
      "max_tokens": 25
  }'

包含的文件#