Replicate 平台使用指南

Replicate 是一个“让 AI 模型像 API 一样调用”的平台。它并不生产模型，而是把开源界最强的模型（如 Llama 3, Stable Diffusion XL, Whisper）都部署在云端，你只需要写几行代码就可以调用，按秒计费。

1. 核心优势

无需部署：不需要买昂贵的显卡，不需要配置复杂的 Python 环境，不需要管 CUDA 版本冲突。
按量付费：用多少算多少。跑一次 SDXL 大概几分钱，不跑不收钱。
开源模型全：Hugging Face 上火的模型，这里基本都有现成的 API。

2. 如何使用

2.1 网页版试玩 (Playground)

每个模型都有一个 Web 界面。

访问：replicate.com
搜索模型：比如搜 stability-ai/sdxl。
运行：在右侧输入参数（Prompt），点击 Run。
- 注意：试玩通常有一定免费额度，用完需绑卡。

2.2 API 调用 (Python 示例)

这是 Replicate 的正确打开方式。

安装库：
```
pip install replicate
```
设置 Token：
```
export REPLICATE_API_TOKEN=你的Token
```

运行代码 (Llama 3 示例)：

import replicate

output = replicate.run(
    "meta/llama-3-70b-instruct",
    input={"prompt": "如何用 Python 读取 CSV 文件？"}
)

for item in output:
    print(item, end="")

3. 热门模型推荐

Llama 3 (meta/llama-3-70b-instruct)：目前最强的开源 LLM 之一。
Stable Diffusion XL (stability-ai/sdxl)：高质量生图。
Flux (black-forest-labs/flux-schnell)：生成速度极快的生图模型。
Whisper (openai/whisper)：语音转文字。

4. 冷启动问题 (Cold Boot)

Replicate 的机制是：如果没有人请求，GPU 会休眠。当你请求一个冷门模型时，可能需要等待 1-3 分钟的“冷启动”时间。热门模型（如 Llama 3）通常是秒开的。

如果你想在自己的 App 里集成 AI 功能，但不想维护服务器，Replicate 是最省心的后端方案。