vLLM 部署教程

vLLM 是目前最流行的高性能大模型推理引擎。它最著名的技术是 PagedAttention，能将显存利用率和吞吐量（Throughput）提升 10 倍以上。

如果你有自己的 GPU 服务器（如 A100/H800/4090），vLLM 是部署开源模型的首选。

1. 核心优势

极高的吞吐量：在并发请求下，比 HuggingFace Transformers 快 24 倍。
OpenAI 兼容：自带一个 HTTP Server，接口完全兼容 OpenAI API，这意味着你可以直接用 ChatGPT 的客户端连接它。
支持广泛：支持 Llama 3, Qwen 2, DeepSeek, Mistral 等主流模型。

2. 安装与启动

2.1 安装

推荐使用 Linux 环境 + Conda。

conda create -n vllm python=3.10
conda activate vllm
pip install vllm

2.2 启动 OpenAI 兼容服务

假设我们要部署 Qwen/Qwen2-7B-Instruct 模型：

python -m vllm.entrypoints.openai.api_server \
    --model Qwen/Qwen2-7B-Instruct \
    --trust-remote-code \
    --gpu-memory-utilization 0.95 \
    --port 8000

--model：可以是 HuggingFace 模型 ID，也可以是本地路径。
--gpu-memory-utilization：显存占用比例，建议设高一点以免浪费。

3. 测试调用

启动成功后，你可以用 curl 或 Python 测试：

curl http://localhost:8000/v1/chat/completions \
    -H "Content-Type: application/json" \
    -d '{
        "model": "Qwen/Qwen2-7B-Instruct",
        "messages": [
            {"role": "user", "content": "Hello!"}
        ]
    }'

在 Python 中：

from openai import OpenAI
client = OpenAI(base_url="http://localhost:8000/v1", api_key="EMPTY")
# 接下来就和调用 ChatGPT 一模一样了

vLLM 是让你的 GPU 算力发挥到极致的神器。