vLLM 部署教程
vLLM 是目前最流行的高性能大模型推理引擎。它最著名的技术是 **PagedAttention**,能将显存利用率和吞吐量(Throughput)提升 10 倍以上。
5分钟
2025-12-26
部署运维服务器vLLM
vLLM 部署教程
vLLM 是目前最流行的高性能大模型推理引擎。它最著名的技术是 PagedAttention,能将显存利用率和吞吐量(Throughput)提升 10 倍以上。
如果你有自己的 GPU 服务器(如 A100/H800/4090),vLLM 是部署开源模型的首选。
1. 核心优势
- 极高的吞吐量:在并发请求下,比 HuggingFace Transformers 快 24 倍。
- OpenAI 兼容:自带一个 HTTP Server,接口完全兼容 OpenAI API,这意味着你可以直接用 ChatGPT 的客户端连接它。
- 支持广泛:支持 Llama 3, Qwen 2, DeepSeek, Mistral 等主流模型。
2. 安装与启动
2.1 安装
推荐使用 Linux 环境 + Conda。
conda create -n vllm python=3.10
conda activate vllm
pip install vllm
2.2 启动 OpenAI 兼容服务
假设我们要部署 Qwen/Qwen2-7B-Instruct 模型:
python -m vllm.entrypoints.openai.api_server \
--model Qwen/Qwen2-7B-Instruct \
--trust-remote-code \
--gpu-memory-utilization 0.95 \
--port 8000
--model:可以是 HuggingFace 模型 ID,也可以是本地路径。--gpu-memory-utilization:显存占用比例,建议设高一点以免浪费。
3. 测试调用
启动成功后,你可以用 curl 或 Python 测试:
curl http://localhost:8000/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{
"model": "Qwen/Qwen2-7B-Instruct",
"messages": [
{"role": "user", "content": "Hello!"}
]
}'
在 Python 中:
from openai import OpenAI
client = OpenAI(base_url="http://localhost:8000/v1", api_key="EMPTY")
# 接下来就和调用 ChatGPT 一模一样了
vLLM 是让你的 GPU 算力发挥到极致的神器。