Ollama 本地部署教程
Ollama 是一个开源的大模型管理和推理工具,类似于 Docker 之于容器。
5分钟
2025-12-26
部署运维服务器Ollama
Ollama 本地部署教程
Ollama 是目前最流行的本地大模型运行工具,它极大地简化了在个人电脑(Windows, macOS, Linux)上部署和运行 Llama 3, DeepSeek, Mistral 等开源模型的过程。
1. 什么是 Ollama
Ollama 是一个开源的大模型管理和推理工具,类似于 Docker 之于容器。
- 特点:
- 一键安装:无需配置复杂的 Python 环境、Cuda 驱动等。
- 模型库丰富:支持几乎所有主流开源模型。
- API 支持:默认提供兼容 OpenAI 格式的 API 接口,方便第三方软件调用。
2. 安装与配置
2.1 下载安装
访问官网 ollama.com 下载对应系统的安装包。
- macOS / Windows:下载安装包直接双击安装。
- Linux (一键脚本):
curl -fsSL https://ollama.com/install.sh | sh
2.2 验证安装
打开终端(Terminal 或 PowerShell),输入:
ollama --version
如果显示版本号(如 ollama version 0.5.x),则安装成功。
3. 快速上手:下载并运行模型
Ollama 的核心命令是 run。如果模型不存在,它会自动下载;如果已存在,则直接运行。
3.1 运行 Llama 3
ollama run llama3
注:llama3 tag 通常指向最新的 8B 模型。
3.2 运行 DeepSeek
ollama run deepseek-r1:7b
3.3 常用命令速查
| 命令 | 说明 | 示例 |
|---|---|---|
ollama pull <model> | 仅下载模型但不运行 | ollama pull mistral |
ollama list | 列出本地已下载的模型 | |
ollama rm <model> | 删除本地模型 | ollama rm llama3 |
ollama ps | 查看当前正在运行的模型 | |
ollama serve | 启动 API 服务(通常后台自动运行) |
4. API 调用
Ollama 默认在本地 11434 端口提供服务。任何支持 OpenAI 格式的客户端都可以连接。
4.1 基本调用配置
- Base URL:
http://localhost:11434/v1 - API Key:
ollama(或者任意字符串) - Model: 你本地下载的模型名称,如
llama3
4.2 Python 代码示例
from openai import OpenAI
client = OpenAI(
base_url='http://localhost:11434/v1',
api_key='ollama', # required, but unused
)
response = client.chat.completions.create(
model="llama3",
messages=[
{"role": "system", "content": "You are a helpful assistant."},
{"role": "user", "content": "Why is the sky blue?"},
]
)
print(response.choices[0].message.content)
5. 进阶:自定义模型 (Modelfile)
你可以像编写 Dockerfile 一样,编写 Modelfile 来定制模型的 Prompt、参数或系统角色。
步骤 1:创建 Modelfile
新建一个名为 Modelfile 的文件(无后缀),内容如下:
FROM llama3
# 设置系统提示词
SYSTEM "你是一个专业的 Python 编程助手,只回答代码相关的问题。"
# 调整参数
PARAMETER temperature 0.7
步骤 2:构建模型 在终端运行:
ollama create my-python-coder -f Modelfile
步骤 3:运行新模型
ollama run my-python-coder
6. 常见硬件要求参考
- 7B / 8B 模型:
- 内存/显存:至少 8GB(推荐 16GB)
- 显卡:RTX 3060 或 M1/M2/M3 Mac
- 32B / 70B 模型:
- 内存/显存:32B 需要约 24GB+,70B 需要 40GB+
- 显卡:双卡 RTX 3090/4090 或 Mac Studio (64GB+ Unified Memory)
最后更新:2025-12