Ollama 本地部署教程

Ollama 是目前最流行的本地大模型运行工具，它极大地简化了在个人电脑（Windows, macOS, Linux）上部署和运行 Llama 3, DeepSeek, Mistral 等开源模型的过程。

1. 什么是 Ollama

Ollama 是一个开源的大模型管理和推理工具，类似于 Docker 之于容器。

特点：
- 一键安装：无需配置复杂的 Python 环境、Cuda 驱动等。
- 模型库丰富：支持几乎所有主流开源模型。
- API 支持：默认提供兼容 OpenAI 格式的 API 接口，方便第三方软件调用。

2. 安装与配置

2.1 下载安装

访问官网 ollama.com 下载对应系统的安装包。

macOS / Windows：下载安装包直接双击安装。

Linux (一键脚本)：

curl -fsSL https://ollama.com/install.sh | sh

2.2 验证安装

打开终端（Terminal 或 PowerShell），输入：

ollama --version

如果显示版本号（如 ollama version 0.5.x），则安装成功。

3. 快速上手：下载并运行模型

Ollama 的核心命令是 run。如果模型不存在，它会自动下载；如果已存在，则直接运行。

3.1 运行 Llama 3

ollama run llama3

注：llama3 tag 通常指向最新的 8B 模型。

3.2 运行 DeepSeek

ollama run deepseek-r1:7b

3.3 常用命令速查

命令	说明	示例
`ollama pull <model>`	仅下载模型但不运行	`ollama pull mistral`
`ollama list`	列出本地已下载的模型
`ollama rm <model>`	删除本地模型	`ollama rm llama3`
`ollama ps`	查看当前正在运行的模型
`ollama serve`	启动 API 服务（通常后台自动运行）

4. API 调用

Ollama 默认在本地 11434 端口提供服务。任何支持 OpenAI 格式的客户端都可以连接。

4.1 基本调用配置

Base URL: http://localhost:11434/v1
API Key: ollama (或者任意字符串)
Model: 你本地下载的模型名称，如 llama3

4.2 Python 代码示例

from openai import OpenAI

client = OpenAI(
    base_url='http://localhost:11434/v1',
    api_key='ollama', # required, but unused
)

response = client.chat.completions.create(
    model="llama3",
    messages=[
        {"role": "system", "content": "You are a helpful assistant."},
        {"role": "user", "content": "Why is the sky blue?"},
    ]
)
print(response.choices[0].message.content)

5. 进阶：自定义模型 (Modelfile)

你可以像编写 Dockerfile 一样，编写 Modelfile 来定制模型的 Prompt、参数或系统角色。

步骤 1：创建 Modelfile 新建一个名为 Modelfile 的文件（无后缀），内容如下：

FROM llama3

# 设置系统提示词
SYSTEM "你是一个专业的 Python 编程助手，只回答代码相关的问题。"

# 调整参数
PARAMETER temperature 0.7

步骤 2：构建模型 在终端运行：

ollama create my-python-coder -f Modelfile

步骤 3：运行新模型

ollama run my-python-coder

6. 常见硬件要求参考

7B / 8B 模型：
- 内存/显存：至少 8GB（推荐 16GB）
- 显卡：RTX 3060 或 M1/M2/M3 Mac
32B / 70B 模型：
- 内存/显存：32B 需要约 24GB+，70B 需要 40GB+
- 显卡：双卡 RTX 3090/4090 或 Mac Studio (64GB+ Unified Memory)

最后更新：2025-12