DeepSeek 本地安装全指南：Windows、Mac 与 Linux 一次搞定

想在自己的电脑上完全本地运行 DeepSeek AI，并且不依赖任何云端服务？这篇一步步教程会带你在 Windows、macOS 和 Linux 上完成 DeepSeek 的本地部署——无需云端、无需 API Key、无需订阅。

无论你是带 NVIDIA 显卡的高性能游戏主机，还是普通轻薄本，只要按文中的建议选择合适的模型，就能在本机跑起一个可用的 AI 助手。

为什么要本地运行 DeepSeek？

把 DeepSeek 跑在自己的机器上，相比直接用云端 API 或网页，有几个明显优势：

隐私完全可控：所有数据都留在本机，适合处理敏感文档、公司代码、个人笔记与对话。
零使用成本：没有按 Token 计费，也没有订阅费用。模型下载完成后，本地使用不限次数。
可离线使用：首次下载需要联网，之后在飞机上、无网环境、甚至物理隔离环境都能使用。
没有限流与配额：只要你的硬件扛得住，就可以无限次调用，不会被平台限速。
完全可自定义：可以自由调整系统提示词、温度、上下文长度等参数，按自己的需求调教模型行为。

硬件要求与模型选择

DeepSeek 提供从 1.5B 到 671B 不同规模的模型：小模型几乎任何电脑都能跑，超大模型则需要多卡服务器。下面是按显存容量的快速推荐：

按 GPU 显存的快速推荐

无独显或仅 4 GB 显存 → 选择 R1-Distill 1.5B（可纯 CPU 运行，基础质量）
6–8 GB 显存（如 RTX 3060、RTX 4060）→ 选择 R1-Distill 7B 或 8B
12–16 GB 显存（如 RTX 4070、RTX 4060 Ti 16GB）→ 选择 R1-Distill 14B
24 GB 显存（如 RTX 3090、RTX 4090）→ 选择 R1-Distill 32B —— 综合体验的“甜点档”
40–80 GB 显存（如 A100、H100）→ 选择 R1-Distill 70B 或量化后的 671B 全量模型

第 1 步：安装 Ollama

Ollama 下载页面

Ollama 是一个免费开源的本地大模型运行工具，可以帮你一键下载、优化并启动模型服务，可以把它理解为“本地大模型包管理器”。

在 Windows 上安装

打开浏览器访问：https://ollama.com/download
点击 “Download for Windows”
运行下载好的 .exe 安装程序
按安装向导一路下一步完成安装
安装完成后，打开 PowerShell 或 命令提示符，输入：

ollama --version

如果看到类似 ollama version 0.6.x 的输出，说明安装成功。

在 macOS 上安装

访问：https://ollama.com/download
点击 “Download for macOS”
打开下载好的 .dmg 文件，将 Ollama 拖入「应用程序」文件夹
从「应用程序」中启动 Ollama，你会在菜单栏看到一只小羊驼图标
打开 终端（Terminal），输入：

ollama --version

Ollama 在 Apple Silicon（M1/M2/M3/M4）上表现很好，统一内存可同时作为显存使用。例如一台 32GB 内存的 MacBook Pro，就能比较舒适地运行 14B 模型。

在 Linux（Ubuntu/Debian）上安装

在 Linux 上，只需要一条命令：

curl -fsSL https://ollama.com/install.sh | sh

脚本会自动安装 Ollama，并配置为系统服务，开机自启。安装完成后可用以下命令验证：

ollama --version
systemctl status ollama

如果你有 NVIDIA 显卡，建议安装 CUDA 工具包以启用 GPU 加速：

sudo apt install nvidia-cuda-toolkit

第 2 步：下载 DeepSeek 模型

终端下载 DeepSeek R1 模型

接下来就是关键的一步：下载 DeepSeek 模型。借助 Ollama，只需要一条命令。

打开终端（Windows 用 PowerShell，macOS/Linux 用 Terminal），根据你的硬件选择对应命令。

大多数用户（8 GB 显存或 16 GB 内存）

ollama pull deepseek-r1:8b

这会下载 8B 参数的蒸馏模型（约 4.9 GB），在速度与效果之间有不错的平衡，适合日常使用。

进阶用户（24 GB 显存，如 RTX 4090）

ollama pull deepseek-r1:32b

32B 是单卡消费级显卡能舒适承载的高质量档位，推理与编程能力接近云端 API 体验。

极简硬件（4 GB 内存，无独显）

ollama pull deepseek-r1:1.5b

1.5B 模型体积约 1.1 GB，老旧笔记本也能跑，质量偏基础，但足够做简单问答与功能测试。

所有可用模型尺寸一览

# 超轻量（几乎任何硬件都能跑）
ollama pull deepseek-r1:1.5b

# 日常好用（6–8 GB 显存）
ollama pull deepseek-r1:7b
ollama pull deepseek-r1:8b

# 质量更好（12–16 GB 显存）
ollama pull deepseek-r1:14b

# 高质量体验（24 GB 显存）
ollama pull deepseek-r1:32b

# 接近云端 API 质量（40+ GB 显存）
ollama pull deepseek-r1:70b

# 全量超大模型（仅限多卡服务器）
ollama pull deepseek-r1:671b

下载时间取决于你的网速和模型大小，可能从几分钟到一小时不等，终端会显示进度条。

第 3 步：开始与 DeepSeek 对话

终端中 DeepSeek R1 链式思维推理示例

模型下载完成后，就可以直接开始聊天了。示例（以 8B 为例）：

ollama run deepseek-r1:8b

（如果你下载的是其他尺寸，把 8b 换成对应的模型名即可。）

终端会出现一个交互提示符，你可以直接输入问题，例如：

>>> Write a Python function that checks if a number is prime


The user wants a function to check if a number is prime...
I need to handle edge cases like numbers less than 2...


def is_prime(n):
    if n < 2:
        return False
    for i in range(2, int(n**0.5) + 1):
        if n % i == 0:
            return False
    return True

你会看到输出中带有 `` 标签的“思考过程”，这是 DeepSeek R1 的链式思维推理能力，会先展示推理，再给出最终答案，对复杂任务尤其有帮助。

退出对话可以输入 /bye，或按 Ctrl + D。

第 4 步：添加一个漂亮的网页界面（可选但推荐）

Open WebUI 本地 DeepSeek 的 ChatGPT 风格界面

虽然终端已经能用，但如果你更习惯 ChatGPT 那样的网页聊天界面，可以安装 Open WebUI。它是免费开源的本地 Web 前端，支持直接连接 Ollama。

方案 A：使用 Docker（推荐）

如果你已经安装了 Docker，可以用下面的命令一键启动：

docker run -d \
  --name open-webui \
  -p 3000:8080 \
  -v open-webui:/app/backend/data \
  --add-host=host.docker.internal:host-gateway \
  --restart always \
  ghcr.io/open-webui/open-webui:main

然后在浏览器中访问：http://localhost:3000

首次打开会让你创建一个本地账户（数据只保存在本机），登录后在模型下拉列表中选择你的 DeepSeek 模型，就可以像用 ChatGPT 一样开始聊天。

方案 B：使用 pip 安装（无需 Docker）

如果你没有 Docker，也可以直接用 Python 安装：

pip install open-webui
open-webui serve

然后在浏览器访问：http://localhost:8080

第 5 步：启用 GPU 加速（大幅提升速度）

如果你有 NVIDIA 显卡，Ollama 会自动尝试使用 GPU 进行推理，速度通常会比纯 CPU 快 5–10 倍。

验证方式如下：

# 启动一次对话
ollama run deepseek-r1:8b "Hello, how are you?"

# 在另一个终端窗口中查看 GPU 使用情况：
nvidia-smi

如果在 nvidia-smi 输出中看到 ollama 或 ollama_runner 占用显存，说明 GPU 加速已生效。

若未使用 GPU，可按系统排查：

Windows：从 https://www.nvidia.com/drivers 安装或更新最新 NVIDIA 驱动。
Linux：确认已安装 CUDA 工具包：sudo apt install nvidia-cuda-toolkit。
Mac（Apple Silicon）：使用 Metal 自动加速，无需额外配置。

常用 Ollama 命令速览

一些管理 DeepSeek 模型时常用的 Ollama 命令示例：

列出本地所有模型：

ollama list

删除某个模型：

ollama rm deepseek-r1:8b

直接在命令中提问（非交互模式）：

ollama run deepseek-r1:8b "用简单的方式解释什么是机器学习"

进阶用法：通过本地 API 调用 DeepSeek

Ollama 默认在 http://localhost:11434 暴露 REST API，你可以把 DeepSeek 集成到自己的应用中。

使用 curl 的示例：

curl http://localhost:11434/api/chat -d '{
  "model": "deepseek-r1:8b",
  "messages": [
    {"role": "user", "content": "Explain quantum computing in simple terms"}
  ]
}'

Python 示例：

import ollama

response = ollama.chat(
    model='deepseek-r1:8b',
    messages=[
        {'role': 'user', 'content': 'Write a haiku about programming'}
    ]
)
print(response['message']['content'])

借助这个本地 API，你可以很方便地构建聊天机器人、代码助手、文档处理工具等，全部在本机完成推理，无需云端。

进阶用法：自定义模型配置（Modelfile）

如果你希望 DeepSeek 更贴合某一类任务（比如专注写代码），可以通过 Modelfile 自定义系统提示词和参数。

示例：创建一个偏向编程助手的自定义模型。

# 保存为 'Modelfile-deepseek-custom'
FROM deepseek-r1:14b

# 自定义系统提示词
SYSTEM """You are a helpful programming assistant. 
Always provide clear, well-commented code examples.
When explaining concepts, use simple language."""

# 调整参数
PARAMETER temperature 0.7
PARAMETER num_ctx 8192
PARAMETER top_p 0.9

然后创建并运行这个自定义模型：

ollama create my-deepseek-coder -f Modelfile-deepseek-custom
ollama run my-deepseek-coder

你可以为不同场景（写作、分析、编程等）分别创建不同配置的模型，切换使用更高效。

图形化替代方案：LM Studio

LM Studio：Ollama 的图形化替代方案

如果你不喜欢命令行，更偏好桌面应用，可以尝试 LM Studio。它提供一个可视化界面，用来浏览、下载和运行本地模型。

使用步骤：

前往 https://lmstudio.ai 下载 LM Studio（支持 Windows、macOS、Linux）。
安装并打开应用，在模型浏览器中搜索 “DeepSeek R1”。
根据你的硬件选择合适的 GGUF 量化版本（一般推荐 Q4_K_M）。
点击下载，完成后切换到「Chat」标签页即可开始对话。

LM Studio 也可以把本地模型以 OpenAI API 兼容的形式对外提供服务，方便你在现有应用中直接替换云端 API。

常见问题排查

报错 “Connection refused”

通常说明 Ollama 后台服务没有运行，可以按系统修复：

# Linux
sudo systemctl start ollama

# Windows — 从系统托盘图标中重启 Ollama
# macOS — 重新从「应用程序」中打开 Ollama

模型运行非常慢

可以从以下几个方向排查：

检查是否在用 GPU：运行 nvidia-smi，如果看不到 Ollama 进程，说明没用上 GPU，更新或重装显卡驱动。
尝试更小的模型：当模型尺寸超过显存容量时，Ollama 会把部分层放到 CPU 上，速度会明显下降。可以降一级模型尺寸。
关闭占用 GPU 的其他程序：游戏、视频编辑软件等会抢占显存，建议在运行 DeepSeek 前先关闭。

报错 “Out of memory”

说明当前模型对你的硬件来说太大了，可以：

换用更小的模型（例如从 32B 换成 14B）。
关闭其他占用大量内存/显存的程序。
如果使用量化模型，尝试更高压缩等级（如 Q4 替代 Q8）。

输出出现乱码或奇怪字符

多半是量化过于激进导致的质量下降。可以尝试：

换用更大一点的模型。
选择更高质量的量化版本（例如从 Q4 换成 Q8）。

如何选择合适的 DeepSeek 模型？

如果你仍然不确定该选哪个模型，可以使用站点提供的 DeepSeek Model Advisor 工具（交互式问答），根据你的用途和硬件给出推荐。

一般可以按以下经验选择：

日常轻度使用（简单问答、基础写作）→ 7B 或 8B
编程与推理（代码生成、数学、分析）→ 14B 或 32B
追求极致质量（专业项目、复杂任务）→ RTX 4090 上用 32B，或 A100 上用 70B
学习与测试 → 1.5B（几乎任何设备都能跑）

总结：快速上手清单

最后用一份清单帮你快速回顾：

✅ 根据系统下载并安装 Ollama：https://ollama.com/download
✅ 打开终端，按硬件情况运行：ollama pull deepseek-r1:8b（或其他尺寸）
✅ 启动对话：ollama run deepseek-r1:8b
✅（可选）安装 Open WebUI，获得网页聊天界面
✅（可选）通过 nvidia-smi 确认是否启用 GPU 加速

完成以上步骤后，你就拥有了一个完全运行在本机上的强大 AI 助手：无需云端、无需付费、隐私自控。

如果在安装或使用过程中遇到问题，可以在原站点留言或通过联系页面寻求帮助。

如果你暂时不想安装任何东西，也可以直接使用站点提供的在线 DeepSeek 聊天页面，免注册即可体验。