想在自己的电脑上完全本地运行 DeepSeek AI,并且不依赖任何云端服务?这篇一步步教程会带你在 Windows、macOS 和 Linux 上完成 DeepSeek 的本地部署——无需云端、无需 API Key、无需订阅。

无论你是带 NVIDIA 显卡的高性能游戏主机,还是普通轻薄本,只要按文中的建议选择合适的模型,就能在本机跑起一个可用的 AI 助手。

为什么要本地运行 DeepSeek?

把 DeepSeek 跑在自己的机器上,相比直接用云端 API 或网页,有几个明显优势:

  • 隐私完全可控:所有数据都留在本机,适合处理敏感文档、公司代码、个人笔记与对话。
  • 零使用成本:没有按 Token 计费,也没有订阅费用。模型下载完成后,本地使用不限次数。
  • 可离线使用:首次下载需要联网,之后在飞机上、无网环境、甚至物理隔离环境都能使用。
  • 没有限流与配额:只要你的硬件扛得住,就可以无限次调用,不会被平台限速。
  • 完全可自定义:可以自由调整系统提示词、温度、上下文长度等参数,按自己的需求调教模型行为。

硬件要求与模型选择

DeepSeek 提供从 1.5B 到 671B 不同规模的模型:小模型几乎任何电脑都能跑,超大模型则需要多卡服务器。下面是按显存容量的快速推荐:

按 GPU 显存的快速推荐

  • 无独显或仅 4 GB 显存 → 选择 R1-Distill 1.5B(可纯 CPU 运行,基础质量)
  • 6–8 GB 显存(如 RTX 3060、RTX 4060)→ 选择 R1-Distill 7B 或 8B
  • 12–16 GB 显存(如 RTX 4070、RTX 4060 Ti 16GB)→ 选择 R1-Distill 14B
  • 24 GB 显存(如 RTX 3090、RTX 4090)→ 选择 R1-Distill 32B —— 综合体验的“甜点档”
  • 40–80 GB 显存(如 A100、H100)→ 选择 R1-Distill 70B 或量化后的 671B 全量模型

第 1 步:安装 Ollama

Ollama 下载页面

Ollama 是一个免费开源的本地大模型运行工具,可以帮你一键下载、优化并启动模型服务,可以把它理解为“本地大模型包管理器”。

在 Windows 上安装

  1. 打开浏览器访问:https://ollama.com/download
  2. 点击 “Download for Windows”
  3. 运行下载好的 .exe 安装程序
  4. 按安装向导一路下一步完成安装
  5. 安装完成后,打开 PowerShell命令提示符,输入:
ollama --version

如果看到类似 ollama version 0.6.x 的输出,说明安装成功。

在 macOS 上安装

  1. 访问:https://ollama.com/download
  2. 点击 “Download for macOS”
  3. 打开下载好的 .dmg 文件,将 Ollama 拖入「应用程序」文件夹
  4. 从「应用程序」中启动 Ollama,你会在菜单栏看到一只小羊驼图标
  5. 打开 终端(Terminal),输入:
ollama --version

Ollama 在 Apple Silicon(M1/M2/M3/M4)上表现很好,统一内存可同时作为显存使用。例如一台 32GB 内存的 MacBook Pro,就能比较舒适地运行 14B 模型。

在 Linux(Ubuntu/Debian)上安装

在 Linux 上,只需要一条命令:

curl -fsSL https://ollama.com/install.sh | sh

脚本会自动安装 Ollama,并配置为系统服务,开机自启。安装完成后可用以下命令验证:

ollama --version
systemctl status ollama

如果你有 NVIDIA 显卡,建议安装 CUDA 工具包以启用 GPU 加速:

sudo apt install nvidia-cuda-toolkit

第 2 步:下载 DeepSeek 模型

终端下载 DeepSeek R1 模型

接下来就是关键的一步:下载 DeepSeek 模型。借助 Ollama,只需要一条命令。

打开终端(Windows 用 PowerShell,macOS/Linux 用 Terminal),根据你的硬件选择对应命令。

大多数用户(8 GB 显存或 16 GB 内存)

ollama pull deepseek-r1:8b

这会下载 8B 参数的蒸馏模型(约 4.9 GB),在速度与效果之间有不错的平衡,适合日常使用。

进阶用户(24 GB 显存,如 RTX 4090)

ollama pull deepseek-r1:32b

32B 是单卡消费级显卡能舒适承载的高质量档位,推理与编程能力接近云端 API 体验。

极简硬件(4 GB 内存,无独显)

ollama pull deepseek-r1:1.5b

1.5B 模型体积约 1.1 GB,老旧笔记本也能跑,质量偏基础,但足够做简单问答与功能测试。

所有可用模型尺寸一览

# 超轻量(几乎任何硬件都能跑)
ollama pull deepseek-r1:1.5b

# 日常好用(6–8 GB 显存)
ollama pull deepseek-r1:7b
ollama pull deepseek-r1:8b

# 质量更好(12–16 GB 显存)
ollama pull deepseek-r1:14b

# 高质量体验(24 GB 显存)
ollama pull deepseek-r1:32b

# 接近云端 API 质量(40+ GB 显存)
ollama pull deepseek-r1:70b

# 全量超大模型(仅限多卡服务器)
ollama pull deepseek-r1:671b

下载时间取决于你的网速和模型大小,可能从几分钟到一小时不等,终端会显示进度条。

第 3 步:开始与 DeepSeek 对话

终端中 DeepSeek R1 链式思维推理示例

模型下载完成后,就可以直接开始聊天了。示例(以 8B 为例):

ollama run deepseek-r1:8b

(如果你下载的是其他尺寸,把 8b 换成对应的模型名即可。)

终端会出现一个交互提示符,你可以直接输入问题,例如:

>>> Write a Python function that checks if a number is prime


The user wants a function to check if a number is prime...
I need to handle edge cases like numbers less than 2...


def is_prime(n):
    if n < 2:
        return False
    for i in range(2, int(n**0.5) + 1):
        if n % i == 0:
            return False
    return True

你会看到输出中带有 `` 标签的“思考过程”,这是 DeepSeek R1 的链式思维推理能力,会先展示推理,再给出最终答案,对复杂任务尤其有帮助。

退出对话可以输入 /bye,或按 Ctrl + D

第 4 步:添加一个漂亮的网页界面(可选但推荐)

Open WebUI 本地 DeepSeek 的 ChatGPT 风格界面

虽然终端已经能用,但如果你更习惯 ChatGPT 那样的网页聊天界面,可以安装 Open WebUI。它是免费开源的本地 Web 前端,支持直接连接 Ollama。

方案 A:使用 Docker(推荐)

如果你已经安装了 Docker,可以用下面的命令一键启动:

docker run -d \
  --name open-webui \
  -p 3000:8080 \
  -v open-webui:/app/backend/data \
  --add-host=host.docker.internal:host-gateway \
  --restart always \
  ghcr.io/open-webui/open-webui:main

然后在浏览器中访问:http://localhost:3000

首次打开会让你创建一个本地账户(数据只保存在本机),登录后在模型下拉列表中选择你的 DeepSeek 模型,就可以像用 ChatGPT 一样开始聊天。

方案 B:使用 pip 安装(无需 Docker)

如果你没有 Docker,也可以直接用 Python 安装:

pip install open-webui
open-webui serve

然后在浏览器访问:http://localhost:8080

第 5 步:启用 GPU 加速(大幅提升速度)

如果你有 NVIDIA 显卡,Ollama 会自动尝试使用 GPU 进行推理,速度通常会比纯 CPU 快 5–10 倍。

验证方式如下:

# 启动一次对话
ollama run deepseek-r1:8b "Hello, how are you?"

# 在另一个终端窗口中查看 GPU 使用情况:
nvidia-smi

如果在 nvidia-smi 输出中看到 ollamaollama_runner 占用显存,说明 GPU 加速已生效。

若未使用 GPU,可按系统排查:

  • Windows:从 https://www.nvidia.com/drivers 安装或更新最新 NVIDIA 驱动。
  • Linux:确认已安装 CUDA 工具包:sudo apt install nvidia-cuda-toolkit
  • Mac(Apple Silicon):使用 Metal 自动加速,无需额外配置。

常用 Ollama 命令速览

一些管理 DeepSeek 模型时常用的 Ollama 命令示例:

  • 列出本地所有模型:
ollama list
  • 删除某个模型:
ollama rm deepseek-r1:8b
  • 直接在命令中提问(非交互模式):
ollama run deepseek-r1:8b "用简单的方式解释什么是机器学习"

进阶用法:通过本地 API 调用 DeepSeek

Ollama 默认在 http://localhost:11434 暴露 REST API,你可以把 DeepSeek 集成到自己的应用中。

使用 curl 的示例:

curl http://localhost:11434/api/chat -d '{
  "model": "deepseek-r1:8b",
  "messages": [
    {"role": "user", "content": "Explain quantum computing in simple terms"}
  ]
}'

Python 示例:

import ollama

response = ollama.chat(
    model='deepseek-r1:8b',
    messages=[
        {'role': 'user', 'content': 'Write a haiku about programming'}
    ]
)
print(response['message']['content'])

借助这个本地 API,你可以很方便地构建聊天机器人、代码助手、文档处理工具等,全部在本机完成推理,无需云端。

进阶用法:自定义模型配置(Modelfile)

如果你希望 DeepSeek 更贴合某一类任务(比如专注写代码),可以通过 Modelfile 自定义系统提示词和参数。

示例:创建一个偏向编程助手的自定义模型。

# 保存为 'Modelfile-deepseek-custom'
FROM deepseek-r1:14b

# 自定义系统提示词
SYSTEM """You are a helpful programming assistant. 
Always provide clear, well-commented code examples.
When explaining concepts, use simple language."""

# 调整参数
PARAMETER temperature 0.7
PARAMETER num_ctx 8192
PARAMETER top_p 0.9

然后创建并运行这个自定义模型:

ollama create my-deepseek-coder -f Modelfile-deepseek-custom
ollama run my-deepseek-coder

你可以为不同场景(写作、分析、编程等)分别创建不同配置的模型,切换使用更高效。

图形化替代方案:LM Studio

LM Studio:Ollama 的图形化替代方案

如果你不喜欢命令行,更偏好桌面应用,可以尝试 LM Studio。它提供一个可视化界面,用来浏览、下载和运行本地模型。

使用步骤:

  1. 前往 https://lmstudio.ai 下载 LM Studio(支持 Windows、macOS、Linux)。
  2. 安装并打开应用,在模型浏览器中搜索 “DeepSeek R1”。
  3. 根据你的硬件选择合适的 GGUF 量化版本(一般推荐 Q4_K_M)。
  4. 点击下载,完成后切换到「Chat」标签页即可开始对话。

LM Studio 也可以把本地模型以 OpenAI API 兼容的形式对外提供服务,方便你在现有应用中直接替换云端 API。

常见问题排查

报错 “Connection refused”

通常说明 Ollama 后台服务没有运行,可以按系统修复:

# Linux
sudo systemctl start ollama

# Windows — 从系统托盘图标中重启 Ollama
# macOS — 重新从「应用程序」中打开 Ollama

模型运行非常慢

可以从以下几个方向排查:

  • 检查是否在用 GPU:运行 nvidia-smi,如果看不到 Ollama 进程,说明没用上 GPU,更新或重装显卡驱动。
  • 尝试更小的模型:当模型尺寸超过显存容量时,Ollama 会把部分层放到 CPU 上,速度会明显下降。可以降一级模型尺寸。
  • 关闭占用 GPU 的其他程序:游戏、视频编辑软件等会抢占显存,建议在运行 DeepSeek 前先关闭。

报错 “Out of memory”

说明当前模型对你的硬件来说太大了,可以:

  • 换用更小的模型(例如从 32B 换成 14B)。
  • 关闭其他占用大量内存/显存的程序。
  • 如果使用量化模型,尝试更高压缩等级(如 Q4 替代 Q8)。

输出出现乱码或奇怪字符

多半是量化过于激进导致的质量下降。可以尝试:

  • 换用更大一点的模型。
  • 选择更高质量的量化版本(例如从 Q4 换成 Q8)。

如何选择合适的 DeepSeek 模型?

如果你仍然不确定该选哪个模型,可以使用站点提供的 DeepSeek Model Advisor 工具(交互式问答),根据你的用途和硬件给出推荐。

一般可以按以下经验选择:

  • 日常轻度使用(简单问答、基础写作)→ 7B 或 8B
  • 编程与推理(代码生成、数学、分析)→ 14B 或 32B
  • 追求极致质量(专业项目、复杂任务)→ RTX 4090 上用 32B,或 A100 上用 70B
  • 学习与测试 → 1.5B(几乎任何设备都能跑)

总结:快速上手清单

最后用一份清单帮你快速回顾:

  1. ✅ 根据系统下载并安装 Ollamahttps://ollama.com/download
  2. ✅ 打开终端,按硬件情况运行:ollama pull deepseek-r1:8b(或其他尺寸)
  3. ✅ 启动对话:ollama run deepseek-r1:8b
  4. ✅(可选)安装 Open WebUI,获得网页聊天界面
  5. ✅(可选)通过 nvidia-smi 确认是否启用 GPU 加速

完成以上步骤后,你就拥有了一个完全运行在本机上的强大 AI 助手:无需云端、无需付费、隐私自控。

如果在安装或使用过程中遇到问题,可以在原站点留言或通过联系页面寻求帮助。

如果你暂时不想安装任何东西,也可以直接使用站点提供的在线 DeepSeek 聊天页面,免注册即可体验。