DeepSeek 模型大全：V3.2、R1、Coder、OCR 等全系对比指南

Chat-Deep.ai 的 DeepSeek 模型中心，是一个独立整理的 DeepSeek 模型全景指南，覆盖从旗舰 DeepSeek-V3.2 到专用模型家族，如 R1（推理）、Coder（编程）、OCR（视觉文本）等。

我们汇总官方公开信息，帮助你：

快速对比各模型能力
按场景选择合适的 DeepSeek 模型
理解 API 模型别名与模型家族名称之间的对应关系
一键跳转到官方文档与开源权重进行核实

**免责声明：**Chat-Deep.ai 是独立的 DeepSeek 资料站点，与 DeepSeek Inc. 无官方隶属关系。本页仅聚焦官方模型信息、文档与对比链接。站内其他页面还提供浏览器聊天体验以及官方 DeepSeek 资源入口。

如需使用 DeepSeek 官方聊天与 API，请访问 deepseek.com。我们的目标是让你能轻松在 DeepSeek 的模型版图中导航，为聊天、编程、推理、OCR 或多模态任务选到合适的模型，并能快速查到对应的官方一手资料。

快速模型选择器

（常见需求下，应该选哪个 DeepSeek 模型）

大多数 API 应用的默认选择： DeepSeek-V3.2（Chat 模式）
128K 上下文的默认聊天模型，在速度、成本与准确度之间取得平衡，是官方定位的“日常主力”模型。DeepSeek 在内部基准中将其描述为在多个领域接近前沿闭源模型的水平。
更难的推理任务： DeepSeek-V3.2（Thinking 模式）
启用 DeepSeek 的“DeepThink”链式推理能力。通过 deepseek-reasoner 端点调用，适合复杂多步问题（如数学证明、长链条问答），会消耗更多推理 token，以换取更高的推理准确率。
当前旗舰模型： DeepSeek-V3.2（MoE）
DeepSeek 目前的旗舰大模型，广泛用于官方应用与 API，也是开源仓库中重点发布的版本。支持 Chat 与 Reasoning 双模式、128K 上下文，在官方资料中被定位为覆盖广泛任务的高性能通用模型。无论是 API 使用还是本地开源探索，V3.2 都是当前的核心参考点。
最佳 OCR / 文档抽取： DeepSeek OCR（3B）
面向图像 / PDF 文档的视觉语言模型，专门用于文本与结构抽取。它将高分辨率页面压缩为少量“视觉 token”，再解码出文本、版式、表格与图示结构，在官方基准中表现突出。适合文档理解场景，可通过开源权重本地或私有化部署，目前尚未作为独立模型出现在公开 API 列表中。
经典代码模型家族： DeepSeek Coder
从 1B 到 33B 参数的开源代码模型，针对编程任务优化。基于 2 万亿 token（其中 87% 为代码）训练，支持 16K 上下文，在发布时在多项代码基准上达到开源 SOTA。后续的 DeepSeek-Coder-V2 采用 MoE 架构，是这一家族的升级延续。适合代码生成、补全与调试辅助。
早期多模态家族： DeepSeek-VL
约 1.3B 与 7B 的早期视觉语言模型，可理解图像并执行基础 OCR。能解析图表、网页截图、公式和含文字的自然图像。主要作为研究模型存在（不在生产 API 中），适合多模态实验；当前公开 API 仍以纯文本模型为主。

当前官方 API 模型

（截至 2026 年，DeepSeek API 主要提供两个模型端点，均运行最新的 V3.2，只是模式不同。下表概括其规格与适用场景。）

API 模型 ID	底层模型	模式	上下文长度	默认最大输出	最大可能输出	JSON 输出	工具调用	FIM（中间补全）	最适合场景	官方来源
`deepseek-chat`	DeepSeek-V3.2	非思考（标准）	128K	4K tokens	8K tokens	✓ 支持	✓ 支持	✓ 支持	通用对话、日常任务（快速响应）
`deepseek-reasoner`	DeepSeek-V3.2	思考模式（DeepThink）	128K	32K tokens	64K tokens	✓ 支持	✓ 支持	✗ 不支持	高难推理、长答案（深度链式推理）

**说明：**两者底层都是同一个 128K 上下文的 DeepSeek-V3.2，区别在于是否启用“思考模式”。deepseek-reasoner 会生成详细的中间推理步骤（消耗更多 token），而 deepseek-chat 则偏向直接给出简洁答案。FIM 风格补全仅在标准聊天模式中支持。两者都支持结构化 JSON 输出与外部工具调用（函数调用），适合构建智能体应用。官方按 token 计费，但由于推理模式会生成更多 token，复杂任务的实际费用会更高。

API 别名 vs 模型家族名称

DeepSeek 的 API 使用简短的模型别名（如 deepseek-chat、deepseek-reasoner），开发者在调用 API 时只需使用这些别名。它们对应某一代底层模型（如 V3.2），但即使底层从 V3.1 升级到 V3.2，别名本身通常保持不变。

Chat 与 Reasoner 的关系：
当前两个别名本质上是同一模型的不同“模式”。deepseek-chat 运行在普通指令模式，deepseek-reasoner 则启用 DeepThink 链式推理模式。最初 deepseek-reasoner 是为 DeepSeek-R1 推理模型引入的别名，如今则指向 V3.2 的推理模式。对开发者而言，只要继续调用 deepseek-reasoner，就能获得“思考 / CoT”风格的回答，而无需关心底层版本更迭。
模型家族名称：
“DeepSeek-V3.2”“DeepSeek-R1”“DeepSeek-Coder”等名称指的是模型家族或研究版本，常出现在论文、GitHub 与 Hugging Face 上，用来区分架构与代际（如 V3 系列代表第三代大模型，R 代表推理系列等）。本地下载模型权重时，会按这些名称选择（例如 Hugging Face 上的 deepseek-ai/DeepSeek-V3.2）。但在官方 API 中，应始终使用别名（如 deepseek-chat）。

**总结：**API 别名是稳定的端点名称，模型家族名则描述具体的 AI 模型版本。本页在对比能力时主要使用模型家族名，但在实际调用时请以官方 API 别名为准。

DeepSeek 主要模型家族

DeepSeek 已经发布了多个重点模型家族，每个家族都有不同的侧重。下面按家族介绍其定位与官方资料入口。

DeepSeek V3 系列（V3 / V3.1 / V3.2）

V3 系列是 DeepSeek 的旗舰大语言模型家族，首发于 2024 年底。采用 MoE（Mixture-of-Experts）架构，总参数约 671B，每个 token 激活约 37B，有 128K 上下文长度，适合长文档与多轮对话。V3 模型在约 14.8 万亿高质量 token 上训练，并以 MIT 许可开源权重。

重要性：
相比 V2 系列，V3 在推理与工具调用能力上有明显跃升。从 V3.1 开始，将“思考模式”和“非思考模式”统一到同一模型中。当前的顶级模型 DeepSeek-V3.2（2025 年 12 月发布）是官方应用与 API 的主力，被官方定位为“前沿级通用模型”，并通过开源缩小开源与闭源之间的差距。
官方资料：
可查阅官方的 V3 介绍报告了解架构细节，以及 V3.2 发布说明了解最新改进。模型与技术报告可在 GitHub 与 Hugging Face 获取，例如 DeepSeek-V3.2 on Hugging Face。

DeepSeek-R1 推理系列

DeepSeek-R1 是 DeepSeek 第一代“推理优先”大模型，于 2025 年 1 月开源发布，面向逻辑推理、数学与代码任务。R1 采用强化学习驱动的训练方案，重点培养深度链式思考能力，是后续 DeepThink 模式的前身。R1 支持 128K 上下文，并同时发布了 R1-Zero（纯 RL 原型）与多款 R1-Distill 蒸馏模型（8B–70B 稠密模型），便于更广泛部署。

重要性：
R1 被官方定位为可与主流闭源系统竞争的开源推理模型，在复杂数学与代码基准上表现突出。它首次让用户可以显式切换“推理模式”，获得透明的逐步解题过程。这一思路后来被整合进 V3.2 的推理模式中。R1 以 MIT 许可开源权重与代码，推动了高端推理能力的开源化与二次开发。
官方资料：
可阅读 DeepSeek-R1 发布说明与技术报告，了解训练方法与评测结果。R1 及其蒸馏版本均在 Hugging Face 提供，GitHub 仓库则包含本地部署说明与研究细节。

DeepSeek Coder 系列

DeepSeek Coder 家族专注于编程与代码生成。第一代 Coder 于 2023 年底发布，参数规模从 1.3B 到 33B 不等，基于 2 万亿 token（以代码为主）从零训练，在 HumanEval、MBPP 等代码基准上取得当时开源 SOTA。支持 16K 上下文，并引入“填空式”代码插入能力，在开源代码 LLM 中较为领先。

2025 年底，DeepSeek 又发布了 DeepSeek-Coder-V2，采用 MoE 架构，分为：

Lite：16B 总参数，2.4B 激活
Full：236B 总参数，21B 激活

两者均支持 128K 上下文。Coder-V2 在 V2 基础上又额外预训练了 6 万亿 token，将支持语言从 86 种扩展到 338 种，在官方评测中展现出更强的代码与数学能力。

重要性：
Coder 家族为开发者提供了可自托管的专业代码模型，适合集成到 IDE、代码分析工具等场景。V1 在 2023 年开源代码模型中处于领先地位，V2 进一步提升了性能并保持开源。128K 上下文让模型可以一次性分析大型代码库或长文件，对工程实践非常有用。对于代码密集型项目（如调试、生成复杂代码），Coder 系列通常优于通用模型。
官方资料：
可在 GitHub 的 Coder-V2 README 中查看详细基准与支持语言列表。Hugging Face 上的 Coder-33B 模型卡则介绍了第一代模型的训练与能力。所有 Coder 模型（V1 与 V2）均可在 deepseek-ai 组织下找到，包括 base 与 instruct 版本。

DeepSeek OCR（文档视觉）

DeepSeek OCR 是一款约 3B 参数的视觉语言模型，专门用于 OCR 与复杂文档理解，发布于 2025 年末前后。其采用两阶段 Transformer 架构：

视觉编码器：结合 windowed SAM 与 CLIP-Large，将输入页面压缩为约 256–400 个“视觉 token”；
语言解码器：MoE 结构，约 570M 激活参数，从视觉 token 生成结构化文本输出。

核心思想是“上下文光学压缩”：将 1024×1024 像素页面压缩为约 256 个 token，同时尽量保留文本与版式信息，从而高效处理长文档。

重要性：
DeepSeek OCR 将视觉与语言在文档场景中紧密结合，不仅能输出纯文本，还能生成 HTML 表格、图表的 Markdown、公式的 LaTeX/SMILES、图形坐标等，尽量还原原始文档结构。在官方资料中，它被展示为高性能的文档理解模型。更重要的是，DeepSeek OCR 以 MIT 许可开源权重，企业可在本地部署，避免将敏感文档上传到第三方服务，且支持多语言文档。
官方资料：
可查阅 DeepSeek OCR 专题站点与论文《DeepSeek-OCR 2: Visual Causal Flow》，了解架构与性能。Hugging Face 上的 deepseek-ai/DeepSeek-OCR 与 DeepSeek-OCR-2 提供模型权重与示例。

DeepSeek-VL 视觉语言家族

DeepSeek-VL 是 DeepSeek 早期的多模态探索成果，可同时处理图像与文本。该家族于 2024 年初开源，包含约 1.3B 与 7B 两个规模，每个规模都有 base 与 chat（指令微调）版本。

DeepSeek-VL 能够：

理解图像并回答相关问题
读取图像中的文字（基础 OCR）
解析逻辑图表、网页截图、公式等

文本上下文为 4096 token，外加独立的图像编码器。

重要性：
DeepSeek-VL 展示了 DeepSeek 在“真实世界视觉-语言理解”上的路线。虽然模型规模不大，但适合多模态实验，如图像描述、图表问答等。其使用 DeepSeek 自有模型许可，商用前需仔细阅读授权条款。随着 V3.x 仍以文本为主，DeepSeek-VL 逐渐成为“遗留 / 实验性”多模态方案，后续研究已转向 DeepSeek-VL2 与 Janus 等新一代多模态模型。当前这些 VL 模型不在官方 API 中，需要本地或通过 Hugging Face Spaces 运行。
官方资料：
可查看 DeepSeek-VL GitHub 仓库及论文《DeepSeek-VL: Towards Real-World Vision-Language Understanding》，了解架构与示例。模型权重如 deepseek-ai/DeepSeek-VL-7B-chat 已在 Hugging Face 提供下载。

DeepSeek Math 系列

DeepSeek Math 是一款 7B 参数（含多个变体）的数学专用模型，于 2024 年初发布，旨在推动开源数学推理的上限。它基于 DeepSeek-Coder 7B 初始化，再在 500B 数学相关 token（包括网络数学内容、证明、代码解题等）上持续预训练，擅长逐步解题与定理证明。

主要变体包括：

Math-Base-7B：基础模型
Math-Instruct-7B：面向通用数学问答的指令微调版
Math-RL-7B：在此基础上通过强化学习进一步提升准确率
重要性：
DeepSeek Math 证明了“小而专”的模型在特定领域可以超越通用大模型。对研究者与教育场景而言，它是一个开源工具，可用于生成解题步骤或校验高难度题目。虽然 V3.2 也具备数学能力，但在复杂数学任务且资源有限（如单卡 GPU）时，专门的 DeepSeek Math 往往更合适。
官方资料：
可阅读 GitHub 文档《DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models》，了解训练与评测细节。Hugging Face 上提供了 DeepSeek-Math-Base-7B、DeepSeek-Math-Instruct-7B、DeepSeek-Math-RL-7B 等模型卡与使用示例。

（此外，DeepSeek 还开源了若干早期与领域模型，如 DeepSeek-LLM 67B 等，但对大多数用户而言，上述家族已覆盖主要需求。）

按使用场景选择最佳模型

如果你还不确定该用哪个 DeepSeek 模型，可以按下面的场景推荐来选：

日常聊天与通用问答：
选 DeepSeek-V3.2 的 Chat 模式，即 API 中的 deepseek-chat。这是 DeepSeek 网页聊天的默认模型，在官方资料中被定位为高性能通用模型。除非有非常专门的需求（如极端推理或重度编程），一般都可以用它解决。
复杂推理与问题求解：
对于需要多步逻辑推理、复杂数学题或长链条分析的问题，建议使用推理模式 deepseek-reasoner，或在应用中打开“DeepThink / 思考模式”。模型会先进行链式思考，再给出结论，通常能显著提升复杂任务的准确率。代价是生成更多 token、速度略慢、成本更高。
编程与代码生成：
编程相关任务（写代码、补全、调试、解释代码等）优先使用 DeepSeek-Coder 系列。第一代 DeepSeek-Coder-33B 在 2023 年开源代码模型中表现突出，后续 DeepSeek-Coder-V2 在官方评测中进一步提升。当前主要通过开源权重而非公共 API 提供。普通用户也可以直接向 V3.2 提问代码问题，其表现已能满足多数场景，但在冷门语言、复杂重构或插入式补全等任务上，专用 Coder 模型更有优势。
OCR / 文档抽取：
对于 PDF、扫描件、表单、票据等文档的文本与结构抽取，首选 DeepSeek OCR。它是专门为文档视觉设计的 3B 模型，能直接输出结构化结果（文本、表格、坐标等），在效率与准确度上都优于让通用模型“间接”做 OCR。由于采用 MIT 许可，企业可在本地部署，满足隐私与合规要求。
多模态（图像 + 文本）任务：
如果需要模型同时接收图像与文本（如“这张图里是什么？”“帮我看这张图表”），目前需要使用 DeepSeek-VL 或相关多模态研究模型。主流 V3.2 API 仍是纯文本接口。DeepSeek-VL 7B/1.3B 可在 Hugging Face Spaces 体验或本地部署，适合实验性多模态任务，但能力与 GPT-4V 等大型闭源模型仍有差距。生产级视觉任务可考虑组合方案：用 DeepSeek OCR 做文本抽取，再配合其他视觉模型做识别。
自托管 / 开源权重探索：
DeepSeek 的一大特点是大量模型提供开源权重。如果你有 GPU 资源，可以在本地或私有云部署：
- 旗舰 V3.2 需要多卡高端 GPU，推理时激活约 37B 参数，显存需求接近 40B 稠密模型；
- 也可以选择更小的蒸馏或 Lite 版本，如 R1-Distill 32B/7B、Coder-V2-Lite 16B 等，更适合单机部署。
部署时建议遵循官方提供的加载与推理代码（如 V3.2-Exp 的 TileLang / 稀疏注意力优化），并严格检查每个模型的授权条款。
旧模型与基准对比：
如果你在做研究或复现论文，可能需要使用早期模型，如 DeepSeek-V2 或 V2.5 系列（如 DeepSeek-V2.5）。这些模型已基本被 V3 系列替代，但仍适合作为对比基线或资源受限部署。R1-Zero 等纯 RL 原型也常用于研究强化学习方法。实际应用中，如无特殊原因，建议优先使用最新一代模型。

DeepSeek 重要版本时间线

日期（YYYY-MM-DD）	发布 / 事件	关键意义
2024-11-20	DeepSeek-R1-Lite 预览	首次公开展示 DeepSeek 链式推理（DeepThink），以小型预览模型形式验证推理能力，为后续 R1 正式版铺路。
2024-12-10	DeepSeek-V2.5-1210（Grand Finale）	V2 系列最终更新，完整开源 V2.5，宣告第二代 LLM 收官，为 V3 系列登场做准备。
2025-01-20	DeepSeek-R1 正式发布	首个开源推理大模型，数学与代码基准表现强劲，权重与代码以 MIT 许可开放，成为开源推理里程碑。
2024-12-26	DeepSeek-V3（MoE）发布	第三代架构首发（671B MoE，128K 上下文），在推理与工具使用上大幅超越 V2，并以 MIT 许可开源，成为非思考模式的基础模型。
2025-05-28	DeepSeek-R1-0528 更新	R1 推理模型升级版，降低幻觉率，新增 JSON 输出与函数调用支持，开源权重发布，用作 DeepThink 后端直至 V3.1 上线。
2025-08-21	DeepSeek-V3.1 发布	首个统一 Chat+Reasoning 的模型，一体两模（思考 / 非思考），将 R1 能力整合进 V3 系列，推理速度优于 R1-0528，并提升多步工具调用能力，开源权重同步发布。
2025-09-29	DeepSeek-V3.2-Exp（实验版）	基于 V3.1-Terminus 的效率预览版，引入 DeepSeek Sparse Attention，在长上下文场景中显著提升效率且质量损失有限，当天即开源。
2025-12-01	DeepSeek-V3.2 与 V3.2-Speciale	正式发布旗舰 V3.2 及 Speciale 变体。V3.2 成为应用与 API 默认模型，强调“以推理为先”的提示设计；V3.2-Speciale 则作为研究向的极限推理版本，通过限时 API 端点开放评测，两者权重均在 Hugging Face 开源。

（为简洁起见，上表省略了一些小版本与平台更新。完整变更记录可在 DeepSeek 官方文档的更新日志中查看。）

模型家族详细指南导航

如果你想深入了解某个具体模型或家族，可以参考 Chat-Deep.ai 上的专题指南（均附官方引用）：

当前与过渡版本：
- DeepSeek V3.2 指南：最新旗舰模型 V3.2 的模式与性能概览（2025）
- DeepSeek V3.2-Exp 指南：长上下文效率实验版 V3.2-Exp 解析（2025）
- DeepSeek V3.1 指南：首个统一推理模型 V3.1 的改进点（2025）
- DeepSeek V3（Base）指南：MoE 架构与初代 V3 发布介绍（2024 年底）
专用模型家族：
- DeepSeek R1 指南：R1 与 R1-Zero 推理模型及其 RL 训练细节
- DeepSeek Coder 指南：从 Coder-33B 到 Coder-V2 的代码模型全览与部署建议
- DeepSeek OCR 指南：3B 文档 OCR 模型的使用方式、输出格式与精度
- DeepSeek VL 指南：视觉语言模型的多模态能力、示例与局限
- DeepSeek Math 指南：数学专用模型的表现、示例题与微调方法
旧版本背景：
- DeepSeek V2 & V2.5 指南：2023–24 年第二代模型的架构、变体与与 V3 的对比
- 什么是 DeepSeek？总览：关于 DeepSeek 公司、聊天应用与模型演进的背景介绍

（以上指南均托管在独立站点 Chat-Deep.ai 上，并引用官方 DeepSeek 资料，适合作为实现细节、性能对比与使用技巧的参考。）

常见问题（FAQ）

Chat-Deep.ai 是 DeepSeek 官方网站或与 DeepSeek Inc. 有关联吗？

不是。Chat-Deep.ai 是独立的第三方信息站点，与 DeepSeek Inc. 无官方隶属或合作关系。我们不运营 DeepSeek 模型，只是整理公开信息，帮助用户更好地理解与使用 DeepSeek 的产品与模型。官方服务请直接访问 deepseek.com 或其官方应用 / API 平台。

我们所有内容均基于官方公开资料与发布信息，并尽量以清晰、对比的方式呈现。重要信息请始终以官方链接为准，本网站仅作为第三方参考。

DeepSeek 中的“DeepThink”模式是什么意思？

“DeepThink” 是 DeepSeek 的推理模式名称，用于在给出最终答案前进行更充分的多步思考。在实践中：

在 API 中使用 deepseek-reasoner；
在 DeepSeek Chat 中打开“Think / 思考”按钮。

启用后，模型会先进行链式推理，再输出更审慎的答案，适合逻辑、数学、多步推理等复杂问题。该概念最早随 R1 推理模型提出，之后整合进 V3.1+，目前 V3.2 的 Reasoner 模式本质上就是 DeepThink。deepseek-chat 则是普通模式，不显式输出推理过程。

哪个 DeepSeek 模型最适合编程与代码生成？

DeepSeek-Coder 系列是专门为代码任务打造的模型家族。最新一代是 DeepSeek-Coder-V2（16B 与 236B MoE 版本），在官方基准中表现优异，支持 128K 上下文与多语言编程。若你能部署或访问 Coder-V2，建议优先用于：

函数编写与补全
复杂调试与重构
多语言代码理解与迁移

如果暂时无法使用 Coder，V3.2 作为通用模型也具备不错的代码能力，在多数常见编程问题上表现可接受。但在冷门语言或极复杂代码任务上，专用 Coder 模型仍有明显优势。

我可以在自己的硬件上运行 DeepSeek 模型吗？

可以。DeepSeek 已开源多款模型权重，你可以在本地或私有环境中部署，前提是硬件资源足够：

小型模型（如 7B、16B、部分蒸馏版）可在单卡或少量 GPU 上运行；
大型模型（如 V3.2、Coder 236B）通常需要多卡或分布式推理。

DeepSeek 在 Hugging Face 与 GitHub 上提供权重与推理代码，有些模型（如 V3.2-Exp）还提供了针对稀疏注意力的优化实现。加载时可能需要 trust_remote_code=True，因为部分模型包含自定义层。部署前务必阅读每个模型的授权条款，确认是否允许你的使用场景（尤其是商用）。

DeepSeek 是否支持图像输入或多模态能力？

目前主流的 V3.2 API 仅支持文本输入，不直接接收任意图像。但 DeepSeek 提供了独立的多模态与 OCR 模型：

文档场景：使用 DeepSeek OCR 做端到端文档理解；
一般图像 + 文本：使用 DeepSeek-VL（7B/1.3B）或后续研究模型（如 DeepSeek-VL2、Janus）。

这些多模态模型目前主要通过开源权重与演示提供，而非统一在 V3.2 API 中。你也可以将第三方视觉 API（OCR、检测等）与 DeepSeek 文本模型组合使用。

DeepSeek-V3.2-Speciale 与 DeepSeek-V3.2-Exp 有什么区别？

它们都是 V3.2 的特殊变体：

DeepSeek-V3.2-Exp（Experimental）：
2025 年 9 月发布的实验版，基于 V3.1-Terminus，引入稀疏注意力以提升长上下文效率。官方在发布时还下调了 API 价格，将其视为 V3.2 的“效率预览版”，并在发布当天开源。许多优化后来被吸收到正式版 V3.2 中。
DeepSeek-V3.2-Speciale：
2025 年 12 月随 V3.2 一同发布的“高强度推理版”，在相同架构规模下，通过训练与提示策略进一步强化极限推理能力。Speciale 通过限时 API 端点开放评测，不支持工具调用，但权重已在 Hugging Face 开源。可以理解为“V3.2 的极致推理特别版”。

对大多数用户而言，直接使用主线 V3.2 即可；Exp 与 Speciale 更适合研究与特定评测场景。

DeepSeek 的 token 价格如何计算？缓存命中会如何计费？

DeepSeek 的 API 采用按 token 计费的模式，并引入 KV 缓存机制。具体价格与缓存策略以官方定价文档为准，这里只做简要说明：

费用与输入 / 输出 token 数量成正比；
对近期重复的上下文，缓存命中时通常只收取约 10% 的价格；
推理模式本身没有单独定价，但由于会生成更多中间推理 token，总费用会相应增加。

DeepSeek 的目标是在 128K 长上下文场景下仍保持相对可负担的成本。价格与策略可能随时间调整，请以官方定价页面与 API 公告为准。

Chat-Deep.ai 是独立的 DeepSeek 资料导航站点。我们尽量只基于官方文档、发布说明与开源仓库中的一手信息撰写内容，并在文中通过链接标注来源。由于 DeepSeek 更新频率很高，建议在关键决策前再次核对官方链接。如发现错误或过时内容，欢迎反馈，我们会尽快核查与修正。

本页主要参考来源：DeepSeek API 文档、DeepSeek 官方 GitHub、Hugging Face 上的 DeepSeek 模型卡以及其他官方公开沟通渠道。