DeepSeek 已经不再只是“2025 年初那款震惊市场的中文聊天机器人”。到 2026 年 4 月,它已经发展成一个节奏极快的模型家族与平台:从 2024 年 5 月的 DeepSeek‑V2,一路迭代到 2025 年 12 月的 DeepSeek‑V3.2,同时配套公开 API、移动端与网页应用、开源权重,以及比早期文章所描述更复杂的隐私与授权体系。
路透社将 DeepSeek 描述为一家 2023 年成立、总部位于杭州的初创公司,由梁文锋领导,他也是量化对冲基金高飞投资(High‑Flyer)的联合创始人之一。
截至 2026 年 4 月 5 日,官方公开的 DeepSeek API 文档 仍将 2025 年 12 月 1 日发布的 DeepSeek‑V3.2 标注为最新旗舰通用 API 模型。路透社在 2026 年 4 月 3 日报道称 V4 正在筹备发布,但那只是对“即将推出模型”的报道,在官方 API 新闻与更新日志中尚未体现。
这一区分很重要:许多早期关于 DeepSeek 的文章并非完全错误,但都停留在当时的时间点。它们往往写到 V3 和 R1 就戛然而止,或者把 deepseek-chat、deepseek-reasoner 这两个 API 别名当成“固定指向某个模型”的标签。如今,DeepSeek 自己的文档已经明确:这两个别名目前都映射到 DeepSeek‑V3.2,只是分别对应非思维模式与思维模式,而且 API 版本与 App/Web 版本并不完全一致。
核心结论速览
-
DeepSeek‑V2 实际发布时间是 2024 年 5 月 7 日,而不是“2024 年底”。 早期 chat-deep.ai 的科普文章把时间写错了,而 V2 论文与 Hugging Face 模型卡都明确标注为 2024 年 5 月。
-
V2.5 是第一次真正的整合节点。 它合并了 V2 聊天线与 Coder 线,成为一个既能聊天又能写代码的统一模型;后续的 V2.5‑1210 又强化了数学、编程、文件上传与网页总结能力。
-
V3 与 R1 很重要,但远不是终点。 在它们之后,DeepSeek 又陆续发布了 V3‑0324、R1‑0528、V3.1、V3.1‑Terminus、V3.2‑Exp 与 V3.2,产品重心也逐步从“单一大模型”转向“具备工具与 Agent 能力的平台”。
-
在当前 API 中,
deepseek-chat与deepseek-reasoner都指向 DeepSeek‑V3.2。 前者是非思维模式,后者是思维模式,官方标注的上下文长度上限为 128K。 -
DeepSeek 全家桶并非统一许可证。 早期的 V2/V2.5/V3 使用单独的模型许可条款,而 R1、V3.1、V3.2 则在仓库与权重层面都采用 MIT 许可。
-
隐私是首要问题,而不是脚注。 现行隐私政策写明:个人数据会在中华人民共和国境内收集、处理与存储。路透社与各国监管机构也记录了其在韩国、澳大利亚、台湾、意大利等地遭遇的审查与限制。
从一手资料重建的模型时间线
DeepSeek‑V2 与 V2‑0517:效率转向的起点
第一个对今天仍然重要的里程碑是 2024 年 5 月 7 日发布的 DeepSeek‑V2。论文与官方模型卡将其描述为一个 236B 总参数、每 token 激活 21B 参数、支持 128K 上下文的 Mixture‑of‑Experts(MoE)模型。
更关键的是,V2 引入了 Multi‑head Latent Attention(MLA)与 DeepSeekMoE 组合,用来降低 KV Cache 成本、提升推理效率。论文声称,相比旧的 67B 系列,V2 将 KV Cache 占用减少了 93.3%,最大生成吞吐提升 5.76 倍。
2024 年 5 月 17 日,API 别名 deepseek-chat 切换到 DeepSeek‑V2‑0517。官方更新日志称,这次升级显著提升了指令跟随与 JSON 输出能力。这一点常被早期解读忽略:V2 不只是研究成果,也是 DeepSeek 进入“可用 API 产品时代”的起点。
V2.5 与 V2.5‑1210:从“聊天/代码分线”到“一体化通用模型”
2024 年 9 月 5 日,DeepSeek 正式发布 DeepSeek‑V2.5。官方说明称,V2.5 将 DeepSeek‑V2‑0628 与 DeepSeek‑Coder‑V2‑0724 合并,在保留通用聊天能力的同时,继承更强的编程表现,并通过 deepseek-chat 与 deepseek-coder 两个端点保持向后兼容。
这意味着 V2.5 不只是小幅升级,而是 DeepSeek 第一次明确推出“既能聊天又能写代码”的通用模型。
2024 年 12 月 10 日,deepseek-chat 再次迁移到 DeepSeek‑V2.5‑1210。更新日志强调了数学与编程能力的提升,以及文件上传、网页总结体验的打磨。这些细节解释了为什么后来的 App 与 Web 产品会如此强调文档处理与搜索工作流。
V3 与 R1:先扩规模,再强化推理
2024 年 12 月 26 日,deepseek-chat 升级到 DeepSeek‑V3。官方说明与模型卡将 V3 描述为一个 671B 参数的 MoE 模型,每 token 激活 37B 参数,训练数据量约 14.8T token,同时保持 API 使用方式不变。
换句话说,V3 更像是在原有产品表面之下,换上了更大的“底座”,而不是推出全新产品形态。
不到一个月后的 2025 年 1 月 20 日,DeepSeek 通过 deepseek-reasoner 别名引入 DeepSeek‑R1。R1 被定位为“推理优先”模型。Hugging Face 模型卡显示,DeepSeek 开源了 R1‑Zero、R1 以及六个蒸馏版本,并以 MIT 许可发布仓库与权重,明确允许商业使用与蒸馏。
从这一刻起,DeepSeek 的产品线清晰分成两支:一支是通用聊天(V 系列),一支是推理优先(R 系列)。
V3‑0324、R1‑0528、V3.1、Terminus、V3.2‑Exp 与 V3.2:向 Agent 与工具时代转向
从 2025 年 3 月开始,DeepSeek 的更新重心逐渐从“模型规模”转向“工具调用、Agent 与思维模式”。
-
2025 年 3 月 24 日:V3‑0324
deepseek-chat迁移到 DeepSeek‑V3‑0324。更新日志强调:推理能力增强、前端代码生成更强、中文写作更好、函数调用更准确。发布说明还指出,V3‑0324 的权重改为 MIT 许可,使其在授权上更接近 R1,而不是最初的 V3。 -
2025 年 5 月 28 日:R1‑0528
deepseek-reasoner迁移到 DeepSeek‑R1‑0528。官方称其提升了基准测试表现、降低幻觉率,并强化 JSON 输出与函数调用支持。推理不再只是“算题与链式思考”,而是更偏向结构化输出与工具驱动的工作流。 -
2025 年 8 月 21 日:V3.1
DeepSeek 将 V3.1 描述为“迈向 Agent 时代的第一步”。更新日志称其引入了混合推理架构:同一个模型同时支持思维模式与非思维模式。这正是当前 API 设计的思想源头。 -
2025 年 9 月 22 日:V3.1‑Terminus
随后发布的 V3.1‑Terminus 进一步改善语言一致性,并强化 Code Agent 与 Search Agent 行为。 -
2025 年 9 月 29 日:V3.2‑Exp
V3.2‑Exp 引入 DeepSeek Sparse Attention(DSA),以更快、更省成本地处理长上下文。 -
2025 年 12 月 1 日:V3.2 正式版
DeepSeek‑V3.2 成为 V3.2‑Exp 的正式继任者。官方称,这是其首个“将思维模式直接整合进工具使用”的模型。
截至本次梳理时,公开 API 文档中尚未出现比 V3.2 更新的旗舰通用模型,尽管路透社在 2026 年 4 月 3 日报道了“V4 可能在数周内发布”。需要强调的是:媒体预告与传闻不等于“已正式上线的 API 模型”。
精确时间线一览
根据官方更新日志与发布说明,可以整理出如下关键节点:
- 2024 年 5 月 7 日: 发布 DeepSeek‑V2 论文与模型卡。
- 2024 年 5 月 17 日:
deepseek-chat升级为 DeepSeek‑V2‑0517。 - 2024 年 9 月 5 日: 发布 DeepSeek‑V2.5,
deepseek-chat与deepseek-coder成为向后兼容入口。 - 2024 年 12 月 10 日: 发布 DeepSeek‑V2.5‑1210。
- 2024 年 12 月 26 日:
deepseek-chat升级为 DeepSeek‑V3。 - 2025 年 1 月 20 日:
deepseek-reasoner以 DeepSeek‑R1 形式上线。 - 2025 年 3 月 24 日:
deepseek-chat升级为 DeepSeek‑V3‑0324。 - 2025 年 5 月 28 日:
deepseek-reasoner升级为 DeepSeek‑R1‑0528。 - 2025 年 8 月 21 日: 两个别名同时迁移到 DeepSeek‑V3.1。
- 2025 年 9 月 22 日: 两个别名迁移到 DeepSeek‑V3.1‑Terminus。
- 2025 年 9 月 29 日: 两个别名迁移到 DeepSeek‑V3.2‑Exp。
- 2025 年 12 月 1 日: 两个别名迁移到 DeepSeek‑V3.2。
当前 API 状态:别名、思维模式与上下文
DeepSeek 目前的 API 文档对“别名映射到哪个具体模型”写得相当清楚。
- OpenAI 兼容 API 入口为
https://api.deepseek.com。 - 文档说明:
deepseek-chat与deepseek-reasoner当前都对应 DeepSeek‑V3.2,其中:deepseek-chat:非思维模式;deepseek-reasoner:思维模式。
- 定价页面标注:上下文长度上限为 128K,两种模式都支持工具调用与 JSON 输出。
思维模式可以通过两种方式开启:
- 直接将
model设为deepseek-reasoner; - 在
deepseek-chat下启用文档中描述的thinking参数。
官方思维模式指南还说明:推理文本会通过 reasoning_content 字段暴露,并且同一套思维模式已经支持工具调用。这与早期“推理 = 单独模型行为”的说法不同,如今推理更像是“工具工作流中的一部分能力层”。
开发者在实现时还需注意两点:

/chat/completions被官方明确为无状态接口,多轮对话需要自行在每次请求中携带历史消息;- 思维模式指南指出:在一次使用工具的推理轮次中,
reasoning_content必须被正确处理,并在用户下一轮提问前清理,否则可能触发 400 错误。
官方接入方式:Web、App 与 API
目前 DeepSeek 提供三种官方接入路径:网页端、移动 App 与 API。
- 官方 App 公告称,应用已在 App Store 与 Google Play 以及主流安卓应用市场上线,支持邮箱、Google 与 Apple ID 登录,并提供跨平台历史同步、网页搜索、Deep‑Think、文件上传与文本抽取等功能。
- 官方网页聊天入口则被定位为面向编程、内容创作、文件阅读与长文档处理的助手。
需要特别注意的是“接入风险”而非仅仅“接入方式”:
- App 公告提醒用户只从官方渠道下载;
- API 文档则单独强调:API 的模型映射与 App/Web 版本并不完全一致。
因此,任何把“DeepSeek”当成一个在 Web、移动端、托管 API 与本地权重之间完全一致的统一体验的说法,都是过度简化。
开源权重、代码与授权差异
DeepSeek 的授权历史是整个生态中最容易被误解的一部分。
-
在 Hugging Face 上,诸如 DeepSeek‑V2.5‑1210 与 DeepSeek‑V3 的仓库通常写明:代码仓库采用 MIT 许可,但模型使用受单独的 Model License 约束,同时仍支持商业用途。
实际上,这意味着早期 DeepSeek 模型在“开放程度”上已经足够高,但并非全部都是“代码 + 权重都 MIT”的纯粹开源形态。 -
相比之下,R1、V3.1 与 V3.2 的仓库则明确:仓库与模型权重均采用 MIT 许可。
R1 模型卡更进一步,明确支持商业使用与衍生作品(包括蒸馏),同时指出部分蒸馏版本会继承上游 Qwen 或 Llama 的许可义务。
因此,更准确的简短描述是:
- DeepSeek 的新一代模型(R1、V3.1、V3.2)在授权上非常宽松,接近“全 MIT”;
- 但整个家族并没有统一许可证:V2/V3 更适合被称为“自定义许可的开放权重模型”,而 R1/V3.1/V3.2 则是更干净的 MIT 开源版本。
现实场景中的优势与限制
从官方发布说明与更新日志来看,DeepSeek 在实际使用中最突出的四个方向是:
- 编程与代码生成;
- 指令跟随与写作;
- App 级别的网页搜索与文件处理;
- 以 Agent 为中心的工具工作流。
V2.5、R1‑0528、V3.1、V3.1‑Terminus 与 V3.2 的更新说明反复强调:代码质量、搜索能力、结构化输出、Agent 任务与工具调用,这些都构成了 DeepSeek 的“产品性格”。
与此同时,官方也坦承了一些限制:
- R1‑0528 的更新日志写明“降低幻觉率”,这本身就意味着幻觉问题在此前仍然明显;
- 同一日志指出,复杂推理任务可能比早期 R1 消耗更多 token;
- 虽然支持 JSON 输出与函数调用,但这些能力主要改善工作流结构,并不能自动把模型变成“绝对可靠的信息源”。
隐私:用户真正需要知道什么
DeepSeek 现行隐私政策将个人数据来源分为三大类:
- 用户直接提供的信息;
- 设备与网络活动自动收集的信息;
- 来自其他来源的信息,例如 Apple/Google 登录服务与公开在线信息。
政策明确写到,这些数据可能包括:
- 用户输入的提示词与对话内容;
- 上传的文件与聊天记录;
- 设备标识符、基于 IP 的地理位置;
- 其他服务日志等。
同一份政策还说明:DeepSeek 会将这些数据用于运营与改进服务,包括训练与优化其技术;并可能与服务提供商、搜索服务集成方、分析服务方、安全监测方以及集团内部实体共享,用于存储、研发与基础模型训练优化等目的。政策也明确指出:个人数据会在中华人民共和国境内收集、处理与存储。
在数据保留方面,DeepSeek 并未宣称“默认零保留”。相反,政策写明:保留期限取决于使用目的与法律要求,例如账号、输入内容与支付数据会在提供服务所需的整个期间内被保留。
对普通用户与组织而言,一个务实的结论是:
不要在没有额外合同或技术保障的前提下,把 DeepSeek 当成“零数据风险环境”。
这一点也被外部监管行动所印证:
- 韩国数据保护机构指出,DeepSeek 在初期进入韩国市场时,未经许可传输用户信息与提示词;
- 澳大利亚禁止在政府设备上使用 DeepSeek,理由是安全风险;
- 台湾禁止政府部门使用 DeepSeek;
- 意大利隐私监管机构在评估后认为 DeepSeek 对隐私问题的回应不足,因此阻止其 App 上线。
这些行动并不意味着 DeepSeek“对所有人都不可用”,但确实让“隐私与数据管辖权”成为任何部署决策中必须正面评估的因素。
与竞品的平衡对比
从 2026 年的视角看,DeepSeek 的优势并不是“在所有维度上都是最强”,而是它在几个关键点上形成了组合优势:
- 提供 OpenAI 兼容的 API;
- 同时支持思维模式与非思维模式;
- 在推理流程中明确支持工具调用;
- 新一代开源权重(R1、V3.1、V3.2)采用 MIT 许可,便于本地部署与二次开发。
对需要构建 Agent、编程助手或围绕公开权重搭建本地系统的团队而言,这种组合非常有吸引力。
反过来看,反对意见也同样具体:
- 公共模型别名会随时间迁移,
deepseek-chat今天与明天可能指向不同版本; - API 与 App/Web 的模型映射并不一致;
- 不同代际模型的授权条款差异明显;
- 隐私与数据驻留问题远比“开源模型”这类标签所暗示的复杂。
与其他厂商相比,DeepSeek 在“开放性、工具使用与集成灵活性”上更具优势,而在“治理、数据驻留与企业合规简洁度”上则相对弱一些。这是基于官方文档与路透社报道的综合判断,而非营销口号。
旧文章还能信吗?
对于 DeepSeek,旧文章更适合作为“历史快照”,而不是“当前选型指南”。
以 chat-deep.ai 的早期科普为例:
- 它将 DeepSeek‑V2 的发布时间写成“2024 年底”,而官方论文与模型卡都表明是 2024 年 5 月;
- 这不仅是一个日期错误,还会整体错位后续时间线,让后来的版本看起来“更新得多”。
很多旧文还停留在 V3 与 R1,完全没有提到 V3‑0324、R1‑0528、V3.1、V3.1‑Terminus、V3.2‑Exp 与 V3.2;也很少解释 deepseek-chat 与 deepseek-reasoner 现在只是 V3.2 的两种模式别名,而不是指向旧一代模型的固定标签。
在 DeepSeek 这种“别名即产品入口”的体系下,这种遗漏会直接影响用户对当前能力的判断。
一个简单的自检规则是:
如果一篇 DeepSeek 介绍文没有告诉你:
- 今天
deepseek-chat与deepseek-reasoner分别映射到什么;- 思维模式是如何工作的;
- 不同代际模型的授权差异;
那么它就不再适合作为“当前选型参考”,最多只能当作背景资料。
结语:2026 年看 DeepSeek,应该看什么
到 2026 年 4 月,DeepSeek 早已不是“做出 V3 和 R1 的那家公司”这么简单:
- 它是一个持续演进的平台,当前公开 API 的核心是 DeepSeek‑V3.2;
- 新一代模型比很多人印象中更偏向 Agent 与工具工作流,而不仅是“大模型本身”;
- 授权历史并不统一,需要按代际区分;
- 隐私与数据驻留问题在企业与敏感场景中必须被严肃对待。
如果想获得关于 DeepSeek 的“当前图景”,你需要同时查看:
- 最新的发布说明与更新日志;
- 当前 API 文档与模型映射;
- Hugging Face 模型仓库与授权条款;
- 官方隐私政策与各国监管反馈。
而不是只依赖一篇停留在 2025 年初的科普文章。


