Chat-Deep.ai 的 DeepSeek 模型中心,是一个独立整理的 DeepSeek 模型全景指南,覆盖从旗舰 DeepSeek-V3.2 到专用模型家族,如 R1(推理)、Coder(编程)、OCR(视觉文本)等。

我们汇总官方公开信息,帮助你:

  • 快速对比各模型能力
  • 按场景选择合适的 DeepSeek 模型
  • 理解 API 模型别名与模型家族名称之间的对应关系
  • 一键跳转到官方文档与开源权重进行核实

**免责声明:**Chat-Deep.ai 是独立的 DeepSeek 资料站点,与 DeepSeek Inc. 无官方隶属关系。本页仅聚焦官方模型信息、文档与对比链接。站内其他页面还提供浏览器聊天体验以及官方 DeepSeek 资源入口。

如需使用 DeepSeek 官方聊天与 API,请访问 deepseek.com。我们的目标是让你能轻松在 DeepSeek 的模型版图中导航,为聊天、编程、推理、OCR 或多模态任务选到合适的模型,并能快速查到对应的官方一手资料。


快速模型选择器

(常见需求下,应该选哪个 DeepSeek 模型)

  • 大多数 API 应用的默认选择: DeepSeek-V3.2(Chat 模式)
    128K 上下文的默认聊天模型,在速度、成本与准确度之间取得平衡,是官方定位的“日常主力”模型。DeepSeek 在内部基准中将其描述为在多个领域接近前沿闭源模型的水平。

  • 更难的推理任务: DeepSeek-V3.2(Thinking 模式)
    启用 DeepSeek 的“DeepThink”链式推理能力。通过 deepseek-reasoner 端点调用,适合复杂多步问题(如数学证明、长链条问答),会消耗更多推理 token,以换取更高的推理准确率。

  • 当前旗舰模型: DeepSeek-V3.2(MoE)
    DeepSeek 目前的旗舰大模型,广泛用于官方应用与 API,也是开源仓库中重点发布的版本。支持 Chat 与 Reasoning 双模式、128K 上下文,在官方资料中被定位为覆盖广泛任务的高性能通用模型。无论是 API 使用还是本地开源探索,V3.2 都是当前的核心参考点。

  • 最佳 OCR / 文档抽取: DeepSeek OCR(3B)
    面向图像 / PDF 文档的视觉语言模型,专门用于文本与结构抽取。它将高分辨率页面压缩为少量“视觉 token”,再解码出文本、版式、表格与图示结构,在官方基准中表现突出。适合文档理解场景,可通过开源权重本地或私有化部署,目前尚未作为独立模型出现在公开 API 列表中。

  • 经典代码模型家族: DeepSeek Coder
    从 1B 到 33B 参数的开源代码模型,针对编程任务优化。基于 2 万亿 token(其中 87% 为代码)训练,支持 16K 上下文,在发布时在多项代码基准上达到开源 SOTA。后续的 DeepSeek-Coder-V2 采用 MoE 架构,是这一家族的升级延续。适合代码生成、补全与调试辅助。

  • 早期多模态家族: DeepSeek-VL
    约 1.3B 与 7B 的早期视觉语言模型,可理解图像并执行基础 OCR。能解析图表、网页截图、公式和含文字的自然图像。主要作为研究模型存在(不在生产 API 中),适合多模态实验;当前公开 API 仍以纯文本模型为主。


当前官方 API 模型

(截至 2026 年,DeepSeek API 主要提供两个模型端点,均运行最新的 V3.2,只是模式不同。下表概括其规格与适用场景。)

API 模型 ID 底层模型 模式 上下文长度 默认最大输出 最大可能输出 JSON 输出 工具调用 FIM(中间补全) 最适合场景 官方来源
deepseek-chat DeepSeek-V3.2 非思考(标准) 128K 4K tokens 8K tokens ✓ 支持 ✓ 支持 ✓ 支持 通用对话、日常任务(快速响应)
deepseek-reasoner DeepSeek-V3.2 思考模式(DeepThink) 128K 32K tokens 64K tokens ✓ 支持 ✓ 支持 ✗ 不支持 高难推理、长答案(深度链式推理)

**说明:**两者底层都是同一个 128K 上下文的 DeepSeek-V3.2,区别在于是否启用“思考模式”。deepseek-reasoner 会生成详细的中间推理步骤(消耗更多 token),而 deepseek-chat 则偏向直接给出简洁答案。FIM 风格补全仅在标准聊天模式中支持。两者都支持结构化 JSON 输出与外部工具调用(函数调用),适合构建智能体应用。官方按 token 计费,但由于推理模式会生成更多 token,复杂任务的实际费用会更高。


API 别名 vs 模型家族名称

DeepSeek 的 API 使用简短的模型别名(如 deepseek-chatdeepseek-reasoner),开发者在调用 API 时只需使用这些别名。它们对应某一代底层模型(如 V3.2),但即使底层从 V3.1 升级到 V3.2,别名本身通常保持不变。

  • Chat 与 Reasoner 的关系:
    当前两个别名本质上是同一模型的不同“模式”。deepseek-chat 运行在普通指令模式,deepseek-reasoner 则启用 DeepThink 链式推理模式。最初 deepseek-reasoner 是为 DeepSeek-R1 推理模型引入的别名,如今则指向 V3.2 的推理模式。对开发者而言,只要继续调用 deepseek-reasoner,就能获得“思考 / CoT”风格的回答,而无需关心底层版本更迭。

  • 模型家族名称:
    “DeepSeek-V3.2”“DeepSeek-R1”“DeepSeek-Coder”等名称指的是模型家族或研究版本,常出现在论文、GitHub 与 Hugging Face 上,用来区分架构与代际(如 V3 系列代表第三代大模型,R 代表推理系列等)。本地下载模型权重时,会按这些名称选择(例如 Hugging Face 上的 deepseek-ai/DeepSeek-V3.2)。但在官方 API 中,应始终使用别名(如 deepseek-chat)。

**总结:**API 别名是稳定的端点名称,模型家族名则描述具体的 AI 模型版本。本页在对比能力时主要使用模型家族名,但在实际调用时请以官方 API 别名为准。


DeepSeek 主要模型家族

DeepSeek 已经发布了多个重点模型家族,每个家族都有不同的侧重。下面按家族介绍其定位与官方资料入口。

DeepSeek V3 系列(V3 / V3.1 / V3.2)

V3 系列 是 DeepSeek 的旗舰大语言模型家族,首发于 2024 年底。采用 MoE(Mixture-of-Experts)架构,总参数约 671B,每个 token 激活约 37B,有 128K 上下文长度,适合长文档与多轮对话。V3 模型在约 14.8 万亿高质量 token 上训练,并以 MIT 许可开源权重。

  • 重要性:
    相比 V2 系列,V3 在推理与工具调用能力上有明显跃升。从 V3.1 开始,将“思考模式”和“非思考模式”统一到同一模型中。当前的顶级模型 DeepSeek-V3.2(2025 年 12 月发布)是官方应用与 API 的主力,被官方定位为“前沿级通用模型”,并通过开源缩小开源与闭源之间的差距。

  • 官方资料:
    可查阅官方的 V3 介绍报告了解架构细节,以及 V3.2 发布说明了解最新改进。模型与技术报告可在 GitHub 与 Hugging Face 获取,例如 DeepSeek-V3.2 on Hugging Face

DeepSeek-R1 推理系列

DeepSeek-R1 是 DeepSeek 第一代“推理优先”大模型,于 2025 年 1 月开源发布,面向逻辑推理、数学与代码任务。R1 采用强化学习驱动的训练方案,重点培养深度链式思考能力,是后续 DeepThink 模式的前身。R1 支持 128K 上下文,并同时发布了 R1-Zero(纯 RL 原型)与多款 R1-Distill 蒸馏模型(8B–70B 稠密模型),便于更广泛部署。

  • 重要性:
    R1 被官方定位为可与主流闭源系统竞争的开源推理模型,在复杂数学与代码基准上表现突出。它首次让用户可以显式切换“推理模式”,获得透明的逐步解题过程。这一思路后来被整合进 V3.2 的推理模式中。R1 以 MIT 许可开源权重与代码,推动了高端推理能力的开源化与二次开发。

  • 官方资料:
    可阅读 DeepSeek-R1 发布说明与技术报告,了解训练方法与评测结果。R1 及其蒸馏版本均在 Hugging Face 提供,GitHub 仓库则包含本地部署说明与研究细节。

DeepSeek Coder 系列

DeepSeek Coder 家族专注于编程与代码生成。第一代 Coder 于 2023 年底发布,参数规模从 1.3B 到 33B 不等,基于 2 万亿 token(以代码为主)从零训练,在 HumanEval、MBPP 等代码基准上取得当时开源 SOTA。支持 16K 上下文,并引入“填空式”代码插入能力,在开源代码 LLM 中较为领先。

2025 年底,DeepSeek 又发布了 DeepSeek-Coder-V2,采用 MoE 架构,分为:

  • Lite:16B 总参数,2.4B 激活
  • Full:236B 总参数,21B 激活

两者均支持 128K 上下文。Coder-V2 在 V2 基础上又额外预训练了 6 万亿 token,将支持语言从 86 种扩展到 338 种,在官方评测中展现出更强的代码与数学能力。

  • 重要性:
    Coder 家族为开发者提供了可自托管的专业代码模型,适合集成到 IDE、代码分析工具等场景。V1 在 2023 年开源代码模型中处于领先地位,V2 进一步提升了性能并保持开源。128K 上下文让模型可以一次性分析大型代码库或长文件,对工程实践非常有用。对于代码密集型项目(如调试、生成复杂代码),Coder 系列通常优于通用模型。

  • 官方资料:
    可在 GitHub 的 Coder-V2 README 中查看详细基准与支持语言列表。Hugging Face 上的 Coder-33B 模型卡则介绍了第一代模型的训练与能力。所有 Coder 模型(V1 与 V2)均可在 deepseek-ai 组织下找到,包括 base 与 instruct 版本。

DeepSeek OCR(文档视觉)

DeepSeek OCR 是一款约 3B 参数的视觉语言模型,专门用于 OCR 与复杂文档理解,发布于 2025 年末前后。其采用两阶段 Transformer 架构:

  • 视觉编码器:结合 windowed SAM 与 CLIP-Large,将输入页面压缩为约 256–400 个“视觉 token”;
  • 语言解码器:MoE 结构,约 570M 激活参数,从视觉 token 生成结构化文本输出。

核心思想是“上下文光学压缩”:将 1024×1024 像素页面压缩为约 256 个 token,同时尽量保留文本与版式信息,从而高效处理长文档。

  • 重要性:
    DeepSeek OCR 将视觉与语言在文档场景中紧密结合,不仅能输出纯文本,还能生成 HTML 表格、图表的 Markdown、公式的 LaTeX/SMILES、图形坐标等,尽量还原原始文档结构。在官方资料中,它被展示为高性能的文档理解模型。更重要的是,DeepSeek OCR 以 MIT 许可开源权重,企业可在本地部署,避免将敏感文档上传到第三方服务,且支持多语言文档。

  • 官方资料:
    可查阅 DeepSeek OCR 专题站点与论文《DeepSeek-OCR 2: Visual Causal Flow》,了解架构与性能。Hugging Face 上的 deepseek-ai/DeepSeek-OCRDeepSeek-OCR-2 提供模型权重与示例。

DeepSeek-VL 视觉语言家族

DeepSeek-VL 是 DeepSeek 早期的多模态探索成果,可同时处理图像与文本。该家族于 2024 年初开源,包含约 1.3B 与 7B 两个规模,每个规模都有 base 与 chat(指令微调)版本。

DeepSeek-VL 能够:

  • 理解图像并回答相关问题
  • 读取图像中的文字(基础 OCR)
  • 解析逻辑图表、网页截图、公式等

文本上下文为 4096 token,外加独立的图像编码器。

  • 重要性:
    DeepSeek-VL 展示了 DeepSeek 在“真实世界视觉-语言理解”上的路线。虽然模型规模不大,但适合多模态实验,如图像描述、图表问答等。其使用 DeepSeek 自有模型许可,商用前需仔细阅读授权条款。随着 V3.x 仍以文本为主,DeepSeek-VL 逐渐成为“遗留 / 实验性”多模态方案,后续研究已转向 DeepSeek-VL2Janus 等新一代多模态模型。当前这些 VL 模型不在官方 API 中,需要本地或通过 Hugging Face Spaces 运行。

  • 官方资料:
    可查看 DeepSeek-VL GitHub 仓库及论文《DeepSeek-VL: Towards Real-World Vision-Language Understanding》,了解架构与示例。模型权重如 deepseek-ai/DeepSeek-VL-7B-chat 已在 Hugging Face 提供下载。

DeepSeek Math 系列

DeepSeek Math 是一款 7B 参数(含多个变体)的数学专用模型,于 2024 年初发布,旨在推动开源数学推理的上限。它基于 DeepSeek-Coder 7B 初始化,再在 500B 数学相关 token(包括网络数学内容、证明、代码解题等)上持续预训练,擅长逐步解题与定理证明。

主要变体包括:

  • Math-Base-7B:基础模型

  • Math-Instruct-7B:面向通用数学问答的指令微调版

  • Math-RL-7B:在此基础上通过强化学习进一步提升准确率

  • 重要性:
    DeepSeek Math 证明了“小而专”的模型在特定领域可以超越通用大模型。对研究者与教育场景而言,它是一个开源工具,可用于生成解题步骤或校验高难度题目。虽然 V3.2 也具备数学能力,但在复杂数学任务且资源有限(如单卡 GPU)时,专门的 DeepSeek Math 往往更合适。

  • 官方资料:
    可阅读 GitHub 文档《DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models》,了解训练与评测细节。Hugging Face 上提供了 DeepSeek-Math-Base-7BDeepSeek-Math-Instruct-7BDeepSeek-Math-RL-7B 等模型卡与使用示例。

(此外,DeepSeek 还开源了若干早期与领域模型,如 DeepSeek-LLM 67B 等,但对大多数用户而言,上述家族已覆盖主要需求。)


按使用场景选择最佳模型

如果你还不确定该用哪个 DeepSeek 模型,可以按下面的场景推荐来选:

  • 日常聊天与通用问答:
    选 DeepSeek-V3.2 的 Chat 模式,即 API 中的 deepseek-chat。这是 DeepSeek 网页聊天的默认模型,在官方资料中被定位为高性能通用模型。除非有非常专门的需求(如极端推理或重度编程),一般都可以用它解决。

  • 复杂推理与问题求解:
    对于需要多步逻辑推理、复杂数学题或长链条分析的问题,建议使用推理模式 deepseek-reasoner,或在应用中打开“DeepThink / 思考模式”。模型会先进行链式思考,再给出结论,通常能显著提升复杂任务的准确率。代价是生成更多 token、速度略慢、成本更高。

  • 编程与代码生成:
    编程相关任务(写代码、补全、调试、解释代码等)优先使用 DeepSeek-Coder 系列。第一代 DeepSeek-Coder-33B 在 2023 年开源代码模型中表现突出,后续 DeepSeek-Coder-V2 在官方评测中进一步提升。当前主要通过开源权重而非公共 API 提供。普通用户也可以直接向 V3.2 提问代码问题,其表现已能满足多数场景,但在冷门语言、复杂重构或插入式补全等任务上,专用 Coder 模型更有优势。

  • OCR / 文档抽取:
    对于 PDF、扫描件、表单、票据等文档的文本与结构抽取,首选 DeepSeek OCR。它是专门为文档视觉设计的 3B 模型,能直接输出结构化结果(文本、表格、坐标等),在效率与准确度上都优于让通用模型“间接”做 OCR。由于采用 MIT 许可,企业可在本地部署,满足隐私与合规要求。

  • 多模态(图像 + 文本)任务:
    如果需要模型同时接收图像与文本(如“这张图里是什么?”“帮我看这张图表”),目前需要使用 DeepSeek-VL 或相关多模态研究模型。主流 V3.2 API 仍是纯文本接口。DeepSeek-VL 7B/1.3B 可在 Hugging Face Spaces 体验或本地部署,适合实验性多模态任务,但能力与 GPT-4V 等大型闭源模型仍有差距。生产级视觉任务可考虑组合方案:用 DeepSeek OCR 做文本抽取,再配合其他视觉模型做识别。

  • 自托管 / 开源权重探索:
    DeepSeek 的一大特点是大量模型提供开源权重。如果你有 GPU 资源,可以在本地或私有云部署:

    • 旗舰 V3.2 需要多卡高端 GPU,推理时激活约 37B 参数,显存需求接近 40B 稠密模型;
    • 也可以选择更小的蒸馏或 Lite 版本,如 R1-Distill 32B/7B、Coder-V2-Lite 16B 等,更适合单机部署。

    部署时建议遵循官方提供的加载与推理代码(如 V3.2-Exp 的 TileLang / 稀疏注意力优化),并严格检查每个模型的授权条款。

  • 旧模型与基准对比:
    如果你在做研究或复现论文,可能需要使用早期模型,如 DeepSeek-V2 或 V2.5 系列(如 DeepSeek-V2.5)。这些模型已基本被 V3 系列替代,但仍适合作为对比基线或资源受限部署。R1-Zero 等纯 RL 原型也常用于研究强化学习方法。实际应用中,如无特殊原因,建议优先使用最新一代模型。


DeepSeek 重要版本时间线

日期(YYYY-MM-DD) 发布 / 事件 关键意义 官方来源
2024-11-20 DeepSeek-R1-Lite 预览 首次公开展示 DeepSeek 链式推理(DeepThink),以小型预览模型形式验证推理能力,为后续 R1 正式版铺路。
2024-12-10 DeepSeek-V2.5-1210(Grand Finale) V2 系列最终更新,完整开源 V2.5,宣告第二代 LLM 收官,为 V3 系列登场做准备。
2025-01-20 DeepSeek-R1 正式发布 首个开源推理大模型,数学与代码基准表现强劲,权重与代码以 MIT 许可开放,成为开源推理里程碑。
2024-12-26 DeepSeek-V3(MoE)发布 第三代架构首发(671B MoE,128K 上下文),在推理与工具使用上大幅超越 V2,并以 MIT 许可开源,成为非思考模式的基础模型。
2025-05-28 DeepSeek-R1-0528 更新 R1 推理模型升级版,降低幻觉率,新增 JSON 输出与函数调用支持,开源权重发布,用作 DeepThink 后端直至 V3.1 上线。
2025-08-21 DeepSeek-V3.1 发布 首个统一 Chat+Reasoning 的模型,一体两模(思考 / 非思考),将 R1 能力整合进 V3 系列,推理速度优于 R1-0528,并提升多步工具调用能力,开源权重同步发布。
2025-09-29 DeepSeek-V3.2-Exp(实验版) 基于 V3.1-Terminus 的效率预览版,引入 DeepSeek Sparse Attention,在长上下文场景中显著提升效率且质量损失有限,当天即开源。
2025-12-01 DeepSeek-V3.2 与 V3.2-Speciale 正式发布旗舰 V3.2 及 Speciale 变体。V3.2 成为应用与 API 默认模型,强调“以推理为先”的提示设计;V3.2-Speciale 则作为研究向的极限推理版本,通过限时 API 端点开放评测,两者权重均在 Hugging Face 开源。

(为简洁起见,上表省略了一些小版本与平台更新。完整变更记录可在 DeepSeek 官方文档的更新日志中查看。)


模型家族详细指南导航

如果你想深入了解某个具体模型或家族,可以参考 Chat-Deep.ai 上的专题指南(均附官方引用):

(以上指南均托管在独立站点 Chat-Deep.ai 上,并引用官方 DeepSeek 资料,适合作为实现细节、性能对比与使用技巧的参考。)


常见问题(FAQ)

Chat-Deep.ai 是 DeepSeek 官方网站或与 DeepSeek Inc. 有关联吗?

不是。Chat-Deep.ai 是独立的第三方信息站点,与 DeepSeek Inc. 无官方隶属或合作关系。我们不运营 DeepSeek 模型,只是整理公开信息,帮助用户更好地理解与使用 DeepSeek 的产品与模型。官方服务请直接访问 deepseek.com 或其官方应用 / API 平台。

我们所有内容均基于官方公开资料与发布信息,并尽量以清晰、对比的方式呈现。重要信息请始终以官方链接为准,本网站仅作为第三方参考。

DeepSeek 中的“DeepThink”模式是什么意思?

DeepThink” 是 DeepSeek 的推理模式名称,用于在给出最终答案前进行更充分的多步思考。在实践中:

  • 在 API 中使用 deepseek-reasoner
  • 在 DeepSeek Chat 中打开“Think / 思考”按钮。

启用后,模型会先进行链式推理,再输出更审慎的答案,适合逻辑、数学、多步推理等复杂问题。该概念最早随 R1 推理模型提出,之后整合进 V3.1+,目前 V3.2 的 Reasoner 模式本质上就是 DeepThink。deepseek-chat 则是普通模式,不显式输出推理过程。

哪个 DeepSeek 模型最适合编程与代码生成?

DeepSeek-Coder 系列是专门为代码任务打造的模型家族。最新一代是 DeepSeek-Coder-V2(16B 与 236B MoE 版本),在官方基准中表现优异,支持 128K 上下文与多语言编程。若你能部署或访问 Coder-V2,建议优先用于:

  • 函数编写与补全
  • 复杂调试与重构
  • 多语言代码理解与迁移

如果暂时无法使用 Coder,V3.2 作为通用模型也具备不错的代码能力,在多数常见编程问题上表现可接受。但在冷门语言或极复杂代码任务上,专用 Coder 模型仍有明显优势。

我可以在自己的硬件上运行 DeepSeek 模型吗?

可以。DeepSeek 已开源多款模型权重,你可以在本地或私有环境中部署,前提是硬件资源足够:

  • 小型模型(如 7B、16B、部分蒸馏版)可在单卡或少量 GPU 上运行;
  • 大型模型(如 V3.2、Coder 236B)通常需要多卡或分布式推理。

DeepSeek 在 Hugging Face 与 GitHub 上提供权重与推理代码,有些模型(如 V3.2-Exp)还提供了针对稀疏注意力的优化实现。加载时可能需要 trust_remote_code=True,因为部分模型包含自定义层。部署前务必阅读每个模型的授权条款,确认是否允许你的使用场景(尤其是商用)。

DeepSeek 是否支持图像输入或多模态能力?

目前主流的 V3.2 API 仅支持文本输入,不直接接收任意图像。但 DeepSeek 提供了独立的多模态与 OCR 模型:

  • 文档场景:使用 DeepSeek OCR 做端到端文档理解;
  • 一般图像 + 文本:使用 DeepSeek-VL(7B/1.3B)或后续研究模型(如 DeepSeek-VL2、Janus)。

这些多模态模型目前主要通过开源权重与演示提供,而非统一在 V3.2 API 中。你也可以将第三方视觉 API(OCR、检测等)与 DeepSeek 文本模型组合使用。

DeepSeek-V3.2-Speciale 与 DeepSeek-V3.2-Exp 有什么区别?

它们都是 V3.2 的特殊变体:

  • DeepSeek-V3.2-Exp(Experimental)
    2025 年 9 月发布的实验版,基于 V3.1-Terminus,引入稀疏注意力以提升长上下文效率。官方在发布时还下调了 API 价格,将其视为 V3.2 的“效率预览版”,并在发布当天开源。许多优化后来被吸收到正式版 V3.2 中。

  • DeepSeek-V3.2-Speciale
    2025 年 12 月随 V3.2 一同发布的“高强度推理版”,在相同架构规模下,通过训练与提示策略进一步强化极限推理能力。Speciale 通过限时 API 端点开放评测,不支持工具调用,但权重已在 Hugging Face 开源。可以理解为“V3.2 的极致推理特别版”。

对大多数用户而言,直接使用主线 V3.2 即可;Exp 与 Speciale 更适合研究与特定评测场景。

DeepSeek 的 token 价格如何计算?缓存命中会如何计费?

DeepSeek 的 API 采用按 token 计费的模式,并引入 KV 缓存机制。具体价格与缓存策略以官方定价文档为准,这里只做简要说明:

  • 费用与输入 / 输出 token 数量成正比;
  • 对近期重复的上下文,缓存命中时通常只收取约 10% 的价格;
  • 推理模式本身没有单独定价,但由于会生成更多中间推理 token,总费用会相应增加。

DeepSeek 的目标是在 128K 长上下文场景下仍保持相对可负担的成本。价格与策略可能随时间调整,请以官方定价页面与 API 公告为准。


Chat-Deep.ai 是独立的 DeepSeek 资料导航站点。我们尽量只基于官方文档、发布说明与开源仓库中的一手信息撰写内容,并在文中通过链接标注来源。由于 DeepSeek 更新频率很高,建议在关键决策前再次核对官方链接。如发现错误或过时内容,欢迎反馈,我们会尽快核查与修正。

本页主要参考来源:DeepSeek API 文档DeepSeek 官方 GitHubHugging Face 上的 DeepSeek 模型卡 以及其他官方公开沟通渠道。