模型分类
🤖 OpenAI 系列
🆕 最新模型
| 模型名称 | 模型ID | 上下文长度 | 特点 | 推荐场景 |
|---|
| GPT-5.4 🔥 | gpt-5.4 | 1M | 原生计算机操控,GDPval 83%,错误率降低 33% | 复杂智能体、专业工作流 |
| GPT-5.4 Pro 🔥 | gpt-5.4-pro | 1M | 最强推理性能,适合顶级任务 | 顶级推理、科研 |
| GPT-5.2 | gpt-5.2 | 400K | GDPval 70.9% 超越专业人士 | 编程规划、结构化任务 |
| GPT-5.3 Instant | gpt-5.3-chat-latest | 400K | 快速响应版本,保持顶级推理 | 快速写作、信息检索 |
| GPT-5.1 | gpt-5.1 | 128K | 智能与速度平衡,SWE-bench 76.3%,24h 缓存 | 综合应用、编程 |
| GPT-5.3 Codex 🔥 | gpt-5.3-codex | 128K | SWE-Bench Pro SOTA,比 5.2 Codex 快 25%,首个参与自身创建的模型 | 复杂编程、智能体任务 |
| GPT-5.3 Codex Spark 🔥 | gpt-5.3-codex-spark | 128K | 轻量实时编码版本,快速响应 | 日常编程、实时编码 |
✅ 稳定/经典系列
| 模型名称 | 模型ID | 上下文长度 | 特点 | 推荐场景 |
|---|
| GPT-5 ⭐ | gpt-5 | 128K | 旗舰稳定版,超强推理能力 | 顶级推理、复杂任务 |
| GPT-5 Mini | gpt-5-mini | 128K | GPT-5 轻量版,性能优异 | 平衡性能与成本 |
| GPT-5 Nano | gpt-5-nano | 128K | GPT-5 超轻量版 | 大批量处理 |
| o3 ⭐ | o3 | 200K | 推理模型,已大幅降价,性价比极高 | 复杂推理、数学、编程 |
| o4-mini | o4-mini | 200K | 轻量级推理模型 | 编程任务首选 |
| GPT-4.1 ⭐ | gpt-4.1 | 128K | 速度快,主力模型之一 | 综合应用 |
| GPT-4.1 Mini | gpt-4.1-mini | 128K | 更便宜的轻量版本 | 成本敏感场景 |
| GPT-4o | gpt-4o | 128K | 综合能力平衡,多模态支持 | 通用场景 |
| GPT-4o Mini | gpt-4o-mini | 128K | 轻量快速版本 | 快速响应 |
GPT-5 系列使用注意事项:
- 温度参数 temperature 必须设置为 1(只支持 1)
- 使用 max_completion_tokens 替代 max_tokens
- 不要传递 top_p 参数
🎭 Claude 系列 (Anthropic)
🆕 最新模型
| 模型名称 | 模型ID | 上下文长度 | 特点 | 推荐场景 |
|---|
| Claude Opus 4.6 🔥 | claude-opus-4-6 | 1M (Beta) | Terminal-Bench 2.0 登顶,智能体团队协作,128K 输出 | 顶级编程、复杂智能体 |
| Claude Opus 4.6 Thinking 🔥 | claude-opus-4-6-thinking | 1M (Beta) | 自适应思维链,深度推理增强 | 顶级推理任务 |
| Claude Sonnet 4.6 🔥 | claude-sonnet-4-6 | 1M (Beta) | 全面升级,性能媲美 Opus 4.5,性价比极高 | 编程首选、智能体开发 |
| Claude Sonnet 4.6 Thinking 🔥 | claude-sonnet-4-6-thinking | 1M (Beta) | 思维链模式,深度推理 | 复杂编程推理任务 |
✅ 稳定/经典系列
| 模型名称 | 模型ID | 上下文长度 | 特点 | 推荐场景 |
|---|
| Claude Opus 4.5 ⭐ | claude-opus-4-5-20251101 | 200K | SWE-bench 80.9%,价格降至前代 1/3 | 复杂编程、顶级推理 |
| Claude Sonnet 4.5 ⭐ | claude-sonnet-4-5-20250929 | 200K | 世界级编码模型,SWE-bench 77.2% | 代码生成、智能体开发 |
| Claude Sonnet 4.5 Thinking | claude-sonnet-4-5-20250929-thinking | 200K | 思维链模式,深度推理 | 复杂编程推理任务 |
| Claude Haiku 4.5 ⭐ | claude-haiku-4-5-20251001 | 200K | 高性价比编码模型,SWE-bench 73.3%,速度 2 倍 | 实时聊天、结对编程 |
| Claude 4 Sonnet | claude-sonnet-4-20250514 | 200K | 稳定版本,编程首选 | 代码生成、分析 |
| Claude Opus 4.1 | claude-opus-4-1-20250805 | 200K | 迭代升级版,编程优化 | 高要求编程任务 |
最新推荐:Claude Opus 4.6 以 Terminal-Bench 2.0 登顶,支持 1M 上下文和智能体团队协作。Sonnet 4.6 性能媲美 Opus 4.5,已成为 claude.ai 默认模型,性价比极高。稳定首选:Opus 4.5 和 Sonnet 4.5 经过充分验证,适合生产环境。Haiku 4.5 速度快 2 倍,性价比高。
🌟 Google Gemini 系列
🆕 最新模型
| 模型名称 | 模型ID | 上下文长度 | 特点 | 推荐场景 |
|---|
| Gemini 3.1 Pro Preview 🔥 | gemini-3.1-pro-preview | 1M | ARC-AGI-2 77.1%(3 Pro 的 2 倍+),最强推理模型 | 复杂推理、多模态分析 |
| Gemini 3 Flash Preview 🔥 | gemini-3-flash-preview | 1M | SWE-bench 78% 超越 3 Pro,速度快 3 倍,价格仅 1/4 | 编程首选、性价比之王 |
| Gemini 3 Flash Thinking 🔥 | gemini-3-flash-preview-thinking | 1M | 强制推理模式,显示完整思考过程 | 复杂编程、深度推理 |
| Gemini 3 Flash NoThinking 🔥 | gemini-3-flash-preview-nothinking | 1M | 快速响应模式,最低延迟 | 简单任务、实时应用 |
| Gemini 3.1 Flash Lite Preview 🔥 | gemini-3.1-flash-lite-preview | 1M | 速度快 2.5 倍,超越 GPT-5 Mini 和 Haiku 4.5,超低价 | 高并发、大批量、低成本 |
注意:Gemini 3 Pro Preview 已于 2026 年 3 月 9 日停止服务,请迁移至 Gemini 3.1 Pro Preview。
✅ 稳定/经典系列
| 模型名称 | 模型ID | 上下文长度 | 特点 | 推荐场景 |
|---|
| Gemini 2.5 Pro ⭐ | gemini-2.5-pro | 2M | 正式版,编程优势,多模态能力强 | 长文本、编程、多模态 |
| Gemini 2.5 Flash ⭐ | gemini-2.5-flash | 1M | 速度快,成本低,正式版 | 快速响应场景 |
| Gemini 2.5 Flash Lite | gemini-2.5-flash-lite | 1M | 超轻量版本,更快更便宜 | 大批量简单任务 |
最新推荐:Gemini 3.1 Pro Preview 推理能力翻倍(ARC-AGI-2 77.1%),是谷歌最先进推理模型。Gemini 3 Flash Preview 以 SWE-bench 78% 继续领跑编程性价比。Gemini 3.1 Flash Lite Preview 是最便宜的前沿模型,适合高并发场景。稳定首选:Gemini 2.5 Pro(2M 超长上下文)和 Gemini 2.5 Flash 已正式发布,适合生产环境。
🚀 xAI Grok 系列
🆕 最新模型
| 模型名称 | 模型ID | 上下文长度 | 特点 | 推荐场景 |
|---|
| Grok 4 🔥 | grok-4 | 标准 | 最新官方版本 | 综合任务 |
| Grok 4 All 🔥 | grok-4-all | 标准 | 原生联网,无需工具调用 | 需要实时信息场景 |
| Grok 4 Fast Reasoning 🔥 | grok-4-fast-reasoning | 200K | 推理模式,显示思考过程,降价 93%+ | 复杂推理任务 |
| Grok 4 Fast Non-Reasoning | grok-4-fast-non-reasoning | 200K | 非推理模式,快速响应 | 大上下文场景 |
| Grok Code Fast 1 ⭐ | grok-code-fast-1 | 256K | SWE-bench 70.8%,高速生成 | 代码生成、智能体编程 |
✅ 稳定/经典系列
| 模型名称 | 模型ID | 上下文长度 | 特点 | 推荐场景 |
|---|
| Grok 3 ⭐ | grok-3 | 标准 | 官方稳定版本 | 日常使用 |
| Grok 3 All | grok-3-all | 标准 | 原生联网增强版 | 新闻资讯、市场分析 |
| Grok 3 Mini | grok-3-mini | 标准 | 带推理能力的小模型 | 轻量任务 |
Grok Fast 系列价格优势:
- 相比 Grok-4 系列降价 93%+
- 输入:$0.20/1M tokens,输出:$0.50/1M tokens
- 业界领先的性价比,适合超长上下文场景
🔍 DeepSeek 系列
🆕 最新模型
| 模型名称 | 模型ID | 上下文长度 | 特点 | 推荐场景 |
|---|
| DeepSeek V3.2 🔥 | deepseek-v3.2 | 128K | 性能比肩 GPT-5,工具调用融入推理,IMO 金牌 | 复杂推理、编程、智能体 |
| DeepSeek V3.2 Speciale 🔥 | deepseek-v3.2-speciale | 128K | 高算力版本,超越 GPT-5,推理媲美 Gemini 3 Pro | 顶级推理任务 |
✅ 稳定/经典系列
| 模型名称 | 模型ID | 上下文长度 | 特点 | 推荐场景 |
|---|
| DeepSeek V3.1 ⭐ | deepseek-v3-1-250821 | 128K | 混合推理模式,Think/Non-Think 双模式 | 智能推理、编程 |
| DeepSeek R1 | deepseek-r1 | 64K | 推理模型 | 数学、推理 |
| DeepSeek V3 | deepseek-v3 | 128K | 综合能力强 | 通用场景 |
🐘 国产模型系列
智谱 AI (GLM)
🆕 最新:GLM-5 | ✅ 稳定/经典:GLM-4.6、GLM-4.5
| 模型名称 | 模型ID | 上下文长度 | 特点 | 推荐场景 |
|---|
| GLM-5 🔥 | glm-5 | 200K | 744B 参数(40B 激活),编程对齐 Claude Opus 4.5,开源 | 复杂编程、系统工程、智能体 |
| GLM-4.6 ⭐ | glm-4.6 | 200K | 代码与推理增强版,稳定可靠 | 编程、推理、智能体 |
| GLM-4.5 | glm-4.5 | 128K | 标准版本,综合能力强 | 通用场景 |
| GLM-4.5 Air | glm-4.5-air | 128K | 轻量版本,速度快 | 快速响应 |
GLM-5 特性:
- 744B 参数(40B 激活),预训练数据 28.5T
- 编程能力对齐 Claude Opus 4.5,超越 Gemini 3 Pro
- 全新 Slime 框架,支持长时序智能体强化学习
- 开源模型中编程能力最强,性价比极高
阿里通义千问 (Qwen)
🆕 最新:Qwen 3.5-Plus | ✅ 稳定/经典:Qwen Max、Plus、Turbo
| 模型名称 | 模型ID | 上下文长度 | 特点 | 推荐场景 |
|---|
| Qwen 3.5-Plus 🔥 | qwen3.5-plus | 1M | 397B(17B 激活),支持 201 种语言,自称超越 GPT-5.2 | 智能体、多语言、长文本 |
| Qwen Max ⭐ | qwen-max | 32K | 最强稳定版本 | 综合任务 |
| Qwen Plus | qwen-plus | 32K | 增强版本 | 性价比场景 |
| Qwen Turbo | qwen-turbo | 32K | 快速版本 | 低延迟场景 |
Moonshot Kimi 系列
🆕 最新:Kimi K2.5 | ✅ 稳定/经典:Kimi K2
| 模型名称 | 模型ID | 上下文长度 | 特点 | 推荐场景 |
|---|
| Kimi K2.5 🔥 | kimi-k2.5 | 200K | 1T 参数(32B 激活),原生多模态,Agent Swarm 100 智能体协作 | 多模态、智能体 |
| Kimi K2 正式版 ⭐ | kimi-k2-250711 | 200K | 火山引擎官方合作,稳定性强 | 生产环境 |
🌐 MiniMax 系列
🆕 最新:MiniMax M2.5
| 模型名称 | 模型ID | 上下文长度 | 特点 | 推荐场景 |
|---|
| MiniMax M2.5 🔥 | minimax-m2.5 | 标准 | 230B(10B 激活),SWE-bench 80.2%,$1/小时极致性价比 | 编程、智能体、办公自动化 |
MiniMax M2.5 特性:
- SWE-bench 80.2%,编程能力顶级,速度比 M2.1 快 37%
- 仅 $1/小时持续运行,业界最低成本前沿模型
- 支持 10+ 编程语言,20 万+ 真实环境训练
- 模型权重已完全开源