
美国Anthropic公司于28日推出了最新AI模型“Claude Opus 4.8”。相比之前的高端版本Opus 4.7,新版本在编码能力、代理技能、推理能力以及实用知识工作任务等多个领域的基准测试中均有提升。此外,Opus 4.8特别强调“诚实度”,即模型更倾向于指出自身任务中的不确定性,减少无根据的断言。
在性能方面,Opus 4.8不仅超越了Opus 4.7,还在部分测试中超过了GPT-5.5和Gemini 3.1 Pro,尤其在推理、计算机使用和金融分析等领域表现优异。

诚实度的提升是此次更新的重点之一。测试显示,Opus 4.8更频繁地指出自身工作的不确定性,显著降低了无依据主张的可能性。
根据Anthropic的数据,Opus 4.8漏检代码缺陷的概率比前一版本减少了约四分之一。同时,该版本在防止欺骗和恶意利用方面表现更佳,其性能已达到未公开发布的高端模型“Claude Mythos Preview”(简称“神话级”)的水平。

新功能方面,Opus 4.8支持动态工作流(Dynamic workflows)的研究预览,进一步增强了“Claude Code”处理大规模任务的能力。模型能够在单一会话中并行执行数百个子代理,延长代理执行时间,随后对输出结果进行验证并反馈给用户。例如,搭载Opus 4.8的Claude Code可以基于现有测试套件,从启动到合并,完成数十万行代码的迁移工作。动态工作流功能已在Enterprise、Team和Max计划的Claude Code中开放。
此外,Claude和Cowork引入了新的“努力度”控制功能,用户可在模型选择器旁调整模型响应时的计算资源投入。努力度分为低、中、高、额外(Claude Code中为超高)和最大五个等级。较高设置使Claude更频繁且深入地思考,提供更高质量的回答;较低设置则响应更快,减少用户资源消耗。默认设为“高”,以实现质量与用户体验的最佳平衡。该功能适用于所有计划。

价格方面,Opus 4.8延续Opus 4.7的定价标准:每百万输入令牌5美元,输出令牌25美元。高速模式下,输入令牌为10美元,输出令牌为50美元。
Anthropic还在开发功能相当但成本更低的模型,并持续推进目前仅限政府和安全企业使用的“Claude Mythos Preview”版本的网络安全措施。公司预计将在数周内向所有客户提供具备Mythos级别性能的模型。


