随着Claude Opus 4.6和Sonnet 4.6的发布,我们也推出了新版的网页搜索和网页抓取工具。Claude现在可以在网页搜索过程中原生编写并执行代码,对搜索结果进行动态过滤,从而在结果进入上下文窗口前剔除无关信息,显著提升搜索的准确性和令牌使用效率。
动态过滤的网页搜索
网页搜索是一个令牌消耗极高的任务。传统的网页搜索工具需要先发起查询,将搜索结果拉入上下文,再从多个网站抓取完整HTML文件,最后进行推理得出答案。然而,搜索结果中往往包含大量无关内容,影响回答质量。
为了提升Claude在网页搜索中的表现,我们的网页搜索和网页抓取工具现自动编写并执行代码,对查询结果进行后处理。Claude不再对完整HTML文件进行推理,而是在加载到上下文前动态过滤搜索结果,仅保留相关内容,剔除冗余信息。
我们之前已在其他智能代理工作流中验证了该技术的有效性,并为API提供了代码执行和程序化工具调用等原生支持。现在,这些技术也应用到了网页搜索和抓取工具中。
Claude网页搜索能力评测
我们在Sonnet 4.6和Opus 4.6上,分别开启和关闭动态过滤功能,且不启用其他工具,进行了两项基准测试:BrowseComp和DeepsearchQA。结果显示,动态过滤平均提升了11%的性能,同时减少了24%的输入令牌使用。
BrowseComp:寻找单一答案的网页搜索
BrowseComp测试代理能否在多个网站中找到刻意难以搜索的信息。动态过滤显著提升了Claude的准确率,Sonnet 4.6从33.3%提升至46.6%,Opus 4.6从45.3%提升至61.6%。

DeepsearchQA:寻找多个答案的网页搜索
DeepsearchQA要求代理通过网页搜索系统地规划和执行多步骤搜索,找到所有正确答案。评测指标为F1分数,综合衡量答案的准确率和召回率。
动态过滤使Sonnet 4.6的F1分数从52.6%提升至59.4%,Opus 4.6从69.8%提升至77.3%。

令牌消耗会根据模型编写过滤代码的复杂度有所不同。Sonnet 4.6在两个基准测试中的价格加权令牌消耗均有所下降,而Opus 4.6则有所上升。建议用户根据自身生产环境中典型的网页搜索查询,评估该工具的成本效益。
客户案例:Quora
Quora旗下的Poe是一个大型多模型AI平台,向数百万用户提供超过200种模型的访问。Quora内部团队发现,搭载动态过滤的Opus 4.6在内部评测中“在所有前沿模型中准确率最高”,产品与研究负责人Gareth Jones表示:“该模型表现得像真正的研究员,能够编写Python代码解析、过滤并交叉验证结果,而不是直接对原始HTML进行推理。”
网页搜索与抓取工具中的动态过滤
在Claude API中,使用Sonnet 4.6和Opus 4.6的新网页搜索和网页抓取工具时,动态过滤默认开启。对于复杂的网页搜索任务,如筛选技术文档或验证引用,用户可以期待类似的性能提升。
API示例用法:
{
"model": "claude-opus-4-6",
"max_tokens": 4096,
"tools": [
{ "type": "web_search_20260209", "name": "web_search" },
{ "type": "web_fetch_20260209", "name": "web_fetch" }
],
"messages": [
{ "role": "user", "content": "搜索AAPL和GOOGL当前价格,并计算哪个市盈率更优。" }
]
}
代码执行、记忆和更多工具现已全面开放
我们还将多项工具升级为全面开放状态,帮助代理在令牌密集型任务中表现更佳:
- 代码执行:为代理提供沙箱环境,在对话中运行代码以过滤上下文、分析数据或执行计算。
- 记忆:通过持久化文件目录存储和检索信息,使代理无需将所有内容保留在上下文窗口中也能保持上下文连续性。
- 程序化工具调用:通过代码执行复杂的多工具工作流,避免中间结果占用上下文窗口。
- 工具搜索:动态从大型工具库中发现工具,无需将所有定义加载到上下文。
- 工具使用示例:在工具定义中直接提供示例调用,展示使用模式,减少参数错误。
快速开始
改进后的网页搜索和抓取工具,以及代码执行、记忆、程序化工具调用、工具搜索和工具使用示例,现已在Claude平台上线。请查阅我们的API文档开始使用。


