通过动态过滤提升网页搜索的准确性与效率

随着Claude Opus 4.6和Sonnet 4.6的发布，我们也推出了新版的网页搜索和网页抓取工具。Claude现在可以在网页搜索过程中原生编写并执行代码，对搜索结果进行动态过滤，从而在结果进入上下文窗口前剔除无关信息，显著提升搜索的准确性和令牌使用效率。

动态过滤的网页搜索

网页搜索是一个令牌消耗极高的任务。传统的网页搜索工具需要先发起查询，将搜索结果拉入上下文，再从多个网站抓取完整HTML文件，最后进行推理得出答案。然而，搜索结果中往往包含大量无关内容，影响回答质量。

为了提升Claude在网页搜索中的表现，我们的网页搜索和网页抓取工具现自动编写并执行代码，对查询结果进行后处理。Claude不再对完整HTML文件进行推理，而是在加载到上下文前动态过滤搜索结果，仅保留相关内容，剔除冗余信息。

我们之前已在其他智能代理工作流中验证了该技术的有效性，并为API提供了代码执行和程序化工具调用等原生支持。现在，这些技术也应用到了网页搜索和抓取工具中。

Claude网页搜索能力评测

我们在Sonnet 4.6和Opus 4.6上，分别开启和关闭动态过滤功能，且不启用其他工具，进行了两项基准测试：BrowseComp和DeepsearchQA。结果显示，动态过滤平均提升了11%的性能，同时减少了24%的输入令牌使用。

BrowseComp：寻找单一答案的网页搜索

BrowseComp测试代理能否在多个网站中找到刻意难以搜索的信息。动态过滤显著提升了Claude的准确率，Sonnet 4.6从33.3%提升至46.6%，Opus 4.6从45.3%提升至61.6%。

动态过滤在BrowseComp上的效果

DeepsearchQA：寻找多个答案的网页搜索

DeepsearchQA要求代理通过网页搜索系统地规划和执行多步骤搜索，找到所有正确答案。评测指标为F1分数，综合衡量答案的准确率和召回率。

动态过滤使Sonnet 4.6的F1分数从52.6%提升至59.4%，Opus 4.6从69.8%提升至77.3%。

动态过滤在DeepsearchQA上的效果

令牌消耗会根据模型编写过滤代码的复杂度有所不同。Sonnet 4.6在两个基准测试中的价格加权令牌消耗均有所下降，而Opus 4.6则有所上升。建议用户根据自身生产环境中典型的网页搜索查询，评估该工具的成本效益。

客户案例：Quora

Quora旗下的Poe是一个大型多模型AI平台，向数百万用户提供超过200种模型的访问。Quora内部团队发现，搭载动态过滤的Opus 4.6在内部评测中“在所有前沿模型中准确率最高”，产品与研究负责人Gareth Jones表示：“该模型表现得像真正的研究员，能够编写Python代码解析、过滤并交叉验证结果，而不是直接对原始HTML进行推理。”

网页搜索与抓取工具中的动态过滤

在Claude API中，使用Sonnet 4.6和Opus 4.6的新网页搜索和网页抓取工具时，动态过滤默认开启。对于复杂的网页搜索任务，如筛选技术文档或验证引用，用户可以期待类似的性能提升。

API示例用法：

{
  "model": "claude-opus-4-6",
  "max_tokens": 4096,
  "tools": [
    { "type": "web_search_20260209", "name": "web_search" },
    { "type": "web_fetch_20260209", "name": "web_fetch" }
  ],
  "messages": [
    { "role": "user", "content": "搜索AAPL和GOOGL当前价格，并计算哪个市盈率更优。" }
  ]
}

代码执行、记忆和更多工具现已全面开放

我们还将多项工具升级为全面开放状态，帮助代理在令牌密集型任务中表现更佳：

代码执行：为代理提供沙箱环境，在对话中运行代码以过滤上下文、分析数据或执行计算。
记忆：通过持久化文件目录存储和检索信息，使代理无需将所有内容保留在上下文窗口中也能保持上下文连续性。
程序化工具调用：通过代码执行复杂的多工具工作流，避免中间结果占用上下文窗口。
工具搜索：动态从大型工具库中发现工具，无需将所有定义加载到上下文。
工具使用示例：在工具定义中直接提供示例调用，展示使用模式，减少参数错误。

快速开始

改进后的网页搜索和抓取工具，以及代码执行、记忆、程序化工具调用、工具搜索和工具使用示例，现已在Claude平台上线。请查阅我们的API文档开始使用。

通过动态过滤提升网页搜索的准确性与效率

动态过滤的网页搜索

Claude网页搜索能力评测

BrowseComp：寻找单一答案的网页搜索

DeepsearchQA：寻找多个答案的网页搜索

客户案例：Quora

网页搜索与抓取工具中的动态过滤

代码执行、记忆和更多工具现已全面开放

快速开始

标签

评论

相关阅读

大学生因依赖AI失去课堂讨论能力

AI视频手册“TAGURU”实现从标题到旁白的全自动化

日本软银集团向美国OpenAI追加投资100亿美元