Claude 最新的模型版本在电脑和浏览器使用能力上实现了重大突破。借助这些功能，大型语言模型（LLM）能够驱动越来越复杂的智能代理系统，支持实际工作场景，如构建软件应用和跨多种技术自动化工作流程。

本文将分享使用 Claude 进行电脑和浏览器操作的最佳实践，涵盖从简单配置调整到高级集成模式。希望能帮助开发者顺利将 Claude 的电脑与浏览器使用能力集成到产品中。我们还发布了一个新的演示实现，其中封装了部分最佳实践，并提供了开发时有用的工具。

注：以下建议适用于 Claude 4.6 系列（Opus 4.6、Sonnet 4.6、Haiku 4.5）及 Claude Opus 4.7，若两者有差异会在文中注明。建议基于内部测试，未来可能随新模型和技术更新。

入门指南：分辨率与缩放

点击准确性是任何电脑使用集成的基础。如果点击位置不准确，后续操作都会失败：表单无法填写，按钮无法点击，工作流程中断。最简单且影响最大的优化是：在发送截图到 API 前，先对截图进行预缩放。

确保正确缩放

发送截图给 Claude 的电脑使用 API 时，模型会返回基于你指定的 display_width_px / display_height_px 坐标空间的点击坐标。但 API 对图像大小有内部限制，超出限制的图片会被自动缩小，导致模型基于降质图像进行点击，而你的系统却期望坐标对应原始分辨率，造成点击偏差。

Claude 4.6 系列的限制为：

最大长边：1568 像素
最大总像素数：115 万像素
超过任一限制的图片会被内部缩放

Opus 4.7 支持更高分辨率，限制为：

最大长边：2576 像素
最大总像素数：375 万像素
超过任一限制的图片同样会被缩放

坐标空间与模型实际看到的图像不匹配，是高分辨率下点击不准的主要原因。解决方案是：始终在发送前将截图缩放至限制范围内。我们观察到超过限制时准确率显著下降，这一调整带来的提升远超其他优化。

避免的分辨率

原生分辨率（未缩放）：除非原始截图本身低于限制，否则直接发送原生分辨率是点击不准的最常见原因。
过低分辨率（低于 960x540）：细节丢失过多，模型难以识别小型 UI 元素。
MacOS 用户注意：MacOS 截图常带有 2 倍设备像素比，导致图片分辨率是屏幕坐标的两倍，需特别处理。
4.6 系列避免 1920x1080 及以上：超出像素限制会被自动缩放，造成点击偏差。Opus 4.7 支持更高分辨率，1080p 和 1440p 可用，但原生 4K 仍需缩放。

坐标缩放

发送缩放后的截图时，模型返回的点击坐标基于缩放尺寸，执行点击时需将坐标转换回实际屏幕分辨率：

scale_x = screen_w / display_w
scale_y = screen_h / display_h

screen_x = int(api_returned_x * scale_x)
screen_y = int(api_returned_y * scale_y)

若忘记缩放或 display_width_px / display_height_px 与实际图片尺寸不符，点击会持续偏移。

消息内容顺序

构建消息内容数组时，应先放文本指令，再放截图。这样模型在处理截图时已知目标，提高点击准确率。

# 推荐顺序
content = [
    {"type": "text", "text": "点击提交按钮"},
    {"type": "image", "source": {"type": "base64", "media_type": "image/png", "data": screenshot_b64}},
]

# 不推荐顺序
content = [
    {"type": "image", "source": {"type": "base64", "media_type": "image/png", "data": screenshot_b64}},
    {"type": "text", "text": "点击提交按钮"},
]

诊断点击问题

点击偏差通常由以下原因导致：

缩放不当
坐标转换错误
模型选择不当

模型选择建议

Sonnet 4.6：点击机械精度更高，空间准确性好，适合需要高点击准确度的场景。
Opus 4.6：推理能力更强，适合复杂任务。
Opus 4.7：点击精度接近 Sonnet 4.6，支持更高分辨率，适合高分辨率场景和需要强推理的任务。
Haiku 4.5：延迟优先场景的优秀选择。

高级工作流可采用“编排器 + 子代理”模式，推理模型负责规划，Sonnet 或 Haiku 执行点击。

处理小目标

点击准确率随目标尺寸减小而下降。对小型目标（复选框、系统托盘图标、小切换开关等）建议：

启用缩放功能，让模型在点击前放大特定区域查看细节。
增大目标尺寸，调整 UI 缩放或 DPI 设置。
使用键盘替代点击，对极小元素可用快捷键或 Tab 导航。
注意截图分辨率，4K 屏幕截图压缩到 720p 会丢失细节，建议使用 Opus 4.7 或调整截图策略。

无效尝试

将图片拆分为小块发送未提升准确率。
在截图上叠加坐标网格无明显效果。
不同缩放算法效果相似，选择方便的即可。

失败排查

记录完整对话和点击坐标，叠加到截图上观察模型决策。某些失败因 UI 元素不在截图范围，需考虑使用 JS 执行、键盘导航或 DOM 操作。

计算机使用的思考深度调节

Claude 最新模型支持自适应思考，根据任务复杂度动态调整推理深度。思考深度通过参数 effort 控制，等级包括 low、medium、high、xhigh（Opus 4.7）和 max。思考越多，推理越充分，但输出令牌数、延迟和成本也越高。

Opus 4.7 测试结果

Opus 4.7 在 OSWorld 验证基准上表现优于 4.6 系列。
设置 effort 为 high，任务成功率接近最高，令牌使用约为 max 的一半。
低、中、高努力等级令牌使用相近，且均优于 4.6 系列。

4.6 系列测试结果

中等努力（medium）是最佳平衡点，成功率接近最高，令牌使用约为高努力的一半。
低努力（low）表现出色，令牌使用甚至少于关闭思考，适合成本敏感场景。
不推荐 max 努力，因无明显准确率提升，且成本更高。

示例配置

import anthropic

client = anthropic.Anthropic()

response = client.beta.messages.create(
    model="claude-sonnet-4-6",
    max_tokens=16000,
    betas=["computer-use-2025-11-24"],
    thinking={"type": "adaptive"},
    output_config={"effort": "medium"},
    messages=[...],
    tools=[
        {
            "type": "computer_20251124",
            "name": "computer",
            "display_width_px": 1280,
            "display_height_px": 720,
        }
    ],
)

为什么更多思考不总是更好

UI 自动化多为感知和机械操作，非深度逻辑。思考主要帮助：

规划多步骤操作
处理意外 UI 状态
跨信息核对
复杂专业软件操作

提升安全性：利用提示注入分类器

电脑使用代理处理的是不受信任内容，可能包含隐藏文本、篡改图像、欺骗性 UI 或社交工程攻击，试图劫持代理行为。提示注入风险随着代理能力和部署规模增长而加剧，可能导致代理执行恶意操作。

防御策略

训练时增强鲁棒性：通过强化学习让 Claude 学会识别并拒绝恶意指令。
实时分类器：扫描输入内容，检测文本、图像和 UI 中的注入攻击。
持续红队测试：不断评估和强化防御能力。

内置分类器使用

使用官方电脑使用工具（computer_20251124）时，分类器自动运行，无需额外配置，无额外延迟和费用。

// 使用官方工具时自动启用分类器
tools = [
    {
        "type": "computer_20251124",
        "name": "computer",
        "display_width_px": 1280,
        "display_height_px": 720,
    }
]

非官方工具使用

自定义工具定义不支持内置分类器。若有需求，请填写兴趣表单，我们将后续提供支持。

其他安全建议

关键操作启用人工确认，防止误操作。
限制代理权限，减少潜在攻击面。
监控并记录代理行为，便于异常检测和审计。
将所有网页内容视为不可信，明确区分用户指令和页面内容。

电脑使用的上下文管理

截图快速积累，每张截图消耗约 1000–1800 令牌，200k 令牌上下文窗口很快被占满。有效管理上下文目标是：

限制总令牌数
保持提示缓存有效，避免重复付费

推荐三层策略：

设置缓存断点
批量修剪旧截图
历史摘要压缩

缓存断点设置

一个断点放在系统提示或工具定义上
三个断点放在最近的工具结果上，随着对话推进更新

方法一：滚动缓冲区（缓存感知）

保留最近 N 张截图，旧截图替换为文本占位符。批量修剪避免频繁缓存失效。示例代码：

def prune_old_screenshots(messages, keep_n=3, interval=25):
    image_positions = [
        (msg_idx, block_idx)
        for msg_idx, msg in enumerate(messages)
        for block_idx, block in enumerate(msg.get("content", []))
        if isinstance(block, dict) and block.get("type") == "image"
    ]
    if len(image_positions) <= keep_n + interval:
        return messages

    to_prune = image_positions[:-keep_n][-interval:]
    for msg_idx, block_idx in to_prune:
        messages[msg_idx]["content"][block_idx] = {
            "type": "text",
            "text": "[Image omitted]",
        }
    return messages

方法二：基于 LLM 的压缩

定期总结对话历史，保留任务关键信息和最近截图，减少上下文令牌数。示例压缩提示模板详见正文。

服务器端压缩（测试版）

API 支持自动压缩，传入自定义总结提示，超过阈值自动触发。客户端需同步截断本地消息，保持与服务器视图一致。

客户端压缩

不支持服务器端压缩时，客户端实现相同总结逻辑，超过阈值调用总结模型替换历史。

综合推荐

一个断点在稳定前缀，三个断点在最近工具结果
滚动缓冲区参数 keep_n=3，interval=25
服务器端压缩阈值约 150k 令牌，客户端同步截断

电脑与浏览器使用的实验性设置

以下为我们测试中有潜力但尚未全面推荐的技术：

批量工具

新增 computer_batch 和 browser_batch 工具，支持一次调用执行多步操作，提升效率。适合独立子动作，避免依赖前一步视觉结果的场景。

顾问工具（测试版）

结合执行模型和高智力顾问模型，执行模型遇到复杂推理时调用顾问，获得策略建议后继续执行。适合长流程任务，平衡推理质量和效率。

清理孤立顾问块

禁用顾问工具时，需清理消息中残留的顾问调用块，避免请求错误。

定期提醒

批量工具提醒：提示模型使用批量工具合并操作
顾问工具提醒：长时间未调用顾问时提醒其可用

调试工具

轨迹查看器：回放对话和截图，分析模型决策
工具调试面板：单独测试截图、点击、输入等功能
定位游乐场：上传图片测试模型点击定位准确性

提升可靠性：教 Claude 学习

录制用户执行任务的操作和截图，作为示范上下文供 Claude 回放执行。回放时 Claude 根据当前 UI 状态灵活调整，提升准确率和适用范围。

核心概念

“示范胜于说明”，录制动作、截图和语音，回放时作为参考而非死板重放。

数据模型

定义 WorkflowStep，包含动作类型、描述、时间戳、选择器、坐标、URL、截图、视口尺寸、语音转录和输入值。

录制内容

至少捕获点击、键入、导航和截图。为点击生成描述并在截图上标注点击位置。

回放提示构建

包含用户意图、示范上下文说明和带标注的截图，指导模型理解和适应当前 UI。

回放模式

严格模式：严格按步骤执行，适合合规场景
自适应模式：灵活调整，适合大多数场景
目标导向：关注结果，步骤作为提示

示例

提交报销单工作流，包含导航、选择类型、输入金额、点击提交等步骤。用户新请求时，Claude 根据示范调整参数执行。

电脑与浏览器使用快速入门

以上实践基于 Claude 4.6 系列和 Opus 4.7，未来会持续更新。具体应用时，需结合目标环境和需求调整。

本文及演示由 Lucas Gonzalez 和 Luca Weihs 撰写，感谢 Molly Vorwerck、Javier Rando、Maya Nielan、Gabe Mulley 和 Brigit Brown 的贡献。

Claude 电脑与浏览器使用最佳实践指南