Claude托管代理新功能：梦境机制、结果评估与多代理协作

今天，我们在Claude托管代理中推出了梦境（Dreaming）功能的研究预览。梦境通过回顾过去的会话，发现模式，帮助代理自我提升，扩展了记忆功能。我们还向开发者开放了结果评估、多代理编排和Webhook接口。这些更新使代理能够更好地处理复杂任务，且几乎无需人工干预。

构建自我提升的代理——梦境机制

梦境是一种定期运行的过程，会审查代理的会话和记忆库，提取模式并整理记忆，从而让代理随着时间不断改进。你可以决定梦境的控制程度：它可以自动更新记忆，也可以先让你审核变更。

梦境机制示意图

梦境能够发现单个代理难以察觉的模式，比如重复错误、代理趋同的工作流程以及团队共享的偏好。它还会重构记忆，确保记忆随着演进保持高信号质量。这对长期任务和多代理协作尤为重要。

记忆和梦境共同构成了一个强大的记忆系统，支持代理自我提升。记忆让代理在工作时捕捉所学，梦境则在会话间隙优化记忆，整合跨代理的共享经验并保持更新。

梦境功能已在Claude平台的托管代理中上线，开发者可在此申请访问。

提升任务结果的准确性

通过结果评估，你可以编写一个成功标准的评分规则，代理将以此为目标进行工作。一个独立的评分器会在自己的上下文窗口中根据标准评估输出，避免受到代理推理过程的影响。当结果不符合要求时，评分器会指出需要改进的地方，代理随后会重新尝试。

代理在明确“好”的标准时表现最佳，比如结构框架、演示规范或必须满足的需求。借助结果评估，代理能自我检查并修正，直到输出达到标准，无需人工逐次审核。

结果评估特别适合需要细致关注和全面覆盖的任务，也适用于主观质量判断，如文案是否符合品牌声音或设计是否遵循视觉规范。测试显示，结果评估相比传统提示循环，任务成功率提升最高达10个百分点，尤其在最难的问题上效果显著。文件生成质量也有所提升，内部基准测试中docx任务成功率提升8.4%，pptx提升10.1%。

你还可以定义结果评估标准，让代理自动运行，并通过Webhook接收完成通知。

多代理协作处理复杂任务

当单个代理难以胜任复杂工作时，多代理编排允许主代理将任务拆分，分别委派给拥有独立模型、提示和工具的专家子代理。例如，主代理可以负责调查，而子代理则分别分析部署历史、错误日志、指标和支持工单。

这些专家代理并行工作，共享文件系统，并为主代理提供整体上下文。主代理可在工作流程中途与其他代理沟通，因为事件是持久的，每个代理都记得自己的操作。你还可以在Claude控制台追踪每一步操作：哪个代理做了什么、顺序和原因，全面了解任务的分配与执行过程。

多代理会话界面

团队应用实例

多个团队已利用梦境、结果评估和多代理编排，打造能够自我验证、自我学习并行处理复杂任务的代理：

Harvey使用托管代理协调复杂法律工作，如长文起草和文档创建。借助梦境，代理能记住会话间学到的文件类型解决方案和工具特定模式，测试中完成率提升约6倍。
Netflix平台团队开发了一个分析代理，处理来自不同来源的数百个构建日志。面对影响数千应用的变更，关键是发现跨应用反复出现的问题。多代理编排让代理能并行分析批次，只呈现值得关注的模式。
Every的Spiral利用多代理编排和结果评估驱动其API和CLI背后的写作代理。主代理运行在Haiku模型上，处理请求并提出快速跟进问题，再将起草任务委派给运行Opus模型的子代理。用户请求多稿时，子代理并行工作。写作质量是Spiral的核心价值，结果评估确保每稿符合Every的编辑原则和用户声音，只有达标稿件才会返回。
Wisedocs构建了一个文档质量检查代理，利用结果评估根据内部标准评分。审查速度提升50%，且保持与团队标准一致。

这些功能的推出，极大增强了Claude托管代理在复杂场景中的实用性和智能水平。