今天,我们在Claude托管代理中推出了梦境(Dreaming)功能的研究预览。梦境通过回顾过去的会话,发现模式,帮助代理自我提升,扩展了记忆功能。我们还向开发者开放了结果评估、多代理编排和Webhook接口。这些更新使代理能够更好地处理复杂任务,且几乎无需人工干预。
构建自我提升的代理——梦境机制
梦境是一种定期运行的过程,会审查代理的会话和记忆库,提取模式并整理记忆,从而让代理随着时间不断改进。你可以决定梦境的控制程度:它可以自动更新记忆,也可以先让你审核变更。

梦境能够发现单个代理难以察觉的模式,比如重复错误、代理趋同的工作流程以及团队共享的偏好。它还会重构记忆,确保记忆随着演进保持高信号质量。这对长期任务和多代理协作尤为重要。
记忆和梦境共同构成了一个强大的记忆系统,支持代理自我提升。记忆让代理在工作时捕捉所学,梦境则在会话间隙优化记忆,整合跨代理的共享经验并保持更新。
梦境功能已在Claude平台的托管代理中上线,开发者可在此申请访问。
提升任务结果的准确性
通过结果评估,你可以编写一个成功标准的评分规则,代理将以此为目标进行工作。一个独立的评分器会在自己的上下文窗口中根据标准评估输出,避免受到代理推理过程的影响。当结果不符合要求时,评分器会指出需要改进的地方,代理随后会重新尝试。
代理在明确“好”的标准时表现最佳,比如结构框架、演示规范或必须满足的需求。借助结果评估,代理能自我检查并修正,直到输出达到标准,无需人工逐次审核。

结果评估特别适合需要细致关注和全面覆盖的任务,也适用于主观质量判断,如文案是否符合品牌声音或设计是否遵循视觉规范。测试显示,结果评估相比传统提示循环,任务成功率提升最高达10个百分点,尤其在最难的问题上效果显著。文件生成质量也有所提升,内部基准测试中docx任务成功率提升8.4%,pptx提升10.1%。
你还可以定义结果评估标准,让代理自动运行,并通过Webhook接收完成通知。
多代理协作处理复杂任务
当单个代理难以胜任复杂工作时,多代理编排允许主代理将任务拆分,分别委派给拥有独立模型、提示和工具的专家子代理。例如,主代理可以负责调查,而子代理则分别分析部署历史、错误日志、指标和支持工单。
这些专家代理并行工作,共享文件系统,并为主代理提供整体上下文。主代理可在工作流程中途与其他代理沟通,因为事件是持久的,每个代理都记得自己的操作。你还可以在Claude控制台追踪每一步操作:哪个代理做了什么、顺序和原因,全面了解任务的分配与执行过程。

团队应用实例
多个团队已利用梦境、结果评估和多代理编排,打造能够自我验证、自我学习并行处理复杂任务的代理:
- Harvey使用托管代理协调复杂法律工作,如长文起草和文档创建。借助梦境,代理能记住会话间学到的文件类型解决方案和工具特定模式,测试中完成率提升约6倍。
- Netflix平台团队开发了一个分析代理,处理来自不同来源的数百个构建日志。面对影响数千应用的变更,关键是发现跨应用反复出现的问题。多代理编排让代理能并行分析批次,只呈现值得关注的模式。
- Every的Spiral利用多代理编排和结果评估驱动其API和CLI背后的写作代理。主代理运行在Haiku模型上,处理请求并提出快速跟进问题,再将起草任务委派给运行Opus模型的子代理。用户请求多稿时,子代理并行工作。写作质量是Spiral的核心价值,结果评估确保每稿符合Every的编辑原则和用户声音,只有达标稿件才会返回。
- Wisedocs构建了一个文档质量检查代理,利用结果评估根据内部标准评分。审查速度提升50%,且保持与团队标准一致。
这些功能的推出,极大增强了Claude托管代理在复杂场景中的实用性和智能水平。


