Skill-creator 现已支持编写评估(evals)、运行基准测试,并帮助您在模型演进过程中保持技能的有效性。这些更新现已在 Claude.ai 和 Cowork 平台上线,同时作为 Claude Code 的插件和我们代码库中的一部分提供。

自去年十月推出 Agent Skills 以来,我们发现大多数技能作者是领域专家而非工程师。他们熟悉自己的工作流程,但缺乏工具来判断技能在新模型下是否依然有效,是否在应触发时触发,或者编辑后是否真正提升了技能表现。

今天,我们宣布对 skill-creator 的改进,帮助作者更自信地构建技能。我们将软件开发中的严谨方法(测试、基准测试、迭代改进)引入技能创作中,无需编写代码。

两类技能

技能大致分为两类:

  • 能力提升型技能:帮助 Claude 实现基础模型无法完成或无法稳定完成的任务。例如我们的文档创建技能,编码了比单纯提示更优的技术和模式。

  • 编码偏好型技能:记录 Claude 已能完成的各个环节,但按团队流程顺序组织。例如引导 NDA 审核或根据多个 MCP 数据起草周报的技能。

这一区分很重要,因为两类技能测试的侧重点不同:

  • 能力提升型技能可能随着模型进步而变得不再必要,评估能告诉您何时发生了这种变化。
  • 编码偏好型技能更持久,但其价值取决于对实际流程的忠实度,评估可验证这一点。

无论哪种,测试能将“看似有效”的技能转变为“确实有效”。

利用评估测试和优化技能

Skill-creator 现在支持编写评估测试,检查 Claude 是否按预期响应特定提示。类似软件测试,您定义测试提示(及必要的文件),描述理想结果,skill-creator 会告诉您技能是否通过测试。

例如,我们的 PDF 技能之前在处理非可填写表单时表现不佳,Claude 需要在无字段指导的情况下将文本放置在精确坐标。通过评估定位问题后,我们发布了修复,将定位锚定到提取的文本坐标。

评估的两个重要作用是捕捉质量回退和了解模型进展。

首先,捕捉质量回退。随着模型和基础设施演进,上个月表现良好的技能可能今天表现不同。针对新模型运行评估能提前发现变化,避免影响团队工作。

其次,判断模型能力是否超越技能。这主要针对能力提升型技能。如果基础模型在未加载技能时也能通过评估,说明技能的技巧已被模型默认行为吸收,技能虽未损坏,但可能不再必要。

我们还新增了基准模式,使用您的评估进行标准化测试。您可以在模型更新后或技能迭代时运行,跟踪评估通过率、耗时和令牌使用量。

您的评估和结果可本地保存,集成到仪表盘或持续集成系统中。

多智能体支持,实现更快更稳定的评估

顺序运行评估速度较慢且上下文可能相互影响。skill-creator 现支持多智能体并行运行评估,每个智能体在独立上下文中执行,拥有独立的令牌和计时指标,结果更快且无交叉干扰。

我们还增加了比较智能体,用于 A/B 测试:比较两个技能版本或技能与无技能的表现。智能体在不知晓身份的情况下评判输出,帮助判断改动是否真正有效。

确保技能在正确时机触发

评估衡量输出质量,但前提是技能能在合适时机触发。随着技能数量增加,描述的精准度至关重要:描述过宽会导致误触发,过窄则可能不触发。skill-creator 现能分析当前描述与示例提示,建议修改以减少误触发和漏触发。

我们在文档创建技能上测试,5/6 公共技能触发准确率得到提升。

展望未来

随着模型不断进步,“技能”与“规范”之间的界限可能会模糊。当前,SKILL.md 文件本质上是实现计划,详细指导 Claude 如何完成任务。未来,技能的自然语言描述可能足够,模型自行推断具体实现。

我们今天发布的评估框架正是朝这个方向迈出的一步。评估已经描述了“做什么”,未来这描述本身或许就是技能。

快速开始

所有 skill-creator 更新现已在 Claude.ai 和 Cowork 平台上线。您可以直接让 Claude 使用 skill-creator 开始体验。

Claude Code 用户可安装插件或从我们的代码库下载使用。