提升技能创建者：测试、衡量与优化智能代理技能

Skill-creator 现已支持编写评估（evals）、运行基准测试，并帮助您在模型演进过程中保持技能的有效性。这些更新现已在 Claude.ai 和 Cowork 平台上线，同时作为 Claude Code 的插件和我们代码库中的一部分提供。

自去年十月推出 Agent Skills 以来，我们发现大多数技能作者是领域专家而非工程师。他们熟悉自己的工作流程，但缺乏工具来判断技能在新模型下是否依然有效，是否在应触发时触发，或者编辑后是否真正提升了技能表现。

今天，我们宣布对 skill-creator 的改进，帮助作者更自信地构建技能。我们将软件开发中的严谨方法（测试、基准测试、迭代改进）引入技能创作中，无需编写代码。

两类技能

技能大致分为两类：

这一区分很重要，因为两类技能测试的侧重点不同：

无论哪种，测试能将“看似有效”的技能转变为“确实有效”。

Skill-creator 现在支持编写评估测试，检查 Claude 是否按预期响应特定提示。类似软件测试，您定义测试提示（及必要的文件），描述理想结果，skill-creator 会告诉您技能是否通过测试。

例如，我们的 PDF 技能之前在处理非可填写表单时表现不佳，Claude 需要在无字段指导的情况下将文本放置在精确坐标。通过评估定位问题后，我们发布了修复，将定位锚定到提取的文本坐标。

评估的两个重要作用是捕捉质量回退和了解模型进展。

首先，捕捉质量回退。随着模型和基础设施演进，上个月表现良好的技能可能今天表现不同。针对新模型运行评估能提前发现变化，避免影响团队工作。

其次，判断模型能力是否超越技能。这主要针对能力提升型技能。如果基础模型在未加载技能时也能通过评估，说明技能的技巧已被模型默认行为吸收，技能虽未损坏，但可能不再必要。

我们还新增了基准模式，使用您的评估进行标准化测试。您可以在模型更新后或技能迭代时运行，跟踪评估通过率、耗时和令牌使用量。

您的评估和结果可本地保存，集成到仪表盘或持续集成系统中。

顺序运行评估速度较慢且上下文可能相互影响。skill-creator 现支持多智能体并行运行评估，每个智能体在独立上下文中执行，拥有独立的令牌和计时指标，结果更快且无交叉干扰。

我们还增加了比较智能体，用于 A/B 测试：比较两个技能版本或技能与无技能的表现。智能体在不知晓身份的情况下评判输出，帮助判断改动是否真正有效。

评估衡量输出质量，但前提是技能能在合适时机触发。随着技能数量增加，描述的精准度至关重要：描述过宽会导致误触发，过窄则可能不触发。skill-creator 现能分析当前描述与示例提示，建议修改以减少误触发和漏触发。

我们在文档创建技能上测试，5/6 公共技能触发准确率得到提升。

随着模型不断进步，“技能”与“规范”之间的界限可能会模糊。当前，SKILL.md 文件本质上是实现计划，详细指导 Claude 如何完成任务。未来，技能的自然语言描述可能足够，模型自行推断具体实现。

我们今天发布的评估框架正是朝这个方向迈出的一步。评估已经描述了“做什么”，未来这描述本身或许就是技能。

所有 skill-creator 更新现已在 Claude.ai 和 Cowork 平台上线。您可以直接让 Claude 使用 skill-creator 开始体验。

Claude Code 用户可安装插件或从我们的代码库下载使用。