今天我们推出了“代码审查”功能,它会在每个拉取请求(PR)上派遣一组智能代理,深入检测那些快速浏览时容易遗漏的漏洞。该系统注重深度而非速度,几乎在Anthropic的每个PR中都会运行。现在,该功能已面向团队和企业用户开放研究预览。
解决审查瓶颈问题
过去一年,Anthropic工程师的代码产出增长了200%。代码审查成为了开发流程中的瓶颈,我们每周都从客户那里听到类似反馈:开发者人手紧张,许多PR只能被快速浏览,缺乏深入审查。
我们需要一个可以信赖的审查者来处理每个PR。代码审查功能正是为此而生:通过多智能体的深度审查,捕捉人类审查者常常忽略的缺陷。这比我们现有的Claude Code GitHub Action更全面(后者仍然开源且可用)。
在Anthropic内部,几乎每个PR都会运行代码审查。此前只有16%的PR获得了实质性的审查意见,现在提升到了54%。虽然它不会直接批准PR——这仍需人工决定——但极大地缩小了审查覆盖与实际发布之间的差距。
工作原理
当PR创建时,代码审查会派遣一组智能代理并行查找漏洞,随后验证这些漏洞以剔除误报,并根据严重程度进行排序。最终结果会以一条高信噪比的总览评论和针对具体缺陷的行内评论形式呈现在PR中。
审查规模会根据PR大小自动调整:大型或复杂的变更会分配更多代理并进行更深入的审查,简单变更则快速通过。根据测试,平均一次审查耗时约20分钟。
代码审查的实际效果
我们内部使用代码审查已有数月:对于超过1000行变更的大型PR,84%发现了问题,平均7.5个缺陷;而小于50行的PR中,发现率为31%,平均0.5个缺陷。工程师们对审查结果认可度很高,错误标记率不到1%。
有一次,一个仅改动一行的生产服务变更看似普通,通常会快速通过,但代码审查将其标记为关键问题。该改动会导致服务认证失败,这种错误在代码差异中不易察觉,但被指出后显而易见。问题在合并前被修复,相关工程师事后表示自己无法单独发现该缺陷。
早期客户也观察到了类似情况。例如,在TrueNAS开源中间件的ZFS加密重构PR中,代码审查发现了相邻代码中一个类型不匹配的潜在缺陷,该缺陷会在每次同步时静默清除加密密钥缓存。这是一个潜伏问题,普通人工审查很难在变更集中发现。
成本与控制
代码审查注重深度,成本高于轻量级的Claude Code GitHub Action。审查费用按令牌使用量计费,平均每次约15至25美元,具体取决于PR的大小和复杂度。
管理员可以通过多种方式控制费用和使用:
- 月度组织预算上限:设定所有审查的总月度支出上限
- 仓库级别控制:仅在指定仓库启用审查
- 分析仪表盘:跟踪审查的PR数量、接受率及总费用
如何开始使用
代码审查现已作为团队和企业计划的研究预览版开放。
- 管理员操作:在Claude Code设置中启用代码审查,安装GitHub应用,并选择需要审查的仓库。
- 开发者操作:启用后,新的PR将自动运行审查,无需额外配置。
更多详情请参阅官方文档。


