Anthropic网络安全团队如何利用Claude Code构建威胁检测平台

在整个职业生涯中，Jackie Bow一直设想开发能够利用真正重要的上下文信息的工具——不仅仅是日志和警报，而是包括Slack对话、内部文档以及机构知识，这些都能帮助判断某个事件是真正的威胁还是噪音，而无需人工手动筛查大量数据。

加入Anthropic后，她终于有机会实现这个愿景，并以Claude作为合作伙伴。Jackie领导着Anthropic的检测平台工程团队，专注于防御性网络安全：检测威胁并响应潜在的安全事件，而非主动寻找漏洞。团队的工作包括监控系统中的可疑活动、对安全警报进行分级处理，以及在异常成为事件前进行调查。

对于一家不断打造更强大AI模型的公司来说，这项工作至关重要。Anthropic的《负责任扩展政策》将产品发布与安全承诺直接挂钩，意味着Jackie的团队帮助决定公司可以安全发布的内容。

“我觉得现在是安全工程师的黄金时代，”Jackie说，她同时担任Anthropic检测平台工程团队的技术负责人。“我终于能构建那些我一直梦想拥有的工具。”

问题：数据和警报泛滥成灾

安全负责人对此模式再熟悉不过了。

警报触发后，分析师打开终端，开始在五六个不同工具间切换，每个工具都有自己的查询语言和思维模型。他们必须同时掌握多个平台的专业知识，并不断在不同界面和查询语法间切换。

每次调查都像是在进行数据考古，拼凑分散在不同系统中的碎片。对大多数团队来说，简单调查耗时数小时，复杂调查甚至可能持续数天。

“人类每天能处理的警报数量有限，超过这个量后他们对细节的关注度就会下降，”Jackie解释道。

她的团队决定改变现状。他们反思：什么在消耗我们的精力？什么工作重复且低效？什么阻碍我们做出有影响力的工作？

答案很明确。警报分级处理耗费大量时间，分析师才能判断威胁是否真实。跨系统的手动关联极大拖慢了进度。不断切换查询语言和界面带来的认知负担也在不断累积。

随着公司规模扩大，攻击面和安全团队的压力也同步增长。

“没有像Claude这样的辅助，我们无法满足Anthropic的安全需求，”Jackie说。

解决方案：Claude证据查找平台（CLUE）

经过数月努力，Jackie团队开发了CLUE，这是一款重新定义安全团队威胁调查方式的检测与响应平台。CLUE不是简单地增加一个新的仪表盘，而是提供了由Claude驱动的自然语言界面，通过工具直接连接Anthropic内部系统。

利用Claude Code构建CLUE极大缩短了传统软件开发周期，使团队能在完成日常工作的同时快速搭建系统。团队一天内就完成了概念验证，设计文档、开发步骤和实现也在一周内完成。

“我们构建的大部分内容都是通过与Claude Code对话完成的，”Jackie回忆，“它既是设计伙伴，也是协作者。”

她印象深刻的时刻是请求Claude Code为CLUE界面添加一个按钮。她本以为会经历JavaScript框架和CSS调试的繁琐过程，结果Claude Code立刻实现了功能，且效果比她预期更好。

“那时我意识到，我不再受限于自身技术能力，可以实现任何想法。”

CLUE分级处理

当警报进入时，CLUE分级处理会在分析师看到之前完成初步筛查。Claude利用工具从Anthropic的Slack消息、内部文档、代码仓库和数据仓库中提取额外上下文，丰富每条警报信息。它会给出警报性质判断：误报、真实威胁、恶意行为或预期行为，并附带置信度评分，帮助分析师聚焦重点。

这一步解决了安全分析师普遍面临的问题：警报往往是孤立信号，如登录失败、异常API调用或配置变更。没有上下文，这些事件只是噪音；有了上下文（用户身份、工作内容、团队模式匹配），才能识别出真正的威胁信号。

“内部上下文是帮助警报适应环境的关键缺失环节，”Jackie说。

CLUE调查

借助CLUE，安全分析师可以用自然语言查询所有关键安全日志。比如想知道“过去一天该系统所有失败登录记录”，只需向CLUE提问，Claude就会执行相应的SQL查询。

“Claude写出精确查询的能力远超人类，”Jackie表示。该工具运行一个代理循环：协调者向子代理发出命令，子代理并行执行查询，收集结果并综合成连贯的调查总结。原本需要数小时的手动关联工作，现在只需三到四分钟。

数据也证明了这一点。每次调查中，CLUE平均调用25次工具，执行近11次查询，远超人工操作的合理范围且精度更高。每次工具调用若手动完成，都需打开不同控制台或切换界面。

真正的优势在于内部上下文。CLUE通过工具直接连接Anthropic系统，使Claude能访问外部安全平台无法触及的机构知识。警报触发时，Claude能查看Slack是否有维护讨论，查询数据仓库了解基线行为，检查代码仓库理解服务功能。

数据治理审查

团队用一个常见的数据治理场景演示了CLUE能力：检查三名承包商过去两个月是否访问了不该访问的文档。

Jackie说，这类调查通常至少需要半天手动工作，包括查询访问日志、核对权限和审查文档分类。使用CLUE后，Claude读取请求，制定计划，生成详细查询，抽象技术复杂度。调查几分钟内完成，输出总结和建议，并且每条查询都透明可审计。

影响评估

团队在构建CLUE时，不仅关注速度感受，更希望量化成果。

误报率降低：CLUE分级处理前，约三分之一警报为误报，现降至7%，分析师能专注于真正重要的信号。
覆盖范围扩大：更重要的是，团队现在能审查更多信号。过去因时间限制，低置信度信号常被忽略。CLUE分级处理对所有警报进行丰富处理，批量处理成千上万原本被视为仪表盘噪音的信号。
大规模节省时间：基于30天使用数据，CLUE自动执行约12,000次查询和27,000次工具调用，若手动完成估计需1,870小时（234人天），节省时间达5至10倍。
准确性评估仍在进行：准确性比速度更难量化。团队审查CLUE的判断并跟踪分歧，持续构建反馈机制，了解Claude发现的遗漏和误判。每次调查都有完整记录，方便审计Claude的分析过程。

未来展望：让Claude以Claude的方式调查

AI研究中有个概念叫“苦涩教训”——即将人类特定推理编码进模型，往往不如赋予模型通用能力并让它们自主探索方法。Jackie和团队一直在思考这对检测与响应意味着什么。

“CLUE早期开发时，团队讨论过是否限制Claude的调查路径，”Jackie说。“传统SOAR思维是构建剧本，定义每一步，使过程确定性。但我们发现，当给予Claude自由探索的权限——访问工具和目标，而非固定步骤时，它经常采取我们未预料的调查路径，有时还能发现我们遗漏的上下文。”

关键是给Claude设定边界（可用工具和数据），同时开放策略空间。这一洞见指引着CLUE的下一步发展。

从被动响应到主动探索：目前CLUE响应警报后调查，但架构支持更大胆的目标——持续主动搜索异常模式，发现未被规则覆盖的异常行为，识别单独看似正常但整体异常的行为。
自我学习：团队保存每次调查记录，形成知识库，Claude可查询过去调查模式，逐步建立人类分析师难以维持的组织记忆。
拥抱非确定性：传统安全工具视不一致为缺陷，CLUE视其为优势。同一警报在不同时间可能有不同调查路径，第二条路径有时能发现第一条遗漏的内容。团队尝试并行运行多种调查策略并比较结果。

“安全运营的苦涩教训是，我们花了多年时间构建模拟人类调查的系统。下一代工具应赋予模型自主调查能力，让它们找到比我们预设更优的方法，”Jackie总结。

查看我们为安全团队准备的AI加速攻防最佳实践。

立即开始使用Claude Code。敬请关注“Anthropic如何使用Claude”系列的更多故事。

*以上结果基于Claude Sonnet和Opus模型生成。

Anthropic网络安全团队如何利用Claude Code构建威胁检测平台

问题：数据和警报泛滥成灾

解决方案：Claude证据查找平台（CLUE）

CLUE分级处理

CLUE调查

数据治理审查

影响评估

未来展望：让Claude以Claude的方式调查

标签

评论

相关阅读

谷歌DeepMind与A24达成7500万美元合作，押注好莱坞AI未来

OpenAI启动全面行动修复开源漏洞，挑战Anthropic的Mythos模型

OpenClaw引发的自律型AI代理热潮进入轻量化与安全竞赛的群雄割据时代