在整个职业生涯中,Jackie Bow一直设想开发能够利用真正重要的上下文信息的工具——不仅仅是日志和警报,而是包括Slack对话、内部文档以及机构知识,这些都能帮助判断某个事件是真正的威胁还是噪音,而无需人工手动筛查大量数据。

加入Anthropic后,她终于有机会实现这个愿景,并以Claude作为合作伙伴。Jackie领导着Anthropic的检测平台工程团队,专注于防御性网络安全:检测威胁并响应潜在的安全事件,而非主动寻找漏洞。团队的工作包括监控系统中的可疑活动、对安全警报进行分级处理,以及在异常成为事件前进行调查。

对于一家不断打造更强大AI模型的公司来说,这项工作至关重要。Anthropic的《负责任扩展政策》将产品发布与安全承诺直接挂钩,意味着Jackie的团队帮助决定公司可以安全发布的内容。

“我觉得现在是安全工程师的黄金时代,”Jackie说,她同时担任Anthropic检测平台工程团队的技术负责人。“我终于能构建那些我一直梦想拥有的工具。”

问题:数据和警报泛滥成灾

安全负责人对此模式再熟悉不过了。

警报触发后,分析师打开终端,开始在五六个不同工具间切换,每个工具都有自己的查询语言和思维模型。他们必须同时掌握多个平台的专业知识,并不断在不同界面和查询语法间切换。

每次调查都像是在进行数据考古,拼凑分散在不同系统中的碎片。对大多数团队来说,简单调查耗时数小时,复杂调查甚至可能持续数天。

“人类每天能处理的警报数量有限,超过这个量后他们对细节的关注度就会下降,”Jackie解释道。

她的团队决定改变现状。他们反思:什么在消耗我们的精力?什么工作重复且低效?什么阻碍我们做出有影响力的工作?

答案很明确。警报分级处理耗费大量时间,分析师才能判断威胁是否真实。跨系统的手动关联极大拖慢了进度。不断切换查询语言和界面带来的认知负担也在不断累积。

随着公司规模扩大,攻击面和安全团队的压力也同步增长。

“没有像Claude这样的辅助,我们无法满足Anthropic的安全需求,”Jackie说。

解决方案:Claude证据查找平台(CLUE)

经过数月努力,Jackie团队开发了CLUE,这是一款重新定义安全团队威胁调查方式的检测与响应平台。CLUE不是简单地增加一个新的仪表盘,而是提供了由Claude驱动的自然语言界面,通过工具直接连接Anthropic内部系统。

利用Claude Code构建CLUE极大缩短了传统软件开发周期,使团队能在完成日常工作的同时快速搭建系统。团队一天内就完成了概念验证,设计文档、开发步骤和实现也在一周内完成。

“我们构建的大部分内容都是通过与Claude Code对话完成的,”Jackie回忆,“它既是设计伙伴,也是协作者。”

她印象深刻的时刻是请求Claude Code为CLUE界面添加一个按钮。她本以为会经历JavaScript框架和CSS调试的繁琐过程,结果Claude Code立刻实现了功能,且效果比她预期更好。

“那时我意识到,我不再受限于自身技术能力,可以实现任何想法。”

CLUE分级处理

当警报进入时,CLUE分级处理会在分析师看到之前完成初步筛查。Claude利用工具从Anthropic的Slack消息、内部文档、代码仓库和数据仓库中提取额外上下文,丰富每条警报信息。它会给出警报性质判断:误报、真实威胁、恶意行为或预期行为,并附带置信度评分,帮助分析师聚焦重点。

这一步解决了安全分析师普遍面临的问题:警报往往是孤立信号,如登录失败、异常API调用或配置变更。没有上下文,这些事件只是噪音;有了上下文(用户身份、工作内容、团队模式匹配),才能识别出真正的威胁信号。

“内部上下文是帮助警报适应环境的关键缺失环节,”Jackie说。

CLUE调查

借助CLUE,安全分析师可以用自然语言查询所有关键安全日志。比如想知道“过去一天该系统所有失败登录记录”,只需向CLUE提问,Claude就会执行相应的SQL查询。

“Claude写出精确查询的能力远超人类,”Jackie表示。该工具运行一个代理循环:协调者向子代理发出命令,子代理并行执行查询,收集结果并综合成连贯的调查总结。原本需要数小时的手动关联工作,现在只需三到四分钟。

数据也证明了这一点。每次调查中,CLUE平均调用25次工具,执行近11次查询,远超人工操作的合理范围且精度更高。每次工具调用若手动完成,都需打开不同控制台或切换界面。

真正的优势在于内部上下文。CLUE通过工具直接连接Anthropic系统,使Claude能访问外部安全平台无法触及的机构知识。警报触发时,Claude能查看Slack是否有维护讨论,查询数据仓库了解基线行为,检查代码仓库理解服务功能。

数据治理审查

团队用一个常见的数据治理场景演示了CLUE能力:检查三名承包商过去两个月是否访问了不该访问的文档。

Jackie说,这类调查通常至少需要半天手动工作,包括查询访问日志、核对权限和审查文档分类。使用CLUE后,Claude读取请求,制定计划,生成详细查询,抽象技术复杂度。调查几分钟内完成,输出总结和建议,并且每条查询都透明可审计。

影响评估

团队在构建CLUE时,不仅关注速度感受,更希望量化成果。

  • 误报率降低:CLUE分级处理前,约三分之一警报为误报,现降至7%,分析师能专注于真正重要的信号。
  • 覆盖范围扩大:更重要的是,团队现在能审查更多信号。过去因时间限制,低置信度信号常被忽略。CLUE分级处理对所有警报进行丰富处理,批量处理成千上万原本被视为仪表盘噪音的信号。
  • 大规模节省时间:基于30天使用数据,CLUE自动执行约12,000次查询和27,000次工具调用,若手动完成估计需1,870小时(234人天),节省时间达5至10倍。
  • 准确性评估仍在进行:准确性比速度更难量化。团队审查CLUE的判断并跟踪分歧,持续构建反馈机制,了解Claude发现的遗漏和误判。每次调查都有完整记录,方便审计Claude的分析过程。

未来展望:让Claude以Claude的方式调查

AI研究中有个概念叫“苦涩教训”——即将人类特定推理编码进模型,往往不如赋予模型通用能力并让它们自主探索方法。Jackie和团队一直在思考这对检测与响应意味着什么。

“CLUE早期开发时,团队讨论过是否限制Claude的调查路径,”Jackie说。“传统SOAR思维是构建剧本,定义每一步,使过程确定性。但我们发现,当给予Claude自由探索的权限——访问工具和目标,而非固定步骤时,它经常采取我们未预料的调查路径,有时还能发现我们遗漏的上下文。”

关键是给Claude设定边界(可用工具和数据),同时开放策略空间。这一洞见指引着CLUE的下一步发展。

  • 从被动响应到主动探索:目前CLUE响应警报后调查,但架构支持更大胆的目标——持续主动搜索异常模式,发现未被规则覆盖的异常行为,识别单独看似正常但整体异常的行为。
  • 自我学习:团队保存每次调查记录,形成知识库,Claude可查询过去调查模式,逐步建立人类分析师难以维持的组织记忆。
  • 拥抱非确定性:传统安全工具视不一致为缺陷,CLUE视其为优势。同一警报在不同时间可能有不同调查路径,第二条路径有时能发现第一条遗漏的内容。团队尝试并行运行多种调查策略并比较结果。

“安全运营的苦涩教训是,我们花了多年时间构建模拟人类调查的系统。下一代工具应赋予模型自主调查能力,让它们找到比我们预设更优的方法,”Jackie总结。

查看我们为安全团队准备的AI加速攻防最佳实践。

立即开始使用Claude Code。敬请关注“Anthropic如何使用Claude”系列的更多故事。

*以上结果基于Claude Sonnet和Opus模型生成。