Facebook内部人士打造AI时代的内容审核系统

当Brett Levenson于2019年离开苹果，加入Facebook负责业务诚信时，正值社交媒体巨头陷入剑桥分析丑闻的余波中。那时，他以为只需用更先进的技术就能解决Facebook的内容审核问题。

但他很快发现，问题远比技术复杂。内容审核员需要记住一份40页的政策文件，而这份文件是通过机器翻译成他们的语言的。审核员对每条被标记的内容只有大约30秒的时间，不仅要判断内容是否违规，还要决定如何处理：屏蔽内容、封禁用户或限制传播。Levenson表示，这些快速判断的准确率仅略高于50%。

“这就像抛硬币一样，审核员是否能正确执行政策，而且这些判断往往是在伤害发生多日之后才做出的。”Levenson告诉TechCrunch。

这种滞后且被动的审核方式，在面对灵活且资金充足的对抗者时显然难以为继。随着AI聊天机器人兴起，内容审核的挑战更加严峻，出现了多起高调事件，比如聊天机器人向青少年提供自残指导，或AI生成的图像绕过安全过滤。

Levenson的挫败感催生了“政策即代码”的理念——将静态政策文件转化为可执行且可更新的逻辑，紧密结合执行环节。基于这一理念，他创立了Moonbounce。TechCrunch独家获悉，该公司周五宣布完成1200万美元融资，投资方由Amplify Partners和StepStone Group联合领投。

Moonbounce为企业提供内容生成环节的额外安全层，无论内容是用户生成还是AI生成。公司训练了自己的大型语言模型，能够读取客户的政策文件，实时评估内容，300毫秒内给出响应并采取行动。根据客户需求，系统可以在内容等待人工审核时减缓传播速度，或即时阻断高风险内容。

目前，Moonbounce主要服务于三个领域：处理用户生成内容的平台（如交友应用）、构建AI角色或伴侣的公司，以及AI图像生成器。

Moonbounce支持每日超过4000万次内容审核，服务平台日活跃用户超过1亿。客户包括AI伴侣初创公司Channel AI、图像和视频生成公司Civitai，以及角色扮演平台Dippy AI和Moescape。

Levenson表示：“安全实际上可以成为产品优势，只是过去从未被视为产品的一部分，因为它总是事后发生的事情。我们的客户正在用创新方式将安全融入产品，成为差异化的卖点。”

Tinder的信任与安全负责人曾解释，交友平台利用这类基于大型语言模型的服务，实现了检测准确率提升10倍。

Amplify Partners的普通合伙人Lenny Pruss表示：“内容审核一直是大型在线平台的难题，如今大型语言模型成为每个应用的核心，这一挑战更加严峻。我们投资Moonbounce，是因为我们预见未来所有AI应用都将依赖客观、实时的安全防护作为基础。”

AI公司面临越来越多的法律和声誉压力，因聊天机器人被指引导青少年和弱势用户走向自杀，图像生成器如xAI的Grok被用来制作未经同意的裸照。显然，内部安全防护失效，成为潜在的法律风险。Levenson表示，AI公司正越来越多地寻求外部帮助来加强安全基础设施。

“我们作为第三方，介于用户和聊天机器人之间，因此不会像聊天记录那样被大量上下文淹没。聊天机器人需要记住成千上万个之前的对话内容，而我们只专注于实时执行规则。”他说。

Levenson与前苹果同事Ash Bhardwaj共同管理这家12人公司，Ash曾负责苹果核心产品的大规模云和AI基础设施。下一步，他们将推出“迭代引导”功能，针对2024年一名14岁佛罗里达男孩因沉迷Character AI聊天机器人而自杀的事件开发。该功能不是简单拒绝有害话题，而是在对话中实时拦截并引导，修改提示词，促使聊天机器人做出更积极支持的回应。

Levenson说：“我们希望将引导聊天机器人的能力加入我们的工具包，能够修改用户的提示词，让聊天机器人不仅是有同理心的倾听者，更是有帮助的倾听者。”

当被问及是否考虑被Meta等公司收购，将内容审核工作带回老东家时，Levenson表示他理解Moonbounce与Facebook技术栈的契合，也明白作为CEO的责任。

“我的投资人会杀了我，但我不希望看到有人买下我们后限制技术的使用，变成‘这是我们的，别人不能用’。”他说。

Facebook内部人士打造AI时代的内容审核系统

标签

评论

相关阅读

CodeRabbit如何利用Claude构建智能代理编排系统

Google Vids新增AI功能，实现视频生成与音乐创作

EIZO与日本西日本旅客铁道联合开发搭载图像识别AI的边缘计算机正式发售