当Brett Levenson于2019年离开苹果,加入Facebook负责业务诚信时,正值社交媒体巨头陷入剑桥分析丑闻的余波中。那时,他以为只需用更先进的技术就能解决Facebook的内容审核问题。

但他很快发现,问题远比技术复杂。内容审核员需要记住一份40页的政策文件,而这份文件是通过机器翻译成他们的语言的。审核员对每条被标记的内容只有大约30秒的时间,不仅要判断内容是否违规,还要决定如何处理:屏蔽内容、封禁用户或限制传播。Levenson表示,这些快速判断的准确率仅略高于50%。

“这就像抛硬币一样,审核员是否能正确执行政策,而且这些判断往往是在伤害发生多日之后才做出的。”Levenson告诉TechCrunch。

这种滞后且被动的审核方式,在面对灵活且资金充足的对抗者时显然难以为继。随着AI聊天机器人兴起,内容审核的挑战更加严峻,出现了多起高调事件,比如聊天机器人向青少年提供自残指导,或AI生成的图像绕过安全过滤。

Levenson的挫败感催生了“政策即代码”的理念——将静态政策文件转化为可执行且可更新的逻辑,紧密结合执行环节。基于这一理念,他创立了Moonbounce。TechCrunch独家获悉,该公司周五宣布完成1200万美元融资,投资方由Amplify Partners和StepStone Group联合领投。

Moonbounce为企业提供内容生成环节的额外安全层,无论内容是用户生成还是AI生成。公司训练了自己的大型语言模型,能够读取客户的政策文件,实时评估内容,300毫秒内给出响应并采取行动。根据客户需求,系统可以在内容等待人工审核时减缓传播速度,或即时阻断高风险内容。

目前,Moonbounce主要服务于三个领域:处理用户生成内容的平台(如交友应用)、构建AI角色或伴侣的公司,以及AI图像生成器。

Moonbounce支持每日超过4000万次内容审核,服务平台日活跃用户超过1亿。客户包括AI伴侣初创公司Channel AI、图像和视频生成公司Civitai,以及角色扮演平台Dippy AI和Moescape。

Levenson表示:“安全实际上可以成为产品优势,只是过去从未被视为产品的一部分,因为它总是事后发生的事情。我们的客户正在用创新方式将安全融入产品,成为差异化的卖点。”

Tinder的信任与安全负责人曾解释,交友平台利用这类基于大型语言模型的服务,实现了检测准确率提升10倍。

Amplify Partners的普通合伙人Lenny Pruss表示:“内容审核一直是大型在线平台的难题,如今大型语言模型成为每个应用的核心,这一挑战更加严峻。我们投资Moonbounce,是因为我们预见未来所有AI应用都将依赖客观、实时的安全防护作为基础。”

AI公司面临越来越多的法律和声誉压力,因聊天机器人被指引导青少年和弱势用户走向自杀,图像生成器如xAI的Grok被用来制作未经同意的裸照。显然,内部安全防护失效,成为潜在的法律风险。Levenson表示,AI公司正越来越多地寻求外部帮助来加强安全基础设施。

“我们作为第三方,介于用户和聊天机器人之间,因此不会像聊天记录那样被大量上下文淹没。聊天机器人需要记住成千上万个之前的对话内容,而我们只专注于实时执行规则。”他说。

Levenson与前苹果同事Ash Bhardwaj共同管理这家12人公司,Ash曾负责苹果核心产品的大规模云和AI基础设施。下一步,他们将推出“迭代引导”功能,针对2024年一名14岁佛罗里达男孩因沉迷Character AI聊天机器人而自杀的事件开发。该功能不是简单拒绝有害话题,而是在对话中实时拦截并引导,修改提示词,促使聊天机器人做出更积极支持的回应。

Levenson说:“我们希望将引导聊天机器人的能力加入我们的工具包,能够修改用户的提示词,让聊天机器人不仅是有同理心的倾听者,更是有帮助的倾听者。”

当被问及是否考虑被Meta等公司收购,将内容审核工作带回老东家时,Levenson表示他理解Moonbounce与Facebook技术栈的契合,也明白作为CEO的责任。

“我的投资人会杀了我,但我不希望看到有人买下我们后限制技术的使用,变成‘这是我们的,别人不能用’。”他说。