我们都知道,人工智能的安全防护措施远非完美,但至少应该不容易被绕过,对吧?坏消息是:事实并非如此。
《金融时报》最新报道警示,一些软件工具能够在几分钟内自动移除行业内最强大的开源模型的安全防护,使得滥用这项技术变得前所未有的容易。
在《金融时报》和AI安全组织Alice的测试中,谷歌的Gemma 3模型经过“去审查”后,竟然能够提供如何进行室内氯气攻击的指导,制造窃取信用卡信息的病毒,甚至生成描述儿童性虐待的故事。而Meta的Llama 3.3模型的安全防护也在不到十分钟内被移除,AI能够回答诸如根据体重计算致死剂量的蓖麻毒素等敏感问题。
这些修改是通过名为Heretic的工具完成的,该工具在代码托管平台GitHub上免费提供,使用门槛低,无需专业硬件。
芝加哥大学布斯商学院应用AI助理教授Kawin Ethayarajh告诉《金融时报》:“过去可能需要更专业且坚持不懈的人员才能移除安全功能,而现在普通人也能轻松做到。”

Heretic被描述为一种“无需昂贵后期训练即可移除基于变换器语言模型的审查(即‘安全对齐’)的工具”。它通过“消除”模型中拒绝有害请求的指令来实现这一点。
根据其GitHub页面介绍,Heretic的强大之处在于它完全自动化完成这一过程。其创始人Philipp Emanuel Weidmann向《金融时报》透露,自去年底发布以来,Heretic已被用来创建超过3500个“去审查”模型,下载次数达到1300万次。
Alice的CEO Noam Schwartz表示:“魔瓶已开,曾经看似科幻的事情不再是科幻,我们作为社会必须做好相应准备。”
值得庆幸的是,这类消除工具仅适用于可下载并本地运行的开源模型,这意味着Anthropic的Claude和OpenAI的ChatGPT等旗舰专有模型仍然安全(只要它们没有被泄露)。但开源模型的能力已不逊于大型科技公司的产品,且出于隐蔽目的,某些人可能更倾向于使用开源模型。
谷歌承认Heretic等工具带来的风险,向《金融时报》表示:“消除安全防护是所有开源模型面临的已知技术挑战”,并强调其开源模型在发布前会经过严格的内部安全评估以防止此类问题。Meta则拒绝置评。

