想象这样一个场景:你的算法自动播放了一个YouTube背景视频或播客,而你毫不知情的是,黑客已经在其中植入了人耳无法听见的声音,这些声音专门设计用来劫持你的智能音箱或手机上的AI助手。这样一来,网络犯罪分子就能访问你的私人照片、银行账户或任何与你的AI系统关联的个人信息。
这听起来像是《黑镜》中的情节,但正是本周在IEEE安全与隐私研讨会上发布的一项新研究所证实的现实。来自中国和新加坡的研究团队发现,他们能够构造出“对抗性音频”,这种音频对人耳完全不可察觉,却能欺骗语音AI模型执行不该执行的操作。随后,这种音频可以轻松隐藏在听起来无害的背景声音中——无论是一首歌、一部电影,还是其他任何用户可能在背景播放的内容——等待用户无意中暴露自己的数字生活。
该研究的主要作者、中国浙江大学博士生孟晨告诉IEEE Spectrum:“训练这种信号只需半小时,而且因为这种信号与上下文无关,你可以在任何时候用它来攻击目标模型,无论用户说什么。这些单点防御措施难以抵御我们的攻击,因为模型很难区分正常用户意图和我们的对抗攻击。”

目前,这项技术有一个限制:黑客必须获得目标AI模型的完整权重,因此他们只能攻击开源模型。但由于许多商业AI系统都是基于开源模型构建的,这意味着他们的攻击对微软和Mistral等主流产品同样有效。
微软对IEEE的采访请求做出了回应,表示:“我们感谢研究人员推动对这类技术的理解。该研究通过与模型的直接受控交互评估了模型的韧性,这有助于指导我们构建更强韧模型的策略。实际上,AI模型通常集成在用户应用中,我们为开发者提供工具和指导,帮助他们实施额外的保护层,保障用户安全。”
Mistral未对采访请求作出回应。


