第6回：什么是“深度伪造”——一个让“看到”和“听到”都难以信任的时代

深度伪造示意图

利用AI技术逼真合成面部、声音与动作

无论是名人讲话的视频、上司发来的语音信息，还是看似本人发布的社交媒体内容，辨别这些是否真的是本人制作的，变得越来越困难。

所谓“深度伪造”（Deepfake），是指利用人工智能技术，将人物的面部、声音、动作等合成得极为逼真的图片、视频、音频，或指这种生成技术。其名称由“深度学习”（Deep Learning）和“伪造”（Fake）组合而成。

通过学习已有的照片、视频和音频，能够将人物的面孔和声音替换成他人，制造出仿佛本人在说话或行动的内容。

过去也存在“合成图片”或“音频编辑”等技术，但深度伪造的显著不同在于，利用AI可以在极短时间内生成更加自然的伪造内容。

如今，在某些环境下，甚至可以几乎实时替换人物的面部表情和声音，达到视频会议或通话中几乎无异样的效果。

当然，这项技术若被正确使用，可以拓展电影、游戏、教育以及已故人物复现等领域的表现力。但其被滥用的风险也极大。

最典型的恶用是利用名人进行诈骗广告。比如伪装政治家、艺人或企业高管推荐投资，引导用户进入虚假投资网站。

声音的深度伪造同样危险。通过少量语音样本合成与本人相似的声音，冒充上司或家人要求转账的诈骗案例屡见不鲜。美国联邦调查局（FBI）也对利用AI生成的音视频克隆进行诈骗和社会工程攻击发出警告。

此外，未经许可使用声优、演员、主播等的声音，制作他们未曾说过的话语，或未经同意生成其色情图片和视频，也成为严重问题。

应对深度伪造的关键是“不要仅凭视频或音频判断真伪”。

过去常说可以通过“嘴型不自然”、“眨眼少”或“声音怪异”等方式辨别，但技术进步迅速，单靠这些外观和声音的差异判断已不可靠。

尤其是在涉及转账、合同变更、机密信息共享等重要事项时，务必通过其他渠道确认。例如，即使是上司发来的语音信息，也应通过公司正式联系方式或电话确认；家人提出请求时，也应回拨其常用号码。这种“多渠道确认”是最基本的防御措施。

同时，在社交媒体上的视频或广告，也要核实发布账号和链接。新注册账号、短链接或引导至不自然的海外域名的链接都需警惕。

深度伪造检测示意

目前也有用于识别AI生成内容的技术。例如，日本国家谷歌推出了“SynthID”电子水印技术，可嵌入生成的图片、音频、视频和文本中，帮助确认是否为AI生成。谷歌表示，其生成的声音技术如Gemini 3.1 Flash TTS也会使用SynthID。

但这些技术并非万能，检测效果受生成源和格式影响，并非所有AI生成内容都会带有统一标识。因此，这些只能作为辅助确认手段。

深度伪造技术一方面拓展了表达的可能性，另一方面也带来了“仅凭看到和听到难以信任”的时代。未来，除了关注影像和声音的真实感，更应重视“信息来源”和“是否能通过其他渠道确认”，这将变得愈发重要。