
利用AI技术逼真合成面部、声音与动作
无论是名人讲话的视频、上司发来的语音信息,还是看似本人发布的社交媒体内容,辨别这些是否真的是本人制作的,变得越来越困难。
所谓“深度伪造”(Deepfake),是指利用人工智能技术,将人物的面部、声音、动作等合成得极为逼真的图片、视频、音频,或指这种生成技术。其名称由“深度学习”(Deep Learning)和“伪造”(Fake)组合而成。
通过学习已有的照片、视频和音频,能够将人物的面孔和声音替换成他人,制造出仿佛本人在说话或行动的内容。
与传统合成技术的区别
过去也存在“合成图片”或“音频编辑”等技术,但深度伪造的显著不同在于,利用AI可以在极短时间内生成更加自然的伪造内容。
如今,在某些环境下,甚至可以几乎实时替换人物的面部表情和声音,达到视频会议或通话中几乎无异样的效果。
当然,这项技术若被正确使用,可以拓展电影、游戏、教育以及已故人物复现等领域的表现力。但其被滥用的风险也极大。
深度伪造的恶意用途
最典型的恶用是利用名人进行诈骗广告。比如伪装政治家、艺人或企业高管推荐投资,引导用户进入虚假投资网站。
声音的深度伪造同样危险。通过少量语音样本合成与本人相似的声音,冒充上司或家人要求转账的诈骗案例屡见不鲜。美国联邦调查局(FBI)也对利用AI生成的音视频克隆进行诈骗和社会工程攻击发出警告。
此外,未经许可使用声优、演员、主播等的声音,制作他们未曾说过的话语,或未经同意生成其色情图片和视频,也成为严重问题。
与其辨别,不如确认
应对深度伪造的关键是“不要仅凭视频或音频判断真伪”。
过去常说可以通过“嘴型不自然”、“眨眼少”或“声音怪异”等方式辨别,但技术进步迅速,单靠这些外观和声音的差异判断已不可靠。
尤其是在涉及转账、合同变更、机密信息共享等重要事项时,务必通过其他渠道确认。例如,即使是上司发来的语音信息,也应通过公司正式联系方式或电话确认;家人提出请求时,也应回拨其常用号码。这种“多渠道确认”是最基本的防御措施。
同时,在社交媒体上的视频或广告,也要核实发布账号和链接。新注册账号、短链接或引导至不自然的海外域名的链接都需警惕。

技术检测手段并非万能
目前也有用于识别AI生成内容的技术。例如,日本国家谷歌推出了“SynthID”电子水印技术,可嵌入生成的图片、音频、视频和文本中,帮助确认是否为AI生成。谷歌表示,其生成的声音技术如Gemini 3.1 Flash TTS也会使用SynthID。
但这些技术并非万能,检测效果受生成源和格式影响,并非所有AI生成内容都会带有统一标识。因此,这些只能作为辅助确认手段。
深度伪造技术一方面拓展了表达的可能性,另一方面也带来了“仅凭看到和听到难以信任”的时代。未来,除了关注影像和声音的真实感,更应重视“信息来源”和“是否能通过其他渠道确认”,这将变得愈发重要。


