我用谷歌Gemini的AI头像工具克隆了自己，结果令人毛骨悚然

虽然视频中的男子看起来和声音听起来都像我，但这段视频实际上是通过谷歌Gemini应用中的新功能——头像生成的。这些数字化的克隆类似于OpenAI已停用的Sora应用的核心功能。它是你自己的数字克隆，可以被插入到AI视频中。头像功能由谷歌新推出的Omni视频模型驱动，仅对订阅用户开放。

我每月支付20美元订阅谷歌的AI Pro计划，很快就用满了Gemini的使用限制（每5小时重置一次）。我简单地问了几个问题，生成了两段各10秒的头像视频，随后被告知需要等待一段时间才能继续使用。

我第一次看到Omni用我的形象生成的视频，是我在旧金山对着一只恐龙唱生日歌，以及在金门大桥下冲浪。那种感觉既让我惊讶又有些不安。视频内容有些尴尬，出现了混乱的场景和不合逻辑的服装，但视频中的那个人确实是我。我用手指放大观看他的脸，仔细观察嘴巴的动作。牙齿有些不自然，但整体上就是我，连下巴的赘肉都一模一样。

与OpenAI不同，后者曾允许用户决定是否允许他人用他们的形象生成AI视频，谷歌则只允许成年人用自己的头像制作视频。

我花了大约五分钟通过Gemini应用设置了我的头像。过程是在光线充足的房间里，用手机摄像头对准脸部，朗读一串两位数的数字。然后缓慢地向右看，再转头向左，整个过程就完成了。Reece 2.0诞生了，准备成为我的深度伪造明星。（设置时请注意穿着，因为你的服装很可能会出现在AI生成的视频中，稍后会详细说明。）

让我们逐帧分析那段生日视频，来细细体会我的感受。完整提示是：生成一段我在Dolores公园山顶对一只年迈恐龙唱生日歌的视频。

视频开始的第一秒有个“千禧一代式”的停顿，因为即使是AI版的我也有些习惯动作。最引人注目的是逼真的场景。谷歌的AI视频背景非常接近真实地点，而不是随意放置在某个大山丘上。从棕榈树排成的步道到远处耸立的Salesforce大厦，立刻能辨认出这是哪个公园，尽管输出并不完美。作为一家以地图技术闻名的公司，这点很合理。

当AI版的我开始唱歌时，声音比我实际唱得更低沉，前几句听起来很自然。我随着节拍上下挥动双手，像个小指挥家。然后在唱“to”这个词时结巴了，Gemini切换到广角镜头，真正的混乱开始了。画面中突然出现了一个普通的杯子蛋糕，我还吐出一团烟雾，吹灭了庆祝的蜡烛。（说实话，AI版的我真没礼貌，这可不是你的特别日子。）

我用头像功能生成的另一段视频也混合了混乱和逼真的镜头，内容是我在金门大桥下冲浪。完整提示是：生成一段我在金门大桥下冲浪的视频。

视频中我没有穿潜水服，而是全身穿着牛仔布。至少我没有穿鞋站在冲浪板上。这段AI视频还包括一些看起来像是用安装在冲浪板上的GoPro拍摄的镜头。

随着越来越多的人使用生成式AI，尤其是那些没有严格限制的模型，这些工具被越来越多地用来针对女性制作未经同意的深度伪造视频。谷歌表示，在推出这项新功能时，安全性是首要考虑。谷歌DeepMind负责Omni产品团队的Nicole Brichtova说：“我们努力防止伤害，同时尽量不阻碍正常的使用。”

尽管AI版的我在视频中有结巴和其他错误，这些高度逼真的数字克隆版本却比我听回语音留言或重看周末的录像更让我感到真实。这个头像并不是让我看起来更帅，而是一种更诡异的感觉。我的数字克隆无缝地展现了我自己，随时准备出现在任何地方，做任何事，成为我自己。

我用谷歌Gemini的AI头像工具克隆了自己，结果令人毛骨悚然

标签

评论

相关阅读

融合实践经验与生成式AI的“富士通AI驱动现代化服务”

OpenAI提出超智能社会的“AI权利”和“每周四天工作制”建议

社交媒体热议特朗普与AI版罗斯福总统对话：他真的以为是真人吗？