谷歌在2026年I/O大会上带来了丰富的AI技术更新。大会全程直播时长约2小时,The Verge整理了30分钟的精华视频,便于快速了解整体内容。

Gemini 3.5 Flash正式发布

Gemini 3.5 Flash作为谷歌最新的快速代理和编码模型,今日正式全面上线(GA),相较于之前的3.1 Pro版本有显著提升,3.5 Pro版本预计下月发布。该模型支持百万级上下文窗口、最高6.5万输出令牌、四档思考深度(最小、低、中、高),并具备多轮对话中的“思维保留”能力。谷歌宣称其速度是同类前沿模型的4倍,在Antigravity环境中最高可达12倍。

Gemini Omni:多模态生成与编辑

谷歌推出了Gemini Omni系列,将Gemini的推理能力与生成媒体技术结合,首发聚焦视频内容的生成与编辑。Omni支持文本、图像、音频和视频输入,现已在Gemini应用和Flow中向付费用户开放,YouTube Shorts/Create也开始免费试用,API接口将在未来几周内推出。该技术强调对世界的理解和物理规律的建模,支持多轮编辑保持场景和角色一致性。

Antigravity 2.0:智能代理操作系统

谷歌展示了Antigravity 2.0桌面应用、命令行接口(CLI)和开发工具包(SDK),以及Gemini API中的托管代理功能。Antigravity支持多代理并行协作、托管执行和高频迭代循环,能够处理复杂的长时任务。谷歌演示了用93个并行子代理在12小时内构建一个操作系统的案例,处理了超过15,000次请求和26亿令牌,API费用低于1000美元。

搜索与消费者应用更新

谷歌宣布搜索引擎将集成Antigravity和Gemini 3.5 Flash,支持生成定制的视觉工具和模拟,提升多模态查询体验。搜索还将推出信息代理,支持持续监控和实时信号整合,预计今年夏季向Pro/Ultra用户开放。Gemini应用新增“神经表达”设计语言、实时语音交互、个性化每日摘要和24/7云端个人代理Gemini Spark,支持macOS应用和即将上线的桌面语音工作流。

可信内容溯源与标准合作

谷歌推广SynthID技术,用于生成内容的水印和溯源,已与OpenAI、NVIDIA、Kakao和ElevenLabs达成合作。OpenAI也宣布支持通过SynthID水印和C2PA凭证验证生成图像的真实性,这标志着生成媒体溯源标准的逐步形成。

科学与世界模型方向

谷歌强调不只专注于编码和聊天,推出了Gemini for Science系列,支持文献洞察、假设生成和计算发现。相关研究成果已发表于《自然》杂志。Project Genie结合街景数据,打造真实地点的交互式模拟,体现了谷歌在世界模型和物理先验上的投入。

业界反响与观点

支持者认为Gemini 3.5 Flash在速度和代理能力上实现重大飞跃,搜索与Antigravity的结合可能带来变革,Omni展示了谷歌在世界模型领域的战略布局。质疑者关注自我报告的基准测试、价格上涨、与其他模型如GPT-5.5的性能对比以及产品命名和用户体验的混乱。独立评测机构认为3.5 Flash在速度与智能的权衡上表现优异,但运行成本显著增加。

其他重要动态

  • Andrej Karpathy加入Anthropic,专注于自动研究和预训练。
  • OpenAI推出保证计算容量服务,支持长期计算资源预订。
  • GitHub Copilot、Cursor和VS Code等开发工具集成Gemini 3.5 Flash。
  • Hugging Face发布高效DNA生成模型Carbon。
  • AI安全和治理方面,METR发布前沿风险报告,Guidelight成立AI安全标准组织。

谷歌I/O 2026大会现场