#多模态模型 - AI情报

2026/07/02

日本国产机器人与物理AI基础平台实现大型企业出资新公司Noetra启动

日本国产多模态基础模型的研发正式启动，目标是面向AI机器人和物理AI领域。由日本索尼集团、日本软银、日本电气（NEC）、日本本田技研工业等企业出资成立的株式会社Noetra（诺埃特拉）于7月1日正式开始运营。 7月30日，经济产业省和新能源产业技术综合开发机构（NEDO）启动了“面向AI机器人与物理AI的多模态基础模型开发项目”，Noetra（前身为日本AI基础模型开发）被正式选定为项目承担企业

AI资讯

2026/05/21

谷歌发布可自由生成与编辑影像的“Gemini Omni”

谷歌推出全新多模态生成模型“Gemini Omni”，支持视频、图像、音频和文本的自由组合与编辑。

Lilian Weng总结35篇关于递归自我改进（RSI）中的Harness工程论文

AI资讯

2026/07/08

Lilian Weng总结35篇关于递归自我改进（RSI）中的Harness工程论文

在一个平静的日子里，我们得以阅读一些浓缩的洞见。

AI资讯

2026/03/19

Replit Agent 4：知识工作代理的新篇章

Replit在过去六个月内估值飙升至90亿美元。作为创始人，Amjad Masad和他的团队对当前技术趋势的敏锐把握令人钦佩。或许你未曾深入了解Replit，比如他们2015年的《大师计划》或纪录片，但现在的Replit已远非两年前那个“附带AI功能的编码平台”。如今，随着软件工程问题基本解决，Replit正向上游拓展，打造一个集画布、应用、网站、幻灯片、视频等多功能于一体的完整生产力套件。这

AI资讯

2026/07/10

Meta发布面向智能代理时代的大型新AI模型

Meta推出了升级版多模态AI模型Muse Spark 1.1，专为智能代理任务设计，提升计算机操作、编程和多模态理解能力。

AI配音新时代：同义实验室开源Fun-CineForge，首创多人物对话难题解决方案

AI资讯

2026/03/18

AI配音新时代：同义实验室开源Fun-CineForge，首创多人物对话难题解决方案

Fun-CineForge是一款开源多模态模型，通过提升情感表达和唇动同步精度，推动AI配音技术在影视领域的应用。

AI资讯

2026/05/21

谷歌Gemini Omni：将图像、音频和文本转化为视频，这仅仅是开始

三年前，谷歌推出了Gemini，目标是打造一个多模态大型语言模型——一个能够处理文本、图像、音频和视频，并能生成任意格式内容的单一神经网络。如今，在谷歌I/O开发者大会上，谷歌迈出了实现这一目标的重要一步，发布了Gemini Omni。这是一系列多模态模型，谷歌CEO桑达尔·皮查伊表示，Gemini Omni能够“从任何输入创造任何内容”。 Gemini Omni首先聚焦于视频生成。用户可以将图

理光开发强化日语推理能力的多模态大规模语言模型Qwen3.6-Ricoh-27B-20260522

AI资讯

2026/06/05

理光开发强化日语推理能力的多模态大规模语言模型Qwen3.6-Ricoh-27B-20260522

理光基于阿里巴巴云开发的大规模语言模型Qwen3.6-27B，推出了专注提升日语推理能力的多模态大规模语言模型，计划应用于企业级解决方案。

AI资讯

2026/04/09

马克·扎克伯格在社交媒体上表示，Meta的目标是打造不仅能回答问题，还能作为代理为用户执行任务的AI产品。这位亿万富翁乐观地认为，这将推动一波创造力、创业、增长和健康的浪潮。 Meta最新推出的Muse Spark显然是对其去年4月发布的Llama 4的重大升级。Llama 4在科技界被视为表现平平，未达预期。 Muse Spark现已通过meta.ai和Meta AI应用提供使用。与Llama不

AI资讯

2026/05/07

NVIDIA发布开放式多模态模型“Nemotron 3 Nano Omni”

NVIDIA推出集视觉、语音和语言于一体的多模态AI模型，实现更高效智能的多数据响应。

NVIDIA发布Cosmos 3、Nemotron 3 Ultra及RTX Spark，推动开放物理AI发展

AI资讯

2026/06/02

NVIDIA发布Cosmos 3、Nemotron 3 Ultra及RTX Spark，推动开放物理AI发展

本文介绍了NVIDIA最新发布的多模态世界模型Cosmos 3、超大规模语言模型Nemotron 3 Ultra，以及个人AI超级芯片RTX Spark，解析其技术亮点和行业影响。

AI资讯

2026/04/24

谷歌推出通用版“Gemini Embedding 2”模型

谷歌发布了支持多模态数据的嵌入生成模型“Gemini Embedding 2”，现已在Vertex AI和Gemini API中开放使用。