#多模态技术 - AI情报

AI资讯

2026/03/17

谷歌逐步开放Gemini网页版，香港用户迎来图像与音乐生成全功能体验

谷歌Gemini AI助手网页版正式向香港用户开放，支持文本、图像、语音及数据多模态处理，打破此前访问限制。

AI资讯

2026/05/30

创始人与前沿部署工程师：AI领域的新聚焦

本文回顾了近期AI领域的重要动态，特别是Anthropic的最新进展，以及AIE推出的前沿部署工程师和创始人项目，涵盖模型更新、工具链优化和多模态技术等热点。

AI资讯

2026/07/02

日本インプレス发布全面解析AI模型内部结构与实战技术新书

日本インプレス推出涵盖Transformer模型内部结构及多模态、RAG、SLM实现与优化的专业书籍。

AI资讯

2026/03/23

Seedance 2.0全球发布，登顶人工智能视频生成排行榜

字节跳动推出了支持多模态输入的AI视频生成模型Seedance 2.0，能够生成高保真1080p视频，实现音视频同步，提升运动稳定性和物理真实感，在独立盲测中表现优异。

谷歌发布音乐生成AI模型“Lyria 3 Pro” 可生成最长3分钟音乐并集成至“Gemini”应用及“Google Vids”

AI资讯

2026/03/26

谷歌发布音乐生成AI模型“Lyria 3 Pro” 可生成最长3分钟音乐并集成至“Gemini”应用及“Google Vids”

美国谷歌公司于3月25日（当地时间）宣布推出全新音乐生成模型“Lyria 3 Pro”。该模型是在上个月发布的音乐生成模型“Lyria 3”的基础上开发的高级版本，支持生成最长约3分钟的完整音乐作品，并具备更强的定制和创意控制能力。用户可以通过提示词指定音乐的特定部分，如前奏、主歌、副歌和桥段等。 “Lyria 3”提供两种不同版本以满足不同需求： Lyria 3 Pro（lyria-3-pro

SB C&S开始代理Sparticle的本地部署生成式AI平台“GBase on Spark”

AI资讯

2026/06/13

SB C&S开始代理Sparticle的本地部署生成式AI平台“GBase on Spark”

日本SB C&S株式会社于10日宣布，正式开始代理Sparticle株式会社的本地部署型大型语言模型（LLM）平台“GBase on Spark”，该平台能够在不将机密数据发送到外部的情况下，安全地利用生成式AI。 “GBase on Spark”是一套结合了本地部署生成式AI解决方案“GBase On-premises”与包括NVIDIA AI基础设施“NVIDIA DGX Spark”