AI资讯第7回:什么是“多模态”——不仅理解文字,还能处理图像、音频和视频的AI
多模态AI能够综合处理文字、图像、音频和视频等多种信息形式,推动AI从单纯的文本生成工具向多信息融合处理工具转变。
按标签聚合查看文章内容。
AI资讯多模态AI能够综合处理文字、图像、音频和视频等多种信息形式,推动AI从单纯的文本生成工具向多信息融合处理工具转变。
AI资讯微软AI研究实验室于周四宣布推出三款基础AI模型,分别支持文本、语音和图像生成。这一发布标志着微软在构建多模态AI模型体系上的持续努力,旨在与其他AI实验室竞争,尽管微软仍与OpenAI保持合作关系。 其中,MAI-Transcribe-1支持25种语言的语音转文本,速度是微软Azure Fast的2.5倍。MAI-Voice-1是一款音频生成模型,能够在一秒内生成60秒的音频,并支持用户定制个性
AI资讯Thinking Machines团队发布了全新交互模型TML-Interaction-Small,凭借2760亿参数和12亿活跃参数,显著提升了实时语音模型的性能,开创了人机协作的新范式。
AI资讯谷歌在I/O大会上发布了多项AI技术进展,涵盖快速代理模型、视频多模态生成、后台智能代理系统及可信内容溯源标准。
AI资讯谷歌DeepMind发布了Gemma 4系列模型,带来显著性能提升和多模态支持,成为当前顶尖的开源模型之一。
AI资讯本文探讨了OpenAI宣布弃用微调API背后的行业变化,以及AI模型训练、推理和应用领域的新动态。
AI图片Pollinations.ai 是一个面向创作者和开发者的 AI 生成平台,提供简单易用的 API、免费算力和社区支持,可快速生成图片、文本、音频和视频,帮助你低成本搭建 AI 应用与创意项目。
AI商业Nexa SDK 是一款面向移动端、PC、车载与物联网设备的 AI 部署工具包,可在 NPU、GPU、CPU 上高效运行 LLM、多模态、语音识别与语音合成模型,实现本地快速、私密、可量产的 AI 推理。
AI资讯智能手机和电脑虽然可以使用“AI”,但大多数情况下,这只是一个“入口”。实际的处理是在互联网另一端的数据中心中的大型计算机上完成的,因为AI需要大量的内存和计算能力。 然而,最近这种常识开始发生变化。虽然在游戏电脑上运行本地AI的尝试早已有之,但现在终于出现了“在智能手机上运行本地AI”的趋势。 这一变化的契机之一是日本国家谷歌公开的“Gemma4”。该AI核心模型采用了允许商业使用的Apache
AI视频TwelveLabs 是一款面向企业和开发者的多模态视频智能平台,通过统一的 API 让 AI 能“看、听、理解”视频内容,实现搜索、分析、洞察与自动化工作流。
AI资讯美国Meta公司于5月12日在X(前身为Twitter)宣布,为其AI助手“Meta AI”引入了“Meta AI语音对话”功能。此次更新搭载了支持多模态输入的AI模型“Muse Spark”,不仅支持文本输入,还能处理语音等多种输入方式。 通过“Meta AI语音对话”,用户可以与Meta AI进行更加自然的交流。除了传统的一问一答模式外,用户还能在对话中随时打断、切换话题,甚至切换语言,极大提
AI资讯在人工智能引发的失业担忧和少数大公司权力增强的背景下,Mira Murati创办的初创公司Thinking Machines Lab提出了一个截然不同的技术愿景。 Murati在接受WIRED采访时表示:“未来我们终将拥有超级智能机器,但我们认为实现多种可能的美好未来的最佳方式,是让人类始终参与其中。” 她认为,人工智能不必将人类排除在外。她提出一种更乐观的观点:让人们构建并定制自己的前沿AI模型