#多模态AI

按标签聚合查看文章内容。

微软推出三款全新基础AI模型,挑战竞争对手AI资讯

微软推出三款全新基础AI模型,挑战竞争对手

微软AI研究实验室于周四宣布推出三款基础AI模型,分别支持文本、语音和图像生成。这一发布标志着微软在构建多模态AI模型体系上的持续努力,旨在与其他AI实验室竞争,尽管微软仍与OpenAI保持合作关系。 其中,MAI-Transcribe-1支持25种语言的语音转文本,速度是微软Azure Fast的2.5倍。MAI-Voice-1是一款音频生成模型,能够在一秒内生成60秒的音频,并支持用户定制个性

智能手机上本地运行AI的新趋势AI资讯

智能手机上本地运行AI的新趋势

智能手机和电脑虽然可以使用“AI”,但大多数情况下,这只是一个“入口”。实际的处理是在互联网另一端的数据中心中的大型计算机上完成的,因为AI需要大量的内存和计算能力。 然而,最近这种常识开始发生变化。虽然在游戏电脑上运行本地AI的尝试早已有之,但现在终于出现了“在智能手机上运行本地AI”的趋势。 这一变化的契机之一是日本国家谷歌公开的“Gemma4”。该AI核心模型采用了允许商业使用的Apache

TwelveLabs 视频智能平台与 APIAI视频

TwelveLabs 视频智能平台与 API

TwelveLabs 是一款面向企业和开发者的多模态视频智能平台,通过统一的 API 让 AI 能“看、听、理解”视频内容,实现搜索、分析、洞察与自动化工作流。

Meta AI搭载新AI模型“Muse Spark”,实现语音对话功能AI资讯

Meta AI搭载新AI模型“Muse Spark”,实现语音对话功能

美国Meta公司于5月12日在X(前身为Twitter)宣布,为其AI助手“Meta AI”引入了“Meta AI语音对话”功能。此次更新搭载了支持多模态输入的AI模型“Muse Spark”,不仅支持文本输入,还能处理语音等多种输入方式。 通过“Meta AI语音对话”,用户可以与Meta AI进行更加自然的交流。除了传统的一问一答模式外,用户还能在对话中随时打断、切换话题,甚至切换语言,极大提

Mira Murati希望她的AI“让人类始终参与其中”AI资讯

Mira Murati希望她的AI“让人类始终参与其中”

在人工智能引发的失业担忧和少数大公司权力增强的背景下,Mira Murati创办的初创公司Thinking Machines Lab提出了一个截然不同的技术愿景。 Murati在接受WIRED采访时表示:“未来我们终将拥有超级智能机器,但我们认为实现多种可能的美好未来的最佳方式,是让人类始终参与其中。” 她认为,人工智能不必将人类排除在外。她提出一种更乐观的观点:让人们构建并定制自己的前沿AI模型