AI资讯谷歌发布最新实时语音翻译模型“Gemini 3.5 Live Translate”
谷歌推出支持70多种语言的实时语音翻译新模型,提升多语言交流体验。
按标签聚合查看文章内容。
AI资讯谷歌推出支持70多种语言的实时语音翻译新模型,提升多语言交流体验。
AI资讯美国ElevenLabs公司与美国IBM于3月25日宣布合作,将ElevenLabs的语音识别(Speech-to-Text)和语音合成(Text-to-Speech)技术整合到IBM的AI代理产品“watsonx Orchestrate”中。此次合作旨在帮助客户在满足企业安全性和可扩展性需求的同时,提升由AI代理驱动的用户体验,提供更加丰富自然的语音交互工具。 语音作为AI代理与客户及员工沟通的
AI资讯企业级AI公司Cohere于周四推出了其首个语音模型:Transcribe。这是一款开源的自动语音识别(ASR)模型,适用于笔记记录和语音分析等任务。 该模型参数量仅为20亿,设计目标是支持使用消费级GPU的用户自托管。目前,Transcribe支持14种语言,包括英语、法语、德语、意大利语、西班牙语、葡萄牙语、希腊语、荷兰语、波兰语、中文、日语、韩语、越南语和阿拉伯语。 Cohere表示,Tra
AI资讯谷歌推出Gemini 3.5实时翻译,支持70多种语言,助力自然流畅的多语言交流。
AI资讯美国谷歌公司于2026年6月9日(当地时间)正式发布了最新的实时语音翻译模型“Gemini 3.5 Live Translate”,以纪念其翻译服务“Google 翻译”诞生20周年。 “Gemini 3.5 Live Translate”支持70多种语言,能够在保持说话者语调、语速和音高的同时,几乎实时生成翻译语音。传统的语音翻译多采用“轮流翻译”方式,即需等待说话者说完后再进行翻译,而该模型
AI资讯美国谷歌公司于26日(美国时间)发布了进一步提升实时对话体验的“Gemini 3.1 Flash Live”。该音频模型是迄今为止质量最高的,能够实现下一代“语音优先”AI所需的速度和自然节奏。借助Gemini 3.1 Flash Live,谷歌在日本推出了支持语音和摄像头的新搜索功能“搜索 Live(Search Live)”。 Gemini 3.1 Flash Live已作为预览版通过谷歌A
AI资讯OpenAI在Realtime API中新增三款音频模型,助力开发者打造更自然智能的实时语音体验。
AI资讯日本KDDI、アルティウスリンク与Recho三方宣布将合作开发基于AI的客服中心解决方案,计划于2026年上半年开始提供服务,首批将在KDDI集团旗下金融公司进行验证。
AI资讯我打字的速度已经超过了思考的速度。(是打字快,还是思考慢?你自己判断。)但Wispr Flow的核心卖点不仅仅是转录——它还包括后期处理。这个工具分两步操作:首先,现代的AI转录工具将你的语音转换成文本;其次,一个大型语言模型(LLM)会去除填充词,并将你的话整理成完整的句子和段落。这样,你只需说出你的想法,就能看到它们变成格式规范的文本。这个功能可以在电脑或手机上的任何文本框中使用。 我试用过几
AI资讯日本谷歌于5月19日(美国时间)宣布推出面向Google Workspace的新功能“Docs Live”,该功能通过语音指令辅助文档的构思与撰写。该功能将逐步向Google AI Pro和Ultra订阅用户开放,并计划于今年夏季以预览版形式向Google Workspace的企业客户推出。 “Docs Live”可作为用户的思维伙伴和协同写作助手,仅需通过语音输入,便能快速帮助用户整理思路并生
AI资讯日本Liquid AI公司于2026年6月6日宣布推出两款面向日语的通用聊天模型和多模态语音文本模型,分别命名为「LFM2.5-1.2B-JP-202606」和「LFM2.5-Audio-1.5B-JP」。这两款模型采用LFM Open License v1.0授权,年收入低于1000万美元的企业可免费商用。 LFM2.5是基于多模态架构“Liquid Foundation Models”的最新
AI资讯经过一个多月使用这款15英寸屏幕上的Alexa+,我得出的结论是:Alexa+根本无法正常工作,缺乏我对智能家居设备所需的基本可靠性。虽然它仍处于早期访问阶段,但它的表现就像一个不可预测的蹒跚学步的孩子,乱撞一通且任务完成度很低。 亚马逊在2025年对其知名语音助手进行了重塑,将生成式人工智能作为新体验的核心。今年早些时候,Alexa+向美国所有亚马逊Prime会员开放。Echo设备用户会自动切换