#语音识别

按标签聚合查看文章内容。

Google翻译应用的实时翻译功能扩展至日本及70多个地区AI资讯

Google翻译应用的实时翻译功能扩展至日本及70多个地区

2024年3月27日,日本时间,Google宣布在iOS和Android版的“Google翻译”应用中,扩大了通过耳机实时听取翻译内容的直播翻译功能的适用区域。 用户只需佩戴耳机并开启应用中的直播翻译功能,即可实时听到同步翻译的语音。该功能利用了Google最新的Gemini语音对译技术,AI能够生成包含说话者语调、重音和抑扬顿挫的合成语音,帮助用户更轻松地理解“谁说了什么”。这项技术适用于日常

ElevenLabs与IBM合作,将ElevenLabs语音技术整合进IBM AI代理watsonx OrchestrateAI资讯

ElevenLabs与IBM合作,将ElevenLabs语音技术整合进IBM AI代理watsonx Orchestrate

美国ElevenLabs公司与美国IBM于3月25日宣布合作,将ElevenLabs的语音识别(Speech-to-Text)和语音合成(Text-to-Speech)技术整合到IBM的AI代理产品“watsonx Orchestrate”中。此次合作旨在帮助客户在满足企业安全性和可扩展性需求的同时,提升由AI代理驱动的用户体验,提供更加丰富自然的语音交互工具。 语音作为AI代理与客户及员工沟通的

完全本地环境实现AI语音转文字软件“轻松视频与音频AI转写”发布AI资讯

完全本地环境实现AI语音转文字软件“轻松视频与音频AI转写”发布

日本Magnolia株式会社于3月23日推出了一款基于AI语音识别的转写软件——“轻松视频与音频AI转写”。该软件支持Windows 11系统,售价为3980日元,采用一次性购买的下载方式,同时提供15天的免费试用版本。 “轻松视频与音频AI转写”基于OpenAI的语音识别模型“Whisper”,能够在本地环境运行,利用AI判断语境,生成更易读的文本内容。转写结果可保存为TXT文本文件和SRT字

Deepgram 语音识别与语音理解平台AI音频

Deepgram 语音识别与语音理解平台

Deepgram 是面向开发者与企业的云端语音识别与语音理解平台,提供高精度、低延迟的语音转文字、语音分析与实时转写能力,适用于客服质检、会议记录、语音助手等多种场景。

夸克AI视频翻译助手AI写作

夸克AI视频翻译助手

夸克AI视频翻译助手是一款基于AI的视频翻译与字幕生成工具,支持多语种互译、自动识别语音与字幕、一键生成双语字幕文件,适合学习、剪辑、搬运与跨语言内容创作场景。