#语音识别 - AI情报

AI资讯

2026/04/03

什么是实时AI语音翻译解决方案“DeepL Voice”？

DeepL Japan推出的实时AI语音翻译解决方案，助力多语言会议高效沟通。

AI资讯

2026/07/10

OpenAI发布全新语音模型，实现更自然的实时对话体验

OpenAI今日推出了全新的对话语音模型，名为GPT-Live-1和GPT-Live-1 mini，声称这些模型的语音更加自然，且在对话轮换上表现更佳。这些模型支持全双工功能，意味着它们可以同时说话和聆听，允许用户自然打断对话，并支持实时翻译等功能。公司还宣布将默认用GPT-Live-1 mini替代ChatGPT中现有的高级语音模式。付费用户则可以使用更强大的GPT-Live-1模型。此前的语

AI资讯

2026/04/06

面向企业的AI录音设备「Givery AI」实现现场知识的自然语言化

Givery AI是一款专为企业设计的AI录音设备，能够将会议和现场音频实时转化为可利用的数据，支持自动生成会议纪要，助力知识管理。

AI资讯

2026/05/26

AI通译服务「CoeFont通译」推出针对日本人英语特点优化的调校功能

CoeFont推出了专为日本人英语发音特点设计的AI语音识别调校功能，提升了翻译准确率。

ElevenLabs与IBM合作，将ElevenLabs语音技术整合进IBM AI代理watsonx Orchestrate

AI资讯

2026/04/18

ElevenLabs与IBM合作，将ElevenLabs语音技术整合进IBM AI代理watsonx Orchestrate

美国ElevenLabs公司与美国IBM于3月25日宣布合作，将ElevenLabs的语音识别（Speech-to-Text）和语音合成（Text-to-Speech）技术整合到IBM的AI代理产品“watsonx Orchestrate”中。此次合作旨在帮助客户在满足企业安全性和可扩展性需求的同时，提升由AI代理驱动的用户体验，提供更加丰富自然的语音交互工具。语音作为AI代理与客户及员工沟通的

AI资讯

2026/03/28

完全本地环境实现AI语音转文字软件“轻松视频与音频AI转写”发布

日本Magnolia株式会社于3月23日推出了一款基于AI语音识别的转写软件——“轻松视频与音频AI转写”。该软件支持Windows 11系统，售价为3980日元，采用一次性购买的下载方式，同时提供15天的免费试用版本。 “轻松视频与音频AI转写”基于OpenAI的语音识别模型“Whisper”，能够在本地环境运行，利用AI判断语境，生成更易读的文本内容。转写结果可保存为TXT文本文件和SRT字

AI资讯

2026/05/08

OpenAI推出三款面向开发者的GPT实时音频模型API

OpenAI在Realtime API中新增三款音频模型，助力开发者打造更自然智能的实时语音体验。

AI资讯

2026/04/03

微软推出多款新AI模型，超越传统文本处理

微软发布三款全新AI模型，涵盖语音、文本转录及图像生成，展示其在AI领域的多元化布局。

AI资讯

2026/03/28

挑战英伟达霸主地位：Cohere发布开源轻量级语音识别模型Transcribe

Cohere于2026年3月26日推出了开源语音识别模型Cohere Transcribe，拥有20亿参数，专为边缘设备设计，解决大型语音模型带来的延迟问题。该模型支持14种语言，性能超越主流竞争对手，旨在通过开发者社区推动生态发展并实现商业化。

AI资讯

2026/07/07

AI智能录音笔「Comulytic Note Pro」亚马逊促销享9折优惠

YScope推出的AI智能录音笔Comulytic Note Pro，在亚马逊Prime Day期间限时9折促销，售价20700日元。

AI资讯

2026/04/01

Google翻译应用的实时翻译功能扩展至日本及70多个地区

2024年3月27日，日本时间，Google宣布在iOS和Android版的“Google翻译”应用中，扩大了通过耳机实时听取翻译内容的直播翻译功能的适用区域。用户只需佩戴耳机并开启应用中的直播翻译功能，即可实时听到同步翻译的语音。该功能利用了Google最新的Gemini语音对译技术，AI能够生成包含说话者语调、重音和抑扬顿挫的合成语音，帮助用户更轻松地理解“谁说了什么”。这项技术适用于日常

AI资讯

2026/05/25

第7回：什么是“多模态”——不仅理解文字，还能处理图像、音频和视频的AI

多模态AI能够综合处理文字、图像、音频和视频等多种信息形式，推动AI从单纯的文本生成工具向多信息融合处理工具转变。