AI资讯本地化计算:Speechify 推出原生 Windows 应用,挑战系统级语音转文字
Speechify 推出原生 Windows 客户端,升级为全栈语音助手,支持本地 AI 模型实时语音转文字,保障隐私与响应速度。
按标签聚合查看文章内容。
AI资讯Speechify 推出原生 Windows 客户端,升级为全栈语音助手,支持本地 AI 模型实时语音转文字,保障隐私与响应速度。
AI资讯美国谷歌公司于3月27日(日本时间)宣布,Android和iOS版“Google”应用中的“Search Live”功能现已支持日语。该功能利用谷歌搜索的AI模式,能够识别摄像头所见内容,实时通过语音回答用户提问,并提供相关网站链接。此次更新使得包括日本在内的200多个国家和地区的用户都能通过谷歌AI模式进行对话。 用户只需在“Google”应用的搜索栏下方点击带有三条竖线的“直播”按钮,然后用
AI资讯微软发布了支持自动语音识别和文本转语音的VibeVoice语音AI模型,具备长音频处理、多说话人对话生成和实时低延迟等特性,已在GitHub获得27K星。该项目采用MIT许可证,支持本地部署,无需云服务费用,推动语音合成领域创新。
AI音频AssemblyAI 提供业界领先的语音转文字与语音理解模型,帮助企业从语音数据中高精度转写并提取深度洞察,快速构建和扩展各类 Voice AI 产品。
AI音频Deepgram 是面向开发者与企业的云端语音识别与语音理解平台,提供高精度、多语言、低延迟的语音转文字与语音分析能力,适用于客服质检、会议记录、实时字幕、语音助手等多种场景。
AI音频TurboScribe AI 是一款支持多语言的在线音视频转文字与字幕生成工具,主打高精度转录、快速处理和简单易用的网页操作界面,适合播客主、视频创作者、记者、学生和企业用户高效完成转写与字幕制作。
AI音频讯飞译制是一款基于科大讯飞语音识别与翻译技术的AI视频字幕制作软件,可自动识别语音生成字幕、智能时间轴对齐,并支持多语种视频翻译与SRT/ASS/XML等字幕格式导出,适用于短视频创作者、自媒体、教育培训及企业宣传等多种场景。
AI资讯Cohere于2026年3月26日推出了开源语音识别模型Cohere Transcribe,拥有20亿参数,专为边缘设备设计,解决大型语音模型带来的延迟问题。该模型支持14种语言,性能超越主流竞争对手,旨在通过开发者社区推动生态发展并实现商业化。
AI音频AssemblyAI 提供行业领先的语音转文字与语音理解模型,帮助企业从语音数据中精准转写并提取深度洞察,快速构建和扩展各类语音 AI 产品。
AI资讯企业级AI公司Cohere于周四推出了其首个语音模型:Transcribe。这是一款开源的自动语音识别(ASR)模型,适用于笔记记录和语音分析等任务。 该模型参数量仅为20亿,设计目标是支持使用消费级GPU的用户自托管。目前,Transcribe支持14种语言,包括英语、法语、德语、意大利语、西班牙语、葡萄牙语、希腊语、荷兰语、波兰语、中文、日语、韩语、越南语和阿拉伯语。 Cohere表示,Tra
AI资讯美国谷歌公司于26日(美国时间)发布了进一步提升实时对话体验的“Gemini 3.1 Flash Live”。该音频模型是迄今为止质量最高的,能够实现下一代“语音优先”AI所需的速度和自然节奏。借助Gemini 3.1 Flash Live,谷歌在日本推出了支持语音和摄像头的新搜索功能“搜索 Live(Search Live)”。 Gemini 3.1 Flash Live已作为预览版通过谷歌A
AI音频讯飞译制是一款基于科大讯飞语音识别与翻译技术的AI视频字幕制作软件,可自动识别语音生成字幕、智能时间轴匹配,并支持多语种视频翻译与多种字幕格式导出,适合自媒体、教育培训、企业宣传等多场景使用。