Cohere公司在企业人工智能领域持续发力,于2026年3月26日正式发布了开源语音识别模型——Cohere Transcribe。
该模型拥有20亿参数,专为边缘设备设计,旨在突破以往大型语音模型带来的延迟瓶颈。通过Apache 2.0许可证开源,Cohere希望借助开发者社区的力量快速完善生态系统,最终实现商业化应用。
边缘设备上的性能怪兽:支持14种语言,性能超越主流竞争对手
Cohere Transcribe的训练涵盖了包括中文、日语、法语和希伯来语在内的14种语言。根据Hugging Face开放ASR排行榜的最新数据,该模型已超越ElevenLabs Scribe和阿里巴巴的Qwen3等竞争产品。

得益于参数数量的减少,Cohere Transcribe能够直接部署在智能手机、个人电脑及工业网关等终端设备上,无需频繁调用云计算资源。这不仅大幅降低了数据传输延迟,也为银行、销售和医疗等对隐私高度敏感的行业提供了更安全的解决方案。
从文本到语音的战略扩展:重塑智能代理交互基础
尽管Cohere长期专注于文本生成领域,此次跨界进入语音识别被视为构建全面AI智能代理(Agent)的关键一步。公司宣布,Cohere Transcribe将很快整合进其AI智能代理编排平台North。
分析人士指出,随着类似Siri的语音交互成为AI发展的起点,语音能力已成为智能代理感知世界不可或缺的“耳朵”。Cohere通过在边缘计算和实时语音翻译市场采用“小而强”的开源策略,正与IBM、阿里巴巴及推出AI Companion 3.0的Zoom展开正面竞争。


