Cohere发布首个开源语音转录模型

企业级AI公司Cohere于周四推出了其首个语音模型：Transcribe。这是一款开源的自动语音识别（ASR）模型，适用于笔记记录和语音分析等任务。

该模型参数量仅为20亿，设计目标是支持使用消费级GPU的用户自托管。目前，Transcribe支持14种语言，包括英语、法语、德语、意大利语、西班牙语、葡萄牙语、希腊语、荷兰语、波兰语、中文、日语、韩语、越南语和阿拉伯语。

Cohere表示，Transcribe在Hugging Face开放ASR排行榜上的表现优于Zoom Scribe v1、IBM Granite 4.0 1B、ElevenLabs Scribe v2和Qwen3-ASR-1.7B Speech等模型，平均词错误率（WER）为5.42，低于排行榜上其他所有模型。

公司称，在人工评估中，Transcribe在准确性、一致性和可用性方面的平均胜率达61%，但在转录葡萄牙语、德语和西班牙语时表现稍逊于竞争对手。

此外，Transcribe的音频处理速度达到每分钟525分钟音频，属于同类模型中的高水平。

Cohere计划将Transcribe集成到其企业代理编排平台North中，并通过API免费向用户开放该模型。该模型也将上线Cohere的托管推理平台Model Vault。

随着对笔记和语音输入应用（如Granola和Wispr Flow）的需求增长，语音识别模型的受欢迎程度不断提升。

今年早些时候，Cohere向投资者透露，预计2025年年经常性收入将达到2.4亿美元，其CEO Aidan Gomez表示公司“可能很快”进行公开上市。

Cohere发布首个开源语音转录模型

标签

评论

相关阅读

Medicare新支付模式为AI量身打造，科技界大多尚未察觉

AI短片引发愤怒：将1970年代女性制作成情色影像引争议

1X Neo机器人拥有惊人的快速灵巧手指