企业级AI公司Cohere于周四推出了其首个语音模型:Transcribe。这是一款开源的自动语音识别(ASR)模型,适用于笔记记录和语音分析等任务。

该模型参数量仅为20亿,设计目标是支持使用消费级GPU的用户自托管。目前,Transcribe支持14种语言,包括英语、法语、德语、意大利语、西班牙语、葡萄牙语、希腊语、荷兰语、波兰语、中文、日语、韩语、越南语和阿拉伯语。

Cohere表示,Transcribe在Hugging Face开放ASR排行榜上的表现优于Zoom Scribe v1、IBM Granite 4.0 1B、ElevenLabs Scribe v2和Qwen3-ASR-1.7B Speech等模型,平均词错误率(WER)为5.42,低于排行榜上其他所有模型。

公司称,在人工评估中,Transcribe在准确性、一致性和可用性方面的平均胜率达61%,但在转录葡萄牙语、德语和西班牙语时表现稍逊于竞争对手。

此外,Transcribe的音频处理速度达到每分钟525分钟音频,属于同类模型中的高水平。

Cohere计划将Transcribe集成到其企业代理编排平台North中,并通过API免费向用户开放该模型。该模型也将上线Cohere的托管推理平台Model Vault。

随着对笔记和语音输入应用(如Granola和Wispr Flow)的需求增长,语音识别模型的受欢迎程度不断提升。

今年早些时候,Cohere向投资者透露,预计2025年年经常性收入将达到2.4亿美元,其CEO Aidan Gomez表示公司“可能很快”进行公开上市。