IBM正式发布了Granite4.01B语音模型,这是一款针对边缘计算和企业部署设计的紧凑型语音语言模型,旨在提供高效的多语言自动语音识别(ASR)和双向自动语音翻译(AST)能力。
相比上一版本,Granite4.01B语音模型的参数数量减少了一半,但性能却有显著提升。新模型不仅新增了对日语语音识别的支持,还引入了关键词偏置功能,大幅提升了英语转录的准确率。其核心设计目标是大幅降低内存使用、推理延迟和计算成本,同时保持核心功能的强大。

该模型采用创新的“二阶段设计”架构,系统先将音频转换为文本,再通过专用的Granite语言模型进行处理。这种模块化设计使开发者能够根据需求灵活调整处理流程。目前,模型支持包括英语、法语、德语、西班牙语、葡萄牙语和日语在内的多语言翻译,并能完成从英语到中文(普通话)的翻译任务。
在性能测试中,Granite4.01B语音模型表现优异,位列OpenASR排行榜第一,平均词错误率(WER)仅为5.52。目前,IBM已在Apache 2.0许可下开源该模型,开发者可使用Transformers或vLLM等主流框架在本地部署,为资源受限的移动或边缘设备提供强大的AI语音支持。


