高效轻量化：IBM发布Granite 4.0 1B多模态语音大模型

发布时间：2026/3/18

IBM正式发布了Granite4.01B语音模型，这是一款针对边缘计算和企业部署设计的紧凑型语音语言模型，旨在提供高效的多语言自动语音识别（ASR）和双向自动语音翻译（AST）能力。

相比上一版本，Granite4.01B语音模型的参数数量减少了一半，但性能却有显著提升。新模型不仅新增了对日语语音识别的支持，还引入了关键词偏置功能，大幅提升了英语转录的准确率。其核心设计目标是大幅降低内存使用、推理延迟和计算成本，同时保持核心功能的强大。

该模型采用创新的“二阶段设计”架构，系统先将音频转换为文本，再通过专用的Granite语言模型进行处理。这种模块化设计使开发者能够根据需求灵活调整处理流程。目前，模型支持包括英语、法语、德语、西班牙语、葡萄牙语和日语在内的多语言翻译，并能完成从英语到中文（普通话）的翻译任务。

在性能测试中，Granite4.01B语音模型表现优异，位列OpenASR排行榜第一，平均词错误率（WER）仅为5.52。目前，IBM已在Apache 2.0许可下开源该模型，开发者可使用Transformers或vLLM等主流框架在本地部署，为资源受限的移动或边缘设备提供强大的AI语音支持。

标签

#语音识别 #边缘计算 #多语言翻译 #轻量化模型 #开源技术

评论

评论系统可后续接入后端接口，这里先保留展示与提交区域。

相关阅读

融合实践经验与生成式AI的“富士通AI驱动现代化服务”

2026/07/14

融合实践经验与生成式AI的“富士通AI驱动现代化服务”

富士通推出结合实践知识与生成式AI的现代化服务，助力企业加速数字化转型。

OpenAI提出超智能社会的“AI权利”和“每周四天工作制”建议

2026/04/09

OpenAI提出超智能社会的“AI权利”和“每周四天工作制”建议

美国OpenAI于6日发布了一篇题为《智能时代的产业政策》的报告。该报告针对AI超越人类能力的“超智能”过渡期，提出了以人为本的政策建议，包括将AI访问权视为基本权利，以及推广每周四天工作制等措施。报告中强调构建“开放经济”，主张AI带来的经济繁荣应广泛共享，不应仅限于少数企业或个人。随着技术的强大和普及，存在经济利益集中于少数企业的风险。报告指出，尽管AI提升了劳动者的生产力，但他们可能并未

社交媒体热议特朗普与AI版罗斯福总统对话：他真的以为是真人吗？

2026/07/03

社交媒体热议特朗普与AI版罗斯福总统对话：他真的以为是真人吗？

特朗普在北达科他州罗斯福总统图书馆与AI驱动的罗斯福虚拟形象对话，引发网友热议和幽默调侃。