如果你是Mac本地大模型开发的技术爱好者,那么Ollama刚发布的“性能大礼包”绝对不容错过。
3月31日,本地大模型解决方案Ollama正式发布更新,宣布引入苹果自研的机器学习框架MLX。底层架构的变革为搭载苹果芯片的Mac设备带来了显著的性能飞跃,将本地AI的响应速度提升到了一个全新高度。
核心提升:响应速度翻倍,M5芯片表现惊艳
官方数据显示,集成MLX框架后,Ollama实现了性能的“二次飞跃”:
- 预填充阶段速度提升1.6倍:在处理用户输入提示时,系统响应更加迅速。
- 解码阶段速度翻倍:生成回复时,词语出现速度几乎提升了100%。
- 新芯片专享优势:搭载M5系列芯片的最新模型,由于硬件新增了GPU神经加速器,推理体验接近“秒响应”。
内存管理优化:长对话不卡顿
除了速度提升,此次更新还深度优化了内存管理策略:

- 高效调度:新版能更灵活利用Mac的统一内存,即使在长时间、大上下文的会话中也能保持流畅交互。
- 官方推荐:建议在内存32GB及以上的Mac上运行,以获得最佳推理性能。
首批支持:阿里巴巴文言3.5优先适配
预览阶段,MLX加速版本(Ollama 0.19 Preview)主要针对阿里巴巴集团的文言3.5模型提供专门支持。Ollama明确表示,未来将逐步适配更多主流AI模型。
行业洞察:本地AI助手迈入“毫秒级”时代
对于依赖Ollama驱动本地AI编码工具(如OpenClaw)或代码助手(如Claude Code、Codex)的开发者来说,这次更新意味着工作流的重大突破。当延迟降至秒级以下,本地运行的大模型不再是“实验室玩具”,而是真正能与云端服务竞争的实时生产力工具。
结语:苹果生态计算闭环成型
从自研芯片到自研框架,苹果正逐步掌控AI开发的核心。Ollama拥抱MLX不仅巩固了Mac作为本地AI开发首选平台的地位,也向开发者展示了软硬件深度融合带来的终极优势。


