#推理加速

按标签聚合查看文章内容。

西川和久不定期专栏:Gemma 4与DwarfStar 4的LLM高速化探索AI资讯

西川和久不定期专栏:Gemma 4与DwarfStar 4的LLM高速化探索

2026年,开源大型语言模型(LLM)依旧层出不穷,各种高速化技术也不断涌现,AI领域持续热闹非凡。本文将介绍两项技术:利用MTP技术加速的Gemma 4,以及在日本苹果Mac M4 Max 128GB上运行的DeepSeek V4 Flash(现称DwarfStar 4)。 Gemma 4借助MTP实现推理加速 今年春季,LLM领域在高速化和模型轻量化方面取得了显著进展。其中,Google发布

初创公司Gimlet Labs以巧妙方式解决AI推理瓶颈问题AI资讯

初创公司Gimlet Labs以巧妙方式解决AI推理瓶颈问题

斯坦福大学兼职教授兼成功创业者Zain Asgar刚刚为其初创公司筹集了8000万美元的A轮融资,该公司以一种聪明的方式解决了AI推理瓶颈问题。本轮融资由Menlo Ventures领投。 这家公司名为Gimlet Labs,声称打造了首个也是唯一的“多硅片推理云”软件,能够让AI工作负载同时运行在多种硬件上。它可以将AI应用的任务分配到传统CPU、针对AI优化的GPU以及大内存系统上。 “我们基