
台湾Skymizer公司于4月23日发布了基于HyperThought平台打造的AI加速器芯片“HTX301”。该芯片通过6颗集成,并配备384GB内存的PCIe卡,能够以约240瓦的功耗完成700B参数规模大型语言模型(LLM)的推理计算。
HyperThought架构专为推理为核心的AI时代设计,采用了预填充(prefill)和解码(decode)工作负载分离的策略。通过解码优先的硅片设计结合智能软件编排栈,显著提升了实际应用中的利用率,降低了延迟,并大幅提升了能效表现。
具体来说,HTX301通过优化参数数量和DRAM带宽需求,使其能够使用标准的LPDDR4/5内存。在100GB/s带宽条件下,芯片可实现0.5TOPS的处理能力和30个token每秒的推理速度。它采用了比开源llama.cpp更优的权重(长期记忆)压缩技术,性能提升9%至17.8%,同时KV缓存(短期记忆)压缩将困惑度损失控制在0.06%至3.52%以内。
此外,HTX301基于名为LISA v3的指令集架构,支持从设备端环境到本地部署环境的无缝扩展。企业无需进行过度资源配置,即可灵活部署4B至700B规模的模型,满足不同规模的应用需求。芯片采用28纳米工艺制造。
借助HTX301,企业能够摆脱依赖按token计费的云端模型,实现全方位的AI应用部署,降低运营成本并提升自主可控能力。


