Skymizer发布能以约240W功耗推理700B大型语言模型的AI加速器

Skymizer HTX301 AI加速器

台湾Skymizer公司于4月23日发布了基于HyperThought平台打造的AI加速器芯片“HTX301”。该芯片通过6颗集成，并配备384GB内存的PCIe卡，能够以约240瓦的功耗完成700B参数规模大型语言模型（LLM）的推理计算。

HyperThought架构专为推理为核心的AI时代设计，采用了预填充（prefill）和解码（decode）工作负载分离的策略。通过解码优先的硅片设计结合智能软件编排栈，显著提升了实际应用中的利用率，降低了延迟，并大幅提升了能效表现。

具体来说，HTX301通过优化参数数量和DRAM带宽需求，使其能够使用标准的LPDDR4/5内存。在100GB/s带宽条件下，芯片可实现0.5TOPS的处理能力和30个token每秒的推理速度。它采用了比开源llama.cpp更优的权重（长期记忆）压缩技术，性能提升9%至17.8%，同时KV缓存（短期记忆）压缩将困惑度损失控制在0.06%至3.52%以内。

此外，HTX301基于名为LISA v3的指令集架构，支持从设备端环境到本地部署环境的无缝扩展。企业无需进行过度资源配置，即可灵活部署4B至700B规模的模型，满足不同规模的应用需求。芯片采用28纳米工艺制造。

借助HTX301，企业能够摆脱依赖按token计费的云端模型，实现全方位的AI应用部署，降低运营成本并提升自主可控能力。

Skymizer发布能以约240W功耗推理700B大型语言模型的AI加速器

标签

评论

相关阅读

TechCrunch出行：汽车行业的AI技能竞赛即将来临

日本TISI与AtStream Consulting发布面向系统规划构想流程的AI代理实证成果

微软Copilot AI被曝一键泄露2FA验证码，助黑客窃取账户