在2022年GTC大会上,NVIDIA发布了Hopper架构,首批H100显卡于当年10月开始上市。两年后的2024年10月,我们发布了一篇关于H100租赁价格贬值周期的热门文章,指出这一周期比以往更快,推测这是由于需求短暂膨胀导致的泡沫破裂现象。尽管在DeepSeek R1事件后价格曾触底,但这一趋势并未持续。自2025年12月以来,H100租赁市场价格出现了显著上涨:

这一现象得到了Dwarkesh团队成员Dylan的证实,他指出H100的当前价值甚至超过了三年前的水平。这一变化与芯片短缺的整体情况密切相关,同时也与2025年12月推理模型和推断软件的进步有关。如今,经过四年时间的芯片配合更先进的推理模型,其实际价值远超最初预期的4-7年折旧周期。
对于熟悉数据中心经济学的人来说,这种价格走势对数据中心和GPU的商业模式具有非常重要的影响——前提是这种上涨趋势能够持续下去。
AI Twitter动态回顾
Anthropic泄露的“Mythos”系统及新Capybara等级
- 《财富》杂志证实Anthropic推出了高于Opus的新等级“Capybara”,其性能在编码、学术推理和网络安全方面显著提升,但因成本和安全考虑,推广受限。
- 计算强度成为核心主题,传闻Capybara模型规模约为10万亿参数,Google接近为Anthropic数据中心提供资金支持,显示前沿竞争更多依赖于算力和资本投入。
- 近期Anthropic服务出现较多错误,反映其在扩展规模时仍面临基础设施压力。
开源编码模型、本地推理及GLM-5.1进展
- Zhipu发布GLM-5.1,向所有编码计划用户开放,社区认为中国高端开源编码模型正在缩小与封闭模型的差距。
- 本地部署经济性持续改善,多个用户分享了使用本地Qwen系列模型替代云端服务的经验。
- 量化和缓存优化仍是关键技术,TurboQuant vLLM等项目推动了推理效率提升,但TurboQuant的部分研究结论受到质疑。
智能代理逐渐成为产品
- Nous Research的Hermes Agent获得广泛关注,集成Hugging Face模型,用户反馈其持久性和易用性优于传统浏览器自动化方案。
- 代理基础设施趋于成熟,围绕追踪、评估和调试的工具不断完善,推动代理从“带工具的聊天机器人”向软件生命周期管理演进。
- 代理性能基准开始聚焦真实工作负载,提升了对硬件部署的参考价值。
编码代理、Codex插件及多代理软件工作流
- OpenAI强调Codex插件及其用例,推动工作空间自动化,用户体验逐渐从简单的提示响应转向持久工作区和多任务管理。
- 多代理软件开发呈现“舰队管理”模式,相关工具和仪表盘不断涌现,支持实时调试和任务分配。
- 长期编码评估标准如CursorBench提升了对复杂编码任务的考察深度。
研究与系统进展:世界模型、机器人、语音及多模态基础设施
- Meta发布SAM 3.1,支持多目标视频分割,显著提升视频处理速度。
- LeCun团队推出LeWorldModel,提升规划速度和效率;Unitree Robotics开源了人形机器人全身遥控数据集。
- Cohere发布2B参数的开源语音转录模型,性能优异,Mistral推出Voxtral TTS,浏览器和本地演示不断涌现。
- AI2发布MolmoBot机器人操作套件,推动机器人研究的可复现性。
AI Reddit社区热点
1. TurboQuant与RotorQuant创新
- Google TurboQuant实现了在MacBook Air上本地运行Qwen 3.5-9B模型,支持2万token上下文,突破了硬件限制。
- 通过跳过90%的KV缓存反量化工作,TurboQuant在32K上下文长度下解码速度提升22.8%。
- TurboQuant在llama.cpp中的应用存在性能波动,社区建议关注KLD指标评估压缩效果。
- RotorQuant采用Clifford旋量实现10-19倍于TurboQuant的速度提升,参数量减少44倍,性能接近,但理论上存在局限。
2. GLM-5.1及编码模型对比
- Z.ai发布GLM-5.1,编码任务表现显著优于GLM-5,但仍略逊于Claude Opus 4.6。
- 社区期待GLM-5.1开源权重,同时关注DeepSpeed v4发布延迟及硬件兼容性问题。
本文内容基于2026年3月26日至27日的多渠道信息汇总,涵盖了GPU市场动态、AI模型进展及社区讨论,反映了当前AI生态系统的多维度发展态势。


