MiniMax 2.7发布：以三分之一成本匹配GLM-5的顶尖开源模型

MiniMax继其首次公开募股和首个公开季度财报发布后，不到两个月便带来了备受关注的MiniMax 2.7模型。这款模型在中国开源模型领域表现突出，尤其是在Qwen模型更迭后，成为新的焦点。MiniMax 2.7在性能上与上月发布的Z.ai的GLM-5顶尖开源模型相当，但其最大亮点在于效率——运行成本仅为GLM-5的三分之一。

团队称MiniMax 2.7为“首次深度参与自身进化的模型”，借鉴了Karpathy的Autoresearch理念，虽然目前仅能处理30%至50%的工作流程，但已实现了显著的自我迭代能力，包括收集反馈、构建评估集以及在技能、记忆和架构上的持续优化。

此外，MiniMax团队还在多智能体协作（“Agent Teams”）方面展开工作，并跟随Anthropic和OpenAI的脚步，将模型应用于金融场景。团队还推出了开源娱乐演示平台OpenRoom，丰富了模型的应用生态。

在AI推特社区，MiniMax 2.7被视为首个“自我进化”模型，展现了56.22%的SWE-Pro成绩、57.0%的Terminal Bench 2成绩，以及在40多项技能上的97%技能遵循度，性能与Sonnet 4.6在OpenClaw上的表现持平。第三方分析也高度认可其自我迭代能力。

人工分析机构将MiniMax 2.7置于性能与成本的最优前沿，智能指数达到50，匹配GLM-5的推理能力，但运行成本仅为176美元，远低于GLM-5的成本。其GDPval-AA Elo评分为1494，领先于小米的MiMo-V2-Pro（1426）、GLM-5（1406）和Kimi K2.5（1283），且相较于前代M2.5大幅减少了幻觉现象。

小米的MiMo-V2-Pro作为一款专注推理的API模型，也表现不俗，智能指数为49，支持百万上下文，定价合理，且在减少幻觉方面表现突出。Mamba-3模型则被视为适合推理密集型场景的混合架构代表，受到业界关注。

当前AI模型的关键竞争点已从基础模型转向执行环境和“harness工程”，即工具链、代码库可读性、约束管理和反馈循环。技能（Skills）正逐渐成为智能体堆栈中的共享抽象，支持渐进式披露、会话蒸馏和持续集成触发等功能。开放智能体堆栈趋向于模型、运行时和harness的统一架构。

在基础设施方面，Attention Residual架构成为模型与推理系统协同设计的典范，定制内核的开发和集成也变得更加便捷。推理优化依然是重点，硬件带宽和计算瓶颈问题持续受到关注。

文档AI领域趋向于端到端多模态解析器，百度推出的4B参数文档智能模型Qianfan-OCR整合了表格提取、公式识别和图表理解等功能。检索技术如MUVERA在内存与质量间取得平衡，语境工程逐渐成为产品类别，推动了更高效的文档智能应用。

评测方面，LLM作为评判者的可重复性问题再次引发关注，预训练数据的组成被视为提升模型性能的重要杠杆。基准测试正向“未解决且有用”的任务转变，推动模型解决实际应用中的难题。

近期热点推文包括OpenAI的16MB参数训练挑战、Anthropic对8万多用户的AI使用调研、Runway与NVIDIA合作的实时高清视频生成预览、Hugging Face对面向智能体的研究接口支持，以及微软VS Code集成浏览器调试功能。

在Reddit社区，MiniMax M2.7的发布引发热议。用户关注其自主迭代能力及在内部评测中实现的30%性能提升，同时也对模型在实际任务中的泛化能力表示期待。小米MiMo-V2-Pro和MiniMax 2.5的性能与资源效率也获得认可，用户期待未来支持更多模态输入的版本。

MiniMax 2.7发布：以三分之一成本匹配GLM-5的顶尖开源模型

标签

评论

相关阅读

东京地铁利用AI技术推进铁路变电所和电气室的状态基准维护

OpenAI宣布Codex即将登陆手机端

日立“Physical AI Day”全面展示物理AI与“HMAX”技术