AI教程不用改权重也能赢过 GRPO:GEPA 如何把一条轨迹榨干用到极致
伯克利团队提出 GEPA:不调模型权重、不用 GPU 训练,只靠“读懂轨迹+改提示”,在 35 倍更少采样下击败 GRPO 超 10 分。本文拆解它为何有效、适用场景,以及如何在 DSPy 中上手。
按标签聚合查看文章内容。
AI教程伯克利团队提出 GEPA:不调模型权重、不用 GPU 训练,只靠“读懂轨迹+改提示”,在 35 倍更少采样下击败 GRPO 超 10 分。本文拆解它为何有效、适用场景,以及如何在 DSPy 中上手。
AI教程从 RLHF、RLVR 到 RULER:顶尖实验室正在把“写奖励函数”这件最难的活交给模型自己做。
AI资讯前OpenAI高管Mira Murati创立的初创公司Thinking Machines Lab,已签署一项新的数十亿美元协议,扩大其对谷歌云AI基础设施的使用范围,其中包括搭载Nvidia最新GPU的系统,TechCrunch独家获悉。 据知情人士透露,该协议价值数十亿美元,涵盖了基于Nvidia新款GB300芯片构建的谷歌最新AI系统的访问权限,以及支持模型训练和部署的基础设施服务。 谷歌正积
AI资讯苹果与威斯康星大学麦迪逊分校联合推出了RubiCap AI训练框架,专注于密集图像描述,旨在让AI准确描述图像细节,如桌上的红苹果。该框架采用强化学习,借助Qwen2.5作为裁判提升训练效果,实现以更少参数获得更好表现。
AI资讯大多数企业AI项目失败的原因并非技术不足,而是所使用的模型无法真正理解企业的业务。这些模型通常基于互联网数据训练,而非企业数十年的内部文档、工作流程和机构知识。 法国AI初创公司Mistral正是看中了这一差距。公司于周二发布了Mistral Forge平台,允许企业基于自身数据构建定制化模型。该平台在英伟达年度技术大会Nvidia GTC上亮相,今年大会重点聚焦AI及面向企业的智能代理模型。 M
AI资讯索尼发布了名为“Project Ace”的自主乒乓球机器人,能够与职业选手竞技,展示了AI在物理世界中达到人类专家水平的突破。
AI资讯2016年,谷歌DeepMind开发的人工智能程序AlphaGo通过自我学习掌握了围棋这项极其复杂的游戏,其能力远超简单模仿。 David Silver随后创立了自己的公司Ineffable Intelligence,致力于打造更通用的超级智能AI。Silver表示,公司将专注于强化学习,这是一种通过试错让AI模型学习新能力的方法。其愿景是创造出在多个领域超越人类智能的“超级学习者”。 这种方法与
AI资讯英国人工智能实验室Ineffable Intelligence由前DeepMind研究员David Silver于几个月前创立,近日完成了11亿美元的融资,估值达到51亿美元,旨在开发能够超越大型语言模型的新型AI模型。 根据其官网介绍,Ineffable的目标是打造一款“超级学习者”,通过强化学习技术自主发现知识和技能,而无需依赖人类数据。强化学习是一种通过试错方式让AI系统学习的技术,这正是S
AI资讯随着OpenAI即将提交IPO申请,模型实验室正逐步转向构建智能代理产品,行业格局正在发生深刻变化。
AI资讯Gemma 4自发布一周内下载量已接近200万,成为本地部署和多模态AI模型的标杆。
AI教程一套循序渐进的强化学习课程,从基础概念、MDP 与贝尔曼方程,到深度强化学习与大语言模型中的 RL 应用,帮助你搭建完整知识框架并落地到真实智能体场景。
AI资讯天工AI大模型SkyReels V4在全球视频生成领域领先,突破性应用强化学习与逻辑推理技术,解决视频生成中的一致性和叙事逻辑难题,成为全球最强视频生成AI模型。