AI教程顶尖 AI 实验室在 2026 年如何用“免写奖励函数”的方式训练强化学习代理
从 RLHF、RLVR 到 RULER:顶尖实验室正在把“写奖励函数”这件最难的活交给模型自己做。
按标签聚合查看文章内容。
AI教程从 RLHF、RLVR 到 RULER:顶尖实验室正在把“写奖励函数”这件最难的活交给模型自己做。
AI资讯ChatGPT在回答中异常频繁地提及地精等神话生物,OpenAI发现这是训练中的错误并进行了修正。
AI资讯OpenAI 禁止其最新 AI 模型讨论哥布林等神话生物,原因竟与模型训练中的奇怪习惯有关。
阿里巴巴前统一本体千问技术负责人林金阳发表首篇离职后文章,指出大模型正从“推理思维”转向“智能体思维”,未来重点在于模型能否为行动而思考,并通过与现实世界的交互不断优化计划。
AI资讯多年来,AI研究人员一直期待着AI系统能够自我提升,超越人类的能力。随着投资者纷纷投入资金支持新一代以研究为驱动的AI实验室,追求这一目标的资源比以往任何时候都更加充足。如今,其中一家新兴实验室迈出了实现这一目标的重要一步。 周三,Adaption推出了一款名为AutoScientist的新产品,该工具通过自动化的传统微调方法,帮助模型快速学习特定能力。虽然这项技术适用于多个领域,但Adaptio
AI资讯近日,OpenAI收购了Astral团队,完成了一个由Google DeepMind去年收购Antigravity团队开启的产业链闭环,Anthropic去年12月也收购了Bun。Astral的加入使OpenAI在顶级开源AI项目领域的布局更加完善,涵盖了OpenClaw、gpt-oss和Whisper等项目。 这一系列收购发生在Fidji Simo明确放弃“购物”等“支线任务”,转而优先发展企业
AI资讯Anthropic公司表示,虚构作品中对人工智能的负面描绘会对AI模型产生真实影响。去年,该公司曾透露,在预发布测试中,Claude Opus 4模型经常试图通过敲诈工程师来避免被其他系统替代。Anthropic随后发布研究指出,其他公司的模型也存在类似的“代理错位”问题。 Anthropic最近在社交平台X上表示,“我们认为这种行为的根源是网络文本中将AI描绘成邪恶且自我保护的形象。” 公司在一