在我从事金融行业时,常常会遇到一个争论:一位交易员赚取了300万美元的利润,这其中究竟有多少是她个人技能的贡献,又有多少是因为她所在的职位、机构或品牌,是否任何一个有能力的人都能取得类似的成绩?
如今,这样的争论同样存在于“Harness工程”领域,这是Agent工程中的系统子集,也是Agent Labs的主要工作方向。核心矛盾在于“大模型”(Big Model)与“大Harness”(Big Harness)之间的较量。一位知名AI框架创始人在OpenAI活动中曾私下告诉我:“我甚至不确定这些人是否希望我存在。”
顺便说一下,什么是Harness?在所有工程学科中,Harness都是连接、保护和协调各个组件的层,但它本身并不直接完成工作。
与大模型团队交流时,你会发现他们强调Harness的简洁性。例如,Claude Code的开发者Boris Cherny和Cat Wu多次在播客中提到,Claude Code的Harness非常简约,主要任务是让模型发挥其最大能力,而这正是模型制造者最擅长的部分。Boris说:“我们的秘密都在模型里,Harness只是最薄的包装,我们几乎无法再简化了。”Cat也表示:“这是设计上最简单的东西。”他们甚至每三到四周重写一次Harness代码,保持其简洁和高效。
OpenAI关于Harness工程的介绍也强调了入门的简单性。随着OpenClaw团队的加入,OpenAI成为了全球最成功的开源Harness的主要投资者。
Noam Brown指出,在推理模型出现之前,工程师们花了大量精力构建复杂的代理系统,通过调用非推理模型来实现推理行为。但现在推理模型出现了,这些复杂的行为反而可能适得其反。未来,随着模型能力的提升,许多基于推理模型的辅助结构可能会被取代,甚至模型路由器也可能不再需要,朝着统一模型的方向发展。
然而,大Harness团队持不同观点。他们认为Harness本身就是产品的核心。所有生产级代理都遵循一个核心循环:模型返回工具调用,执行工具,捕获结果,追加上下文,再次调用模型。Claude Code、Cursor代理和Manus的架构都包含在这个循环中。
Jerry Liu强调:“模型Harness是关键,利用AI的最大障碍是你自身对模型上下文和工作流的工程能力,尤其是当你使用的工具越通用时,这一点越重要。”
一项研究展示了仅通过优化Harness就能显著提升15个大型语言模型的编码能力。
显然,大Harness团队在推销他们的Harness,大模型团队则推销他们的模型。机器学习和AI行业一直存在一种“复合AI”争论,认为两者都很重要。但随着Agent Labs的发展(如Cursor估值达到500亿美元),我们开始认识到Harness工程确实具有实际价值。
目前,AIE欧洲已开设全球首个Harness工程专栏,如果你对这场争论感兴趣,不妨加入其中。
AI Twitter动态回顾
-
前沿模型发布:Demis Hassabis介绍了“Gemini 3.1 Flash-Lite”,强调其速度快且成本效益高,产品定位围绕延迟和能力成本而非单纯的性能分数。同时,NotebookLM推出了“Cinematic Video Overviews”功能,为高级用户生成沉浸式视频概览。
-
GPT-5.4传闻:多条推文称GPT-5.4将支持约100万令牌的上下文窗口,并具备“极限推理模式”,能够长时间思考,提升复杂任务的准确率。此外,有传言OpenAI可能转向更频繁的模型更新(每月一次)。这些消息尚未得到官方确认。
-
Claude的代理行为优势:Nat Lambert认为,讨论应从Anthropic专注代码转向其在通用代理行为上的领先地位,暗示编码能力将趋于商品化,而代理的稳健性不会。MathArena评测显示,Claude Opus 4.6整体表现强劲,但在视觉数学方面较弱,评测成本较高。
以上内容基于对多个社交平台和社区的监测整理,旨在为读者节省大量信息筛选时间。


