Harness工程真的存在价值吗？

在我从事金融行业时，常常会遇到一个争论：一位交易员赚取了300万美元的利润，这其中究竟有多少是她个人技能的贡献，又有多少是因为她所在的职位、机构或品牌，是否任何一个有能力的人都能取得类似的成绩？

如今，这样的争论同样存在于“Harness工程”领域，这是Agent工程中的系统子集，也是Agent Labs的主要工作方向。核心矛盾在于“大模型”（Big Model）与“大Harness”（Big Harness）之间的较量。一位知名AI框架创始人在OpenAI活动中曾私下告诉我：“我甚至不确定这些人是否希望我存在。”

顺便说一下，什么是Harness？在所有工程学科中，Harness都是连接、保护和协调各个组件的层，但它本身并不直接完成工作。

与大模型团队交流时，你会发现他们强调Harness的简洁性。例如，Claude Code的开发者Boris Cherny和Cat Wu多次在播客中提到，Claude Code的Harness非常简约，主要任务是让模型发挥其最大能力，而这正是模型制造者最擅长的部分。Boris说：“我们的秘密都在模型里，Harness只是最薄的包装，我们几乎无法再简化了。”Cat也表示：“这是设计上最简单的东西。”他们甚至每三到四周重写一次Harness代码，保持其简洁和高效。

OpenAI关于Harness工程的介绍也强调了入门的简单性。随着OpenClaw团队的加入，OpenAI成为了全球最成功的开源Harness的主要投资者。

Noam Brown指出，在推理模型出现之前，工程师们花了大量精力构建复杂的代理系统，通过调用非推理模型来实现推理行为。但现在推理模型出现了，这些复杂的行为反而可能适得其反。未来，随着模型能力的提升，许多基于推理模型的辅助结构可能会被取代，甚至模型路由器也可能不再需要，朝着统一模型的方向发展。

然而，大Harness团队持不同观点。他们认为Harness本身就是产品的核心。所有生产级代理都遵循一个核心循环：模型返回工具调用，执行工具，捕获结果，追加上下文，再次调用模型。Claude Code、Cursor代理和Manus的架构都包含在这个循环中。

Jerry Liu强调：“模型Harness是关键，利用AI的最大障碍是你自身对模型上下文和工作流的工程能力，尤其是当你使用的工具越通用时，这一点越重要。”

一项研究展示了仅通过优化Harness就能显著提升15个大型语言模型的编码能力。

显然，大Harness团队在推销他们的Harness，大模型团队则推销他们的模型。机器学习和AI行业一直存在一种“复合AI”争论，认为两者都很重要。但随着Agent Labs的发展（如Cursor估值达到500亿美元），我们开始认识到Harness工程确实具有实际价值。

目前，AIE欧洲已开设全球首个Harness工程专栏，如果你对这场争论感兴趣，不妨加入其中。

AI Twitter动态回顾

前沿模型发布：Demis Hassabis介绍了“Gemini 3.1 Flash-Lite”，强调其速度快且成本效益高，产品定位围绕延迟和能力成本而非单纯的性能分数。同时，NotebookLM推出了“Cinematic Video Overviews”功能，为高级用户生成沉浸式视频概览。
GPT-5.4传闻：多条推文称GPT-5.4将支持约100万令牌的上下文窗口，并具备“极限推理模式”，能够长时间思考，提升复杂任务的准确率。此外，有传言OpenAI可能转向更频繁的模型更新（每月一次）。这些消息尚未得到官方确认。
Claude的代理行为优势：Nat Lambert认为，讨论应从Anthropic专注代码转向其在通用代理行为上的领先地位，暗示编码能力将趋于商品化，而代理的稳健性不会。MathArena评测显示，Claude Opus 4.6整体表现强劲，但在视觉数学方面较弱，评测成本较高。

以上内容基于对多个社交平台和社区的监测整理，旨在为读者节省大量信息筛选时间。

Harness工程真的存在价值吗？

AI Twitter动态回顾

标签

评论

相关阅读

日本KDDI加强au邮件“发送者伪装”警告及生成AI垃圾邮件对策

AI代理“Gemini Spark”新增与Chrome浏览器的联动功能

AI对冲基金Situational Awareness出售了公开股票组合，但仍持有Anthropic股份