在Anthropic正式发布新款Claude模型之前,一小部分客户会提前几天获得访问权限。他们使用预生产研究模型,针对真实工作负载进行测试,评估模型的优势、缺陷以及是否准备好在公开发布时立即投入使用。客户们的真实反馈——包括优点和不足——直接影响了Anthropic最终发布的模型版本。

测试时间非常紧张。团队会清空日程,设立战情室,集中攻克最难的问题。幕后则是熬夜、喝咖啡、Slack频道深夜不断活跃。最终用户看到的是经过打磨的产品,但达到这一阶段的过程既混乱又充满乐趣。

本文将揭秘这一过程。Harvey、bolt.new、Shopify和Lovable四家公司分享了他们在Claude Opus 4.6早期访问期间的体验:他们采用的测试方法、取得的突破以及提前获得的宝贵经验。

准备模型测试

不同团队的启动方式各异,主要取决于他们的产品需求。

bolt.new专门建立了Slack频道,并刻意避免过早分享印象,以免相互影响。

Harvey的研究团队邀请了资深律师参与法律任务测试,并使用BigLaw Bench这一真实法律工作基准来评估模型表现。

Shopify的工程师将模型纳入他们基于Claude构建的迭代规划流程中。

Lovable的模型和评估团队迅速展开工作,一边运行基准测试,一边安排工程师进行“感觉测试”,通过构建应用来感知模型的强项。Lovable工程负责人Alexandre Pesant形容这段时间“就像过圣诞节”。

虽然方法不同,但核心思路一致:先把最难的问题交给模型。

测试结果反馈

测试过程中,团队关注两点:模型在基准测试中的得分,以及实际使用时的“感觉”。这两者同样重要,但有时结果并不完全一致。

Harvey的BigLaw Bench得分达到90.2%,是Anthropic模型首次突破90%,其中40%的任务获得满分。但更令人印象深刻的是定性反馈。

一位内部律师测试后表示,模型输出“聪明且具分析性,仿佛真的在思考”。当结构化评估和专家意见一致时,这是强有力的信号。

bolt.new结合自动化评估平台和手动压力测试,第一天就整理出一份包含已部署测试应用和具体观察的共享文档。

一位开发者之前用旧模型尝试修复的瀑布图bug,Opus 4.6首次尝试就定位出问题:发现了八个并行的HubSpot API搜索请求,以及绕过速率限制保护的原始fetch调用。

Shopify的资深工程师Paulo Arruda分享了一个改变以往互动模式的瞬间:“我让Opus 4.6把某个元素从一个页面移到另一个菜单项,没给出细节。它不仅完成了,还超出预期,自动添加了许多我没想到但很需要的细节,仿佛预见了我的下一步需求。我反而对AI说‘你说得对’,而不是以前的相反。”

Shopify助理团队的Ben Lafferty则让Opus 4.6将一个大型库从TypeScript移植到Ruby,用于内部原型开发。“它创建了一个适配层以运行现有测试用例,一次性移植了几乎全部规范,并验证了测试结果。指令执行能力显著提升。这是我参与的早期访问中,首次几乎没有反馈意见要给。”

Lovable的测试分为两条主线:设计基准和复杂任务评估,以及“感觉测试”——工程师通过构建应用感知模型优势和不足。

Alexandre Pesant说:“发现新缺陷总是场竞赛。”

他自己用复杂的地铁线路和行程逻辑做压力测试,之前用旧模型总会卡壳,但Opus 4.6表现超出预期。

“我能判断什么时候会遇到瓶颈,这次它突破了。”他还感受到模型在Lovable内部能自主使用浏览器并自我测试,体现出更强的自主性。

测试结束后的感受

早期访问结束时,团队对模型有了清晰认识。所有受访团队都提到一个共同点:与模型的关系正在改变。

bolt.new市场副总裁Garrett Serviss说:“Opus 4.6首次一次性诊断出我们之前五次尝试都没解决的bug,推理深度的提升是真实存在的。”

Shopify的Ben Lafferty表示:“Opus 4.6是Anthropic首个让我感受到真正协作的模型,我能交给它处理的任务范围持续扩大。”

Lovable联合创始人Fabian Hedin说:“Claude Opus 4.6提升了设计质量,更加自主,这符合Lovable的核心价值。人们应该专注于创造有意义的东西,而不是事无巨细地管理AI。”

当然,反馈并非全是赞美,这正是早期测试的意义所在。测试者的坦诚反馈直接影响Anthropic最终发布的版本。整个流程之所以有效,是因为团队既指出优点,也毫不掩饰不足,并且知道这些反馈会被认真对待。

Shopify的Paulo Arruda总结:“我们不仅是被动测试者,更是开发伙伴。发现问题或模式时,Anthropic会倾听并持续迭代。”