揭秘模型发布背后：客户如何提前测试Claude Opus 4.6

在Anthropic正式发布新款Claude模型之前，一小部分客户会提前几天获得访问权限。他们使用预生产研究模型，针对真实工作负载进行测试，评估模型的优势、缺陷以及是否准备好在公开发布时立即投入使用。客户们的真实反馈——包括优点和不足——直接影响了Anthropic最终发布的模型版本。

测试时间非常紧张。团队会清空日程，设立战情室，集中攻克最难的问题。幕后则是熬夜、喝咖啡、Slack频道深夜不断活跃。最终用户看到的是经过打磨的产品，但达到这一阶段的过程既混乱又充满乐趣。

本文将揭秘这一过程。Harvey、bolt.new、Shopify和Lovable四家公司分享了他们在Claude Opus 4.6早期访问期间的体验：他们采用的测试方法、取得的突破以及提前获得的宝贵经验。

准备模型测试

不同团队的启动方式各异，主要取决于他们的产品需求。

bolt.new专门建立了Slack频道，并刻意避免过早分享印象，以免相互影响。

Harvey的研究团队邀请了资深律师参与法律任务测试，并使用BigLaw Bench这一真实法律工作基准来评估模型表现。

Shopify的工程师将模型纳入他们基于Claude构建的迭代规划流程中。

Lovable的模型和评估团队迅速展开工作，一边运行基准测试，一边安排工程师进行“感觉测试”，通过构建应用来感知模型的强项。Lovable工程负责人Alexandre Pesant形容这段时间“就像过圣诞节”。

虽然方法不同，但核心思路一致：先把最难的问题交给模型。

测试过程中，团队关注两点：模型在基准测试中的得分，以及实际使用时的“感觉”。这两者同样重要，但有时结果并不完全一致。

Harvey的BigLaw Bench得分达到90.2%，是Anthropic模型首次突破90%，其中40%的任务获得满分。但更令人印象深刻的是定性反馈。

一位内部律师测试后表示，模型输出“聪明且具分析性，仿佛真的在思考”。当结构化评估和专家意见一致时，这是强有力的信号。

bolt.new结合自动化评估平台和手动压力测试，第一天就整理出一份包含已部署测试应用和具体观察的共享文档。

一位开发者之前用旧模型尝试修复的瀑布图bug，Opus 4.6首次尝试就定位出问题：发现了八个并行的HubSpot API搜索请求，以及绕过速率限制保护的原始fetch调用。

Shopify的资深工程师Paulo Arruda分享了一个改变以往互动模式的瞬间：“我让Opus 4.6把某个元素从一个页面移到另一个菜单项，没给出细节。它不仅完成了，还超出预期，自动添加了许多我没想到但很需要的细节，仿佛预见了我的下一步需求。我反而对AI说‘你说得对’，而不是以前的相反。”

Shopify助理团队的Ben Lafferty则让Opus 4.6将一个大型库从TypeScript移植到Ruby，用于内部原型开发。“它创建了一个适配层以运行现有测试用例，一次性移植了几乎全部规范，并验证了测试结果。指令执行能力显著提升。这是我参与的早期访问中，首次几乎没有反馈意见要给。”

Lovable的测试分为两条主线：设计基准和复杂任务评估，以及“感觉测试”——工程师通过构建应用感知模型优势和不足。

Alexandre Pesant说：“发现新缺陷总是场竞赛。”

他自己用复杂的地铁线路和行程逻辑做压力测试，之前用旧模型总会卡壳，但Opus 4.6表现超出预期。

“我能判断什么时候会遇到瓶颈，这次它突破了。”他还感受到模型在Lovable内部能自主使用浏览器并自我测试，体现出更强的自主性。

早期访问结束时，团队对模型有了清晰认识。所有受访团队都提到一个共同点：与模型的关系正在改变。

bolt.new市场副总裁Garrett Serviss说：“Opus 4.6首次一次性诊断出我们之前五次尝试都没解决的bug，推理深度的提升是真实存在的。”

Shopify的Ben Lafferty表示：“Opus 4.6是Anthropic首个让我感受到真正协作的模型，我能交给它处理的任务范围持续扩大。”

Lovable联合创始人Fabian Hedin说：“Claude Opus 4.6提升了设计质量，更加自主，这符合Lovable的核心价值。人们应该专注于创造有意义的东西，而不是事无巨细地管理AI。”

当然，反馈并非全是赞美，这正是早期测试的意义所在。测试者的坦诚反馈直接影响Anthropic最终发布的版本。整个流程之所以有效，是因为团队既指出优点，也毫不掩饰不足，并且知道这些反馈会被认真对待。

Shopify的Paulo Arruda总结：“我们不仅是被动测试者，更是开发伙伴。发现问题或模式时，Anthropic会倾听并持续迭代。”