我们此前分别报道了:1)模型实验室将增设代理实验室,以实现最后一公里的收入和差异化数据变现;2)今年编码代理将突破限制,覆盖更多知识工作领域。本周,这两大主题在Anthropic和OpenAI宣布成立AI服务公司时得以融合。

  • Anthropic与Blackstone、Hellman & Friedman及高盛合作成立的合资企业,获得15亿美元融资(主要参与方各出资3亿美元)。该公司将派遣小团队深入客户,了解Claude模型能带来最大影响的领域,随后由工程师和Anthropic应用AI团队共同开发定制化的Claude驱动系统,贴合各组织运营需求。
  • OpenAI成立了“部署公司”,由19家投资者支持,包括TPG、Brookfield资产管理、Advent和贝恩资本,迄今已筹集约40亿美元,估值达100亿美元。OpenAI首席运营官Brad Lightcap将领导该公司与私募股权公司合作,推动向企业销售软件。

硅谷AI服务趋势

正如Aaron Levie所言,随着代理进入编码之外的知识工作领域,升级IT系统、为代理提供所需上下文、现代化工作流程、厘清人机协作关系、推动采纳和变革管理等工作变得尤为重要。虽然AI模型功能强大,但将智能稳定应用于业务流程没有捷径,这为市场带来了大量新岗位和公司机会,模型实验室也意识到这一点的关键性。

尽管这些公司更偏向私募股权服务,但它们早已在推动其他垂直行业服务。Anthropic今日在纽约举办了金融服务活动,嘉宾阵容强大,金融业务是其第二大收入来源。与此同时,初创公司如Tessera也在筹集资金,试图以较少资金参与系统集成竞争。

AI Twitter最新动态包括:

  • OpenAI推出GPT-5.5 Instant,成为ChatGPT默认模型,提升事实准确性、基础智能、图像理解和语气,并增强个性化功能,支持保存记忆、历史对话、文件和Gmail连接,用户可查看“记忆来源”。
  • OpenAI公布实时产品基础设施细节,重建WebRTC堆栈以支持ChatGPT语音和实时API,降低延迟,实现语音交流流畅。
  • 开发者工具持续扩展,发布TypeScript版Agents SDK,包含沙箱代理和开源框架,Codex用户体验和自动化功能也在提升。

编码代理和基准测试方面:

  • 模型质量之外,代理性能更依赖于模型、工具和任务的匹配,强调指令、工具、上下文打包和测量循环的重要性。
  • 编码代理用户体验分化明显,多个代理和助手竞相比较,Codex下载量超过Claude Code,但后者实用性评价趋于平稳。
  • Meta推出ProgramBench基准,要求模型从零开始生成完整软件仓库,最高准确率为0%,显示全自动生成复杂软件仍有巨大挑战。
  • 实用编码自动化向持续集成和安全领域扩展,如Cursor推出自动修复CI失败的代理,Cognition发布企业级漏洞自动修复工具。

推理系统和效率提升方面:

  • Google发布Gemma 4多令牌预测(MTP)解码器,解码速度提升3倍且无质量损失,支持多种开源工具。
  • RadixArk完成1亿美元种子轮融资,专注于SGLang推理堆栈和大规模强化学习训练,目标打造开放且生产级基础设施。
  • 推理经济性高度依赖服务提供商,SambaNova速度最快,Fireworks在性价比上表现优异。
  • 模型冷启动和分布式训练仍是系统瓶颈,Google DeepMind提出新方法显著提升训练效率。

代理、强化学习环境和长期研究:

  • 强化学习基础设施从单次生成奖励转向长期动作系统,关注数千环境的扩展性。
  • 长期任务失败更多归因于目标时间跨度问题,宏观动作和缩短时间跨度有助于训练稳定性和泛化能力。
  • 可观测性逐渐发展为反馈驱动的学习系统,出现专门用于发现和调查代理异常行为的工具。

企业垂直化方面:

  • Anthropic和Perplexity均加大金融工作流投入,推出多种金融服务代理模板和专业金融数据产品,推动从通用助手向垂直行业产品转型。
  • Perplexity扩展至医疗健康领域,提供NEJM、BMJ等权威医学期刊的深度访问。
  • 主动助手成为新兴产品类别,Anthropic Orbit可自动整合Gmail、Slack、GitHub等多平台数据,Manus推出推荐连接器。

热门推文包括:

  • Anthropic金融模板发布引发广泛关注,互动量达2.29万。
  • OpenAI GPT-5.5 Instant发布成为讨论焦点,主帖互动超8200。
  • Google Gemma 4速度提升公告获得高度关注。
  • Perplexity金融产品发布也获得显著反响,互动量达2500。

Reddit社区/r/LocalLlama和/r/localLLM讨论亮点:

  • Google发布Gemma 4 MTP模型,支持多令牌预测,提升解码速度达2倍,且保持输出质量一致。
  • llama.cpp引入MTP支持,目前处于测试阶段,针对Qwen3.x模型,提升生成速度超过2倍,预计成为迄今最大性能提升之一。

整体来看,硅谷AI公司正加速向服务领域转型,结合强大的模型能力和定制化解决方案,推动AI技术在金融、医疗、企业软件等多个垂直行业的深度应用。