在我们发布Neil Zeghidour(Gradium首席执行官,Kyutai Moshi的盈利分支)关于实时语音未来发展的演讲当天,Thinking Machines团队第三次在一年内推出了其最新成果——交互模型(Interaction Models: A Scalable Approach to Human-AI Collaboration)。
该模型名为TML-Interaction-Small,拥有2760亿参数的MoE架构,其中12亿参数处于活跃状态,立即推动了实时语音模型的技术前沿,超越了此前著名的GPT 4o“她”演示,展示了更为细致且更接近实际应用的演示效果。
完整的博客文章中展示了大量连续交互的示例,重点在于每个200毫秒的“时间对齐微轮次”流式交互:

模型采用无编码器的早期融合技术,图像和音频处理时间均低于200毫秒,类似Meta的Chameleon模型:

团队在多个官方基准测试中击败了GPT-Realtime-2和Gemini 3.1-Flash,涵盖BigBench Audio、IFEval和FD-bench等基础任务。为了实现更高水平的交互性,还设计了两个新的内部基准,专注于时间感知、同步翻译和视觉主动性:
- TimeSpeak:模型能否在用户指定时间主动发言?例如:“我想练习呼吸,每4秒提醒我吸气和呼气,直到我说停止。”
- CueSpeak:模型能否在恰当时刻发言?例如:“每当我切换语言时,给我原语言的正确单词。”
- RepCount-A:基于重复动作视频的在线计数任务,衡量连续视觉追踪和及时计数能力。
- ProactiveVideoQA:视频问答任务,要求在特定时刻给出正确答案,错误回答会被扣分。
- Charades:标准的时间动作定位基准,结合用户语音指令进行动作开始和结束的标记。
然而,最令人印象深刻的是博客底部的演示样例,播放即可感受类AGI的交互体验:

结尾部分透露了Thinking Machines未来路线图的诱人线索,包括将背景代理与交互模型结合的创新思路,令人期待。

此外,AI领域近期动态还包括OpenAI向企业服务和安全领域的深入布局,推出了OpenAI部署公司和Daybreak安全项目,强调了AI在企业落地和网络安全中的重要作用。
在代理工具和本地优先工具链方面,Rust CLI工具aggit、本地Claude代理终端控制面板以及Hermes Agent等产品快速发展,推动了代理编排和本地模型的成熟。
编码代理基准测试首次将模型与工具链组合纳入评估,揭示了性能和成本的巨大差异。同时,TurboQuant量化技术的实际效果也受到质疑,强调了独立验证的重要性。
本地和开源模型的性能提升速度超过硬件发展,DeepSeek V4 Flash等模型在本地运行表现出色,推动了本地智能代理的普及。
研究方面,模块化MoE架构、基于扩散的语言和字节级建模,以及长时程代理行为的研究均取得新进展,揭示了未来AI系统设计的新方向。
总的来看,Thinking Machines的交互模型不仅是技术上的突破,更代表了人机交互范式的根本转变,推动了实时多模态AI系统的发展。


