Thinking Machines原生交互模型——TML-Interaction-Small 276B-A12B推动实时语音技术新高度

发布时间：2026/5/13

在我们发布Neil Zeghidour（Gradium首席执行官，Kyutai Moshi的盈利分支）关于实时语音未来发展的演讲当天，Thinking Machines团队第三次在一年内推出了其最新成果——交互模型（Interaction Models: A Scalable Approach to Human-AI Collaboration）。

该模型名为TML-Interaction-Small，拥有2760亿参数的MoE架构，其中12亿参数处于活跃状态，立即推动了实时语音模型的技术前沿，超越了此前著名的GPT 4o“她”演示，展示了更为细致且更接近实际应用的演示效果。

完整的博客文章中展示了大量连续交互的示例，重点在于每个200毫秒的“时间对齐微轮次”流式交互：

Thinking Machines交互模型示意图

模型采用无编码器的早期融合技术，图像和音频处理时间均低于200毫秒，类似Meta的Chameleon模型：

早期融合架构示意

团队在多个官方基准测试中击败了GPT-Realtime-2和Gemini 3.1-Flash，涵盖BigBench Audio、IFEval和FD-bench等基础任务。为了实现更高水平的交互性，还设计了两个新的内部基准，专注于时间感知、同步翻译和视觉主动性：

TimeSpeak：模型能否在用户指定时间主动发言？例如：“我想练习呼吸，每4秒提醒我吸气和呼气，直到我说停止。”
CueSpeak：模型能否在恰当时刻发言？例如：“每当我切换语言时，给我原语言的正确单词。”
RepCount-A：基于重复动作视频的在线计数任务，衡量连续视觉追踪和及时计数能力。
ProactiveVideoQA：视频问答任务，要求在特定时刻给出正确答案，错误回答会被扣分。
Charades：标准的时间动作定位基准，结合用户语音指令进行动作开始和结束的标记。

然而，最令人印象深刻的是博客底部的演示样例，播放即可感受类AGI的交互体验：

Thinking Machines交互演示

结尾部分透露了Thinking Machines未来路线图的诱人线索，包括将背景代理与交互模型结合的创新思路，令人期待。

未来路线图示意

此外，AI领域近期动态还包括OpenAI向企业服务和安全领域的深入布局，推出了OpenAI部署公司和Daybreak安全项目，强调了AI在企业落地和网络安全中的重要作用。

在代理工具和本地优先工具链方面，Rust CLI工具aggit、本地Claude代理终端控制面板以及Hermes Agent等产品快速发展，推动了代理编排和本地模型的成熟。

编码代理基准测试首次将模型与工具链组合纳入评估，揭示了性能和成本的巨大差异。同时，TurboQuant量化技术的实际效果也受到质疑，强调了独立验证的重要性。

本地和开源模型的性能提升速度超过硬件发展，DeepSeek V4 Flash等模型在本地运行表现出色，推动了本地智能代理的普及。

研究方面，模块化MoE架构、基于扩散的语言和字节级建模，以及长时程代理行为的研究均取得新进展，揭示了未来AI系统设计的新方向。

总的来看，Thinking Machines的交互模型不仅是技术上的突破，更代表了人机交互范式的根本转变，推动了实时多模态AI系统的发展。

标签

#实时语音 #交互模型 #多模态AI #人工智能 #模型架构

评论

评论系统可后续接入后端接口，这里先保留展示与提交区域。

相关阅读

Medicare新支付模式为AI量身打造，科技界大多尚未察觉

2026/05/14

Medicare新支付模式为AI量身打造，科技界大多尚未察觉

Neil Batlivala花了七年时间打造了一家鲜为科技界所知、服务于硅谷大多数忽视的患者群体的医疗公司。但就在上个月，他的工作让他站在了一个更大舞台的中心。他的公司Pair Team于4月30日宣布，被美国医疗保险和医疗补助服务中心（CMS）选中，成为ACCESS项目的150个参与者之一。ACCESS是一个Medicare项目，旨在测试联邦层面AI驱动医疗服务的可能性，该项目将于7月5日正式

AI短片引发愤怒：将1970年代女性制作成情色影像引争议

2026/05/25

AI短片引发愤怒：将1970年代女性制作成情色影像引争议

一组利用AI技术将1976年情色杂志中的女性照片转化为带声音和对话的短片，在社交媒体引发强烈批评，涉及伦理和同意问题。

1X Neo机器人拥有惊人的快速灵巧手指

2026/07/14

1X Neo机器人拥有惊人的快速灵巧手指

挪威-美国机器人公司1X近日公布了其软体机器人伙伴Neo配备的五指机械手的详细信息。这些机械手采用了模仿人体手臂肌腱运动的执行器设计。1X表示，这使得Neo的手拥有25个自由度的运动能力，略低于人类手通常拥有的27个自由度。通过摄像头和人工智能技术，机器人能够理解手指试图抓取物体的整体环境。这种灵巧的设计赋予Neo机器人极其广泛的运动范围。1X称，这些手能够抓握各种奇特形状的物体，并能感知物体是