微信扫码
添加专属顾问
我要投稿
这篇研究揭示了AI交互从“回合制”到“实时协作”的根本性转变,预示着一个更自然、高效的人机协作新时代。核心内容: 1. “回合制”交互模式的瓶颈与“邮件式”协作的局限 2. 将交互能力内建于模型的“交互模型”全新架构 3. 以“微回合”重新定义响应时间,实现真正的实时感知与协作
编者按:本文编译自 Thinking Machines Lab 于 2026 年 5 月发表的研究博客《Interaction Models: A Scalable Approach to Human-AI Collaboration》。该实验室提出了一种全新的“交互模型”架构,让 AI 不再是一个等待指令的工具,而是一个能够实时感知、同步响应、主动参与的协作伙伴。这项工作可能标志着人机交互方式的根本性转变。
当你和 ChatGPT 或 Claude 对话时,有没有注意到一个微妙的不自然之处?你必须说完整段话,然后等待;模型必须生成完整回复,然后停下来。这就像两个人用对讲机交流——一方说话时,另一方只能沉默等待。
Thinking Machines Lab 认为,这种“回合制”交互模式正在成为人机协作最大的瓶颈。他们刚刚发布了一项研究预览,提出了一种被称为“交互模型”(Interaction Models)的全新架构——让 AI 能够像真实的人类同事一样,持续感知音频、视频和文本,实时思考、回应和行动。
AI 实验室们往往把“自主完成任务的能力”视为模型最重要的指标。Anthropic 的模型卡中曾明确指出:当模型被用于同步的、交互式的“手放键盘上”模式时,用户觉得它太慢了,无法充分发挥价值;只有在自主的、长时间运行的 Agent 模式下,模型的编程能力才能真正释放。
但 Thinking Machines Lab 的研究团队指出了一个被忽视的现实:在大多数真实工作中,用户根本无法在一开始就完整地描述需求然后转身离开。好的结果往往来自一个协作过程——人类始终在场,不断澄清、反馈、调整方向。
问题是,人类被推出了协作循环,不是因为工作不需要他们,而是因为界面没有为他们留出空间。
研究团队用了一个精妙的类比:想象你试图通过邮件来解决一个关键分歧,而不是面对面交谈。当前的 AI 交互,本质上就是这种“邮件式”协作——信息丢失、节奏割裂、上下文断裂。
面对这个问题,业界的主流做法是在模型外部搭建“脚手架”——用语音活动检测(VAD)组件模拟中断,用管道拼接多模态能力,用工程技巧伪装出实时感。
但 Thinking Machines Lab 做了一个不同的选择:交互能力必须是模型本身的一部分,而不是外部包装。
他们引用了 Rich Sutton 的“苦涩教训”——手工设计的系统终将被通用能力的进步所超越。如果交互性要随智能一起扩展,它就必须内建于模型之中。这样一来,扩大模型规模不仅让它更聪明,也让它成为更好的协作者。
基于这个信念,研究团队从零开始训练了一个交互模型。
传统模型看到的是交替出现的 token 序列——用户的一整段输入,然后模型的一整段输出。而 Thinking Machines Lab 的交互模型看到的是一条连续的微回合流:每 200 毫秒为一个单位,持续交错处理输入和生成输出。
这意味着沉默、重叠、中断都成为了模型上下文的一部分。不存在模型必须遵守的人工回合边界。模型可以在听用户说话的同时自己也在说——比如实时翻译;可以在观看视频的同时进行实时评论;可以在用户说错时主动打断纠正。
这些在传统架构中需要专门工程脚手架才能实现的交互模式,在交互模型中都变成了模型本身能力的特殊情况,并且会随着模型规模和训练数据的增加而自然改善。
一个纯粹追求实时响应的系统,往往会在深度推理上有所牺牲。Thinking Machines Lab 的解决方案是一个精妙的双层架构:
交互模型始终与用户保持实时连接。它负责感知、回应、维持对话线索。当遇到需要更深度推理的任务时,它会将任务委托给后台模型——后者异步运行,处理需要复杂规划、工具调用或长时间思考的工作。
关键在于,交互模型在等待后台结果期间不会消失。它继续回答跟进问题、接收新输入、保持对话的连贯性。当后台模型的结果就绪时,交互模型会在用户当前活动的适当时刻将结果编织进对话中,而不是突兀地进行上下文切换。
这种设计让用户同时享有两种好处:非思考模型的响应速度,加上推理模型的完整智能——规划、工具使用、Agent 式工作流,全部具备。
研究团队在工程层面做了几个值得关注的设计决策。
无编码器的早期融合。与大多数多模态模型使用独立的大型编码器(如 Whisper)不同,交互模型采用最小化预处理的方式:音频信号以 dMel 形式直接输入,图像被分割成 40×40 的 patch 后由轻量级 hMLP 编码,音频输出使用 flow head。所有组件与 Transformer 从头联合训练。
推理优化。200 毫秒的微回合意味着频繁的小批量 prefill 和 decode,每个都有严格的延迟约束。现有推理库对此优化不足,每个回合的开销都很大。研究团队实现了“流式会话”机制——客户端发送每个 200ms 块作为独立请求,推理服务器将其追加到 GPU 内存中的持久序列,避免了频繁的内存重分配。他们已将相关功能贡献给了 SGLang 开源项目。
训练器-采样器逐位对齐。团队发现逐位对齐对训练稳定性和系统调试都非常有帮助,他们实现了端到端性能损失低于 5% 的批次不变内核(batch-invariant kernels)。
交互模型解锁了一系列过去无法原生实现的能力:
无缝对话管理——模型隐式地追踪说话者是在思考、让步、自我纠正还是邀请回应,不需要单独的对话管理组件。
主动插话——模型根据上下文需要主动介入,而不仅在用户说完之后才回应。
同步语音——用户和模型可以同时说话。想象实时口译的场景:你说一句中文,模型同步输出英文,不需要等你说完。
时间感知——模型对经过的时间有直接的感知能力。它能回答“我跑一英里花了多长时间?”或者“提醒我每 4 秒呼吸一次”。
同步工具调用——在与用户说话和听取反馈的同时,模型可以并发地搜索网络、浏览页面或生成 UI,然后将结果无缝编织回对话中。
研究团队发布的模型 TML-Interaction-Small(276B 参数 MoE,12B 激活参数)在基准测试上展示了引人注目的结果。
在衡量交互质量的 FD-bench V1.5 基准中,该模型得分 77.8,远超 GPT-realtime-2.0 的 46.8 和 Gemini-3.1-flash-live 的 54.3。在衡量智能水平的 Audio MultiChallenge 中,APR 达到 43.4%,高于所有即时响应类竞品。
最令人印象深刻的是响应延迟:用户与模型之间的轮次切换延迟仅为 0.40 秒,而 GPT-realtime-2.0 为 1.18 秒。
Thinking Machines Lab 宣称:这是首个同时在智能和交互性两个维度都达到前沿水平的模型。
研究团队发现,现有的交互性基准无法充分捕捉交互模型的质变性提升。为此,他们创建了全新的评估维度。
TimeSpeak 基准测试模型能否在用户指定的时间主动发起语音。比如:“我要练习呼吸,每 4 秒提醒我呼气和吸气。”
CueSpeak 基准测试模型能否在恰当的语义时刻做出正确的响应。比如:“每当我切换语言时,告诉我原来那个语言中的正确说法。”——这要求模型在用户说话的同时就做出反应。
视觉主动性基准测试模型能否在视觉世界变化时主动选择说话,而不是只对语音信号做出反应。他们改编了 RepCount-A(在线计数俯卧撑)、ProactiveVideoQA(在视觉答案出现时主动回答)和 Charades(动作时间定位)三个基准。
结果令人震撼:现有的所有商用模型——包括 GPT Realtime-2.0 和 Gemini-3.1-flash-live——在这些任务上都无法有意义地完成。它们要么保持沉默,要么给出错误答案。只有 Thinking Machines Lab 的交互模型能够真正完成这些需要“主动感知、主动行动”的任务。
研究团队坦诚地指出了几个当前局限。长会话中音频和视频会快速积累上下文,目前的流式会话设计对中短交互表现良好,但超长会话仍需要更精细的上下文管理。低延迟流式传输需要可靠的网络连接,弱网环境下体验会显著下降。
当前的 TML-Interaction-Small 是 276B 参数的 MoE 模型(12B 激活),团队更大的预训练模型目前还无法在实时场景中部署,但他们计划在今年晚些时候发布更大的版本。
这项工作的意义远不止于一个新模型的发布。它代表的是一种对“人机协作应该是什么样子”的根本性重新思考。
过去几年,AI 领域的主流叙事是“让模型更自主”——给它一个任务,让它独立完成。但 Thinking Machines Lab 提出了一个不同的愿景:AI 最强大的形态,不是一个独立工作的 Agent,而是一个实时协作的伙伴。
当交互性不再是事后补丁,而是模型的原生能力;当扩大规模不仅带来更强的智能,还带来更好的协作体验——人机交互的范式转变,可能已经悄然开始。
研究团队表示将在未来几个月内开放有限的研究预览以收集反馈,并在今年晚些时候进行更广泛的发布。他们也正在启动一项研究资助计划,鼓励学术界对交互模型和人机协作领域的深入研究。
这个领域的故事,才刚刚开始。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2026-05-12
回敬 Codex,Claude Code 推出 /goal 功能,不干完不睡觉
2026-05-12
再也不用盯着几十个终端窗口!Claude Code推出Agent视图,一屏管所有
2026-05-11
Agent 烧钱如流水?Agentic OS (ANOLISA) 帮你逐笔看清 Token 账单
2026-05-11
IGA Pages × TRAE :TRAE 如何快速实现一键部署
2026-05-11
5 分钟上手 AgentRun:从注册到第一个 Agent 运行
2026-05-11
你的AI搭子来了!INMO Claw正式上线INMO AIR3
2026-05-11
玩转Harness后,我终于知道哪些是必须,哪里会翻车,加什么能救命了!
2026-05-11
Agent Harness 解析:智能体架构深度拆解
2026-04-15
2026-03-31
2026-03-13
2026-02-14
2026-04-07
2026-03-17
2026-03-17
2026-04-07
2026-03-21
2026-02-20
2026-05-09
2026-05-09
2026-05-09
2026-05-08
2026-05-07
2026-04-26
2026-04-22
2026-04-18