我要投稿

AI 交互的范式转变：从"回合制"到"实时协作"

发布日期：2026-05-12 20:35:54 浏览次数： 1523

作者：AI Interface

微信搜一搜，关注“AI Interface”

编者按：本文编译自 Thinking Machines Lab 于 2026 年 5 月发表的研究博客《Interaction Models: A Scalable Approach to Human-AI Collaboration》。该实验室提出了一种全新的“交互模型”架构，让 AI 不再是一个等待指令的工具，而是一个能够实时感知、同步响应、主动参与的协作伙伴。这项工作可能标志着人机交互方式的根本性转变。

当你和 ChatGPT 或 Claude 对话时，有没有注意到一个微妙的不自然之处？你必须说完整段话，然后等待；模型必须生成完整回复，然后停下来。这就像两个人用对讲机交流——一方说话时，另一方只能沉默等待。

Thinking Machines Lab 认为，这种“回合制”交互模式正在成为人机协作最大的瓶颈。他们刚刚发布了一项研究预览，提出了一种被称为“交互模型”（Interaction Models）的全新架构——让 AI 能够像真实的人类同事一样，持续感知音频、视频和文本，实时思考、回应和行动。

被忽视的协作瓶颈

AI 实验室们往往把“自主完成任务的能力”视为模型最重要的指标。Anthropic 的模型卡中曾明确指出：当模型被用于同步的、交互式的“手放键盘上”模式时，用户觉得它太慢了，无法充分发挥价值；只有在自主的、长时间运行的 Agent 模式下，模型的编程能力才能真正释放。

但 Thinking Machines Lab 的研究团队指出了一个被忽视的现实：在大多数真实工作中，用户根本无法在一开始就完整地描述需求然后转身离开。好的结果往往来自一个协作过程——人类始终在场，不断澄清、反馈、调整方向。

问题是，人类被推出了协作循环，不是因为工作不需要他们，而是因为界面没有为他们留出空间。

研究团队用了一个精妙的类比：想象你试图通过邮件来解决一个关键分歧，而不是面对面交谈。当前的 AI 交互，本质上就是这种“邮件式”协作——信息丢失、节奏割裂、上下文断裂。

一个根本性的设计决策

面对这个问题，业界的主流做法是在模型外部搭建“脚手架”——用语音活动检测（VAD）组件模拟中断，用管道拼接多模态能力，用工程技巧伪装出实时感。

但 Thinking Machines Lab 做了一个不同的选择：交互能力必须是模型本身的一部分，而不是外部包装。

他们引用了 Rich Sutton 的“苦涩教训”——手工设计的系统终将被通用能力的进步所超越。如果交互性要随智能一起扩展，它就必须内建于模型之中。这样一来，扩大模型规模不仅让它更聪明，也让它成为更好的协作者。

基于这个信念，研究团队从零开始训练了一个交互模型。

200 毫秒的微回合：重新定义时间

传统模型看到的是交替出现的 token 序列——用户的一整段输入，然后模型的一整段输出。而 Thinking Machines Lab 的交互模型看到的是一条连续的微回合流：每 200 毫秒为一个单位，持续交错处理输入和生成输出。

这意味着沉默、重叠、中断都成为了模型上下文的一部分。不存在模型必须遵守的人工回合边界。模型可以在听用户说话的同时自己也在说——比如实时翻译；可以在观看视频的同时进行实时评论；可以在用户说错时主动打断纠正。

这些在传统架构中需要专门工程脚手架才能实现的交互模式，在交互模型中都变成了模型本身能力的特殊情况，并且会随着模型规模和训练数据的增加而自然改善。

双模型架构：实时与深度的统一

一个纯粹追求实时响应的系统，往往会在深度推理上有所牺牲。Thinking Machines Lab 的解决方案是一个精妙的双层架构：

交互模型始终与用户保持实时连接。它负责感知、回应、维持对话线索。当遇到需要更深度推理的任务时，它会将任务委托给后台模型——后者异步运行，处理需要复杂规划、工具调用或长时间思考的工作。

关键在于，交互模型在等待后台结果期间不会消失。它继续回答跟进问题、接收新输入、保持对话的连贯性。当后台模型的结果就绪时，交互模型会在用户当前活动的适当时刻将结果编织进对话中，而不是突兀地进行上下文切换。

这种设计让用户同时享有两种好处：非思考模型的响应速度，加上推理模型的完整智能——规划、工具使用、Agent 式工作流，全部具备。

技术实现的关键选择

研究团队在工程层面做了几个值得关注的设计决策。

无编码器的早期融合。与大多数多模态模型使用独立的大型编码器（如 Whisper）不同，交互模型采用最小化预处理的方式：音频信号以 dMel 形式直接输入，图像被分割成 40×40 的 patch 后由轻量级 hMLP 编码，音频输出使用 flow head。所有组件与 Transformer 从头联合训练。

推理优化。200 毫秒的微回合意味着频繁的小批量 prefill 和 decode，每个都有严格的延迟约束。现有推理库对此优化不足，每个回合的开销都很大。研究团队实现了“流式会话”机制——客户端发送每个 200ms 块作为独立请求，推理服务器将其追加到 GPU 内存中的持久序列，避免了频繁的内存重分配。他们已将相关功能贡献给了 SGLang 开源项目。

训练器-采样器逐位对齐。团队发现逐位对齐对训练稳定性和系统调试都非常有帮助，他们实现了端到端性能损失低于 5% 的批次不变内核（batch-invariant kernels）。

前所未有的交互能力

交互模型解锁了一系列过去无法原生实现的能力：

无缝对话管理——模型隐式地追踪说话者是在思考、让步、自我纠正还是邀请回应，不需要单独的对话管理组件。

主动插话——模型根据上下文需要主动介入，而不仅在用户说完之后才回应。

同步语音——用户和模型可以同时说话。想象实时口译的场景：你说一句中文，模型同步输出英文，不需要等你说完。

时间感知——模型对经过的时间有直接的感知能力。它能回答“我跑一英里花了多长时间？”或者“提醒我每 4 秒呼吸一次”。

同步工具调用——在与用户说话和听取反馈的同时，模型可以并发地搜索网络、浏览页面或生成 UI，然后将结果无缝编织回对话中。

性能表现：智能与交互的新前沿

研究团队发布的模型 TML-Interaction-Small（276B 参数 MoE，12B 激活参数）在基准测试上展示了引人注目的结果。

在衡量交互质量的 FD-bench V1.5 基准中，该模型得分 77.8，远超 GPT-realtime-2.0 的 46.8 和 Gemini-3.1-flash-live 的 54.3。在衡量智能水平的 Audio MultiChallenge 中，APR 达到 43.4%，高于所有即时响应类竞品。

最令人印象深刻的是响应延迟：用户与模型之间的轮次切换延迟仅为 0.40 秒，而 GPT-realtime-2.0 为 1.18 秒。

Thinking Machines Lab 宣称：这是首个同时在智能和交互性两个维度都达到前沿水平的模型。

全新的评估维度

研究团队发现，现有的交互性基准无法充分捕捉交互模型的质变性提升。为此，他们创建了全新的评估维度。

TimeSpeak 基准测试模型能否在用户指定的时间主动发起语音。比如：“我要练习呼吸，每 4 秒提醒我呼气和吸气。”

CueSpeak 基准测试模型能否在恰当的语义时刻做出正确的响应。比如：“每当我切换语言时，告诉我原来那个语言中的正确说法。”——这要求模型在用户说话的同时就做出反应。

视觉主动性基准测试模型能否在视觉世界变化时主动选择说话，而不是只对语音信号做出反应。他们改编了 RepCount-A（在线计数俯卧撑）、ProactiveVideoQA（在视觉答案出现时主动回答）和 Charades（动作时间定位）三个基准。

结果令人震撼：现有的所有商用模型——包括 GPT Realtime-2.0 和 Gemini-3.1-flash-live——在这些任务上都无法有意义地完成。它们要么保持沉默，要么给出错误答案。只有 Thinking Machines Lab 的交互模型能够真正完成这些需要“主动感知、主动行动”的任务。