2026年4月10日 周五晚上19:30,来了解“从个人单点提效,到构建企业AI生产力”(限30人)
免费POC, 零成本试错
AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


我要投稿

豆包「打电话」升级 Seeduplex:周围再吵,只认准你的声音

发布日期:2026-04-09 22:02:37 浏览次数: 1557
作者:特工宇宙

微信搜一搜,关注“特工宇宙”

推荐语

豆包全新语音模型Seeduplex上线,嘈杂环境中也能精准识别你的声音,让对话如面对面般自然流畅。

核心内容:
1. Seeduplex全双工语音模型的突破性技术
2. 在公园嘈杂环境下的实际使用体验
3. 与传统半双工语音AI的对比优势

杨芳贤
53AI创始人/腾讯云(TVP)最具价值专家


内容编辑丨特工小海 特工小天

内容审核丨特工少女

最近在用豆包的语音通话功能,跟它聊 AI + OPC 的选题。

说到一半,脑子里突然卡壳,想找个更准确的词,就停了大概一两秒。我心想完了,下意识等待着被它打断,因为以前用语音 AI 都是这样,你稍微一顿,它就急着往上接,搞得像在跟一个急性子同事抢麦。

但这次它没有。

它就安安静静等着,直到我把后半句说完,才开始回应。那个瞬间我愣了一下,感觉跟之前用的语音助手完全不是一回事。

更让我意外的是这周我去公园里的一个体验:

当时我去世博大道散步,然后一边走路,一边跟豆包语音通话讨论下周的内容排期,旁边有很多来来往往的人,周围也有各种各样大自然的声音。

我心想这下肯定要乱套了,以前的语音 AI 碰到这种环境,不是把别人的话当成指令,就是突然冒出一句莫名其妙的回答。

结果全程稳稳当当,没有一次被旁边的声音带偏。

这让我产生了好奇,回去查了一下才知道,豆包最近换了新的语音模型,叫 Seeduplex。

这个模型是字节跳动 Seed 团队最新做的:一个原生的全双工语音大模型。

Seeduplex 到底解决了什么问题

在聊这个模型之前,有个概念需要先理清楚。

我们日常用的大多数语音 AI,本质上是「半双工」的。你可以把它理解成对讲机模式:你说完,松开按钮,对方才能说。双方永远在轮流占用同一条通道。这意味着 AI 必须做一个判断:你是不是说完了?如果它猜错了,要么抢话,要么反应迟钝。

而全双工,就是真正的电话模式。两边可以同时说、同时听,就像两个人面对面聊天那样自然。你说到一半停下来想一想,对方不会急着接话;你突然插一句,对方也能立刻回应。

听起来好像只是一个技术参数的升级,但实际用起来,体感差异非常大。

Seeduplex 目前已经在豆包 App 全量上线了:

怎么打开呢?进入豆包,点击「打电话」按钮就可以:

对了,点击消息右侧的➕,这里也有入口:

「打电话」实测 Seeduplex

我测了下这个功能,有些体验真的很好:

第一个场景,其实是我无意间触发的。

前面提到在公园里跟豆包讨论选题,当时的环境确实很嘈杂。我特意留意了一下,整段对话大概持续了十几分钟,全程豆包都可以准确的和我进行问答。

这些声音在以前的语音 AI 看来,每种都可能是一次「误触发」的风险。但 Seeduplex 全程没有对这些背景声音做出任何响应,我跟它之间的对话主线始终连贯,没有一次被岔开。

这个能力看似基础,但如果你经常在非安静环境下使用语音助手,就知道它有多重要。以前我在地铁上试过用语音 AI 查东西,结果报站广播一响,它直接开始回答一个我根本没问过的问题。那种体验真的很崩溃。

第二个场景,我设计了一场订外卖的压力测试。

事情是这样的:我从公园散步回来路上,晚上不想做饭,于是打算去地铁沿线随便找一家吃,顺便测测豆包。

我想看看 Seeduplex 在高频打断和反复修改需求的情况下,到底能撑到什么程度:

我一开始说「推荐 13 号线附近好吃的川菜」,它刚开始介绍第一家店,我就打断了,问「这家辣度高吗?」它话还没说完,我又改主意了,「算了不吃川菜了,推荐日料吧。」

它几乎是秒切,马上开始推荐日料。

然后我突然想起来一件事,又插了一句「等等,我刚拔了牙,不能吃凉的。」这句话说出来的时候,它正在介绍一家寿司店,但它立刻停了下来,重新调整推荐方向。

整个过程下来,我至少打断了它五六次,而它都非常及时的被我「打断」,然后接着我的提问或者要求回复。

这让我很意外:以前的语音 AI,你连续打断两三次基本就开始犯迷糊了,要么丢掉前面的条件,要么回一句「好的,让我重新开始」,然后从头来过。但 Seeduplex 给我的感觉是,它一直在「听」,不管你怎么打断、怎么改,它都在持续理解和更新你的意图。

还有一个细节我觉得很关键:从我说完到它开始回应,延迟基本都在一秒以内。这个节奏非常接近两个人正常打电话的感觉。如果延迟再长哪怕半秒,整个对话的流畅感就会断掉。

第三个场景,我和豆包聊了一次情感咨询。

这是我这次测试里最意外的一个场景:

朋友最近跟对象闹了点矛盾,问我该怎么处理,我一时也没什么好主意,就想着干脆让豆包帮我出出主意,顺便也测测它在这种场景下的表现。

我把事情的来龙去脉说给豆包听,说着说着,讲到一个细节,我突然觉得不对,“等等,好像不是这样的,我朋友当时的意思应该是……”,话说到一半停下来想了好几秒,因为我自己也没完全搞清楚状况。

以前用其他语音 AI,这个时候它基本已经开始自顾自地给建议了。但豆包就这么安静地等着我,等我把那个细节理清楚、重新说完,它才开口。

然后我又想补充一个背景,“哦对,还有一个事……”,直接插进去说,它没有任何停顿,就这么接收了,把这个新信息也纳进来。

最后它给的回应,把我说的所有细节都照顾到了,包括我中途改口的那个部分,没有遗漏,也没有答非所问。

豆包这次升级,让我感觉它真的像个真人:

它知道「什么时候该停,什么时候该讲」。人在说这类事情的时候,本来就不是线性的,会停顿、会绕回去、会临时加信息。如果 AI 一直在抢着给答案,你根本没机会把事情说清楚,最后得到的建议也没什么用。

第四个场景,我和它玩了一把成语接龙。

聊完情感咨询,我心情放松了不少,突然想换个方向测一测:刚才验证了它能等,现在想看看它在该快的时候,究竟能有多快。

于是我跟豆包说,来,玩成语接龙,我先来:「一石二鸟」。

话音刚落,它几乎没有任何停顿,直接接上:「鸟尽弓藏」。

我接,它接,来来回回,节奏越来越快,我故意不给它留太多反应时间,刚说完最后一个字马上就想听到它接上。它基本都能做到,延迟极短,整个对话的节奏感非常稳。

结局嘛,多少有点丢人。

感觉跟豆包玩成语接龙,它的反应速度完全不是问题,这一点我觉得它不仅知道「什么时候该讲」,也懂「什么时候该慢,而什么时候该快」,这样的语音体验感觉很丝滑。

整体体验下来,作为技术出身的我,最后竟然有些感动:

背后一定有一个技术团队在迎难而上,他们从技术角度思考每一个交互细节,最终才让对话有这样的流畅体验。

体验上的变化,技术含量很高

体验完,我开始了解 Seeduplex 背后的技术逻辑:

我发现,这件事远比我想象的复杂的多。

全双工最难的地方,在于「判停」。

你跟朋友打电话的时候,对方停了两秒,你能判断出他是在想措辞还是说完了。这个判断对人来说很自然,我们会综合语气、语速、内容逻辑甚至呼吸节奏来做判断。但对 AI 来说,这是一个极其困难的问题。

半双工模型的做法通常是设定一个固定的静音阈值,比如你停了 600ms 它就认为你说完了。这种方案在简单对话里勉强能用,但稍微复杂一点的场景就会频繁出错,该等的时候不等,该接的时候又慢半拍。

一种半双工场景的判停解决方案

Seeduplex 的做法完全不同。它把声学特征和语义理解融合在一起来做判停决策。通俗地说,它同时在听你的声音特征和你说的内容,综合这两层信息来判断你到底是在思考还是说完了。

效果呢?根据 Seed 团队给出的数据:在复杂的对话场景下,Seeduplex 的抢话比例相比半双工模型下降了 40%;在复杂声学干扰场景下,误回复率和误打断率减少了一半。

在我的实际体验中,我觉得豆包可以非常准确的判断什么时候停止,表现已经比较接近真人水平了。

另一个值得关注的点是工程层面的挑战。

全双工意味着模型需要同时处理输入和输出,实时性要求极高。Seed 团队在推理性能上做了大量优化,包括投机采样、量化等技术手段,在不牺牲模型智能水平的前提下,把延迟压到了可用的范围内。同时他们还解决了收音和播报卡顿等问题,确保在大流量环境下能稳定运行。

这一点容易被忽略,但其实非常关键:

实验室里跑通全双工和让上亿用户同时用全双工,是两件完全不同量级的事情。

据我了解,Seeduplex 是业界第一个实现规模化落地的全双工语音模型:

它不只是一个技术层面的突破,而是一个用在豆包这种国民级 AI 产品里,能经受住真实用户量考验的技术。

全双工语音的时代,可能比我们预想的来得更快

聊到这里,我们可以跳出产品看:

Seed 团队的全双工语音技术对整个行业意味着什么。

过去几年,语音交互的进化其实一直卡在一个瓶颈上。语音识别的准确率早就不是问题了,语音合成的自然度也越来越好,但用户就是觉得跟语音 AI 聊天「怪怪的」。

原因就在于交互节奏。半双工模式下,人必须适应机器的节奏,说完等它回,说错了要重来,想补充一句还得等它先说完。这种体验跟我们日常对话的习惯是割裂的。你不会跟朋友打电话的时候,先在心里组织好完整的一段话,然后一口气说完,再安静等对方回复。

全双工解决的就是这个问题。它让语音交互从「能用」跨越到了「好用」的阶段。

这个跨越对很多场景的影响会非常深远。

车载场景是一个最明显的例子。开车的时候你跟语音助手说话,环境噪音很大,你的表述经常是断断续续的,有时候说到一半要看路况停一下。半双工模型在这种场景下几乎没法正常工作,但全双工就天然适配。

AI 智能客服场景也是:现在的 AI 客服最让人抓狂的就是抢话和判停失误,你话还没说完它就开始回答了,或者你停下来想一想它就以为你说完了开始说一堆无关的话。如果客服系统全面切换到全双工,用户的体验会有质的变化。

还有面向孩子的教育场景。想想 AI 家教在辅导孩子做题的时候,孩子嗯嗯啊啊想了半天,AI 能耐心等着而不是急着给答案。这种交互方式才真正接近一个好老师的样子。

当然,最重要的是我们的日常对话场景:模拟面试,和豆包学习,练习口语,心理咨询,这些体验都会上一个台阶。

而 Seeduplex 展现出的环境感知能力,让我看到了一个更大的可能性。

当语音 AI 不仅能听懂你说的话,还能听懂你周围环境里的声音,并且把这些信息整合到对话中,它就不再是一个被动等待指令的工具了。它开始具备了一种对你所处情境的理解能力。

这可能是语音助手从工具进化为伙伴的关键一步。


回过头看,豆包能在我们停顿的时候,安静等着那几秒钟:

这个细节看起来很小,但它背后是一整套全新的技术架构和产品理念在支撑。

我个人的感觉是,当你体验过全双工语音之后,可能就很难再回到以前那种「我要等着 AI 讲完才能打断」的交互了,就像用惯了触摸屏一样。

过去的语音 AI 总在试图用规则和策略去「猜」用户的意图,猜对了还好,猜错了体验就崩了,Seeduplex 换了一个思路,它通过持续感知来「理解」用户的意图,才有了现在的打电话的体验。

如果你也对这个全双工语音感兴趣,不妨今天就打开豆包 App,进入「打电话」功能试试:

建议找一个稍微嘈杂的环境,或者故意打断它几次。

你会很快感受到:这跟以前的语音 AI 到底有什么不同。

53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询