微信扫码
添加专属顾问
Phone calls are an API to the world — and AI takes this to the next level!
电话呼叫是通向世界的 API —— 而人工智能将其提升到了一个新的水平。
本篇文章深入探讨了 a16z 对 AI 语音助手的洞察,全面剖析了其发展机遇、技术架构、未来趋势,以及在 B2B 和 B2C 领域的应用潜力。
对企业来说,这意味着:
3、通过提供更加合规和一致的客户体验来降低风险。
对消费者而言,语音助手能够提供与人类相媲美的服务,而无需支付额外费用或与真人进行匹配。目前,这包括了治疗师、教练和陪伴服务——未来,这种服务可能会扩展到更广泛的基于语音的体验。正如大多数 toC 软件一样,最终的“赢家”是不可预测的。
在语音助手的各个层面,都隐藏着巨大的发展机遇——无论是构建基础设施、打造消费者界面还是提供企业级代理服务。针对面向消费者(B2C)和企业(B2B)的语音助手,我们归纳总结出以下关键特征:
1、重视构建效率
我们正在寻找那些对语音助手建设有明确见解的创始人,他们专注于优化语音助手的关键性能指标——速度、准确性、语气/情感等,以提供无缝的用户体验。
2、垂直专业化
我们认为,表现出色的语音助手很可能专注于特定垂类行业或领域,利用为特定用例定制的模型和紧密集成的工具集。这种方法更易于实施,并且能够更快地在市场上取得成功。
3、实际的业务范围
完全依赖人工智能处理所有重要通话是一项挑战——我们预计短期内,语音助手公司可能会采取一些"不可扩展"的策略。这可能包括对每个客户进行个性化调优,或者在必要时将通话转接给人工代理完成。
新一代的多模态模型,例如 GPT-4o,可能会通过单一模型同时处理多个层面,从而改变现有的架构结构。这不仅能够降低延迟和成本,还能支持更自然的对话界面——因为许多代理在传统的堆叠架构下,难以达到真正类似人类的对话质量。
语音助手的有效运作需要经过几个关键步骤:首先接收人类语音(自动语音识别,ASR),然后利用大型语言模型(LLM)处理输入并生成输出,最后以语音的形式回复给人类(文本到语音,TTS)。
在某些公司或方法中,单个或一系列LLM负责处理对话流程和情感分析。而在其他情况下,有专门的引擎来增加情感表达、管理对话中断等。提供“全栈”服务的语音供应商能够一站式提供上述所有功能。
面向消费者(B2C)和企业(B2B)的应用位于这个架构的顶层。即使使用第三方服务提供商,这些应用通常也会集成自定义的LLM——这些模型通常也用作对话引擎。
2、全栈解决方案与自定义组装
创建语音助手时,开发者可以选择在全栈平台(如Retell、Vapi、Bland等)上启动他们的代理,或者自行组装所需的技术堆栈。在做出这一决策时,有几个关键因素需要考虑:
1、复杂性
全栈解决方案为启动语音助手提供了一种简化的方法——它们隐藏了基础设施的复杂性,同时保留了自定义和调优的可能性。这包括从添加提示或知识文档(如Retrieval-Augmented Generation, RAG)到集成大型语言模型(LLM)的各个方面。
2、灵活性
对于那些针对特定行业或用例构建产品的创始人来说,他们可能希望在堆栈的每个层面上拥有最大的操作灵活性,并尽可能减少延迟。在自行组装技术堆栈时,实现这种灵活性可能更加容易。
3、成本
全栈服务提供商可能会为每次调用增加额外成本,因为他们需要从中获得利润。然而,他们也可能有能力为大量用户提供更优惠的定价方案。对于大规模部署的语音代理来说,每分钟的成本差异,哪怕是几美分,也可能成为重要的考量因素。
4、控制
当出现问题时,语音代理的创始人需要能够迅速定位并解决问题——尤其是对于那些对准确性要求极高的用例。他们也可能希望对每一层的技术有深入的了解和控制。采用自行组装的技术堆栈可能会使得这些需求更容易得到满足。
下图是目前在各个技术层面上的一些领先参与者。这份列表并非详尽的市场地图,而是代表了语音助手创始人最常提及的一些名字。
我们预期,随着多模态模型的兴起,整个技术栈将会经历重大变革。
B2B 语音助手
1、演变
我们已经见证了 B2B 语音助手领域经历了三波主要的技术浪潮:
IVR(交互式语音应答)
在传统的 IVR 系统中,消费者通过按键选择来与系统交互。例如,他们可能会听到提示:“按 1 转销售部门,按 2 转客户支持”,然后根据语音提示选择相应的服务。
AI 1.0(电话树)
AI 1.0 代表了 IVR 系统的一个进步,它允许消费者使用自然语言与系统交流。代理会尝试通过一系列对话流程来理解消费者的需求,并引导他们到达正确的服务选项。
AI 2.0(LLM)
AI 2.0 进一步发展了这一概念,允许更自由形式的对话。在这种模式下,AI 不会强制将消费者的每一句话与预定义的选项相匹配。相反,它旨在理解消费者的整体意图,并提供更自然、更人性化的交互体验。
许多语音助手公司采取了针对特定行业(如汽车服务)或特定任务类型(如预约安排)的垂直特定方法,原因如下:
- 执行难度
将呼叫委托给人工智能时,对话流程的质量标准非常高——很快就会变得复杂和具体。为这些垂直领域的“极端情况”而设计的公司更有可能成功(例如,一般模型可能无法理解的独特术语)。
- 法规和许可证
一些语音助手公司面临特殊的法规限制和认证要求。医疗保健行业(例如 HIPAA 合规性)是一个典型例子,尽管这种情况也出现在销售等类别中,这些类别在国家层面都有AI电话营销法规。
- 集成
在某些类别中,为了提供良好的用户体验(无论是对企业还是消费者),可能需要进行大量的集成或专门的集成。除非是为了满足特定用例的需求,否则这些集成可能不值得构建。
- 与其他软件的结合
语音是进入预订、续订、报价等核心客户行为的自然入口。在某些情况下,这将成为这些企业进入更广泛的垂直 SaaS 平台的机会——特别是当客户群仍然主要在线下运营时。
2、总体观点
我们正处于从 1.0 AI 语音(电话树)向 2.0 AI语音(基于LLM)的过渡期。在过去大约六个月中,2.0公司不断涌现。虽然 1.0 公司目前可能在准确性上占优,但从长远来看,2.0 方法在可扩展性和准确性方面将更具优势。
不太可能存在一种通用的企业语音助手模型或平台,因为不同垂直领域之间存在一些关键差异:
- 市场进入策略(GTM)和“杀手级功能”。
这可能预示着垂直领域语音助手的兴起,这些专业代理在用户界面(UI)设计上具有强烈的个性化需求。这要求创始人团队具备深厚的领域专业知识或对特定领域有浓厚兴趣。劳动力成本是许多企业的主要成本中心,对于能够“做对”的公司来说,总可寻址市场(TAM)是巨大的。
近期的机会可能出现在那些对劳动力依赖性强、劳动力短缺严重且呼叫复杂度较低的行业。随着客服人员变得更加熟练,他们将能够处理更复杂的呼叫。
3、我们看到的机会
一、基于LLM,但不一定从一开始就完全自动化
AI 语音助手的"强形式"将是完全由大型语言模型(LLM)驱动的对话,而不是传统的交互式语音响应(IVR)或电话树方法。然而,鉴于 LLM 并非始终 100% 可靠,对于更敏感或价值较大的交易,可能会暂时需要"人为介入"。这突显了垂直特定工作流程的重要性,因为它们可以最大化成功的可能性,同时最小化人为干预和边缘情况的发生。
二、定制模型与提示LLM方法的结合
B2B 语音助手需要处理特定领域(或垂直特定)的对话,而通用的 LLM 可能不足以应对这些需求。许多公司正在根据每个客户的数据(数百或数千个数据点)调整模型,并可能将其推断回公司范围内的基础模型。定制调整甚至可能进一步针对企业客户进行。注意:一些公司可能会针对其特定用例调整"通用"模型(供客户使用),然后根据每个客户进行定制提示。
三、拥有领域专业知识的技术团队
鉴于 B2B 语音助手的复杂性,拥有一定的人工智能背景将有助于(即使不是必需的)构建和扩展高质量的解决方案。然而,了解如何将产品包装并进入特定垂直领域同样重要——这需要相应的领域专业知识或浓厚兴趣。您不必拥有人工智能博士学位就能构建企业级语音助手。
四、对集成和生态系统有深刻的洞察
与上述情况类似,每个垂直领域的买家在购买前通常希望看到一些特定的功能或集成。实际上,这可能是产品在他们的评估中从"有用"转变为"神奇"的关键点。这也是从垂直领域开始构建产品的意义所在。
五、要么面向"企业级"市场,要么有强劲的产品主导增长(PLG)趋势
对于那些收入主要集中在顶级公司/供应商的垂直行业,语音助手公司可能会从企业级市场开始,最终通过自助产品"渗透"到中小企业。中小企业客户迫切需要解决方案,并愿意尝试各种选项——但他们可能无法提供足够的数据规模/质量,让初创公司将模型调整到企业级水平。
到目前为止,主导消费者市场的人工智能语音助手来自大型公司,例如 ChatGPT Voice 和 Inflection 的 Pi 应用。消费者语音助手的发展较慢有几个原因:
- 大型公司已经拥有广泛的消费者基础和一流的模型(在准确性、延迟等方面)。语音服务并不容易大规模交付,尤其是考虑到最近推出的 GPT-4o。
- B2B 语音助手是将 AI“插入”现有流程中,而 B2C 语音助手则要求用户采纳新的行为,这可能比较慢或需要更具吸引力的产品。
- 由于过去使用 Siri 等产品的经验,消费者对语音 AI 的看法一直很负面,因此他们可能不愿意尝试新的应用程序。
- 目前的产品已经能够满足语音AI的基本用例——如辅导、陪伴等。B2C 语音初创公司才刚刚开始解决特定的用例或创造 ChatGPT、Pi 等无法处理的体验。
2、总体观点
在 B2B 领域,语音助手主要通过替代现有的电话呼叫来完成特定任务。对于面向消费者的代理来说,用户必须选择继续参与,这更具挑战性,因为语音交互并不总是方便的。这意味着产品需要有更高的吸引力。
消费者语音助手的第一个也是最明显的应用是用人工智能替代昂贵或难以获得的人工服务。这包括治疗、指导、辅导等——任何可以基于对话并虚拟完成的服务。
然而,我们相信 B2C 语音助手的真正潜力可能尚未完全展现。我们正在寻找那些能够利用语音的力量,创造出以前不存在的新型“对话”的产品。这可能会重塑现有服务的形式,或创造出全新的服务。
对于提供卓越用户体验的产品,语音助手提供了一个前所未有的机会,可以以前所未有的水平与消费者互动——真正模仿人际联系。这可能体现在代理作为产品本身,或语音作为更广泛产品的一种模式。
3、我们看到的机会
一、明确解释为什么声音是必要的
我们期待看到那些能够清晰阐述语音如何为产品带来独特价值的产品和创始人——而不仅仅是为了使用语音而使用。在许多情况下,与文本界面相比,语音界面实际上是不利的,因为它使用起来更不方便,且获取信息的效率更低。
二、明确解释为什么实时语音是必要的
尽管语音的使用存在挑战,但实时语音的使用难度更大(与异步语音消息相比)。我们期待看到创始人能够理解为什么他们的产品需要围绕实时对话构建——也许是为了提供像人类一样的陪伴、练习环境等。
三、从拟物化到预人工智能“产品”
我们怀疑强形式的产品不会简单地复制人与人之间的对话,而是将人工智能语音助手作为人类服务提供者的替代。首先,达到这样的标准是困难的——但更重要的是,有机会利用人工智能更高效、更愉快地提供同样的价值。
四、垂直化到模型质量不决定胜者的程度
领先的通用消费级 AI 产品(如 ChatGPT、Pi、Claude )拥有高质量的语音模式。它们能够有效地参与多种类型的对话和互动。而且,由于它们拥有自己的模型和堆栈,它们很可能在短期内在延迟和对话流方面取得胜利。
我们期待看到初创公司通过针对特定类型的对话进行定制或调整,或构建为语音助手体验提供更多背景和价值的 UI 而取得成功——例如,随着时间的推移跟踪进度,或以有主见的方式引导对话/体验。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2026-07-05
Hermes 的记忆层有 8 种实现,我为什么选了最反常识的那个
2026-07-05
Codex 负责人谈 AI 时代唯一值钱的能力
2026-07-05
复旦期末考「造反」了:51名学生联手围攻Claude、DeepSeek,谁能让AI交白卷谁就是学霸
2026-07-05
Loop Engineering 会是 AI 的下个关键词吗?
2026-07-04
Cursor 如何把 AI 部署进企业内部
2026-07-04
字节跳动CEO梁汝波最新万字分享深度拆解:这可能是2026年最重要的一堂管理课
2026-07-03
开发者转向 AI 应用工程,真正要迁移的是工程判断力
2026-07-02
不改一行代码,看透 AI Agent 的每一次调用
2026-04-15
2026-04-07
2026-04-07
2026-04-24
2026-04-17
2026-04-14
2026-04-24
2026-04-22
2026-05-19
2026-04-24
欢迎您使用【53AI 官方网站】(以下简称“本网站”或“我们”)。本《会员服务协议》(以下简称“本协议”)是您(以下简称“会员”或“用户”)与【深圳市博思协创网络科技有限公司】之间关于注册、登录及使用本网站会员服务所订立的法律协议。
在您注册或登录前,请务必审慎阅读、充分理解各条款内容,特别是免除或限制责任的条款、知识产权条款、争议解决条款等。此类条款将以加粗形式提示您注意。 当您通过微信公众号授权、手机验证码验证或其他方式成功登录本网站时,即视为您已完全理解并同意接受本协议的全部内容。
一、 定义
本网站:指由【深圳市博思协创网络科技有限公司】运营的,域名为【53ai.com】的网站及相关移动端页面。
会员服务:指本网站向注册会员提供的知识库文章查阅、内容检索及其他相关增值服务。
知识库内容:指本网站发布的包括但不限于文字、图表、数据、研究报告、行业分析等数字化内容资源。
二、 账号注册与登录
登录方式:本网站支持以下登录方式,您可根据实际情况选择:
微信公众号授权登录:您同意将您的微信OpenID信息授权给本网站,用于创建或关联会员账号。
手机验证码登录:您需提供真实有效的手机号码,并通过短信验证码完成身份验证与登录/注册。
账号安全:您的账号仅限您本人使用,禁止赠与、借用、租用、转让或售卖。因您保管不善导致的账号被盗、密码泄露等损失,由您自行承担。
实名认证:根据相关法律法规要求,我们可能要求您在特定功能下完成实名认证。如您拒绝提供,可能无法使用部分或全部服务。
未成年人保护:若您未满18周岁,请在法定监护人的陪同下阅读本协议,并在征得监护人同意后使用本服务。
三、 服务内容与规范
知识库查阅权限:会员登录后,有权按照其会员等级对应的权限范围,在线浏览、检索本网站知识库中的相关文章及内容。
服务变更:我们有权根据业务发展需要,调整、变更或终止部分服务内容,并将以网站公告、公众号消息等方式提前通知。
禁止行为:您在使用服务时不得实施以下行为:
利用技术手段批量爬取、下载、转存知识库内容;
将知识库内容用于商业目的或未经授权地向第三方传播;
干扰本网站正常运行或侵犯其他用户合法权益;
发布违法违规信息或从事违反公序良俗的活动。
四、 知识产权声明
权利归属:本网站知识库中的排版设计、软件代码等内容的知识产权均归【公司全称】或原权利人所有,受《中华人民共和国著作权法》等法律保护。
有限许可:本网站授予会员一项非独占、不可转让、不可转授权的普通许可,仅限于个人学习、研究之目的在线查阅知识库内容。
侵权追责:未经书面许可,任何单位或个人不得以任何形式复制、转载、摘编、镜像、汇编或以其他方式使用上述内容。一经发现,我们保留追究其法律责任的权利。
五、 个人信息保护
我们重视对您个人信息的保护。关于我们如何收集、使用、存储和保护您的个人信息,请单独阅读 《隐私政策》。
您通过微信公众号授权或手机号验证所提供的信息,我们将严格按照《个人信息保护法》的规定处理,仅用于身份识别、服务提供及安全验证等必要用途。
您可以随时通过网站设置或联系客服行使查阅、更正、删除个人信息及撤回授权同意的权利。
六、 免责声明
内容准确性:知识库内容仅供参考,不构成专业建议。我们不对其完整性、准确性、时效性作任何明示或暗示的保证,您应自行判断并承担使用风险。
不可抗力:因自然灾害、政策法规变化、网络故障、第三方平台接口异常(如微信接口维护、运营商短信通道故障)等不可抗力导致的服务中断或延迟,我们不承担违约责任。
第三方链接:本网站可能包含指向第三方网站的链接,该等网站的内容和服务不受我们控制,请您自行甄别风险。
七、 违约责任
如您违反本协议约定,我们有权视情节采取警告、限制功能、暂停服务、注销账号等措施,并保留要求赔偿损失的权利。
如因您的违约行为导致我们遭受行政处罚、第三方索赔或商誉损失,您应承担全部赔偿责任(包括但不限于罚款、赔偿金、律师费、公证费等)。
八、 法律适用与争议解决
本协议的订立、执行和解释均适用中华人民共和国大陆地区法律。
因本协议产生的或与本协议有关的任何争议,双方应友好协商解决;协商不成的,任何一方均可向【公司所在地】有管辖权的人民法院提起诉讼。
九、 其他
本协议构成双方就本服务达成的完整协议,取代此前任何口头或书面约定。
本协议任一条款被认定为无效或不可执行的,不影响其他条款的效力。
我们对本协议享有最终解释权,并在法律允许的范围内保留随时修改的权利。修改后的协议一经公布即生效,继续使用服务即视为同意修订内容。