2026年5月14日 周四晚上19:30,来了解“企业AI训练师:从个人提效到构建企业AI生产力”(限30人)
免费POC, 零成本试错
AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


我要投稿

OpenAI发布新一代实时语音模型,能够像人说话一样进行推理、翻译和转录

发布日期:2026-05-08 07:49:42 浏览次数: 1581
作者:AI寒武纪

微信搜一搜,关注“AI寒武纪”

推荐语

OpenAI推出三款革命性语音模型,让AI助手能像人类一样实时推理、翻译和转录,彻底改变人机交互方式。

核心内容:
1. GPT-Realtime系列模型的三大核心能力:复杂推理、实时翻译和语音转录
2. 语音作为人机界面的三大应用场景:语音到行动、系统到语音和语音到语音
3. GPT-Realtime-2的突破性功能:并行工具调用、透明化操作和更强的恢复能力

杨芳贤
53AI创始人/腾讯云(TVP)最具价值专家


↑阅读之前记得关注+星标⭐️,😄,每天才能第一时间接收到更新


 

OpenAI今天在API中推出三款全新音频模型,面向开发者开放。

这三款模型分别是:

GPT-Realtime-2:首款具备GPT-5级别推理能力的语音模型,能处理更复杂的请求,并自然地推进对话。

GPT-Realtime-Translate:实时翻译模型,支持70多种输入语言翻译成13种输出语言,翻译速度与说话者同步。

GPT-Realtime-Whisper:流式语音转文字模型,在说话的同时实时完成转录。

为什么要做这三款模型

语音正在成为人们使用软件最自然的方式之一。开车时求助、走在机场时改签、用母语获取支持、边做事边完成任务,都不需要停下来打字。

但做出真正好用的语音产品,远不止快速响应或声音自然这么简单。语音智能体需要理解用户的真实意图、持续追踪上下文、处理中途变化的需求、在对话继续的同时调用工具,并以恰当的方式回应。

OpenAI这次推出的三款模型,目标是让实时音频从简单的一问一答,升级成能真正完成工作的语音界面:边听边推理、翻译、转录、执行操作。

语音作为人与产品之间的界面

开发者正在围绕语音AI构建三种模式:

语音到行动:用户描述需求,系统推理请求、调用工具、完成任务。比如Zillow正在构建一个助手,能监听并处理类似这样的请求:在我的购房预算内找房,避开繁忙街道,周六安排看房。

系统到语音:软件将上下文转化为实时语音指引。比如旅行应用可以主动告知旅客:你的进港航班延误了,但你仍能赶上转机。我已找到新登机口,规划了最快穿越航站楼的路线,你的行李预计也能转运成功。

语音到语音:AI帮助跨语言、跨任务、跨变化场景的实时对话。比如德国电信正在构建语音支持体验,客户可以用自己最习惯的语言交流,模型实时完成对话翻译。

这几种模式也可以组合使用。比如让旅客全程用语音管理行程:对话式搜索航班和酒店、处理变化(比如航班延误后调整酒店预订)、获取实时安检等待时间、落地后翻译对话。

GPT-Realtime-2:让语音模型能推理、能行动

GPT-Realtime-2专为实时语音交互设计,模型在推理请求、调用工具、处理打断或纠正的同时,保持对话连贯进行。

具体能力包括:

前置短语:开发者可以启用简短的前置回应,比如让我查一下或稍等我看看,让用户知道智能体正在处理请求。

并行工具调用与透明化:模型可以同时调用多个工具,并用正在查看你的日历或现在帮你查一下这样的短语让操作可感知,让智能体在完成任务的同时保持响应。

更强的恢复能力:出现问题时,模型能说出我现在处理这个有点困难这样的话,而不是无声失败或打断对话。

更长的上下文:上下文窗口从32K扩展到128K,支持更长的连贯会话和更复杂的任务流程。

更强的领域理解:模型能更好地保留专业术语、专有名词、医疗词汇等在生产环境中重要的词汇。

可调节的语气与表达:模型能更好地调整语气,在解决问题时保持平静,在用户沮丧时表现出同理心,在确认成功操作时语气轻快。

可调节的推理强度:开发者可以从minimal、low、medium、high、xhigh五个推理级别中选择,默认为low,在简单交互的低延迟与复杂请求的深度推理之间灵活平衡。

评测数据方面,GPT-Realtime-2(high)在Big Bench Audio音频智能评测上比GPT-Realtime-1.5高出15.2%;GPT-Realtime-2(xhigh)在Audio MultiChallenge指令遵循评测上比GPT-Realtime-1.5高出13.8%,在推理、上下文管理和实时对话控制上均有提升。

GPT-Realtime-Translate:构建实时多语言语音体验

GPT-Realtime-Translate帮助开发者构建实时多语言语音体验,每个人都能用自己偏好的语言说话,实时听到翻译后的对话,并查看实时转录文字。支持超过70种输入语言和13种输出语言,适用于客户支持、跨境销售、教育、活动、媒体以及面向全球受众的创作者平台。

对开发者来说,实时翻译需要在保持意义准确的同时跟上说话者的节奏,即便对方说话自然随意、切换语境,或使用地区口音和行业术语。德国电信正在测试该模型用于多语言语音交互,更低的延迟和更强的流畅度让跨语言对话更自然。

Vimeo展示了GPT-Realtime-Translate如何在产品教育视频播放时实时翻译,全球用户可以即时听到自己偏好语言的版本,无需等待单独制作的译制版本。

GPT-Realtime-Whisper:低延迟转录

GPT-Realtime-Whisper是专为低延迟语音转文字构建的流式转录模型,在人说话的同时转录音频,让实时产品更快、更响应、更自然,从即时显示的字幕到跟上对话节奏的会议记录,都能覆盖。

该模型让实时语音直接进入业务流程。团队可以为会议、课堂、直播和活动生成字幕;在对话进行时生成记录和摘要;构建需要持续理解用户的语音智能体;为客户支持、医疗、销售、招聘等高频语音场景创建更快速的后续工作流。

定价与上线情况

GPT-Realtime-2、GPT-Realtime-Translate和GPT-Realtime-Whisper均已在Realtime API中上线。

定价如下:

GPT-Realtime-2:音频输入32美元/百万token(缓存输入0.40美元),音频输出64美元/百万token。

GPT-Realtime-Translate:0.034美元/分钟。

GPT-Realtime-Whisper:0.017美元/分钟。

可在[Playground]

https://platform.openai.com/playground

中测试新的实时语音模型。

如需开始构建,可[在Codex中打开此提示]

构建或添加一个使用 `gpt-realtime-2` 模型的最小化 Realtime 2 WebRTC 语音代理。

请参考最新的 OpenAI Realtime API 文档,了解 WebRTC 和会话设置的模式。如果当前文件夹中已包含应用程序,则将其添加到现有应用中;否则,创建一个小的本地 Web 应用。添加一个服务端会话端点,该端点使用 `OPENAI_API_KEY`,并严格按照文档要求将浏览器生成的 SDP 发布到 `/v1/realtime/calls`:使用多部分表单数据字段 `sdp` 和 `session`,而不是文件上传。通过 `RTCPeerConnection` 连接浏览器的麦克风输入和模型音频输出,打开一个 `oai-events` 数据通道,并使用 `session.update` 注册一个示例函数工具:`check_calendar(date, time)`,用于返回所请求的时间是否可用。

保持代码简洁,并包含设置/运行说明。

将GPT-Realtime-2添加到现有应用或启动新项目。

 


--end--


最后记得⭐️我,每天都在更新:如果觉得文章还不错的话可以点赞转发推荐评论

/...@作者:你说的完全正确(YAR师)


53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询