我要投稿

OpenAI发布新一代实时语音模型，能够像人说话一样进行推理、翻译和转录

发布日期：2026-05-08 07:49:42 浏览次数： 2096

作者：AI寒武纪

微信搜一搜，关注“AI寒武纪”

OpenAI今天在API中推出三款全新音频模型，面向开发者开放。

这三款模型分别是：

GPT-Realtime-2：首款具备GPT-5级别推理能力的语音模型，能处理更复杂的请求，并自然地推进对话。

GPT-Realtime-Translate：实时翻译模型，支持70多种输入语言翻译成13种输出语言，翻译速度与说话者同步。

GPT-Realtime-Whisper：流式语音转文字模型，在说话的同时实时完成转录。

为什么要做这三款模型

语音正在成为人们使用软件最自然的方式之一。开车时求助、走在机场时改签、用母语获取支持、边做事边完成任务，都不需要停下来打字。

但做出真正好用的语音产品，远不止快速响应或声音自然这么简单。语音智能体需要理解用户的真实意图、持续追踪上下文、处理中途变化的需求、在对话继续的同时调用工具，并以恰当的方式回应。

OpenAI这次推出的三款模型，目标是让实时音频从简单的一问一答，升级成能真正完成工作的语音界面：边听边推理、翻译、转录、执行操作。

语音作为人与产品之间的界面

开发者正在围绕语音AI构建三种模式：

语音到行动：用户描述需求，系统推理请求、调用工具、完成任务。比如Zillow正在构建一个助手，能监听并处理类似这样的请求：在我的购房预算内找房，避开繁忙街道，周六安排看房。

系统到语音：软件将上下文转化为实时语音指引。比如旅行应用可以主动告知旅客：你的进港航班延误了，但你仍能赶上转机。我已找到新登机口，规划了最快穿越航站楼的路线，你的行李预计也能转运成功。

语音到语音：AI帮助跨语言、跨任务、跨变化场景的实时对话。比如德国电信正在构建语音支持体验，客户可以用自己最习惯的语言交流，模型实时完成对话翻译。

这几种模式也可以组合使用。比如让旅客全程用语音管理行程：对话式搜索航班和酒店、处理变化（比如航班延误后调整酒店预订）、获取实时安检等待时间、落地后翻译对话。

GPT-Realtime-2：让语音模型能推理、能行动

GPT-Realtime-2专为实时语音交互设计，模型在推理请求、调用工具、处理打断或纠正的同时，保持对话连贯进行。

具体能力包括：

前置短语：开发者可以启用简短的前置回应，比如让我查一下或稍等我看看，让用户知道智能体正在处理请求。

并行工具调用与透明化：模型可以同时调用多个工具，并用正在查看你的日历或现在帮你查一下这样的短语让操作可感知，让智能体在完成任务的同时保持响应。

更强的恢复能力：出现问题时，模型能说出我现在处理这个有点困难这样的话，而不是无声失败或打断对话。

更长的上下文：上下文窗口从32K扩展到128K，支持更长的连贯会话和更复杂的任务流程。

更强的领域理解：模型能更好地保留专业术语、专有名词、医疗词汇等在生产环境中重要的词汇。

可调节的语气与表达：模型能更好地调整语气，在解决问题时保持平静，在用户沮丧时表现出同理心，在确认成功操作时语气轻快。

可调节的推理强度：开发者可以从minimal、low、medium、high、xhigh五个推理级别中选择，默认为low，在简单交互的低延迟与复杂请求的深度推理之间灵活平衡。

评测数据方面，GPT-Realtime-2（high）在Big Bench Audio音频智能评测上比GPT-Realtime-1.5高出15.2%；GPT-Realtime-2（xhigh）在Audio MultiChallenge指令遵循评测上比GPT-Realtime-1.5高出13.8%，在推理、上下文管理和实时对话控制上均有提升。

GPT-Realtime-Translate：构建实时多语言语音体验

GPT-Realtime-Translate帮助开发者构建实时多语言语音体验，每个人都能用自己偏好的语言说话，实时听到翻译后的对话，并查看实时转录文字。支持超过70种输入语言和13种输出语言，适用于客户支持、跨境销售、教育、活动、媒体以及面向全球受众的创作者平台。

对开发者来说，实时翻译需要在保持意义准确的同时跟上说话者的节奏，即便对方说话自然随意、切换语境，或使用地区口音和行业术语。德国电信正在测试该模型用于多语言语音交互，更低的延迟和更强的流畅度让跨语言对话更自然。

Vimeo展示了GPT-Realtime-Translate如何在产品教育视频播放时实时翻译，全球用户可以即时听到自己偏好语言的版本，无需等待单独制作的译制版本。

GPT-Realtime-Whisper：低延迟转录

GPT-Realtime-Whisper是专为低延迟语音转文字构建的流式转录模型，在人说话的同时转录音频，让实时产品更快、更响应、更自然，从即时显示的字幕到跟上对话节奏的会议记录，都能覆盖。

该模型让实时语音直接进入业务流程。团队可以为会议、课堂、直播和活动生成字幕；在对话进行时生成记录和摘要；构建需要持续理解用户的语音智能体；为客户支持、医疗、销售、招聘等高频语音场景创建更快速的后续工作流。

定价与上线情况

GPT-Realtime-2、GPT-Realtime-Translate和GPT-Realtime-Whisper均已在Realtime API中上线。

定价如下：

GPT-Realtime-2：音频输入32美元/百万token（缓存输入0.40美元），音频输出64美元/百万token。

GPT-Realtime-Translate：0.034美元/分钟。

GPT-Realtime-Whisper：0.017美元/分钟。

可在[Playground]

https://platform.openai.com/playground

中测试新的实时语音模型。

如需开始构建，可[在Codex中打开此提示]

构建或添加一个使用 `gpt-realtime-2` 模型的最小化 Realtime 2 WebRTC 语音代理。

请参考最新的 OpenAI Realtime API 文档，了解 WebRTC 和会话设置的模式。如果当前文件夹中已包含应用程序，则将其添加到现有应用中；否则，创建一个小的本地 Web 应用。添加一个服务端会话端点，该端点使用 `OPENAI_API_KEY`，并严格按照文档要求将浏览器生成的 SDP 发布到 `/v1/realtime/calls`：使用多部分表单数据字段 `sdp` 和 `session`，而不是文件上传。通过 `RTCPeerConnection` 连接浏览器的麦克风输入和模型音频输出，打开一个 `oai-events` 数据通道，并使用 `session.update` 注册一个示例函数工具：`check_calendar(date, time)`，用于返回所请求的时间是否可用。

保持代码简洁，并包含设置/运行说明。

将GPT-Realtime-2添加到现有应用或启动新项目。

--end--