微信扫码
添加专属顾问
我要投稿
OpenAI推出三款革命性语音模型,让AI助手能像人类一样实时推理、翻译和转录,彻底改变人机交互方式。 核心内容: 1. GPT-Realtime系列模型的三大核心能力:复杂推理、实时翻译和语音转录 2. 语音作为人机界面的三大应用场景:语音到行动、系统到语音和语音到语音 3. GPT-Realtime-2的突破性功能:并行工具调用、透明化操作和更强的恢复能力
OpenAI今天在API中推出三款全新音频模型,面向开发者开放。
这三款模型分别是:
GPT-Realtime-2:首款具备GPT-5级别推理能力的语音模型,能处理更复杂的请求,并自然地推进对话。
GPT-Realtime-Translate:实时翻译模型,支持70多种输入语言翻译成13种输出语言,翻译速度与说话者同步。
GPT-Realtime-Whisper:流式语音转文字模型,在说话的同时实时完成转录。
语音正在成为人们使用软件最自然的方式之一。开车时求助、走在机场时改签、用母语获取支持、边做事边完成任务,都不需要停下来打字。
但做出真正好用的语音产品,远不止快速响应或声音自然这么简单。语音智能体需要理解用户的真实意图、持续追踪上下文、处理中途变化的需求、在对话继续的同时调用工具,并以恰当的方式回应。
OpenAI这次推出的三款模型,目标是让实时音频从简单的一问一答,升级成能真正完成工作的语音界面:边听边推理、翻译、转录、执行操作。
开发者正在围绕语音AI构建三种模式:
语音到行动:用户描述需求,系统推理请求、调用工具、完成任务。比如Zillow正在构建一个助手,能监听并处理类似这样的请求:在我的购房预算内找房,避开繁忙街道,周六安排看房。
系统到语音:软件将上下文转化为实时语音指引。比如旅行应用可以主动告知旅客:你的进港航班延误了,但你仍能赶上转机。我已找到新登机口,规划了最快穿越航站楼的路线,你的行李预计也能转运成功。
语音到语音:AI帮助跨语言、跨任务、跨变化场景的实时对话。比如德国电信正在构建语音支持体验,客户可以用自己最习惯的语言交流,模型实时完成对话翻译。
这几种模式也可以组合使用。比如让旅客全程用语音管理行程:对话式搜索航班和酒店、处理变化(比如航班延误后调整酒店预订)、获取实时安检等待时间、落地后翻译对话。
GPT-Realtime-2专为实时语音交互设计,模型在推理请求、调用工具、处理打断或纠正的同时,保持对话连贯进行。
具体能力包括:
前置短语:开发者可以启用简短的前置回应,比如让我查一下或稍等我看看,让用户知道智能体正在处理请求。
并行工具调用与透明化:模型可以同时调用多个工具,并用正在查看你的日历或现在帮你查一下这样的短语让操作可感知,让智能体在完成任务的同时保持响应。
更强的恢复能力:出现问题时,模型能说出我现在处理这个有点困难这样的话,而不是无声失败或打断对话。
更长的上下文:上下文窗口从32K扩展到128K,支持更长的连贯会话和更复杂的任务流程。
更强的领域理解:模型能更好地保留专业术语、专有名词、医疗词汇等在生产环境中重要的词汇。
可调节的语气与表达:模型能更好地调整语气,在解决问题时保持平静,在用户沮丧时表现出同理心,在确认成功操作时语气轻快。
可调节的推理强度:开发者可以从minimal、low、medium、high、xhigh五个推理级别中选择,默认为low,在简单交互的低延迟与复杂请求的深度推理之间灵活平衡。
评测数据方面,GPT-Realtime-2(high)在Big Bench Audio音频智能评测上比GPT-Realtime-1.5高出15.2%;GPT-Realtime-2(xhigh)在Audio MultiChallenge指令遵循评测上比GPT-Realtime-1.5高出13.8%,在推理、上下文管理和实时对话控制上均有提升。
GPT-Realtime-Translate帮助开发者构建实时多语言语音体验,每个人都能用自己偏好的语言说话,实时听到翻译后的对话,并查看实时转录文字。支持超过70种输入语言和13种输出语言,适用于客户支持、跨境销售、教育、活动、媒体以及面向全球受众的创作者平台。
对开发者来说,实时翻译需要在保持意义准确的同时跟上说话者的节奏,即便对方说话自然随意、切换语境,或使用地区口音和行业术语。德国电信正在测试该模型用于多语言语音交互,更低的延迟和更强的流畅度让跨语言对话更自然。
Vimeo展示了GPT-Realtime-Translate如何在产品教育视频播放时实时翻译,全球用户可以即时听到自己偏好语言的版本,无需等待单独制作的译制版本。
GPT-Realtime-Whisper是专为低延迟语音转文字构建的流式转录模型,在人说话的同时转录音频,让实时产品更快、更响应、更自然,从即时显示的字幕到跟上对话节奏的会议记录,都能覆盖。
该模型让实时语音直接进入业务流程。团队可以为会议、课堂、直播和活动生成字幕;在对话进行时生成记录和摘要;构建需要持续理解用户的语音智能体;为客户支持、医疗、销售、招聘等高频语音场景创建更快速的后续工作流。
GPT-Realtime-2、GPT-Realtime-Translate和GPT-Realtime-Whisper均已在Realtime API中上线。
定价如下:
GPT-Realtime-2:音频输入32美元/百万token(缓存输入0.40美元),音频输出64美元/百万token。
GPT-Realtime-Translate:0.034美元/分钟。
GPT-Realtime-Whisper:0.017美元/分钟。
可在[Playground]
https://platform.openai.com/playground
中测试新的实时语音模型。
如需开始构建,可[在Codex中打开此提示]
构建或添加一个使用 `gpt-realtime-2` 模型的最小化 Realtime 2 WebRTC 语音代理。
请参考最新的 OpenAI Realtime API 文档,了解 WebRTC 和会话设置的模式。如果当前文件夹中已包含应用程序,则将其添加到现有应用中;否则,创建一个小的本地 Web 应用。添加一个服务端会话端点,该端点使用 `OPENAI_API_KEY`,并严格按照文档要求将浏览器生成的 SDP 发布到 `/v1/realtime/calls`:使用多部分表单数据字段 `sdp` 和 `session`,而不是文件上传。通过 `RTCPeerConnection` 连接浏览器的麦克风输入和模型音频输出,打开一个 `oai-events` 数据通道,并使用 `session.update` 注册一个示例函数工具:`check_calendar(date, time)`,用于返回所请求的时间是否可用。
保持代码简洁,并包含设置/运行说明。
将GPT-Realtime-2添加到现有应用或启动新项目。
--end--
最后记得⭐️我,每天都在更新:如果觉得文章还不错的话可以点赞转发推荐评论
/...@作者:你说的完全正确(YAR师)
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2026-05-08
Agent 时代的生产力悖论:当协作本身成为最大的瓶颈
2026-05-07
用Agent评测思路管理AI Coding —— 31万行代码AI重构的实践
2026-05-07
Anthropic 官方生产级 Agent 最佳实践:12 个可复用的 MCP 设计模式
2026-05-07
从“记住”到“学会”:OceanBase seekdb M0 如何让 Agent 真正积累经验
2026-05-07
Claude Cowork别瞎用
2026-05-07
为什么同一个模型,在 Claude Code/Codex CLI 里感觉像换了个脑子?
2026-05-07
尝试在Warp里使用claude code
2026-05-07
我用 Claude Code CLI 搭了一套「不丢上下文」的工作流
2026-04-15
2026-03-31
2026-03-13
2026-02-14
2026-03-17
2026-04-07
2026-02-09
2026-03-17
2026-03-21
2026-02-20
2026-05-07
2026-04-26
2026-04-22
2026-04-18
2026-04-13
2026-04-12
2026-04-07
2026-04-01