我要投稿

OpenAI发布语音到语音模型gpt-realtime

发布日期：2025-08-29 15:31:45 浏览次数： 2318

作者：AI帝国

微信搜一搜，关注“AI帝国”

OpenAI正式发布实时API，推出面向生产环境的语音代理解决方案。新发布的gpt-realtime是一个语音到语音模型，原生理解和生成音频，可以表达广泛的情感并在实时对话中无缝切换语言。

核心技术

gpt-realtime是OpenAI SOTA的语音模型。该模型使用高质量语音数据和专门的奖励模型进行训练，在音频质量、智能性、指令遵循和函数调用方面都有显著改进。

在音频质量方面，模型能够生成更高质量的语音，听起来更自然，并能遵循细粒度指令，如"快速专业地说话"或"以法国口音富有同情心地说话"。OpenAI还发布了两个新语音Marin和Cedar，在自然语音方面有最显著的改进。

在智能理解方面，gpt-realtime显示出更高的智能，能更准确地理解原生音频。该模型可以捕捉非语言线索（如笑声），在句子中间切换语言，并调整语调。在Big Bench Audio评估中，gpt-realtime得分82.8%，超过了之前模型的65.6%。

性能表现

在指令遵循方面表现出色。在MultiChallenge音频基准测试中，gpt-realtime得分30.5%，比之前模型的20.6%有显著改进。演示显示了它如何拒绝用户要求的不存在的折扣，体现了出色的指令遵循能力。

在函数调用基准测试中达到了66.5%的准确率，而之前模型仅为49.7%。模型还针对真实世界的客户使用案例进行了调优，改进了异步函数调用功能。

API新功能

实时API现在支持远程MCP服务器、图像输入，以及通过会话发起协议（SIP）进行电话呼叫。图像输入功能让用户可以将图像、照片和截图与音频一起添加到会话中，使用户能够提出"你看到了什么？"等问题。

其他功能包括会话发起协议（SIP）支持，可将应用程序连接到公共电话网络、PBX系统等；可重用提示功能，允许保存和重用包含开发者消息、工具、变量的提示。

定价与可用性

gpt-realtime定价为每百万音频输入token 32美元（缓存输入token 0.40美元），每百万音频输出token 64美元。

与传统的多模型链接管道不同，实时API通过单一模型直接处理和生成音频，减少了延迟，保留了语音中的细微差别，并产生更自然、更有表现力的响应。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2026-06-27

OpenAI深夜引爆GPT-5.6，三箭齐发全面围剿Anthropic

2026-06-27

Agent 发邮件踩坑全记录：从 SMTP 翻车到 Agently Mail

2026-06-27

AgentTeams 和 Claude Tag 都进入群聊模式，是新范式还是新叙事？

2026-06-27

GPT-5.6 Sol深夜炸场发布！OpenAI最强模型碾压Claude 5！

2026-06-26

腾讯混元AI Infra如何优化Hy3 Preview：一次大模型推理性能提升的技术拆解

2026-06-26

多智能体的记忆接线：同一任务，每个角色看到的不一样

2026-06-26

Agent 从 Demo 到生产级，中间到底差什么？

2026-06-26

Loop Engineering 到底是什么？看这一篇就够了

联系获取

联系获取

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

Claude Opus 4.7刚刚曝光！Claude Code一夜重构，7x24小时替你打工

2026-04-15

OpenAI Codex CLI 完整使用指南

2026-04-07

Claude Code 和 Codex 接入 Figma MCP 保姆级教程

2026-04-07

刚刚Qwen 3.6 Plus上线预览：1M上下文，阿里Coding/Agent翻身战打响

2026-03-31

GPT5.5来了，最大特点解析

2026-04-24

Claude Opus 4.7 发布，全网最详细解读

2026-04-17

突发！Claude Code 源码泄露，扒出这些隐藏功能

2026-03-31

GPT-6，曝光了

2026-04-05

GLM-5.1 实测：面向 Agent 长程任务的国内第一模型

2026-04-02

重磅！GPT-6曝光了

2026-04-05

大家都在问

AgentTeams 和 Claude Tag 都进入群聊模式，是新范式还是新叙事？

2026-06-27

Agent 从 Demo 到生产级，中间到底差什么？

2026-06-26

微信在金矿上孵化了啥？

2026-06-25

企业智能体的下半场，如何让智能体越用越聪明？

2026-06-18

Agent 记忆，我们全都理解错了？

2026-06-18

如何利用 Harness “一句话交付产品功能”？

2026-06-10

Loop Engineering 循环工程又是什么鬼？

2026-06-10

Agent 工程化五件套：Prompt、Skill、MCP、CLI 到底怎么配合？

2026-06-07

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS Skill 提示词技巧 AI+电商 AI面试数字员工 ChatBI AI知识库开源大模型智能营销智能硬件 FDE AI+医疗 MaxKB Palantir Glean Openclaw

应聘简历请发送至： ceo@53ai.com

联系我们

售前咨询

预约演示

微信扫码

添加专属顾问

回到顶部