免费POC, 零成本试错
AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


OpenAI发布语音到语音模型gpt-realtime

发布日期:2025-08-29 15:31:45 浏览次数: 1607
作者:AI帝国

微信搜一搜,关注“AI帝国”

推荐语

OpenAI最新发布的gpt-realtime语音模型,将人机交互提升到新高度,支持多语言实时切换与情感表达,重新定义语音AI边界。

核心内容:
1. gpt-realtime的核心技术突破:音频质量与智能理解的双重提升
2. 性能表现:在指令遵循和函数调用方面的显著改进
3. 实时API新功能:图像输入、电话呼叫等创新应用场景

杨芳贤
53AI创始人/腾讯云(TVP)最具价值专家

OpenAI正式发布实时API,推出面向生产环境的语音代理解决方案。新发布的gpt-realtime是一个语音到语音模型,原生理解和生成音频,可以表达广泛的情感并在实时对话中无缝切换语言。

核心技术

gpt-realtime是OpenAI SOTA的语音模型。该模型使用高质量语音数据和专门的奖励模型进行训练,在音频质量、智能性、指令遵循和函数调用方面都有显著改进。

在音频质量方面,模型能够生成更高质量的语音,听起来更自然,并能遵循细粒度指令,如"快速专业地说话"或"以法国口音富有同情心地说话"。OpenAI还发布了两个新语音Marin和Cedar,在自然语音方面有最显著的改进。

在智能理解方面,gpt-realtime显示出更高的智能,能更准确地理解原生音频。该模型可以捕捉非语言线索(如笑声),在句子中间切换语言,并调整语调。在Big Bench Audio评估中,gpt-realtime得分82.8%,超过了之前模型的65.6%。

性能表现

在指令遵循方面表现出色。在MultiChallenge音频基准测试中,gpt-realtime得分30.5%,比之前模型的20.6%有显著改进。演示显示了它如何拒绝用户要求的不存在的折扣,体现了出色的指令遵循能力。

在函数调用基准测试中达到了66.5%的准确率,而之前模型仅为49.7%。模型还针对真实世界的客户使用案例进行了调优,改进了异步函数调用功能。

API新功能

实时API现在支持远程MCP服务器、图像输入,以及通过会话发起协议(SIP)进行电话呼叫。图像输入功能让用户可以将图像、照片和截图与音频一起添加到会话中,使用户能够提出"你看到了什么?"等问题。

其他功能包括会话发起协议(SIP)支持,可将应用程序连接到公共电话网络、PBX系统等;可重用提示功能,允许保存和重用包含开发者消息、工具、变量的提示。

定价与可用性

gpt-realtime定价为每百万音频输入token 32美元(缓存输入token 0.40美元),每百万音频输出token 64美元。

与传统的多模型链接管道不同,实时API通过单一模型直接处理和生成音频,减少了延迟,保留了语音中的细微差别,并产生更自然、更有表现力的响应。

53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询