微信扫码
添加专属顾问
我要投稿
OpenAI最新发布的gpt-realtime语音模型,将人机交互提升到新高度,支持多语言实时切换与情感表达,重新定义语音AI边界。 核心内容: 1. gpt-realtime的核心技术突破:音频质量与智能理解的双重提升 2. 性能表现:在指令遵循和函数调用方面的显著改进 3. 实时API新功能:图像输入、电话呼叫等创新应用场景
OpenAI正式发布实时API,推出面向生产环境的语音代理解决方案。新发布的gpt-realtime是一个语音到语音模型,原生理解和生成音频,可以表达广泛的情感并在实时对话中无缝切换语言。
核心技术
gpt-realtime是OpenAI SOTA的语音模型。该模型使用高质量语音数据和专门的奖励模型进行训练,在音频质量、智能性、指令遵循和函数调用方面都有显著改进。
在音频质量方面,模型能够生成更高质量的语音,听起来更自然,并能遵循细粒度指令,如"快速专业地说话"或"以法国口音富有同情心地说话"。OpenAI还发布了两个新语音Marin和Cedar,在自然语音方面有最显著的改进。
在智能理解方面,gpt-realtime显示出更高的智能,能更准确地理解原生音频。该模型可以捕捉非语言线索(如笑声),在句子中间切换语言,并调整语调。在Big Bench Audio评估中,gpt-realtime得分82.8%,超过了之前模型的65.6%。
性能表现
在指令遵循方面表现出色。在MultiChallenge音频基准测试中,gpt-realtime得分30.5%,比之前模型的20.6%有显著改进。演示显示了它如何拒绝用户要求的不存在的折扣,体现了出色的指令遵循能力。
在函数调用基准测试中达到了66.5%的准确率,而之前模型仅为49.7%。模型还针对真实世界的客户使用案例进行了调优,改进了异步函数调用功能。
API新功能
实时API现在支持远程MCP服务器、图像输入,以及通过会话发起协议(SIP)进行电话呼叫。图像输入功能让用户可以将图像、照片和截图与音频一起添加到会话中,使用户能够提出"你看到了什么?"等问题。
其他功能包括会话发起协议(SIP)支持,可将应用程序连接到公共电话网络、PBX系统等;可重用提示功能,允许保存和重用包含开发者消息、工具、变量的提示。
定价与可用性
gpt-realtime定价为每百万音频输入token 32美元(缓存输入token 0.40美元),每百万音频输出token 64美元。
与传统的多模型链接管道不同,实时API通过单一模型直接处理和生成音频,减少了延迟,保留了语音中的细微差别,并产生更自然、更有表现力的响应。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2025-10-30
Cursor 2.0的一些有趣的新特性
2025-10-30
Anthropic 发布最新研究:LLM 展现初步自省迹象
2025-10-30
让Agent系统更聪明之前,先让它能被信任
2025-10-30
Rag不行?谷歌DeepMind同款,文档阅读新助手:ReadAgent
2025-10-29
4大阶段,10个步骤,助你高效构建企业级智能体(Agent)
2025-10-29
DocReward:让智能体“写得更专业”的文档奖励模型
2025-10-29
沃尔沃RAG实战:企业级知识库,早就该放弃小分块策略
2025-10-29
大模型的Funcation Calling是什么?
2025-08-21
2025-08-21
2025-08-19
2025-09-16
2025-10-02
2025-09-08
2025-09-17
2025-08-19
2025-09-29
2025-08-20
2025-10-29
2025-10-29
2025-10-28
2025-10-28
2025-10-27
2025-10-26
2025-10-25
2025-10-23