我要投稿

Microsoft 推出用于更长对话式 AI 音频的 VibeVoice 且开源

发布日期：2025-09-17 16:02:01 浏览次数： 2109

作者：AI音频时代

微信搜一搜，关注“AI音频时代”

微软发布了 VibeVoice，这是一个新的开源人工智能（AI）模型，用户可以利用它来创建播客和其他音频内容，这是对谷歌流行的 NotebookLM 的一种回应。

但两者之间存在显著差异。微软的文本转语音模型可以生成四种声音，并且能够制作长达 90 分钟的播客质量语音。而 NotebookLM 只能生成两种声音。

此外，VibeVoice 可以阅读和组织文本，而 NotebookLM 则是处理文档并将其转换为两人播客。根据技术公司 Hugging Face 的说法，用户还可以查询并获取文档摘要。这意味着 VibeVoice 并不试图理解文本，而是将其以可听的方式呈现，其目的是取代录音棚。

VibeVoice 是语音 AI 技术的最新产品，该领域一直吸引着风险投资资金。根据市场研究公司 CB Insights 的数据，2024 年，语音 AI 初创公司筹集了 21 亿美元的资金，比前一年增长了八倍。语音购物的兴趣也在增加：PYMNTS Intelligence 的一份报告显示，30.4% 的 Z 世代消费者每周都会通过语音购物，其次是千禧一代。在所有年龄段中，平均有 17.9% 的消费者使用语音购物。

VibeVoice 拥有 15 亿个参数，对于一个能够支持多说话者对话的模型来说，这个规模相对较小。它是使用阿里巴巴开源的 Qwen2.5 进行训练的，这是一个大型语言模型，有助于在对话中协调自然的轮流发言和上下文感知的语音模式。

微软声称，这意味着 VibeVoice 可以在四种声音之间产生流畅的对话，同时在更长的对话中保持每种声音的独特特征。

如何使用 VibeVoice

VibeVoice 的潜在研究应用包括以下方面：

播客和培训内容的原型设计

创作者可以利用多种 AI 声音生成模拟播客、小组讨论或培训模块。与其聘请四位配音演员来测试对话流程，用户可以在几分钟内使用文本创建一个合成版本。

无障碍和教育

教育材料、教科书或研究论文可以被转换为具有不同旁白的长篇音频。这可以帮助那些通过听觉学习效果更好的人，或者使晦涩的材料更具吸引力。

游戏和媒体开发

游戏开发者或讲故事的人可以利用 VibeVoice 来设计角色之间的对话。因为它可以处理四个说话者，所以你可以安排一场完整的游戏中对话，而无需进行录音会话。

鉴于深度伪造的风险，微软表示，VibeVoice 的防护措施包括确保每个音频文件都包含免责声明（例如“本段由 AI 生成”）和隐藏的数字水印。

它禁止模仿、虚假信息以及实时语音转换等实时深度伪造用途，例如在通话中的语音转换。目前，它仅支持英语和中文语音。该模型仅用于研究，而非商业部署。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2026-06-24

Nathan Lambert：GLM-5.2是开源Agent重大突破，连锁反应将渗透进更广泛的经济体

2026-06-23

百度开源 Unlimited OCR：让长文档解析一次完成

2026-06-23

我把自己的需求到交付 Skills 开源了：Analysis to Delivery

2026-06-23

腾讯开源WeKnora知识库部署实战(含踩坑排查)

2026-06-22

DiffusionGemma: 文本生成速度提升 4 倍

2026-06-22

刚刚，百度开源拿下全球第一！作者疑似DeepSeek出走大神

2026-06-22

Agent终于有了自己的邮箱！腾讯Agently Mail详解

2026-06-20

GLM-5.2本地部署：744B参数模型如何在Mac上跑

联系获取

联系获取

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

Hermes Agent 出来了，聊聊它凭什么跟 OpenClaw 掰手腕

2026-03-30

很多人突然不玩小龙虾而用Hermes Agent了。我替你试了，跟小龙虾到底有啥不同？

2026-04-09

Google Gemma 4 开源｜全面解读

2026-04-03

震惊！刚刚，Anthropic掀了桌子：OpenClaude横空出世，大模型闭源时代彻底终结？

2026-04-01

刚刚，Claude Code开源了！51万行代码，全网狂欢

2026-03-31

龙虾绝配：Qwen 3.5 27B！跑在家里，成本为 0

2026-03-30

Ollama 本地部署 Gemma 4 完全指南

2026-04-18

Google Gemini CLI 完整使用指南

2026-04-18

CoPaw深度解析：源码架构和功能实践

2026-03-31

炸裂！Seedance 2.0 免费用！全网第一只接入的开源龙虾，效果离谱

2026-04-02

大家都在问

26.1%的AI编程技能有漏洞：NVIDIA开源 SkillSpector 能扫出什么？

2026-06-16

企业级 AI Agent 为什么集体转向“基座 + Skills”？

2026-05-30

Hermes Agent 深度解析：为什么它能“越用越懂你”？

2026-05-16

百度把Nano Banana塞进4090，疯了？

2026-04-22

Kimi K2.6 开源了！还附送了 300 个 Agent 员工？

2026-04-21

Hermes 凭什么两个月接棒 OpenClaw？

2026-04-15

很多人突然不玩小龙虾而用Hermes Agent了。我替你试了，跟小龙虾到底有啥不同？

2026-04-09

震惊！刚刚，Anthropic掀了桌子：OpenClaude横空出世，大模型闭源时代彻底终结？

2026-04-01

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS Skill 提示词技巧 AI+电商 AI面试数字员工 ChatBI AI知识库开源大模型智能营销智能硬件 FDE AI+医疗 MaxKB Palantir Glean Openclaw

应聘简历请发送至： ceo@53ai.com

联系我们

售前咨询

预约演示

微信扫码

添加专属顾问

回到顶部