微信扫码
添加专属顾问
我要投稿
微软开源VibeVoice,打造90分钟高质量AI语音对话,为播客和内容创作带来新可能。 核心内容: 1. VibeVoice支持四种声音和90分钟长对话,超越NotebookLM 2. 在播客原型、教育无障碍和游戏开发中的创新应用 3. 内置数字水印和伦理防护措施,目前仅限研究使用
微软发布了 VibeVoice,这是一个新的开源人工智能(AI)模型,用户可以利用它来创建播客和其他音频内容,这是对谷歌流行的 NotebookLM 的一种回应。
但两者之间存在显著差异。微软的文本转语音模型可以生成四种声音,并且能够制作长达 90 分钟的播客质量语音。而 NotebookLM 只能生成两种声音。
此外,VibeVoice 可以阅读和组织文本,而 NotebookLM 则是处理文档并将其转换为两人播客。根据技术公司 Hugging Face 的说法,用户还可以查询并获取文档摘要。这意味着 VibeVoice 并不试图理解文本,而是将其以可听的方式呈现,其目的是取代录音棚。
VibeVoice 是语音 AI 技术的最新产品,该领域一直吸引着风险投资资金。根据市场研究公司 CB Insights 的数据,2024 年,语音 AI 初创公司筹集了 21 亿美元的资金,比前一年增长了八倍。语音购物的兴趣也在增加:PYMNTS Intelligence 的一份报告显示,30.4% 的 Z 世代消费者每周都会通过语音购物,其次是千禧一代。在所有年龄段中,平均有 17.9% 的消费者使用语音购物。
VibeVoice 拥有 15 亿个参数,对于一个能够支持多说话者对话的模型来说,这个规模相对较小。它是使用阿里巴巴开源的 Qwen2.5 进行训练的,这是一个大型语言模型,有助于在对话中协调自然的轮流发言和上下文感知的语音模式。
微软声称,这意味着 VibeVoice 可以在四种声音之间产生流畅的对话,同时在更长的对话中保持每种声音的独特特征。
如何使用 VibeVoice
VibeVoice 的潜在研究应用包括以下方面:
播客和培训内容的原型设计
创作者可以利用多种 AI 声音生成模拟播客、小组讨论或培训模块。与其聘请四位配音演员来测试对话流程,用户可以在几分钟内使用文本创建一个合成版本。
无障碍和教育
教育材料、教科书或研究论文可以被转换为具有不同旁白的长篇音频。这可以帮助那些通过听觉学习效果更好的人,或者使晦涩的材料更具吸引力。
游戏和媒体开发
游戏开发者或讲故事的人可以利用 VibeVoice 来设计角色之间的对话。因为它可以处理四个说话者,所以你可以安排一场完整的游戏中对话,而无需进行录音会话。
鉴于深度伪造的风险,微软表示,VibeVoice 的防护措施包括确保每个音频文件都包含免责声明(例如“本段由 AI 生成”)和隐藏的数字水印。
它禁止模仿、虚假信息以及实时语音转换等实时深度伪造用途,例如在通话中的语音转换。目前,它仅支持英语和中文语音。该模型仅用于研究,而非商业部署。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2025-10-30
开源可信MCP,AICC机密计算新升级!
2025-10-30
OpenAI 开源了推理安全模型-gpt-oss-safeguard-120b 和 gpt-oss-safeguard-20b
2025-10-29
刚刚,OpenAI 再次开源!安全分类模型 gpt-oss-safeguard 准确率超越 GPT-5
2025-10-29
AI本地知识库+智能体系列:手把手教你本地部署 n8n,一键实现自动采集+智能处理!
2025-10-29
n8n如何调用最近爆火的deepseek OCR?
2025-10-29
OpenAI终于快要上市了,也直面了这23个灵魂拷问。
2025-10-29
保姆级教程:我用Coze干掉了最烦的周报
2025-10-29
维基百科,终结了!马斯克开源版上线,用AI重写「真相」
2025-08-20
2025-09-07
2025-08-05
2025-08-20
2025-08-26
2025-08-22
2025-09-06
2025-08-06
2025-10-20
2025-08-22
2025-10-29
2025-10-28
2025-10-13
2025-09-29
2025-09-17
2025-09-09
2025-09-08
2025-09-07