我要投稿

1.9K Star 微软开源TTS王炸！90分钟超长语音合成，4人对话自然切换！

发布日期：2025-08-28 07:42:15 浏览次数： 3653

作者：开源星探

微信搜一搜，关注“开源星探”

在文本转语音（TTS）领域，生成长篇、多说话人的高质量音频（如播客）一直是技术挑战。

传统TTS模型如ElevenLabs或CosyVoice受限于短序列生成（1-2分钟）或1-2位说话人，难以应对复杂对话场景。

微软最新开源的 VibeVoice TTS 模型，可一次生成90分钟连续语音，支持4个不同说话人，超越了以往许多模型通常仅支持1-2位说话者的限制。

其核心创新在于使用连续语音分词器（声学和语义）在超低帧率7.5 Hz下运行。可高效地保留音频保真度，同时显著提升处理长序列的计算效率。

提供了两个主要系列模型：

• VibeVoice-1.5B：15亿参数模型，具有64K上下文长度，能够生成约90分钟的音频
• VibeVoice-7B-Preview：70亿参数模型，具有32K上下文长度，能够生成约45分钟的音频

GitHub：https://github.com/microsoft/VibeVoice

亮点特性

• 超长语音生成：一次可生成 90 分钟连续语音，无需分段拼接
• 多人对话支持：可同时生成 4 个不同说话人，自然衔接，适合播客、剧本对话
• 高质量 & 一致性：在说话人保持和语音轮转上效果自然，听感接近真人
• 高效处理长序列：采用两个连续语音分词器，以 7.5Hz 超低帧率运行，在保证音质的同时提升计算效率
• 安全合规：模型输出自带 AI 声明水印，避免被滥用
• 语言支持：目前支持中文 / 英文
• 开源协议：MIT 许可证，开放自由度高

快速入手

微软官方上线了 VibeVoice 的Demo版本，可直接在线体验。（需魔法）

Demo：https://86636c494bbddc69c7.gradio.live

有硬件条件的也可以在本地部署：

前置要求：

• 支持 CUDA 的 GPU（推荐以获得合理性能）
• Python 3.8 或更高版本
• Docker（推荐用于环境管理）
• 至少 16GB 内存（对于较大模型建议 32GB）

部署方案 1：使用 Docker（推荐）

推荐使用 NVIDIA 深度学习容器来管理 CUDA 环境：

# 启动 Docker 容器
sudo docker run --privileged --net=host --ipc=host --ulimit memlock=-1:-1 --ulimit stack=-1:-1 --gpus all --rm -it nvcr.io/nvidia/pytorch:24.07-py3
 
# 如果不包含 flash attention，请手动安装
# pip install flash-attn --no-build-isolation

部署方案 2：源码安装

# 克隆仓库
git clone https://github.com/microsoft/VibeVoice.git
cd VibeVoice/
 
# 安装软件包
pip install -e .

实际用法

用法 1：启动 Gradio 演示

apt update && apt install ffmpeg -y # for demo

# For 1.5B model
python demo/gradio_demo.py --model_path microsoft/VibeVoice-1.5B --share

# For 7B model
python demo/gradio_demo.py --model_path WestZhang/VibeVoice-Large-pt --share

该方式将启动网页服务，需要下载 VibeVoice 模型并准备好语音样本。它会自动扫描 demo/voices 目录中的语音文件，并从 demo/text_examples 加载示例脚本。

用法 2：直接从文件中进行推理

# We provide some LLM generated example scripts under demo/text_examples/ for demo
# 单说话人
python demo/inference_from_file.py --model_path WestZhang/VibeVoice-Large-pt --txt_path demo/text_examples/1p_abs.txt --speaker_names Alice

# 多说话人
python demo/inference_from_file.py --model_path WestZhang/VibeVoice-Large-pt --txt_path demo/text_examples/2p_music.txt --speaker_names Alice Yunfan