微信扫码
添加专属顾问
我要投稿
复旦大学最新研发的实时语音交互模型,具备情感控制和低延迟响应,引领AI语音交互新趋势。 核心内容: 1. SpeechGPT 2.0模型的拟人化表达和百毫秒级低延迟响应 2. 模型支持多情感控制、实时打断交互和文本能力集成 3. 超低比特率流式语音Codec和语义-声学联合建模的技术原理
SpeechGPT 2.0 是复旦大学 OpenMOSS 团队推出的一款拟人化实时交互系统。该模型基于百万小时级的中文语音数据进行训练,采用端到端架构,实现了语音与文本模态的高度融合。它具有拟人口语化表达、百毫秒级低延迟响应,支持自然流畅的实时打断交互。此外,SpeechGPT 2.0 能够精准控制语速、情感、风格和音色,实现智能切换,并具备多种语音才艺,如诗歌朗诵、故事讲述、说方言等。
git clone https://github.com/OpenMOSS/SpeechGPT-2.0-preview.git
cd SpeechGPT-2.0-preview
# 需要安装 git-lfs
git lfs install
git clone https://huggingface.co/fnlp/SpeechGPT-2.0-preview-Codec
git clone https://huggingface.co/fnlp/SpeechGPT-2.0-preview-7B
pip3 install -r requirements.txt
pip3 install flash-attn==2.7.3 --no-build-isolation
python3 demo_gradio.py --codec_ckpt_path SpeechGPT-2.0-preview-Codec/sg2_codec_ckpt.pkl --model_path SpeechGPT-2.0-preview-7B/
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2025-12-23
智谱GLM-4.7:更强的代码,更好的美学
2025-12-22
Notesnook:一款完全开源、以隐私为核心的笔记应用
2025-12-22
一文彻底看懂 Google 最新开源 A2UI 协议:如何让 AI Agent “说出UI” ?
2025-12-22
火线解析MiniMax招股书!全球领先大模型成本只有OpenAI 1%,果然拳怕少壮
2025-12-21
Benotes:一款功能强大、易于安装和使用的开源笔记与书签一体化应用
2025-12-21
告别每月 AI 订阅费!这款开源笔记内置 Ollama,让你的电脑变身第二大脑
2025-12-20
开口跪!这款开源TTS让AI说话带“情绪”,还能多语言克隆!
2025-12-20
ollama v0.13.5 发布详解:新模型接入、引擎升级与工具能力增强
2025-11-19
2025-10-20
2025-10-27
2025-10-27
2025-10-03
2025-09-29
2025-11-17
2025-10-29
2025-09-29
2025-11-07
2025-12-22
2025-11-12
2025-11-10
2025-11-03
2025-10-29
2025-10-28
2025-10-13
2025-09-29