微信扫码
添加专属顾问
我要投稿
复旦大学最新研发的实时语音交互模型,具备情感控制和低延迟响应,引领AI语音交互新趋势。 核心内容: 1. SpeechGPT 2.0模型的拟人化表达和百毫秒级低延迟响应 2. 模型支持多情感控制、实时打断交互和文本能力集成 3. 超低比特率流式语音Codec和语义-声学联合建模的技术原理
SpeechGPT 2.0 是复旦大学 OpenMOSS 团队推出的一款拟人化实时交互系统。该模型基于百万小时级的中文语音数据进行训练,采用端到端架构,实现了语音与文本模态的高度融合。它具有拟人口语化表达、百毫秒级低延迟响应,支持自然流畅的实时打断交互。此外,SpeechGPT 2.0 能够精准控制语速、情感、风格和音色,实现智能切换,并具备多种语音才艺,如诗歌朗诵、故事讲述、说方言等。
git clone https://github.com/OpenMOSS/SpeechGPT-2.0-preview.git
cd SpeechGPT-2.0-preview
# 需要安装 git-lfs
git lfs install
git clone https://huggingface.co/fnlp/SpeechGPT-2.0-preview-Codec
git clone https://huggingface.co/fnlp/SpeechGPT-2.0-preview-7B
pip3 install -r requirements.txt
pip3 install flash-attn==2.7.3 --no-build-isolation
python3 demo_gradio.py --codec_ckpt_path SpeechGPT-2.0-preview-Codec/sg2_codec_ckpt.pkl --model_path SpeechGPT-2.0-preview-7B/
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2025-09-11
智能体变现难题破解:三步打造专属AI智能体网站,开源方案让你收入倍增!
2025-09-10
从抵触AI到AI破局,我把Coze、n8n、Dify等5个主流智能体平台扒了个底朝天
2025-09-09
为 ONLYOFFICE AI 智能体开发自定义函数:实践指南&夺奖攻略!
2025-09-09
开源智能体开发框架全面对比分析
2025-09-09
Dify Pre-release版本来了,Dify2.0时代不远了,看看有哪些进步?
2025-09-09
硅基流动上线 DeepSeek-V3.1,上下文升至 160K
2025-09-08
微信公众号“内容孤岛”终结者:免费开源工具,批量下载+完美还原!
2025-09-08
Claude不让用,有哪些国产模型能迎头赶上?
2025-07-23
2025-06-17
2025-08-20
2025-06-17
2025-09-07
2025-07-23
2025-08-05
2025-07-14
2025-08-20
2025-07-29
2025-09-09
2025-09-08
2025-09-07
2025-09-01
2025-08-16
2025-08-13
2025-08-11
2025-08-11