免费POC, 零成本试错
AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


我要投稿

CosyVoice3一键包,3秒完美复刻声音!

发布日期:2025-12-21 13:59:24 浏览次数: 1520
作者:托尼不是塔克

微信搜一搜,关注“托尼不是塔克”

推荐语

3秒极速克隆声音!CosyVoice3一键包带来革命性语音合成体验,延迟降低50%,支持18种方言和9种情感控制。

核心内容:
1. CosyVoice3的核心升级:延迟降低50%、中英混说错误率下降56.4%
2. 一键包操作指南:3秒极速克隆和自然语言控制功能
3. 支持多语言、方言及情感控制,接近人类录音水平

杨芳贤
53AI创始人/腾讯云(TVP)最具价值专家

终于把 CosyVoice3 这个一键包给搞出来了!(见文末)

前两天阿里通义突然就开源了一个语音合成模型,一个语音识别模型。

这两个模型可玩性很高!其中的语音合成模型 CosyVoice,我在很久之前就介绍过,很厉害,也制作过一键包。

下面让马老板亲自给大家介绍一下这个模型:


然后来听一段悄悄话:


很显然 CosyVoice3 会比之前的版本强很多,具体有哪些方面的提升,可以看下面的介绍。

Fun-CosyVoice3 大模型完成多项关键升级:

  • **首包延迟降低 50%**,支持双向流式合成,真正实现“输入即发声”,适用于语音助手、直播配音、无障碍阅读等实时场景;
  • **中英混说词错误率(WER)相比之前降低 56.4%**,不论是含专业术语、大小写混排,还是语码转换的句子,都能精准、自然地发音;
  • 在 zero-shot TTS 评测中,内容一致性与音色相似度全面提升,**复杂场景(test-hard)字符错误率(CER)相对降低 26%**,接近人类录音水平;
  • 9 种通用语言、18 种中文方言、9 种情感控制,并具备跨语种音色复刻能力——用一段普通话录音,即可生成粤语、日语、英语等语音,音色保持高度一致。

注意,这个是在之前的 3.0 的基础上升级的部分。而 3.0 又在 2.0 上做了很多升级。

CosyVoice3 的介绍就说这么多。下面就说一下一键运行包怎么用。

整体来说很简单,模型,软件和依赖都已经全部打包在里面了。只要你硬件没问题,运行起来应该很轻松。

具体方法如下。

首先下载软件包。

然后在本地解压,解压之后点击 启动.bat

启动之后会自动调用浏览器,并打开主界面。

3 秒极速克隆

主界面上有两种推理模式,我们首先来演示 3 秒极速克隆。

按下图操作即可:

1️⃣ 输入要合成内容

2️⃣ 选择 3 秒极速复刻

3️⃣ 上传参考声音(或直接录制自己的声音)

4️⃣ 点击生成音频。

稍等片刻,根据参考声音合成的音频就做好了。做好之后会自动播放。

点击右下角可以下载!

自然语言控制

自然语言控制,就是指令控制。可以通过指令来控制声音克隆的效果。

软件预设了各种指令文本,只要点击下拉选择即可。

可以说方言,可以用不同的语气,也可以调整语速。

其他操作和上面的 3 秒克隆一致。

输入并选择好之后,点击生成音频就可以了。

从我的测试来看,声音克隆效果非常好。但是指令控制还比较弱,会影响相似度。可能闭源的 1.5B 模型会好一些。

这么说应该很容易理解吧!理解不了我也没办法咯

获取软件的方式:给公众号发送“CosyVoice”即可获得全套软件!

收工!此处可以适当点赞!


53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询