免费POC, 零成本试错
AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


我要投稿

阿里重磅开源 0.5B TTS + 0.8B ASR,支持跨语种音色克隆、说唱识别!

发布日期:2025-12-16 08:08:23 浏览次数: 1562
作者:开源星探

微信搜一搜,关注“开源星探”

推荐语

阿里开源两大端侧AI模型,实现跨语种音色克隆与说唱识别,为开发者带来高效本地化解决方案。

核心内容:
1. Fun-CosyVoice3 0.5B TTS模型:支持9种语言18种方言的零样本语音克隆,延迟低至150毫秒
2. Fun-ASR-Nano 0.8B ASR模型:优化远场高噪声识别,支持31种语言和7种中文方言
3. 两大模型协同实现本地"听+说"闭环,特别强化音乐背景下的语音识别能力

杨芳贤
53AI创始人/腾讯云(TVP)最具价值专家

 

2025年眼看就要接近尾声了,AI 圈的风向也正在悄悄发生变化。

大家不再一味追求千亿参数的「巨无霸」模型,而是开始卷端侧模型。

阿里 FunAudioLLM 团队显然深谙此道。这次他们发布的 Fun-CosyVoice3 0.5B 和 Fun-ASR-Nano 0.8B,简直就是为本地党和开发者量身定制的年终大礼。

TTS、ASR 双线程开源,而且它们不是“实验模型”,而是能直接落地用的工程级版本。

先说结论,这两个模型不是各玩各的,而是明显冲着一个目标去的:

在本地,把“听 + 说”这件事真正跑顺。

Fun-CosyVoice3 0.5B:实时 TTS

先说 TTS,这一版 CosyVoice 的关键词只有一个:

“输入即发声”

核心特点

  • • 语言覆盖范围:涵盖 9 种常用语言,18 种以上中文方言/口音。
  • • 零样本语音克隆:支持多语言/跨语言零样本语音克隆。
  • • 内容一致性和自然性:在内容一致性、说话人相似性和韵律自然性方面达到最先进的性能。
  • • 发音修复:支持对汉语拼音和英语 CMU 音素进行发音修复,提供更大的可控性。
  • • 文本规范化:无需传统前端模块即可支持读取数字、特殊符号和各种文本格式。
  • • 双流传输:支持文本输入流和音频输出流,在保持高质量音频输出的同时,延迟可低至 150 毫秒。
  • • 指令支持:支持各种指令,例如语言、方言、情绪、速度、音量等。

升级后模型表现

CosyVoice3 的升级将延迟直接砍半,是真正的“输入即发声”。

具备表现如下:

  • • 首包延迟降低 50%
  • • WER(词错误率)降低 56.4%
  • • 复杂场景字符错误率降低 26%

大白话就是:AI 说话更快、更稳,也更不容易读错。

而且支持双向流式合成:文本一边进,声音一边出,不用等整段文本生成完成。

更狠的是支持跨语种音色复刻

也就是说:用一段普通话录音,就能生成粤语/日语/英语等语言的同一音色。

Fun-ASR-Nano 0.8B:轻量级 ASR

如果说 TTS 决定「像不像人」,那 ASR 决定的是:你到底能不能听懂人。

Fun-ASR-Nano 是一款基于数千万小时真实语音数据训练的端到端语音识别大模型。它支持低延迟实时转写,并涵盖 31 种语言识别功能。

虽然是 Fun-ASR 的轻量化版本,但这次更新明显不是“阉割版”。

核心特点

  • • 远场高噪声识别: 针对远距离拾音及高噪声场景进行深度优化,识别准确率提升至 93%。
  • • 中文方言与地方口音:支持 7 大方言:吴语、粤语、闽语、客家话、赣语、湘语、晋语。
  • • 覆盖 26 个地区口音:包括河南、陕西、湖北、四川、重庆、云南、贵州、广东、广西等 20 多个地区。
  • • 多语言自由说: 支持 31 种语言识别,重点优化东亚与东南亚语种,支持语种自由切换和混合识别。
  • • 音乐背景歌词识别: 强化在音乐背景干扰下的语音识别性能,支持对歌曲中歌词内容的精准识别。

核心升级点

  • • 噪声环境下,准确率拉到 93%
  • • 首字延迟 160ms
  • • 支持了歌词、说唱识别及 31 种语言混说
  • • 覆盖了 7 大方言 + 26 种地方口音

这些升级点,不得不说是非常懂中国真实语音环境的。

写在最后

把 Fun-ASR-Nano、Fun-CosyVoice3 放在一起,其实能看出阿里的野心:

不是做 Demo,而是做“语音底座”。

你可以很自然地搭出:本地语音助手、隐私优先的会议系统、实时翻译 + 语音播报、多语言语音 Agent ...

而且全部可私有化部署。

把拟人化语音交互的门槛降到了地板上。无论你是想给自己做一个语音工具,还是想为公司产品增加语音能力,这套开源方案都是目前性价比最高、功能最全的选择之一。

特别是那个零样本跨语种克隆和说唱识别,真的建议大家部署下来玩一玩,绝对会让你惊掉下巴。

53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询