微信扫码
添加专属顾问
我要投稿
阿里通义团队最新推出的Qwen3-TTS,以49种角色化音色+9种方言支持,重新定义了文本转语音的标准。 核心内容: 1. 49种高保真角色化音色,覆盖各类内容创作场景 2. 支持10种语言+9种方言,语音自然度行业领先 3. 智能韵律调节系统,实现拟人化语音表达
最近 TTS 领域是真的越来越卷了,国内外各个互联网大厂轮番上阵。
阿里通义(Qwen)团队最近在开源界简直是“劳模”级别的存在,这边又悄悄上新了全新的 Qwen3-TTS。
而且一出手就明显是冲着「自然度 + 多音色 + 多语言」这一代标准去的。
Qwen3-TTS 是阿里 Qwen 系列最新一代文本转语音模型,主打三件事:
这是一个更会说话、更像真人、也更适合内容创作与虚拟角色的 TTS 模型。
1、49 种高保真音色
这次 Qwen3-TTS 的音色体系明显是认真重新打磨过的。
不只是「男声/女声/老年/童声」这种基础划分,而是已经具备角色化倾向。
比如下面这些非常有画面感的音色👇
这些音色已经不是“调调音高”,而是明显带说话习惯与表达风格。
这 49 个音色几乎就是现成的素材库。
2、10 种语言 + 9 种方言
✅ 10 种语言支持
包括:
在 MiniMax TTS multilingual test set 上:
Qwen3-TTS 的平均 WER 表现,优于 MiniMax/ElevenLabs/GPT-4o Audio Preview,对一个国产 TTS 来说,这个成绩非常能打。
✅ 9 种中文方言
并且不是机器味很重那种读方言词典,而是能保留真实语调与地域口音。
3、语速 & 韵律智能调节
相比上一代,Qwen3-TTS 最大的模型层面改进,其实在韵律控制。
可根据文本内容自动调整语速;情绪变化时韵律跟着变;还有陈述/转折/感叹,听得出来区别。
拟人化程度相比上一代 有明显感知级提升。
Qwen3-TTS 的使用需通过 API 方式进行,而官方也给了抱抱脸和魔搭社区的Demo可体验不同的语言和音色。
大家可选择一个可访问的进行使用体验其效果。
如果需要 API 接入到自己的项目或应用中,可在阿里云百炼开通 API 进行使用。
示例代码:
# 请安装 DashScope SDK 的最新版本
import os
import requests
import dashscope
text = "那我来给大家推荐一款T恤,这款呢真的是超级好看,这个颜色呢很显气质,而且呢也是搭配的绝佳单品,大家可以闭眼入,真的是非常好看,对身材的包容性也很好,不管啥身材的宝宝呢,穿上去都是很好看的。推荐宝宝们下单哦。"
# SpeechSynthesizer接口使用方法:dashscope.audio.qwen_tts.SpeechSynthesizer.call(...)
response = dashscope.MultiModalConversation.call(
model="qwen3-tts-flash-2025-11-27",
api_key=os.getenv("DASHSCOPE_API_KEY"),
text=text,
voice="Cherry",
language_type="Chinese", # 建议与文本语种一致,以获得正确的发音和自然的语调。
stream=False
)
audio_url = response.output.audio.url
save_path = "downloaded_audio.wav" # 自定义保存路径
try:
response = requests.get(audio_url)
response.raise_for_status() # 检查请求是否成功
with open(save_path, 'wb') as f:
f.write(response.content)
print(f"音频文件已保存至:{save_path}")
except Exception as e:
print(f"下载失败:{str(e)}")Qwen3-TTS 并不是想做最多功能的 TTS,而是选择把「像不像真人」这件事,往前推了一大步。
多音色、多语言、多方言只是表象,真正重要的是 — 语速、韵律、情绪,开始有「人味」了。
如果你正在做内容创作、虚拟角色、AI 助手、播客或本地化语音应用,这一代 Qwen3-TTS,非常值得认真试一下。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2025-12-15
万字拆解UI-TARS 2.0,看懂豆包手机背后的核心技术
2025-12-14
秒杀传统 TTS?!Gemini 原生中文 TTS 体验 + 提示词模板
2025-12-14
别被“多模态”骗了:用一本200页的教材,我测出了GPT-5.2和Gemini的物种代差
2025-12-11
Qwen3-Omni新升级:声形意合,令出智随!
2025-12-11
首发实测智谱 GLM-TTS:3秒克隆我的声音,连「哎等等这bug怎么回事」都学会了
2025-12-11
硅基流动上线智谱视觉模型 GLM-4.6V
2025-12-11
GLM-TTS技术报告:基于多奖励强化学习的可控发音语音合成
2025-12-11
Qwen3-TTS全面升级:声情并茂,语通八方
2025-09-19
2025-11-10
2025-12-06
2025-10-22
2025-10-31
2025-09-25
2025-09-17
2025-12-07
2025-11-03
2025-11-19
2025-08-04
2025-05-26
2025-05-13
2025-04-08
2025-04-05
2025-03-30
2025-03-26
2025-03-05