微信扫码
添加专属顾问
我要投稿
通义千问最新语音识别模型Qwen3-ASR-Flash震撼发布,支持11种语言和歌声识别,准确率行业领先!核心内容: 1. 模型核心优势:高精度语音识别、歌声识别、定制化文本上下文支持 2. 技术突破:多语种/方言支持、噪声环境鲁棒性、非人声过滤 3. 应用场景:电竞解说、车载环境、多语言会议等复杂场景转录
今天,我们正式推出通义千问系列最新的语音识别模型 Qwen3-ASR-Flash,它基于Qwen3基座模型,经海量多模态数据以及千万⼩时规模的ASR(自动语音识别)数据训练构建而成。
Qwen3-ASR-Flash实现了⾼精度⾼鲁棒性的语⾳识别性能,⽀持11种语⾔和多种⼝⾳。与众不同的是,Qwen3-ASR-Flash⽀持⽤户以任意格式提供⽂本上下⽂,从⽽获得定制化的 ASR 结果,同时还⽀持歌声识别。
Qwen3-ASR-Flash的核心特性:
领先的识别准确率:Qwen3-ASR-Flash在多个中英文,多语种benchmark测试中表现最优。
惊艳的歌声识别能力:支持歌唱识别,包括清唱与带bgm的整歌识别,实测错误率低于8%。
定制化识别:用户可以以任意格式(如词汇表、段落或完整文档)提供背景文本,模型能智能利用该上下文识别并匹配命名实体和其他关键术语,输出定制化的识别结果。
语种识别与非人声拒识:模型能精确分辨语音的语种,自动过滤非语音片段,包括静音和背景噪声。
鲁棒性:面对长难句、句中语言切换和重复词语等困难文本模式,以及在复杂的声学环境中,模型仍能保持高准确率。
体验方式:
ModelScope:
https://modelscope.cn/studios/Qwen/Qwen3-ASR-Demo
HuggingFace:
https://huggingface.co/spaces/Qwen/Qwen3-ASR-Demo
阿里云百炼API:
https://bailian.console.aliyun.com/?tab=doc#/doc/?type=model&url=2979031
语种支持
Qwen3-ASR-Flash 单模型支持多种语言、方言和口音的精准转录:
中文:包括普通话以及四川话、闽南语、吴语、粤语等主要方言。
英语:支持英式、美式及多种其他地区口音。
其他支持语言:法语、德语、俄语、意大利语、西班牙语、葡萄牙语、日语、韩语和阿拉伯语。
背景提示
为获得定制化的ASR结果,用户可提供任意格式的背景文本来获得倾向性ASR结果,Qwen3-ASR-Flash无需对上下文信息进行格式预处理。
支持的格式包括但不限于:
简单的关键词或热词列表。
任意长度和来源的完整段落或整篇文档。
以任意格式混合的关键词列表与全文段落。
无关甚至无意义的文本(模型对无关上下文的负面影响具有高度鲁棒性)。
演示示例
Qwen3-ASR-Flash单模型单次推理,除示例2之外未配置背景信息。
连续多种类型噪声
电竞比赛解说
英文说唱
车载噪声环境方言
多种语句间切换
化学课程
未来展望
Qwen3-ASR-Flash 将持续迭代升级,不断精进通用识别准确率,我们也会开发更多功能,为大家提供更智能、更好用的语音转文字服务。
关注我,掌握千问大模型最新动态
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2025-09-09
多智能体自主规划模式性能提升:五大精准策略详解
2025-09-09
nano banana 文生图模型有哪些具体的应用场景?
2025-09-09
Claude Code:极简架构 + 万字提示词 = 最强开发者智能体?
2025-09-09
测试用例还能自动跑?揭秘 AI 测试平台的新功能
2025-09-09
20个进入实用阶段的AI应用场景(设备工程业篇)
2025-09-09
Qwen3新成员:阿里发布语音识别模型Qwen3-ASR,中英文语音识别错误率低于GPT-4o和Gemini 2.5 Pro!
2025-09-08
告别服务中断焦虑!LongCat API 开放平台为开发者保驾护航
2025-09-08
观察 | 面临经济下行和AI的双重冲击,企业顾问如何突破困局?
2025-08-21
2025-06-21
2025-08-21
2025-08-19
2025-06-12
2025-06-19
2025-06-13
2025-06-15
2025-07-29
2025-08-19
2025-09-09
2025-09-09
2025-09-08
2025-09-08
2025-09-07
2025-09-06
2025-09-03
2025-09-03