我要投稿

Qwen新开源，把AI生图里的文字SOTA拉爆了

发布日期：2025-08-05 10:40:20 浏览次数： 2040

作者：量子位

微信搜一搜，关注“量子位”

现在，图像中的文字生成都进化到这种程度了，还是开源的。

通义模型家族，刚刚又双叒开源了，这次是Qwen-Image——一个200亿参数、采用MMDiT架构的图像生成模型。

这也是通义千问系列中首个图像生成基础模型。

看Qwen-Image生成的画面就知道，它主打的能力之一就是复杂文本渲染。

像这张书店畅销书架的图片，包含复杂的图文混合布局，文字的准确度、契合度，甚至于随书籍摆放角度形成的变化，都挑不出来什么错。

生成海报，也是不在话下。

照例，通义千问团队把模型、详细技术报告一口气都放了出来，Qwen-Image的能力也第一时间上线QwenChat，现在就能在官网上手体验。

实测Qwen-Image

Demo很优秀，实测效果又会如何？

Round 1：情境插画

测试提示词是：

李白站在窗前写“床前明月光”，窗外明月当空，在屋内投下柔和的光线，书桌上有酒和书籍，整体风格古典

好家伙，感觉可以直接给语文课本用了。

“床前明月光”这几个字不是直愣愣P上去的，跟画面融合得相当不错。画面细节方面，也很有氛围感。

硬要挑刺，就是AI有点分不清屋内屋外了（doge）。

Round 2：生成PPT、海报

官方Demo中有直接生成PPT的示例，我们也来测试一下，提示词是：

一张企业级高质量PPT页面图像，整体采用简约现代的风格，主题颜色是蓝绿色，背景用线条和粒子营造科技感，页面顶部左侧清晰展示QbitAI的标志。主标题位于画面中央偏上，文字内容为“量子位AI Coding线下沙龙”，字体规整简介，突出技术感。主标题下方放两张图，一张是线下沙龙现场照片，另一张体现AI编程

生成结果是这样的：

严格来看，右上角有小小的瑕疵，左下角图中图的文字也不是那么准确，但整体效果确实很顶，主体文字、图中图都能符合提示词的要求。

那么如果提示词更模糊更简单，Qwen-Image是否还能给出高质量结果？

测试提示词：

制作一张海报，主题是：通义千问开源Qwen-Image

文字准确，也体现了AI画画的元素，没毛病。

Round 3：商品宣传图

最后，再来测测Qwen-Image的“卖货”技能。

提示词：

面包店的商品宣传图，画面主体是面包和奶油蛋糕。图中文字展现“美味”、“动物奶油”、“开启美好一天”，字体采用花体字，整体风格轻松活泼。整体采用暖色调

有点惊喜的是，Qwen-Image把“动物奶油”这几个字准确对应到了奶油蛋糕上。

需要说明的是，以上实测，均为一次出图。

可以看到，Qwen-Image对提示词的理解都很到位，提示词给得越精准，执行的效果细节越丰富，其中文字渲染能力，确如官方所说，能做到高保真输出。

你给这个效果打几分？

性能SOTA

文本渲染能力之外，Qwen-Image还具备一致性图像编辑能力，支持风格迁移、增删改、细节增强、文字编辑、人物姿态调整等多种操作。

总结起来，其主要特性包括：

复杂文本渲染能力： Qwen-Image在复杂文本渲染方面表现出色，支持多行布局、段落级文本生成以及细粒度细节呈现。无论是英语还是中文，均能实现高保真输出。
一致性的图像编辑能力：通过增强的多任务训练范式，Qwen-Image在编辑过程中能出色地保持编辑的一致性。
性能SOTA：在多个公开基准测试中的评估表明，Qwen-Image在各类生成与编辑任务中均获得SOTA。

性能表现方面，通义千问团队在多个公开基准上对Qwen-Image进行了评估，包括用于通用图像生成的GenEval、DPG和OneIG-Bench，以及用于图像编辑的GEdit、ImgEdit和GSO。

在所有基准测试中，Qwen-Image都实现了SOTA。

在用于文本渲染的LongText-Bench、ChineseWord和TextCraft上的结果表明，Qwen-Image在文本渲染方面表现尤为出色。

特别是在中文文本渲染上，大幅领先现有的最先进模型。

从技术报告透露的细节来看，为了解决复杂文字渲染难题，通义千问团队在数据处理、训练策略方面都做出了改进。

训练方面，Qwen-Image采用渐进式训练策略，从非文字到文字渲染，从简单到复杂文本输入，逐步过渡到段落级描述，这种课程学习方法大大增强了模型的原生文字渲染能力。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2026-06-27

腾讯混元发布 PhoneBuddy：4B 开源手机 Agent，在 AndroidWorld 上超越 Gemini3.1 Pro

2026-06-27

本地部署 Gemma 4 26B QAT 实践记录

2026-06-26

Higress v2.2.3 发布：AI Gateway 能力增强，Gateway API 及其推理扩展持续打磨

2026-06-26

我把自己的知识库系统开源了

2026-06-26

近 8 千 Star！一次性干翻整本 PDF，百度这个 OCR 让文档解析彻底变了天

2026-06-25

谷歌开源 agents-cli：让 AI 助手帮你完成企业级 Agent 从搭建到部署全流程！

2026-06-25

官宣｜我们推出了开源版Claude Tag，以及它背后记忆与工具引擎 MFS

2026-06-24

Nathan Lambert：GLM-5.2是开源Agent重大突破，连锁反应将渗透进更广泛的经济体

联系获取

联系获取

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

Hermes Agent 出来了，聊聊它凭什么跟 OpenClaw 掰手腕

2026-03-30

很多人突然不玩小龙虾而用Hermes Agent了。我替你试了，跟小龙虾到底有啥不同？

2026-04-09

Google Gemma 4 开源｜全面解读

2026-04-03

震惊！刚刚，Anthropic掀了桌子：OpenClaude横空出世，大模型闭源时代彻底终结？

2026-04-01

刚刚，Claude Code开源了！51万行代码，全网狂欢

2026-03-31

龙虾绝配：Qwen 3.5 27B！跑在家里，成本为 0

2026-03-30

Ollama 本地部署 Gemma 4 完全指南

2026-04-18

Google Gemini CLI 完整使用指南

2026-04-18

CoPaw深度解析：源码架构和功能实践

2026-03-31

炸裂！Seedance 2.0 免费用！全网第一只接入的开源龙虾，效果离谱

2026-04-02

大家都在问

26.1%的AI编程技能有漏洞：NVIDIA开源 SkillSpector 能扫出什么？

2026-06-16

企业级 AI Agent 为什么集体转向“基座 + Skills”？

2026-05-30

Hermes Agent 深度解析：为什么它能“越用越懂你”？

2026-05-16

百度把Nano Banana塞进4090，疯了？

2026-04-22

Kimi K2.6 开源了！还附送了 300 个 Agent 员工？

2026-04-21

Hermes 凭什么两个月接棒 OpenClaw？

2026-04-15

很多人突然不玩小龙虾而用Hermes Agent了。我替你试了，跟小龙虾到底有啥不同？

2026-04-09

震惊！刚刚，Anthropic掀了桌子：OpenClaude横空出世，大模型闭源时代彻底终结？

2026-04-01

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS Skill 提示词技巧 AI+电商 AI面试数字员工 ChatBI AI知识库开源大模型智能营销智能硬件 FDE AI+医疗 MaxKB Palantir Glean Openclaw

应聘简历请发送至： ceo@53ai.com

联系我们

售前咨询

预约演示

微信扫码

添加专属顾问

回到顶部