微信扫码
添加专属顾问
我要投稿
阿里Qwen VLo多模态模型实测:从复杂指令理解到多语言生成,全面挑战现有AI绘图能力边界。 核心内容: 1. 复杂场景生成测试:黑帽男子、红墨镜女性与哈士奇共乘标注"Qwen VLo"的纽约地铁 2. 四维度专业评估:美学质量/指令遵循度/真实感/多语言支持能力 3. 与ChatGPT的横向对比实验及模型极限压力测试
笔者将基于ChatGPT、Qwen VLo使用相同提示词生成图片,在此基础上使用Qwen2.5-VL-32B-instruct从美学质量、指令遵循度、真实感角度进行评价。测试从复杂指令理解与多重任务、复杂指令理解与多重任务、图像检测及标注、多语言文字生成图像等角度展开,笔者人为加大了难度,测评结果仅代表大模型与个人观点,不代表雇主观点。
生成照片,图中男人带着黑帽子在地铁上看报纸,旁边是一个美丽的带红色墨镜年轻女性,还有一只=哈士奇,地铁的窗外是自由女神像,地铁的站牌显示“Qwen VLo”
生成摆满水果的桌面
笔者注:本次生成结果,显然是Qw-en更胜一筹,以下是Qwen2.5-VL-32B-instruct测评结果,仅供参考
美学质量:
指令遵循:
真实感:
ChatGPT 4o在预测边缘检测图时,实际调用了Python代码,甚至还很贴心地给出了文字说明:可以更换不同的边缘检测方法。
左:输入,右:边缘检测图
Qwen直接给出了边缘检测图,中间是否涉及到工具使用就不得而知了。
为了公平比较,使用测试2中Qwen生成的图像测试模型分割图像的能力。
用橙色mask分割图中香蕉的边缘
ChatGPT依旧选择了使用工具,但基于HSV颜色空间的算法显然不太能够完成我们的任务。
尝试了2次,目前无法复原po中的生成结果。
将这些零食(每个品种的薯片各1罐、2瓶苏打水)放到购物车上层
左:ChatGPT,右:Qwen
看到ChatGPT生成的结果,笔者感慨万千,硬要鸡蛋里挑骨头——苏打水体积是小于薯片罐的,但这需要常识或者根据互联网资料,仅从图片中也无法推理得到。那再给ChatGPT加点难度:
将这些零食(每个品种的薯片各1罐、2瓶苏打水)放到购物车上层,下层购物篮放置1瓶苏打水、一罐洋葱味薯片
虽然多生成了一个四不像的东西,但甚至推理出了绿罐薯片是洋葱味的。
作为一个图形学博主(bushi),笔者使用ChatGPT o3根据光线追踪场景生成了一份中英文提示词用于测试多语言文字生成图像能力。
左:ChatGPT,右:Qwen
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2026-03-21
编程选GPT-5.4,还是GPT-5.3-Codex?
2026-03-21
AI Coding前端实践后的复盘总结
2026-03-21
OpenAI 首席科学家:Codex 只是雏形,我们要造的是「全自动 AI 研究员」
2026-03-21
谷歌Stitch「氛围设计」干崩Figma 8.8%股价:十年经验,败给巨头一次更新(附实测)
2026-03-21
为什么 CLI 比 MCP 更适合 LLM
2026-03-21
渐进式披露(Progressive Disclosure):Agent 从 Demo 到企业级落地的 “救命架构”
2026-03-21
AI 编程工具怎么选?Codex 和 Claude Code 的本质区别
2026-03-21
Karpathy 最新播客:我得了 AI 精神病、App 将消失、Agent 将碾压实验室
2026-01-24
2026-01-10
2026-01-01
2026-01-26
2026-01-09
2026-01-09
2026-01-23
2025-12-30
2026-01-14
2026-01-21
2026-03-21
2026-03-20
2026-03-19
2026-03-19
2026-03-19
2026-03-18
2026-03-17
2026-03-17