我要投稿

Qwen2-VL：阿里开源新型世界领先视觉智能体，主打人类级别任意分辨率图像处理

发布日期：2024-08-30 12:21:30 浏览次数： 2569

作者：AI寒武纪

微信搜一搜，关注“AI寒武纪”

阿里云又来炸场了！他们刚刚开源了新一代视觉语言模型Qwen2-VL，而且一口气发布了20亿参数和70亿参数两个版本，还开放了最强720亿参数版本的API！这波操作简直6到飞起！?

Qwen2-VL 究竟有多牛？

看得清，看得懂： Qwen2-VL 在各种视觉理解任务上都取得了 SOTA 成绩，包括 MathVista、DocVQA、RealWorldQA、MTVQA 等等。无论是图像分辨率还是长宽比，都难不倒它

20分钟长视频也不怕： Qwen2-VL 能理解超过 20 分钟的视频，可以用来做高质量的视频问答、对话、内容创作等等

可操作手机、机器人等的Agent： Qwen2-VL 还能跟手机、机器人等设备结合，实现自动操作！它强大的推理和决策能力，加上对视觉环境和文本指令的理解，让它成为真正的“智能管家”

多语言支持，全球用户都能用： 除了英语和中文，Qwen2-VL 现在还支持识别图像中的多种语言文本，包括大部分欧洲语言、日语、韩语、阿拉伯语、越南语等等，真正做到了面向全球用户！

70亿参数以下，Qwen2-VL 就是最强的！ 而且，为了让 Qwen2-VL 能够在手机等移动设备上运行，阿里云还首次发布了 20 亿参数的小型视觉语言模型 Qwen2-VL-2B

想体验 Qwen2-VL 的强大功能？

博客：

https://qwenlm.github.io/blog/qwen2-vl/

GitHub：

https://github.com/QwenLM/Qwen2-VL

Hugging Face：

https://huggingface.co/collections/Qwen/qwen2-vl-66cee7455501d7126940800d

ModelScope：

https://modelscope.cn/organization/qwen

Qwen2-VL 成功的三个秘诀：

1.Naive Dynamic Resolution 支持： Qwen2-VL 可以处理任意分辨率的图像，并将它们映射成动态数量的视觉token，从而保证模型输入和图像信息的一致性。这就像人类的视觉感知一样，无论图像清晰度或大小如何，都能轻松识别

2.多模态旋转位置编码（M-ROPE）： 通过将旋转位置编码分解成时间、空间（高度和宽度）三部分，M-ROPE 使 LLM 能够同时捕捉和整合一维文本、二维视觉和三维视频的位置信息，让模型更全面地理解多模态信息

3.数据为王！ Data is all you need

要访问 Qwen2-VL-72B，暂时通过以下方式使用官方 API

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2025-12-25

Claude技能天花板来了！Anthropic 官方开源 16 个生产级技能库

2025-12-24

被 Gemini 官方推荐为下一代Agent！Eigent 如何实现企业级浏览器自动化？

2025-12-24

教你从零“手搓”一个大模型，别再只会调用API了

2025-12-24

DeepSeek-V3.2 128K 推理秒开？百度百舸开源 CP 上下文并行方案

2025-12-24

突然，被GLM-4.7的Coding交付能力惊到了

2025-12-23

我把Claude Code换成GLM-4.7用了6小时，我竟然没发现明显区别

2025-12-23

通义百聆语音交互模型开源，创新架构可节省近50%GPU计算！

2025-12-23

OxyGent 多智能体协作框架新版本发布

了解更多

了解更多

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

全新AI编程工具 Google Antigravity 实测，特别适合产品经理

2025-11-19

DeepSeek又开源，这次是OCR模型！附论文解读！

2025-10-20

发现一个超神的Github开源OCR项目，国产多模态杀疯了

2025-10-27

MiniMax悄悄发布M2，8%价格打出Claude级性能

2025-10-27

如愿以偿！Qwen3-VL再开源30B-A3B，附实测！

2025-10-03

DeepSeek-V3.2背后的国产算子编程语言TileLang是什么？如何保持性能领先的同时减少6倍代码量？

2025-09-29

让白宫“破防”的阿里千问，我替你们测了...

2025-11-17

n8n如何调用最近爆火的deepseek OCR？

2025-10-29

最强开源0.9B级OCR模型！PaddleOCR-VL本地一键部署，私密性拉满【喂饭级教程】

2025-11-07

DeepSeek-V3.2-Exp开源，附论文细节解读！

2025-09-29

大家都在问

被 Gemini 官方推荐为下一代Agent！Eigent 如何实现企业级浏览器自动化？

2025-12-24

一文彻底看懂 Google 最新开源 A2UI 协议：如何让 AI Agent “说出UI” ？

2025-12-22

我们为什么选择 Spring AI 开发智能体，而不是 Dify？

2025-11-12

开源安全审核模型终极PK：Qwen3Guard、OpenAI-SafeGuard、Llama4-Guard谁才是王者？

2025-11-10

DeepSeek-OCR到底厉害在哪？

2025-11-03

n8n如何调用最近爆火的deepseek OCR？

2025-10-29

小红书入局AI智能体开源DeepAgent，在计划什么更新？

2025-10-28

埃森哲的大裁员，向市场发出了什么信号？

2025-10-13

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS 提示词框架提示词技巧 AI+电商 AI面试数字员工 ChatBI AI知识库开源大模型智能营销智能硬件智能化改造 AI+医疗 MaxKB Palantir Glean

应聘简历请发送至： [email protected]

联系我们

售前咨询

预约演示

微信扫码

添加专属顾问

回到顶部