我要投稿

硅基流动 SiliconCloud 上线加速版阿里 Qwen2.5-VL

发布日期：2025-03-19 12:20:45 浏览次数： 3171

作者：硅基流动

微信搜一搜，关注“硅基流动”

近期，阿里通义团队在视觉语言模型领域再添新作，发布并开源了 Qwen2.5-VL。相比此前发布的 Qwen2-VL，Qwen2.5-VL 综合能力实现了巨大飞跃，为开发者提供了更强大的多模态应用工具。

现在，硅基流动大模型云服务平台 SiliconCloud 上线了推理加速版 Qwen2.5-VL-72B-Instruct（128k，价格为￥4.13/M Tokens），免去开发者的部署门槛，只需在开发应用时轻松调用 API，即可带来更高效的使用体验。平台支持开发者自由对比组合上百款大模型，为生成式 AI 应用选择最佳实践。

在线体验

https://cloud.siliconflow.cn/models

API 文档
https://docs.siliconflow.cn/cn/api-reference/chat-completions/

直观感受一下硅基流动 SiliconCloud 上加速版 Qwen2.5-VL-72B-Instruct 的效果。

目标定位能力

文本识别与理解能力

模型特点与性能

Qwen2.5-VL 具有以下特点：

以视觉方式理解事物：不仅擅长识别花、鸟、鱼和昆虫等常见物体，还能分析图像中的文本、图表、图标、图形和布局。

可作为智能体：作为视觉智能体，可以推理并动态地使用工具，初步具备使用电脑和使用手机的能力。
在不同格式下进行视觉定位：通过生成生成边界框或点准确定位图像中的物体，为坐标和属性提供稳定 JSON 输出。

支持结构化输出：对于发票、表单、表格等数据，支持其内容的结构化输出，惠及金融、商业等领域的应用。

根据通义千问官方数据，Qwen2.5-VL-72B 在大学水平的问题、数学、文档理解、视觉问答、视频理解和视觉智能体等一系列任务的基准测试中。

AI 社区评价

模型上线后，有开发者第一时间进行了体验，并对其做了问答测试。测试结果显示，Qwen2.5-VL 在明确指示下能够准确完成计数任务，表现优于其他主流视觉语言模型。

有开发者称， Qwen2.5-VL 配备了被诸多大语言模型所采用的自研视觉编码器，能够更加高效处理原始图像分辨率，识别能力非常出色。

“Qwen2.5-VL 简直无敌，是最好的视觉语言模型。“

现在，免除部署难题，你可以直接在 SiliconCloud 上在线体验这款模型了。

Token 工厂 SiliconCloud
DeepSeek-R1 蒸馏版等免费用

作为一站式大模型云服务平台，SiliconCloud 致力于为开发者提供极速响应、价格亲民、品类齐全、稳定丝滑的大模型 API。

除了 Qwen2.5-VL-72B-Instruct、SiliconCloud 已上架包括 Wan2.1-T2V-14B、Wan2.1-T2V-14B-Turbo、QwQ-32B、DeepSeek-R1 & V3、DeepSeek-R1-Distill、Janus-Pro-7B、CosyVoice2、QVQ-72B-Preview、DeepSeek-VL2、HunyuanVideo、Qwen2.5-7B/14B/32B/72B、InternLM2.5-20B-Chat、BCE、BGE、SenseVoice-Small 在内的上百款语言模型、图片/视频模型、音频模型、代码/数学模型以及向量与重排序模型。