微信扫码
添加专属顾问
我要投稿
字节跳动开源的UI-TARS,开启GUI自动化新纪元,探索AI人机交互新境界。 核心内容: 1. 字节跳动开源GUI Agent模型UI-TARS的背景与意义 2. UI-TARS的核心特性:感知能力、行动能力和推理能力 3. UI-TARS在技术突破上的亮点:增强的GUI截图感知、统一行动建模等
全面的 GUI 理解:UI-TARS 能解释各种类型的输入,如文本和图像,形成对用户界面的完整理解。
动态交互:模型能够主动观察并实时响应不断变化的 GUI 环境中的变化。
高密度信息处理:有效处理复杂布局和多元素界面,提取精确元数据。
统一的行动空间:跨平台(桌面、移动和网络)的标准化动作定义。
精确定位与互动:通过大规模行动轨迹训练,实现对特定 GUI 元素的精确定位和交互。
平台特定动作:支持热键、长按和平台特定手势等额外动作。
系统 1 和系统 2 推理:结合快速、直觉的响应与深思熟虑的高级规划,用于处理复杂任务。
任务分解与反思:支持多步规划、反思和错误修正,确保任务执行的稳健性。
基于"思考"的决策:在每个行动前生成明确的"思考"过程,将感知和行动与深思熟虑的决策联系起来。
短期记忆:捕获任务特定上下文,增强情境感知能力。
长期记忆:保留历史交互和知识,改进决策过程。
在 OSWorld 基准测试中,UI-TARS-72B 在 50 步中取得了 24.6 的得分,在 15 步中取得了 22.7 的得分,优于 Claude 的 22.0 和 14.9。
在 AndroidWorld 中,UI-TARS 取得了 46.6 的得分,超过了 GPT-4o 的 34.5。
在 VisualWebBench 中,UI-TARS-72B 得分 82.8,高于 GPT-4o 的 78.5。
在 ScreenSpot Pro 上取得了 38.1(SOTA)的成绩。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2025-08-29
如何评测 AI 智能体:试试字节开源的扣子罗盘
2025-08-29
HiMarket 正式开源,为企业落地开箱即用的 AI 开放平台
2025-08-28
美团 M17 团队开源 Meeseeks 评测集:揭秘大模型的 “听话”能力
2025-08-28
我摊牌了,PDF的终结者出现了!这个开源神器,让你的RAG项目吞吐能力暴增10倍!
2025-08-28
面壁开源多模态新旗舰MiniCPM-V 4.5,8B 性能超越 72B,高刷视频理解又准又快
2025-08-28
1.9K Star 微软开源TTS王炸!90分钟超长语音合成,4人对话自然切换!
2025-08-27
初探:从0开始的AI-Agent开发踩坑实录
2025-08-27
ollama v0.11.7发布:深度集成DeepSeek-V3.1与Turbo云端推理模式解析
2025-07-23
2025-06-17
2025-08-20
2025-06-17
2025-07-23
2025-08-05
2025-07-14
2025-08-20
2025-07-29
2025-07-12