微信扫码
添加专属顾问
我要投稿
字节跳动开源的革命性桌面控制工具,自然语言操作电脑,提升办公效率。 核心内容: 1. UI-TARS Desktop的介绍与开源信息 2. 详细的安装与配置步骤 3. 使用UI-TARS进行自然语言控制电脑的操作示例
❝本文预计阅读时间:2分钟
UI-TARS是bytedance(字节跳动)开源的,基于视觉语言模的 GUI 代理应用程序,允许使用自然语言控制计算机。
❝详情:https://github.com/bytedance/UI-TARS-desktop
访问下载地址:https://github.com/bytedance/UI-TARS-desktop/releases/tag/v0.1.2选择对应的安装程序。安装都是一直下一步,此处省略。
安装完毕后,点击图标打开UI-TARS:
使用UI-TARS需要火山引擎支持,访问https://www.volcengine.com/product/ark:使用手机号登录:
登录到火山引擎界面:
点击“API Key管理”--->“创建API key”:
自定义一个名称,点击“创建”:
创建完毕后,点击小眼睛,可以查看key:
点击“复制”按钮,将key保留备用:
❝参考:https://github.com/bytedance/UI-TARS-desktop/blob/main/docs/quick-start.md#doubao-15-ui-tars-on-volcengine
点击“Settings”,除了API Key之外,其他内容参照如下:因为使用了指定的豆包大模型,需要在火上引擎中开通服务。
在火山引擎中,点击“开通管理”,找到指定的大模型,点击“开通服务”:开通时会提示地区,默认即可:
配置完毕后,可以通过对话框发送任务,比如:此时,UI-TARS会调用浏览器查找内容,返回结果:
❝这个过程它会操作浏览器,将获取到结果返回。
更多妙用,大家可自行摸索。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2026-02-03
Claude Code——智能路由与切换工具
2026-02-03
作为投资方,我们试了试Kimi K2.5
2026-02-03
暴涨11.7k Star!复刻Manus上下文工程的开源Skills,Claude code等多个平台即插即用
2026-02-03
ollama v0.15.4 更新:OpenClaw全面上线,优化集成流程与工具解析能力大升级!
2026-02-03
阶跃星辰 Step 3.5 Flash 上线!更快更强更稳的 Agent 大脑,开源!
2026-02-02
一分钟部署OpenClaw+QQ,国内最爽的一键启动!
2026-02-02
这家字节系AI初创,推出首个开源Agent Skills Builder!对话Refly.AI李锦威:大多数Agent都停留在专业用户层面,没有做到真正的普惠
2026-02-02
OCR又出宠OpenDoc,速度超MinerU6倍
2025-11-19
2026-01-27
2025-12-22
2025-12-10
2025-11-17
2026-01-12
2025-11-07
2025-12-23
2026-01-29
2026-01-06
2026-01-28
2026-01-26
2026-01-21
2026-01-21
2026-01-20
2026-01-16
2026-01-02
2025-12-24