微信扫码
添加专属顾问
OpenClaw 的专属工具 Peekaboo v3 正式回归,为 AI 补上了操作真实桌面的“眼睛”和“手”,让智能体从“指路”变为“驾驶”。 核心内容: 1. Peekaboo v3 的回归与高频更新,填补了OpenClaw的关键能力缺口 2. 作为自动化工具,它能截图、识别UI、点击按钮,应对复杂多变的桌面环境 3. 从副驾驶到主驾驶的转变,标志着AI Agent操作真实世界能力的重大突破
OpenClaw 终于要长出眼和手了!
https://x.com/steipete/status/2053114837698249190
过去几个月,OpenClaw 的热度像一锅刚烧开的水,先是咕嘟咕嘟冒泡,随后逐渐归于平稳。
项目跑起来了,用户开始上手,讨论也从「这是什么」变成「它还能做什么」。
这时,一个被搁在旁边的老问题重新浮上来。
AI 能接消息,能理解指令,能调用工具,下一步总得碰一碰真实世界。
桌面上的按钮、菜单、弹窗、输入框,才是多数工作的最后一公里。
一个 Agent 如果只能在聊天框里给建议,多少像坐在副驾驶上指路,嘴上懂路,手上碰不到方向盘。
Peekaboo 就是在这个时候回来的。
这个名字本身就有点俏皮。Peekaboo 是「躲猫猫」的意思。
电脑界面确实天天跟自动化躲猫猫。
按钮躲在弹窗里,菜单躲在系统栏里,窗口一动坐标全变,焦点一跑输入落空。
人类会凭直觉修正,AI 只能靠一套更靠谱的眼睛和手。
如今,Peekaboo 要补上的正是这套眼睛和手。
Peekaboo 从去年年末发布 v3.0.0-beta 3 后,开始停更。
之后,Peter 将主要精力转向 OpenClaw。
可以理解,OpenClaw 本身就是一张更大的网,要接消息平台,要做网关,要处理本地运行,要支撑 Agent 调度,还要让普通用户装得上、跑得稳、用得明白。
于是 Peekaboo 暂时退到幕后。
变化发生在最近两周。
v3.0.0-beta 4 先出来试水。
就在前天,正式版 v3.0.0 发布。
正式版落地之后,更新节奏开始狂飙,今天一日三更,v3.1.0、v3.1.1、v3.1.2 接连推出。
这种更新密度一般只有两种可能。
一种是出现了重大 Bug,维护者正端着灭火器忙着救火。
另一种是方向终于对齐,积累已久的东西开始往外倾泻。
Peekaboo 这次更接近后者。
过去几个月,OpenClaw 把渠道、网关、Agent 的外壳先搭起来了。
现在,项目开始补最重要的课。
对普通用户来说,Peekaboo 最好理解成一套 macOS 自动化工具。
它能截图,能识别窗口,能读 UI 元素,能找按钮,能点、能打字、能滚动、能切应用、能操作菜单。
传统脚本最怕环境变化。
按钮位置换一下,窗口遮一下,弹窗突然出现,脚本就像踩空楼梯,啪一下摔进错误分支。
Agent 更麻烦,因为它要边看边想边操作,任何一步看错、点错、等错,后面都会一路歪下去。
Peekaboo 的价值,是把桌面变成 Agent 能理解的工作场域。
它不只是截一张图给模型看,还要把图里的控件、窗口、文本、按钮关系整理出来,形成可追踪、可复盘、可继续操作的现场记录。
AI 看到的不再只是一片像素,而是一张带结构的桌面地图。
这就像给一个会读菜谱的人配上厨房灯、砧板和锅铲。没有这些东西,厨艺只能停在嘴上。加上这些东西,才有可能开火。
Peekaboo 并非横空出世。
它早在去年6月就已上线初版,问题是过去的模型能力还没完全到位。
视觉模型能看图,但未必能稳定理解复杂界面。
Computer-Use 能操作,但经常像第一次摸触控板的人,动作大,心里虚,偶尔还会把浏览器当滑板。
最近的变化在于,模型视觉能力和 Computer-Use 能力都过了一个临界点。
单项进步看起来只是多识别一点、多点准一点、多理解一步,叠起来之后,体验会发生质变。
Agent 不再只是偶尔能演示一下,而是开始接近可持续跑流程的状态。
这时,底层自动化工具的价值被放大。
模型再聪明,也需要稳定输入和稳定执行。
没有 Peekaboo 这样的桥,AI 对桌面的理解就容易停在截图问答。
它能说出屏幕上有什么,却不一定能可靠地完成下一步。
Peekaboo 做的事情,就是把「看见」和「动手」接到一起。
OpenClaw 最初打动人的地方,是把 Agent 放进各种消息渠道。
用户可以从 Telegram、Slack、iMessage、WhatsApp 一类入口发起任务。
这个设计抓住了一个现实问题——人已经懒得为每个 AI 打开一个新网页,也不想在不同工具之间来回搬运上下文。
最顺手的入口,往往就是聊天窗口。
可聊天窗口只是入口。真正的工作场景常常在电脑里。
要处理一个网页后台,要检查一个本地应用,要跑一个模拟器,要填一个表单,要点一个配置项,要看一张报错截图。
OpenClaw 可以把任务接进来,Agent 可以想出步骤,但如果没有能操作屏幕的本地层,它最终还是要把步骤发回给人,让人自己动手。
这就尴尬了。
用户叫来一个助手,最后助手递过来一张待办清单。
Peekaboo 接入之后,OpenClaw 的角色开始变化。
它不再只是多渠道消息网关,也不只是 Agent 的调度台。
它有机会成为一个能在本机环境里真正办事的系统。
一句话概括,OpenClaw 管「谁来找我」「要做什么」「交给哪个 Agent」,Peekaboo 管「屏幕上有什么」「按钮在哪里」「这一刀该往哪儿落」。
社区里已经有人用 Peekaboo 在浏览器里驱动远程 iOS 模拟器。
流程大概是,先让 Peekaboo 分析一张移动应用截图,识别出它是 Little Vault 的欢迎页,页面上有应用 Logo、标题、关于私人记忆的标语、创建 Vault 的主按钮、登录入口,以及右上角的语言选择器。
随后注册这个屏幕,点击 Create Your Vault,等待界面变化,再截图,继续进行探索。
这段演示有意思,因为它展示的并非单纯「AI 看懂一张图」。真正关键的是后半段。
看懂之后,它要把屏幕注册为一个状态,要选择目标,要执行点击,要等待反馈,要根据新截图继续走。
这里面每一步都可能出错,每一步也都可以被记录下来。
这才是 Agent 从玩具走向工具的分界线。
Peekaboo 把这些动作变得可观察、可复盘、可继续。
对 OpenClaw 来说,这等于让远程指令和本地执行之间出现了一条可铺设的轨道。
这几天的更新看起来有些工程琐碎,比如模型目录、工具 schema、打包产物、版本标记、捕获路径、daemon 调度。
这些词放进发布公告里不一定吸睛,却正是 Agent 产品能不能跑起来的地基。
AI 工具最怕一种场景——演示时行云流水,用户一装就各种权限、路径、模型、窗口、截图、输入法、延迟问题接连冒头。
最后用户也只能得出结论——未来确实来了,就是还没到自己电脑上。
Peekaboo 的连续更新,在修的就是这类问题。
它要让 CLI、MCP、桌面应用、远程 Agent、不同模型之间尽量减小摩擦。
它要让一次截图、一次点击、一次窗口选择都更接近可预期。
这里没有神迹,只有大量脏活。脏活做得越多,用户越少感知到它。
好工具的最高境界往往是没存在感。按钮该点就点,窗口该找就找,任务该继续就继续。
Peekaboo 现在就在往这个方向补课。
OpenClaw 过去解决的是连接问题。
人从哪里发消息,消息怎么进来,Agent 怎么处理,结果怎么回去。
Peekaboo 解决的是执行问题。Agent 接到任务以后,能不能看到真实桌面,能不能找到可操作对象,能不能一步步推进。
这两个问题合在一起,才接近普通人想象中的 AI 助手。
加上 Peekaboo,OpenClaw 才开始像值班的工程师,能登录机器、看屏幕、查问题、点配置、跑流程,让人愿意把事托付出去。
这也是 Peekaboo 对 OpenClaw 的真正意义。
它把 OpenClaw 从消息系统往操作系统的边缘推了一步。
再往前走,OpenClaw 就不只是 AI 的入口,而可能成为 AI 操作个人电脑和个人工作流的本地控制层。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2026-06-30
运维界的 OpenClaw 来了!
2026-06-30
刚刚,OpenClaw和Cursor杀入手机!Agent从此塞进口袋
2026-06-21
openclaw深度实践(四种场景:企业提效参考)
2026-06-21
OpenClaw不仅仅是聊天框,还是Agent后台引擎,通过API接入现有平台
2026-06-18
OpenClaw MetaSKILLs 系统深度解析:AI Agent 正在学会「自己给自己写技能」
2026-06-17
OpenClaw 6.8 震撼发布:不堆噱头,彻底治愈 Agent 的“宕机失忆症”
2026-06-01
OpenClaw 5月28日更新:更加提升稳定性
2026-05-31
Claw Team 在 SRE 场景下的实践
2026-04-09
2026-04-03
2026-04-15
2026-05-03
2026-04-09
2026-04-13
2026-04-18
2026-04-02
2026-04-04
2026-04-08
2026-04-09
2026-04-07
2026-04-02
2026-03-30
2026-03-30
2026-03-26
2026-03-24
2026-03-24
欢迎您使用【53AI 官方网站】(以下简称“本网站”或“我们”)。本《会员服务协议》(以下简称“本协议”)是您(以下简称“会员”或“用户”)与【深圳市博思协创网络科技有限公司】之间关于注册、登录及使用本网站会员服务所订立的法律协议。
在您注册或登录前,请务必审慎阅读、充分理解各条款内容,特别是免除或限制责任的条款、知识产权条款、争议解决条款等。此类条款将以加粗形式提示您注意。 当您通过微信公众号授权、手机验证码验证或其他方式成功登录本网站时,即视为您已完全理解并同意接受本协议的全部内容。
一、 定义
本网站:指由【深圳市博思协创网络科技有限公司】运营的,域名为【53ai.com】的网站及相关移动端页面。
会员服务:指本网站向注册会员提供的知识库文章查阅、内容检索及其他相关增值服务。
知识库内容:指本网站发布的包括但不限于文字、图表、数据、研究报告、行业分析等数字化内容资源。
二、 账号注册与登录
登录方式:本网站支持以下登录方式,您可根据实际情况选择:
微信公众号授权登录:您同意将您的微信OpenID信息授权给本网站,用于创建或关联会员账号。
手机验证码登录:您需提供真实有效的手机号码,并通过短信验证码完成身份验证与登录/注册。
账号安全:您的账号仅限您本人使用,禁止赠与、借用、租用、转让或售卖。因您保管不善导致的账号被盗、密码泄露等损失,由您自行承担。
实名认证:根据相关法律法规要求,我们可能要求您在特定功能下完成实名认证。如您拒绝提供,可能无法使用部分或全部服务。
未成年人保护:若您未满18周岁,请在法定监护人的陪同下阅读本协议,并在征得监护人同意后使用本服务。
三、 服务内容与规范
知识库查阅权限:会员登录后,有权按照其会员等级对应的权限范围,在线浏览、检索本网站知识库中的相关文章及内容。
服务变更:我们有权根据业务发展需要,调整、变更或终止部分服务内容,并将以网站公告、公众号消息等方式提前通知。
禁止行为:您在使用服务时不得实施以下行为:
利用技术手段批量爬取、下载、转存知识库内容;
将知识库内容用于商业目的或未经授权地向第三方传播;
干扰本网站正常运行或侵犯其他用户合法权益;
发布违法违规信息或从事违反公序良俗的活动。
四、 知识产权声明
权利归属:本网站知识库中的排版设计、软件代码等内容的知识产权均归【公司全称】或原权利人所有,受《中华人民共和国著作权法》等法律保护。
有限许可:本网站授予会员一项非独占、不可转让、不可转授权的普通许可,仅限于个人学习、研究之目的在线查阅知识库内容。
侵权追责:未经书面许可,任何单位或个人不得以任何形式复制、转载、摘编、镜像、汇编或以其他方式使用上述内容。一经发现,我们保留追究其法律责任的权利。
五、 个人信息保护
我们重视对您个人信息的保护。关于我们如何收集、使用、存储和保护您的个人信息,请单独阅读 《隐私政策》。
您通过微信公众号授权或手机号验证所提供的信息,我们将严格按照《个人信息保护法》的规定处理,仅用于身份识别、服务提供及安全验证等必要用途。
您可以随时通过网站设置或联系客服行使查阅、更正、删除个人信息及撤回授权同意的权利。
六、 免责声明
内容准确性:知识库内容仅供参考,不构成专业建议。我们不对其完整性、准确性、时效性作任何明示或暗示的保证,您应自行判断并承担使用风险。
不可抗力:因自然灾害、政策法规变化、网络故障、第三方平台接口异常(如微信接口维护、运营商短信通道故障)等不可抗力导致的服务中断或延迟,我们不承担违约责任。
第三方链接:本网站可能包含指向第三方网站的链接,该等网站的内容和服务不受我们控制,请您自行甄别风险。
七、 违约责任
如您违反本协议约定,我们有权视情节采取警告、限制功能、暂停服务、注销账号等措施,并保留要求赔偿损失的权利。
如因您的违约行为导致我们遭受行政处罚、第三方索赔或商誉损失,您应承担全部赔偿责任(包括但不限于罚款、赔偿金、律师费、公证费等)。
八、 法律适用与争议解决
本协议的订立、执行和解释均适用中华人民共和国大陆地区法律。
因本协议产生的或与本协议有关的任何争议,双方应友好协商解决;协商不成的,任何一方均可向【公司所在地】有管辖权的人民法院提起诉讼。
九、 其他
本协议构成双方就本服务达成的完整协议,取代此前任何口头或书面约定。
本协议任一条款被认定为无效或不可执行的,不影响其他条款的效力。
我们对本协议享有最终解释权,并在法律允许的范围内保留随时修改的权利。修改后的协议一经公布即生效,继续使用服务即视为同意修订内容。