微信扫码
添加专属顾问
我要投稿
OpenClaw创始人Peter Steinberger的成功秘诀:给AI装上手脚,让它从"嘴替"变成实干家。核心内容: 1. Peter选择OpenAI而非Meta的背后原因与坚持开源的原则 2. 40多个项目背后的统一逻辑:让AI具备执行能力 3. 从通讯到办公的完整CLI工具链构建
一个奥地利独立开发者的个人项目,首次commit(代码提交)在2025年11月25日,不到三个月拿到GitHub(全球最大的开源代码托管平台)近20万星、600个贡献者、10000次代码提交。奥特曼称他为"天才"(genius),Karpathy说这是"他见过的最接近科幻小说里'起飞时刻'的东西"(the most incredible sci-fi takeoff-adjacent thing)。
为什么他能取得成功?为什么他选择了和OpenAI合作?这就是我们这篇短文想回答的问题。我们先回答第二个问题。
此前,Peter在Lex Fridman播客里透露过初步原因。Meta和OpenAI同时向他抛出了收购橄榄枝。扎克伯格和同事Ned整整一周都在亲自试用OpenClaw,不断给反馈。OpenAI这边,奥特曼跟他有过数次深度对话,还拿算力资源来吸引他。Peter本身就是Codex的重度用户,被展示的推理速度让他形容为"给我雷神之锤",说自己"被token诱惑了"。他说这个选择堪比人生中最艰难的分手,但核心条件只有一个:无论选谁,项目必须保持开源。最终他选了OpenAI。
但我们更关心的是第一个问题:两家巨头争着要买的到底是什么?不是一个爆款项目的流量,而是它背后的产品方法论。
我们翻了他的GitHub主页(github.com/steipete),发现他目前维护着40多个活跃项目,另有9个标记为Legacy(已停止维护)。乍看是一个疯狂高产的开源爱好者——从WhatsApp客户端到智能床垫控制器什么都做。但仔细排列这些项目后,一个极其清晰的产品逻辑浮了出来。
所有大模型都很聪明,但都是"嘴替"。Peter做的事就是给AI装上手脚,让它能动手干活。
ChatGPT能帮你写一封邮件的草稿,但不能帮你发出去。Claude能帮你规划日程,但不能帮你建日历事件。它们只能说,不能做。
Peter的整个项目群就在解决这一个问题。
把他GitHub上的所有项目摊开,指向的是同一个架构:
底层:给agent造身体各个部件
每个CLI(Command Line Interface,命令行工具——不需要图形界面,一行命令完成一个任务)解决一个具体的"agent做不到的事":
通讯——wacli让agent能收发WhatsApp消息;imsg让agent能发iMessage和短信;bird让agent能读写Twitter/X。
办公——gogcli(他叫它gog)是最重量级的一个。一个CLI统一操作Gmail、Calendar、Drive、Docs、Sheets、Slides、Contacts、Tasks等整套Google Workspace。agent一条命令就能搜邮件、建日程、查文件。
感知——Peekaboo让agent能截屏并"看懂"屏幕内容,还能点击按钮、操作菜单,实现GUI自动化(像人一样操作图形界面)。Brabble让agent能听到你说话(在本地运行whisper语音识别,不上传云端)。camsnap让agent能看到IP摄像头的画面。
表达——sag和ElevenLabsKit让agent能用语音说话,直接播放到音箱。
硬件控制——sonoscli控制Sonos音箱放歌;blucli控制BluOS设备;eightctl控制Eight Sleep智能床垫的温度;spogo控制Spotify。
生活——ordercli查你的外卖订单记录;remindctl操作Apple Reminders;goplaces查Google Places。
中层:让agent能"借用"你的身份
这是我们在他的项目列表里发现的最巧妙的一环。
Sweet Cookie + SweetCookieKit + sweetlink,这三个工具组成了一条"cookie认证链"。它们从Safari、Chrome、Firefox中提取你已经登录的session cookie(浏览器保存的登录凭证,证明"这个人已经验证过身份"),让agent直接继承你在浏览器里的身份。
这解释了为什么bird(Twitter CLI)不需要API key(开发者接口密钥,通常需要申请和配置)——它直接用你浏览器里已有的Twitter登录状态。用户零配置,agent开箱即用。
这不是技术取巧,这是产品设计上的关键决策:不要让用户配置任何东西,直接复用他们已有的权限。
顶层:一个大脑把所有部件串起来
OpenClaw就是这个大脑。它是一个开源的个人AI助手网关(gateway,所有请求的统一入口和调度中心),通过你已经在用的渠道跟你对话——WhatsApp、Telegram、Discord、iMessage、Slack——在后端调度上面所有工具。
它有一个skill框架:每个CLI工具注册为一个"skill"(技能),附带一份SKILL.md说明文件——相当于一份agent能读懂的使用手册。agent读完就知道这个工具怎么用、什么时候该调用。
你在WhatsApp上说"帮我查一下这周有什么重要邮件",OpenClaw调用gog搜索Gmail。你说"把结果发给老张",它调用wacli发WhatsApp。你说"放点音乐",它调用sonoscli。你说"明天早上7点把床调暖",它调用eightctl。
最颠覆的一点:agent可以自己写新的skill。你跟OpenClaw说"我想让你能管理我的Todoist",它自己写一个连接Todoist API(应用程序接口)的skill,然后这个能力就永久获得了。社区用户已经让它自动生成了Whoop健康数据、WordPress管理、Hetzner服务器运维等skill。这就是它的标语所说的——"真正能干活的AI"(the AI that actually does things)。不只是说,还能做,甚至能自我扩展。
第一,CLI优于MCP
MCP(Model Context Protocol,模型上下文协议)是Anthropic推出的一套让AI调用外部工具的标准协议,2024年底发布后迅速成为行业热点。Peter最初也用MCP,但后来系统性地放弃了它。他的早期项目Terminator MCP和Conduit MCP都已经归入Legacy(废弃)。Peekaboo从纯MCP改成了CLI优先。这不是偶然,是一次技术路线的整体转向。
他在博客里解释过:agent调用CLI命令比调用MCP服务器更好。三个原因——CLI不需要在每次对话开头就把工具的结构描述(schema)加载到上下文窗口(context window,大模型单次对话能处理的信息总量),按需调用就行;CLI天然支持Unix管道组合(把多个命令的输入输出串联起来);agent搞错参数了可以自己--help看文档纠错。
他的原话是:"agent调用CLI其实非常擅长,比调用MCP好得多。"(Agents are really, really good at calling CLIs, actually much better than calling MCPs.)
这个判断解释了他为什么要造40多个独立的小CLI,而不是一个大而全的MCP服务器。
第二,去用户在的地方,而不是造新入口
绝大多数AI产品都在做自己的App或网页,让用户"来我这里"。OpenClaw反过来——通过WhatsApp、Telegram、Discord、iMessage这些用户已经天天在用的渠道接入。
用户不需要下载新App,不需要学新界面,不需要记新网址。打开WhatsApp发一条消息就行。有用户说设置只花了5分钟。
这个选择决定了OpenClaw能病毒式传播。它也解释了为什么OpenClaw在中国也迅速走红——开发者把它适配到了国内的通讯工具上。渠道可以换,架构不用变。
第三,agent-first(为AI优先设计)的交互设计
传统开发者工具为人类设计。Peter的工具为agent设计。差异体现在每个细节上:
所有工具默认输出JSON(一种结构化数据格式,机器读起来比人类读起来方便得多),方便agent解析而不是方便人类阅读。错误处理极度宽容——Peekaboo的窗口匹配不要求精确名称,agent说"Chrome"能匹配到"Google Chrome"。他在博客里的原则是"工具调用应该宽容"(tool calling should be lenient),因为"agent一定会搞错参数"(agents make mistakes with parameters)。
这和传统软件工程的"严格校验输入"完全相反。但对agent来说,这才是对的设计。
Peter Steinberger不是一个AI领域的新人碰巧做对了一件事。他是一个有13年产品经验的创始人——PSPDFKit(业界领先的PDF开发组件)2021年以超过1亿美元退出。经历了三年的迷茫期后,他用AI工具重新开始造东西。
从他的GitHub可以看出,那40多个CLI工具不是一张蓝图规划出来的,是他给自己的AI助手逐个"加器官"的过程——日常用着用着,发现agent发不了消息,就写了wacli;发现agent看不了屏幕,就写了Peekaboo;发现agent管不了邮件,就写了gogcli;发现agent控制不了音箱,就写了sonoscli。每一个工具的起点都是他自己的真实痒点。这是最经典的dog-fooding(自己做自己产品最重度的用户)——OpenClaw最苛刻的测试员就是Peter本人的日常生活。
这也解释了他的速度。他的博客签名是"先发比完美更重要"(Ship beats perfect)。他同时开3到6个agent实例并行编码——他不写代码,他指挥agent写代码,用agent造给agent用的工具。VibeTunnel的第一版就是用Claude Code一天写完的。
Peter Steinberger的故事揭示了一个正在成型的产品范式:
AI产品的下一个战场不在模型智能(起码不仅仅在于模型智能),而在执行能力。 谁先给agent装上足够多、足够好用的"手脚",谁就能让agent从聊天机器人变成真正的数字员工。
这也是奥特曼花大钱买的东西。他在宣布招聘时说:"未来一定是高度多agent协作的。"(The future is going to be extremely multi-agent.)多个agent之间互相协作、互相调用skill、共同完成复杂任务——这正是Peter用40多个CLI工具和一个skill框架搭出来的原型。
Peter自己说得很清楚:他可以把OpenClaw做成一家大公司,但"那对我来说没什么意思"(it's not really exciting for me)。他的下一个目标是:"做一个连我妈都会用的agent。"(Build an agent that even my mum can use.)
从第一次代码提交到OpenAI的offer,中间隔了不到三个月。这个速度本身就是最好的方法论注脚。
附:Peter Steinberger的Github页面
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2026-02-16
以小胜大!千问Qwen3.5重磅发布,每百万Token仅0.8元
2026-02-16
来了,Qwen3.5-Plus开源,是除夕夜最惊喜的原生多模态模型
2026-02-16
刚刚,OpenClaw 被 OpenAI 收编!
2026-02-16
我与OpenClaw:从拒绝到皈依
2026-02-16
goclaw: 大火的 openclaw 项目的 Go 语言复现
2026-02-15
OpenClaw 的「中国套件」来了:飞书钉钉企微QQ一锅端
2026-02-15
🦞 OpenClaw 二月狂飙:从能用变成“真·好用”的7版连更
2026-02-14
让 OpenClaw 一键超简单部署,用 MonsterClaw 过年赚大钱
2025-11-19
2026-01-27
2026-01-29
2026-01-30
2026-01-12
2026-02-06
2025-12-22
2025-12-10
2026-01-28
2026-01-27
2026-02-11
2026-02-05
2026-01-28
2026-01-26
2026-01-21
2026-01-21
2026-01-20
2026-01-16