我要投稿

从 OpenClaw 到 Pi：一个极简 Agent 的设计哲学

发布日期：2026-02-14 07:52:53 浏览次数： 1533

作者：不测之舟

微信搜一搜，关注“不测之舟”

从 OpenClaw 到 Pi：一个极简 Agent 的设计哲学

最近在研究 OpenClaw 的架构时，我发现它的核心引擎叫 Pi，作者是 Mario Zechner。顺藤摸瓜，我读了一堆相关的文章，包括 Mario 自己的博客，还有 Armin Ronacher（Flask 作者）写的一篇介绍。这些材料拼凑出了一个有趣的故事：关于极简主义、工具设计和 agent 应该长什么样的实验。

Pi 是什么

Pi 是一个极简的 coding agent。它只有四个工具：Read, Write, Edit, Bash。系统 prompt 不到 1000 tokens。

这个数字放在当前的 agent 生态里显得有些另类。Claude Code 的系统 prompt 有几千 tokens。Playwright MCP 定义了 21 个 tools，光是工具描述就要消耗 13.7k tokens。Chrome DevTools MCP 更夸张，26 个 tools，18k tokens。而 Pi 的四个工具加起来只有几百 tokens。差距接近两个数量级。

Mario 在他的博客 What I learned building an opinionated and minimal coding agent^[1] 里写道：

"My philosophy in all of this was: if I don't need it, it won't be built."

这种极简主义贯穿了 Pi 的整个设计。当大多数 agent 框架在不断添加新功能时，Pi 选择了相反的方向：剥离一切非必要的东西，只留下最核心的能力。

核心设计决策

YOLO by default

Pi 默认没有权限检查，没有安全提示。每次执行命令前不会弹出确认框问你"确定要运行这个吗？"。Mario 的观点很直接：这些安全措施是 "security theater"。听起来有些激进，但他的逻辑很清晰。一旦 agent 能写代码和运行代码，它就可以做任何事情。你给它加一个权限检查？它可以写一段代码来绕过这个检查。你限制它不能删除文件？它可以写一个脚本来删除文件，然后执行这个脚本。限制它不能访问网络？它可以用 curl 命令。

这就是所谓的 "game over" 状态：一旦你给了 agent 执行任意代码的能力，任何在此之上的限制都只是形式。这些限制或许能阻止意外操作，但无法阻止一个"有意图"的 agent。假装有安全边界反而会给用户一种虚假的安全感。

承认这个现实反而是一种务实。与其花精力设计复杂的权限系统，Pi 选择了透明：你知道它能做什么，你需要自己判断什么时候该介入。这把责任放回了用户手里，同时也减少了不必要的摩擦。

No MCP

MCP（Model Context Protocol）是 Anthropic 推出的一套标准，用于定义 agent 和工具之间的通信协议。很多工具都实现了 MCP 接口。但 Pi 没有使用 MCP。

原因很简单：MCP 消耗太多 context。前面提到的数字值得再看一遍。Playwright MCP 的 21 个 tools 要消耗 13.7k tokens，Chrome DevTools MCP 的 26 个 tools 消耗 18k tokens。即使只用其中几个工具，光是工具定义就要占用大量的 context window。

Context window 是有限的资源。目前主流模型的 context window 从 128k 到 200k tokens 不等，听起来很大，但实际使用时会发现远远不够。代码文件、对话历史、错误信息、执行结果，这些都需要放进 context。如果工具定义就占了 10% 甚至 20%，留给实际工作的空间就被挤压了。

Mario 在 MCP vs CLI: Benchmarking Tools for Coding Agents^[2] 里做了一个实验。他跑了 120 次测试，比较 MCP 和 CLI 两种方式的性能。结论是：两者差不多。MCP 没有带来显著的性能提升。

他在另一篇文章 What if you don't need MCP at all?^[3] 里写道：

"Maybe instead of arguing about MCP vs CLI, we should start building better tools. The protocol is just plumbing."

协议只是管道，关键在于工具本身的设计质量。一个设计良好的 CLI 工具和一个设计良好的 MCP 工具效果差不多。既然如此，为什么要为协议付出额外的 context 代价？

这引出了一个更大的问题：context 的控制权。现在很多 coding agent 产品，比如 Cursor，作为中间商存在于用户和 LLM 之间。为了控制成本，这些产品会裁剪 context，决定哪些内容发给模型，哪些不发。用户并不知道 context 里到底有什么，也无法控制 agent 看到了什么信息。

Mario 对此有些不满。他在博客里写道：

"Twitter is full of context engineering posts and blogs, but I feel like none of the harnesses we currently have actually let you do context engineering. pi is my attempt to build myself a tool where I'm in control as much as possible."

Pi 试图把这个控制权还给用户。你可以精确地知道 context 里有什么，可以决定加载哪些文件，可以看到完整的对话历史。这种透明性是很多商业产品不具备的。

No plan mode, No sub-agents

Pi 没有内置的 plan mode，也没有 sub-agents。这两个功能在其他 agent 框架里很常见：plan mode 让 agent 先制定计划再执行，sub-agents 让主 agent 可以派发任务给子 agent。

Mario 认为这些功能都可以用更简单的方式解决。想要 plan？通过语言自然的交流而不是强硬的限制模型的输出结构会更好。想要并行任务？用 tmux 开多个终端。LLM 本身就擅长写代码和运行命令，何必在上面再叠加复杂的抽象层。

这个思路在他的文章 Prompts are code, .json/.md files are state^[4] 里有更详细的阐述。核心观点是：把状态写到文件里，比用内置的状态管理更好。

文件有几个天然的优势。首先是持久化，agent 重启后状态还在。其次是可读性，人类可以直接打开文件查看和编辑。第三是灵活性，session 可以从任何一个点恢复，你可以回到之前的状态重新开始。结构化数据用 JSON，非结构化数据用 Markdown，这些都是通用格式，不需要特殊的工具就能处理。

这种方法把状态管理变成了一个更通用的问题。你不需要学习专门的语法，不需要理解框架的内部机制。文件就是状态，命令行就是交互界面。简单，透明，可控。

Agents Built for Agents Building Agents

这是 Armin Ronacher 在他的文章 Pi: The Minimal Agent Within OpenClaw^[5] 里提到的一个核心概念。Pi 的架构有一个非常有意思的特性：agent 写完代码立刻生效，无需重启。这种热重载机制让 OpenClaw 可以仅通过对话就完成对自身功能的修改，完全绕过命令行操作。Armin 用了一个描述，叫做 "malleable like clay"。

这意味着如果你想让 agent 做一件它目前不会做的事情，你不需要去找一个插件或者下载一个 skill。你可以直接告诉 agent 你想要什么，让它自己写代码来实现这个功能。因为代码热重载，写完就能用。当然，这也包括很大一部分配置文件的热更新，这些甚至不需要通过代码实现。

Armin 同时写到，Pi 的很多扩展功能其实都是 agent 自己写的，他只需要描述需求，agent 就会实现功能。软件在构建软件：

"The point of it mostly is that none of this was written by me, it was created by the agent to my specifications."

这让我想到 Demis Hassabis 曾经表达过的一个观点：我们应该专注在解决智能这件事上，然后用智能解决所有其他的事情。Pi 的设计哲学与此有某种共振。Demis 说的是先解决智能，再用智能解决一切问题；Pi 做的是让 agent 具备扩展自身的能力，再用 agent 构建更多功能。两者都在处理同一个 meta 层面的问题：与其逐个解决具体问题，不如先拥有一个能解决问题的通用工具。智能本身，或者说 agent 本身，成为了一种 meta tool。

两种风格

读这些文章时，我注意到两种截然不同的风格。Mario 很 grounded，务实，注重软件质量。他会跑 120 次测试来验证一个假设，会仔细考虑 token 消耗，会写详细的基准测试报告。他的文章里充满了数据和实验细节。这是工程师的风格：提出假设，设计实验，收集数据，得出结论。

而 Peter（OpenClaw 的作者）在 X 上形容自己的风格是 "sci-fi with a touch of madness"。OpenClaw 的产品形态更加激进，想象力更丰富，也更愿意尝试一些看起来有点疯狂的想法。

但他们共享同一个核心理念。Armin 这样描述：

"Mario is very grounded. Despite the differences in approach, both OpenClaw and Pi follow the same idea: LLMs are really good at writing and running code, so embrace this."

LLM 擅长写代码和运行代码，那就充分利用这一点。这个简单的观察构成了整个设计哲学的基础。

引用链接

[1] What I learned building an opinionated and minimal coding agent: https://mariozechner.at/posts/2025-11-30-pi-coding-agent/
[2] MCP vs CLI: Benchmarking Tools for Coding Agents: https://mariozechner.at/posts/2025-08-15-mcp-vs-cli/
[3] What if you don't need MCP at all?: https://mariozechner.at/posts/2025-11-02-what-if-you-dont-need-mcp/
[4] Prompts are code, .json/.md files are state: https://mariozechner.at/posts/2025-06-02-prompts-are-code/
[5] Pi: The Minimal Agent Within OpenClaw: https://lucumr.pocoo.org/2026/1/31/pi/