微信扫码
添加专属顾问
我要投稿
探索极简主义在AI代理设计中的独特魅力,Pi以四个核心工具挑战行业常规。核心内容: 1. Pi代理的极简设计哲学与行业对比 2. 默认无权限检查的激进安全理念解析 3. 极简主义带来的效率优势与用户责任转移
最近在研究 OpenClaw 的架构时,我发现它的核心引擎叫 Pi,作者是 Mario Zechner。顺藤摸瓜,我读了一堆相关的文章,包括 Mario 自己的博客,还有 Armin Ronacher(Flask 作者)写的一篇介绍。这些材料拼凑出了一个有趣的故事:关于极简主义、工具设计和 agent 应该长什么样的实验。
Pi 是一个极简的 coding agent。它只有四个工具:Read, Write, Edit, Bash。系统 prompt 不到 1000 tokens。
这个数字放在当前的 agent 生态里显得有些另类。Claude Code 的系统 prompt 有几千 tokens。Playwright MCP 定义了 21 个 tools,光是工具描述就要消耗 13.7k tokens。Chrome DevTools MCP 更夸张,26 个 tools,18k tokens。而 Pi 的四个工具加起来只有几百 tokens。差距接近两个数量级。
Mario 在他的博客 What I learned building an opinionated and minimal coding agent[1] 里写道:
"My philosophy in all of this was: if I don't need it, it won't be built."
这种极简主义贯穿了 Pi 的整个设计。当大多数 agent 框架在不断添加新功能时,Pi 选择了相反的方向:剥离一切非必要的东西,只留下最核心的能力。
Pi 默认没有权限检查,没有安全提示。每次执行命令前不会弹出确认框问你"确定要运行这个吗?"。Mario 的观点很直接:这些安全措施是 "security theater"。听起来有些激进,但他的逻辑很清晰。一旦 agent 能写代码和运行代码,它就可以做任何事情。你给它加一个权限检查?它可以写一段代码来绕过这个检查。你限制它不能删除文件?它可以写一个脚本来删除文件,然后执行这个脚本。限制它不能访问网络?它可以用 curl 命令。
这就是所谓的 "game over" 状态:一旦你给了 agent 执行任意代码的能力,任何在此之上的限制都只是形式。这些限制或许能阻止意外操作,但无法阻止一个"有意图"的 agent。假装有安全边界反而会给用户一种虚假的安全感。
承认这个现实反而是一种务实。与其花精力设计复杂的权限系统,Pi 选择了透明:你知道它能做什么,你需要自己判断什么时候该介入。这把责任放回了用户手里,同时也减少了不必要的摩擦。
MCP(Model Context Protocol)是 Anthropic 推出的一套标准,用于定义 agent 和工具之间的通信协议。很多工具都实现了 MCP 接口。但 Pi 没有使用 MCP。
原因很简单:MCP 消耗太多 context。前面提到的数字值得再看一遍。Playwright MCP 的 21 个 tools 要消耗 13.7k tokens,Chrome DevTools MCP 的 26 个 tools 消耗 18k tokens。即使只用其中几个工具,光是工具定义就要占用大量的 context window。
Context window 是有限的资源。目前主流模型的 context window 从 128k 到 200k tokens 不等,听起来很大,但实际使用时会发现远远不够。代码文件、对话历史、错误信息、执行结果,这些都需要放进 context。如果工具定义就占了 10% 甚至 20%,留给实际工作的空间就被挤压了。
Mario 在 MCP vs CLI: Benchmarking Tools for Coding Agents[2] 里做了一个实验。他跑了 120 次测试,比较 MCP 和 CLI 两种方式的性能。结论是:两者差不多。MCP 没有带来显著的性能提升。
他在另一篇文章 What if you don't need MCP at all?[3] 里写道:
"Maybe instead of arguing about MCP vs CLI, we should start building better tools. The protocol is just plumbing."
协议只是管道,关键在于工具本身的设计质量。一个设计良好的 CLI 工具和一个设计良好的 MCP 工具效果差不多。既然如此,为什么要为协议付出额外的 context 代价?
这引出了一个更大的问题:context 的控制权。现在很多 coding agent 产品,比如 Cursor,作为中间商存在于用户和 LLM 之间。为了控制成本,这些产品会裁剪 context,决定哪些内容发给模型,哪些不发。用户并不知道 context 里到底有什么,也无法控制 agent 看到了什么信息。
Mario 对此有些不满。他在博客里写道:
"Twitter is full of context engineering posts and blogs, but I feel like none of the harnesses we currently have actually let you do context engineering. pi is my attempt to build myself a tool where I'm in control as much as possible."
Pi 试图把这个控制权还给用户。你可以精确地知道 context 里有什么,可以决定加载哪些文件,可以看到完整的对话历史。这种透明性是很多商业产品不具备的。
Pi 没有内置的 plan mode,也没有 sub-agents。这两个功能在其他 agent 框架里很常见:plan mode 让 agent 先制定计划再执行,sub-agents 让主 agent 可以派发任务给子 agent。
Mario 认为这些功能都可以用更简单的方式解决。想要 plan?通过语言自然的交流而不是强硬的限制模型的输出结构会更好。想要并行任务?用 tmux 开多个终端。LLM 本身就擅长写代码和运行命令,何必在上面再叠加复杂的抽象层。
这个思路在他的文章 Prompts are code, .json/.md files are state[4] 里有更详细的阐述。核心观点是:把状态写到文件里,比用内置的状态管理更好。
文件有几个天然的优势。首先是持久化,agent 重启后状态还在。其次是可读性,人类可以直接打开文件查看和编辑。第三是灵活性,session 可以从任何一个点恢复,你可以回到之前的状态重新开始。结构化数据用 JSON,非结构化数据用 Markdown,这些都是通用格式,不需要特殊的工具就能处理。
这种方法把状态管理变成了一个更通用的问题。你不需要学习专门的语法,不需要理解框架的内部机制。文件就是状态,命令行就是交互界面。简单,透明,可控。
这是 Armin Ronacher 在他的文章 Pi: The Minimal Agent Within OpenClaw[5] 里提到的一个核心概念。Pi 的架构有一个非常有意思的特性:agent 写完代码立刻生效,无需重启。这种热重载机制让 OpenClaw 可以仅通过对话就完成对自身功能的修改,完全绕过命令行操作。Armin 用了一个描述,叫做 "malleable like clay"。
这意味着如果你想让 agent 做一件它目前不会做的事情,你不需要去找一个插件或者下载一个 skill。你可以直接告诉 agent 你想要什么,让它自己写代码来实现这个功能。因为代码热重载,写完就能用。当然,这也包括很大一部分配置文件的热更新,这些甚至不需要通过代码实现。
Armin 同时写到,Pi 的很多扩展功能其实都是 agent 自己写的,他只需要描述需求,agent 就会实现功能。软件在构建软件:
"The point of it mostly is that none of this was written by me, it was created by the agent to my specifications."
这让我想到 Demis Hassabis 曾经表达过的一个观点:我们应该专注在解决智能这件事上,然后用智能解决所有其他的事情。Pi 的设计哲学与此有某种共振。Demis 说的是先解决智能,再用智能解决一切问题;Pi 做的是让 agent 具备扩展自身的能力,再用 agent 构建更多功能。两者都在处理同一个 meta 层面的问题:与其逐个解决具体问题,不如先拥有一个能解决问题的通用工具。智能本身,或者说 agent 本身,成为了一种 meta tool。
读这些文章时,我注意到两种截然不同的风格。Mario 很 grounded,务实,注重软件质量。他会跑 120 次测试来验证一个假设,会仔细考虑 token 消耗,会写详细的基准测试报告。他的文章里充满了数据和实验细节。这是工程师的风格:提出假设,设计实验,收集数据,得出结论。
而 Peter(OpenClaw 的作者)在 X 上形容自己的风格是 "sci-fi with a touch of madness"。OpenClaw 的产品形态更加激进,想象力更丰富,也更愿意尝试一些看起来有点疯狂的想法。
但他们共享同一个核心理念。Armin 这样描述:
"Mario is very grounded. Despite the differences in approach, both OpenClaw and Pi follow the same idea: LLMs are really good at writing and running code, so embrace this."
LLM 擅长写代码和运行代码,那就充分利用这一点。这个简单的观察构成了整个设计哲学的基础。
[1] What I learned building an opinionated and minimal coding agent: https://mariozechner.at/posts/2025-11-30-pi-coding-agent/[2] MCP vs CLI: Benchmarking Tools for Coding Agents: https://mariozechner.at/posts/2025-08-15-mcp-vs-cli/[3] What if you don't need MCP at all?: https://mariozechner.at/posts/2025-11-02-what-if-you-dont-need-mcp/[4] Prompts are code, .json/.md files are state: https://mariozechner.at/posts/2025-06-02-prompts-are-code/[5] Pi: The Minimal Agent Within OpenClaw: https://lucumr.pocoo.org/2026/1/31/pi/
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2026-02-14
CoPaw发布:即刻加载你的专属智能搭档
2026-02-14
OpenAI Frontier 发布:不是新模型,而是「企业级 AI 操作系统」的诞生
2026-02-14
谷歌内嵌Gemini,放大招啦,速速转发。
2026-02-14
每秒一万个 Token 是为了给 AI 预留足够的思考空间
2026-02-14
OpenAI 开发者的 Skill 经验:如何使用评估系统来优化 Skill
2026-02-14
告诉你如何免费使用GLM5,MiniMax2.5,kim2.5(教程)
2026-02-13
context是什么?怎么用?
2026-02-13
如何评估Deep Research ?四个Benchmark介绍
2026-01-24
2026-01-10
2025-11-19
2026-01-26
2026-01-01
2025-12-09
2025-12-21
2026-01-09
2026-02-03
2026-01-09
2026-02-13
2026-02-12
2026-02-12
2026-02-11
2026-02-11
2026-02-11
2026-02-11
2026-02-07