Google 亲手证明：GUI 已死，但尸体还在动

发布日期：2026-03-26 20:10:08 浏览次数： 2173
作者：AGI Hunt
微信搜一搜，关注“AGI Hunt”
Google DeepMind 发布了一个浏览器，能用 Gemini 3.1 Flash-Lite 实时生成整个网站。
你输入一句话，它当场把网页给你「写」出来。
Google 这次，算是用一个 demo 把我此前的观点给坐实了。
先看 Demo:::Google 的 Flash-Lite Browser 长得就像一个普通浏览器，但地址栏变成了输入框。你不用输网址，而是直接告诉它你想看什么。
Google 工程师在视频里称：
你在这个浏览器里看到的，不是真正的网站。它是由 Gemini 3.1 Flash-Lite 从零开始生成的。
演示里，用户输入了「a guide to watering my cheese plant」（龟背竹浇水指南）。
然后……浏览器开始「生成」了。
标签页上写着「Generating...」，地址栏显示 PlantCare > Watering Your Monstera。1,068 个 token，1.93 秒，一个完整的植物护理网页就这么从无到有地出现在了屏幕上。
生成出来的页面有导航栏、有图标、有分栏布局，浇水频率、温度要求、土壤检查一应俱全。
关键细节在于：
你点击导航里的「Search」，它又会当场生成一个搜索页面。但这个搜索框背后，其实没有任何真正的搜索功能。工程师解释说：
搜索框里并没有真正的搜索功能。我们把当前页面和输入的文本一起发给模型，它理解接下来该展示什么，然后重写完整的代码来「想象」下一步。
也就是说，你在页面上的每一次点击、每一次输入，都会触发模型重新生成整个页面的代码。
没有预生成的数据，没有历史记录，模型根据当前页面和你交互的元素来推理下一页该长什么样。
2,122 个 token，4.86 秒。
一个完整的多页面网站，从意图到渲染，全程实时。
最有意思的，是最后一个 demo：用户让它生成「the most annoying website on the internet」（互联网上最烦人的网站）。
它真的生成了一个写着「WELCOME TO THE CHAOS」的页面，红色虚线边框，一个绿色大按钮写着「CLICK ME IF YOU CAN!」，顶部还有紫色横幅警告「DON'T CLICK ANYTHING!」。
2,031 个 token，5.24 秒。还自带一点 AI 范的幽默感。
而且，通过流式输出代码，页面在生成过程中就开始渲染了，用户感知到的延迟比实际生成时间更短。
工程师也提到，如果想要更精细的 UI，可以换用 Flash 或 Pro 模型，但对于这种实时响应的场景，Flash-Lite 的速度优势，实在太明显了。
三层分化:::之前我的文章《GUI 将死，CLI 才是一切》中聊到 CLI-Anything 项目如何让 Agent 用命令行操控一切桌面软件。上周又写了《OpenCLI：万物皆可 CLI》，把这个思路扩展到了网站和 Electron 应用。
这两篇文章里，我的核心观点是：
GUI 本质上是一个翻译层，人类花了 40 年给计算机套上图形界面，但 Agent 根本不需要这层翻译。
Google 这次的 demo，则从另一个方向验证了这件事。
它证明的是：GUI 连「被预先设计」都不需要了。
传统的 Web 是什么？是开发者提前写好 HTML/CSS/JavaScript，部署到服务器，用户请求后返回静态或动态页面。
整个过程的前提是：有人提前把界面设计好了。
而 Flash-Lite Browser 把这个前提给取消了，页面不再是「从服务器取回来的」，而是「在你面前现场写出来的」。
如果把这件事和 CLI 的复兴放在一起看，你会发现界面正在发生一次三层分化：
底层：CLI 成为 Agent 的运行时。 Agent 操控计算机用命令行，文本输入、结构化输出、可组合、确定性强。这是 Agent 的母语。
中层：协议成为 Agent 的通信标准。 MCP 连接 Agent 和工具，AG-UI 连接 Agent 和用户，A2A 连接 Agent 和 Agent。一整套协议三角正在成型。
表层：GUI 变成 AI 的输出物。 界面不再是人类设计师提前画好的，而是 AI 根据意图实时生成的。你要什么，它就给你什么。
谁还需要 GUI:::这里需要说清楚的是：GUI 并没有真正「死掉」。
它只是换了一个主人。
以前 GUI 是给人用的，人通过点击按钮、填写表单来操控计算机。而现在呢？人对着 AI 说自然语言就行了。
CLI 给 Agent 用，GUI 反过来变成了 AI 给人看的东西。
这个反转，其实蛮耐人寻味，且有意思的。
好比我们在 Claude Code 里用的 AskUserQuestion，Agent 在执行任务的过程中如果需要人确认，它会怎么做呢？弹一个文本提问出来，让人类输入回答。
这本质上就是一个极简的 GUI，只不过发起方从人变成了 AI。
Google 的 Flash-Lite Browser 把这个逻辑推到了极致：AI 不只是弹个问题，而是直接给你生成一整个网页界面。
你说想看植物浇水指南，它就给你渲染一个完整的植物护理网站，带导航、带搜索、带分栏。
以前是人操作 GUI 来指挥计算机。现在是 AI 生成 GUI 来向人展示信息。
交互方向，反过来了。
你的终端已经是 AI 运行时了:::2025 年 Stack Overflow 开发者调查显示，78% 的专业开发者超过一半工作时间在终端里度过。
2023 年这个数字还是 62%。
Claude Code 2025 年 2 月发布，到 11 月达到 10 亿美元 ARR。SemiAnalysis 2026 年 2 月的报告显示，GitHub 公开 commit 中有 4% 是 Claude Code 生成的。
Faros AI 调查了 99 名专业开发者，59% 在用 Claude Code，满意度排第一。
这些数字背后的趋势表明：终端正在从「执行命令的地方」变成「你把工作委派给 AI 的地方」。
IDE 是为「建议」设计的，你写代码，它给你补全。CLI Agent 是为「委托」设计的，你说需求，它去干活。这是两个品类。
还有研究表明，发现决定开发者用 CLI 还是 GUI 的因素，不在于专业水平，而在于任务类型。CRUD 和调试用 CLI，监控用 Web 控制台。
换句话说，任务类型决定了交互形式，而不是用户的偏好。
这个发现放到 AI 时代，道理是一样的。Agent 执行任务用 CLI，因为文本协议是它的母语。向人类展示结果？那用 GUI，因为人类靠视觉理解信息的效率最高。
协议三角:::不过光有 CLI 和 GUI 还不够。Agent 需要跟工具对话，跟用户对话，还要跟其他 Agent 对话。这就需要一套标准协议。
现在行业里正在形成一个「协议三角」：
MCP（Model Context Protocol）：Anthropic 发起，2024 年底发布，2025 年底捐给了 Linux 基金会。OpenAI 也已经正式采纳。它解决的是 Agent 怎么连接工具和 API 的问题。
AG-UI（Agent-User Interaction Protocol）：CopilotKit 发起的开源协议。微软的 Agent Framework 已经兼容，Google ADK 也已集成。每周超过 200 万次 agent 与用户的交互。它解决的是 Agent 怎么跟前端 UI 沟通的问题。
A2UI（Agent-to-UI）：Google 开源的声明式 UI 规范。Agent 生成 JSON 来描述界面组件，客户端用原生组件渲染。不发送可执行代码，通过可信组件目录组合界面，安全性有保障。
三个协议，三条线，搭起了 Agent 世界的基础设施。
Flash-Lite Browser 展示的实时生成 UI，本质上就是 A2UI 思路的一个极端演示：Agent 不只是描述界面，而是直接写出完整的 HTML/CSS/JavaScript。
不够可靠:::当然，目前还有些偏概念，还不够可靠。
The Decoder 对 Flash-Lite Browser 的评价是：
结果并不稳定，内容很快就会偏离主题变得不知所云。
毕竟，你让一个 LLM 实时生成完整网页，每次生成的结果都可能不一样。导航到同一个页面，上次显示的是三栏布局，这次可能变成了两栏。搜索同一个关键词，返回的内容也可能天差地别。
有人吐槽称「model-generated UI in production? the debugging stories alone will be legendary」（AI 生成的 UI 放到生产环境？光调试故事就够写一本书了）。
还有人指出：「what phishing pages? uncatchable?」（钓鱼页面呢？这不是抓都没法抓？）
确实，当网页内容完全由 AI 生成，传统的 URL 验证、证书检查、域名黑名单……
这些安全机制，就全都失效了。
Flash-Lite 的速度是每秒 360+ token，比 Gemini 2.5 Flash 快 2.5 倍。定价倒是不贵，输入 $0.25/百万 token，输出 $1.50/百万 token。
但「快」和「便宜」不等于「可靠」。
至少在现阶段，实时生成的 UI 更适合做原型探索和想法可视化，离生产环境还有一段不短的路。
第五次迁移:::我在《Karpathy：一切软件，都将为 Agent 重写》的文章里提过一个框架，叫「四次迁移」：
大型机时代，软件的用户是操作员。
PC 时代，用户变成了普通人。
移动时代，用户变成了所有人。
Agent 时代，用户变成了 AI。
现在回头看，我觉得应该再加一层。
第五次迁移：界面的用户，从「人操作」变成「AI 生成」。
前四次迁移改变的是「谁在用软件」。第五次迁移改变的是「谁在做界面」。
以前，设计师画原型，前端写代码，测试验收上线。一个页面从设计到上线，快的话一周，慢的话一个月。
现在，AI 用 2,000 个 token、5 秒钟，就能生成一个完整的页面。
当然，这两种「界面」的质量天差地别。但方向是：界面正在从「人提前设计的产品」变成「AI 根据意图实时生成的服务」。
网站不再是文档，而是对话。浏览器不再是阅读器，而是渲染引擎。前端工程师不再是写界面的人，而是定义组件库和安全护栏的人。
从「预制页面」到「即时生成」的转变，是对数字状态这个概念的根本性改变。如果 UI 在交互的那一刻才被创造出来，那「静态网站」这个概念，就成了一个历史遗物。
意图驱动:::把所有这些线索串在一起，你会看到一个清晰的走向：
界面的终局，不再是固定的按钮和页面，而是跟着意图走的动态生成。
人对 AI 说话，用自然语言。AI 执行任务，用 CLI 和 API。AI 给人展示结果，用实时生成的 GUI。
这个循环里，CLI 和 GUI 都没有消失。只是各自找到了新的位置。
CLI 服务 Agent。GUI 服务人类。自然语言连接两者。
而 Google 这个 demo，虽然还有些粗糙，但它展示了一种可能性：如果浏览器不再是去「获取」页面，而是去「生成」页面……
那我们花了 30 年建起来的整个 Web 基础设施，从 CDN 到 SEO 到缓存策略到响应式设计……
是不是全部都要重新想一遍了？
整个 Web，可能正在从「信息的档案馆」，
变成「意图的渲染器」。