2026年7月9日 周四晚上19:30,报名腾讯会议了解“如何构建自进化的动态知识库(Brain)”(限30人)
免费POC, 零成本试错
FDE知识库

FDE知识库

学习大模型的前沿技术与行业落地应用


收藏

Google 亲手证明:GUI 已死,但尸体还在动

发布日期:2026-03-26 20:10:08 浏览次数: 2173
作者:AGI Hunt

微信搜一搜,关注“AGI Hunt”

推荐语

Google用Flash-Lite浏览器颠覆传统网页体验,一句话生成完整网站,GUI的未来正在被重写。

核心内容:
1. Google DeepMind发布实时生成网站的Flash-Lite浏览器
2. 演示案例:从植物护理指南到"最烦人网站"的AI即时创作
3. 流式代码输出技术实现超低延迟的交互式页面生成

杨芳贤
53AI创始人/腾讯云(TVP)最具价值专家

Google DeepMind 发布了一个浏览器,能用 Gemini 3.1 Flash-Lite 实时生成整个网站。

你输入一句话,它当场把网页给你「写」出来。

Flash-Lite Browser 首页

Google 这次,算是用一个 demo 把我此前的观点给坐实了。

先看 Demo

:::

Google 的 Flash-Lite Browser 长得就像一个普通浏览器,但地址栏变成了输入框。你不用输网址,而是直接告诉它你想看什么。

Google 工程师在视频里称:

你在这个浏览器里看到的,不是真正的网站。它是由 Gemini 3.1 Flash-Lite 从零开始生成的。

演示里,用户输入了「a guide to watering my cheese plant」(龟背竹浇水指南)。

用户输入查询

然后……浏览器开始「生成」了。

标签页上写着「Generating...」,地址栏显示 PlantCare > Watering Your Monstera。1,068 个 token,1.93 秒,一个完整的植物护理网页就这么从无到有地出现在了屏幕上。

网页实时生成中

生成出来的页面有导航栏、有图标、有分栏布局,浇水频率、温度要求、土壤检查一应俱全。

关键细节在于:

你点击导航里的「Search」,它又会当场生成一个搜索页面。但这个搜索框背后,其实没有任何真正的搜索功能。工程师解释说:

搜索框里并没有真正的搜索功能。我们把当前页面和输入的文本一起发给模型,它理解接下来该展示什么,然后重写完整的代码来「想象」下一步。

也就是说,你在页面上的每一次点击、每一次输入,都会触发模型重新生成整个页面的代码。

没有预生成的数据,没有历史记录,模型根据当前页面和你交互的元素来推理下一页该长什么样。

植物搜索页面

2,122 个 token,4.86 秒。

一个完整的多页面网站,从意图到渲染,全程实时。

站内导航和搜索

最有意思的,是最后一个 demo:用户让它生成「the most annoying website on the internet」(互联网上最烦人的网站)。

最烦人的网站

它真的生成了一个写着「WELCOME TO THE CHAOS」的页面,红色虚线边框,一个绿色大按钮写着「CLICK ME IF YOU CAN!」,顶部还有紫色横幅警告「DON'T CLICK ANYTHING!」。

2,031 个 token,5.24 秒。还自带一点 AI 范的幽默感。

而且,通过流式输出代码,页面在生成过程中就开始渲染了,用户感知到的延迟比实际生成时间更短。

工程师也提到,如果想要更精细的 UI,可以换用 Flash 或 Pro 模型,但对于这种实时响应的场景,Flash-Lite 的速度优势,实在太明显了。

Gemini 聊天界面生成

三层分化

:::

之前我的文章《GUI 将死,CLI 才是一切》中聊到 CLI-Anything 项目如何让 Agent 用命令行操控一切桌面软件。上周又写了《OpenCLI:万物皆可 CLI》,把这个思路扩展到了网站和 Electron 应用。

这两篇文章里,我的核心观点是:

GUI 本质上是一个翻译层,人类花了 40 年给计算机套上图形界面,但 Agent 根本不需要这层翻译。

Google 这次的 demo,则从另一个方向验证了这件事。

它证明的是:GUI 连「被预先设计」都不需要了。

传统的 Web 是什么?是开发者提前写好 HTML/CSS/JavaScript,部署到服务器,用户请求后返回静态或动态页面。

整个过程的前提是:有人提前把界面设计好了。

而 Flash-Lite Browser 把这个前提给取消了,页面不再是「从服务器取回来的」,而是「在你面前现场写出来的」。

如果把这件事和 CLI 的复兴放在一起看,你会发现界面正在发生一次三层分化:

界面的三层分化

底层:CLI 成为 Agent 的运行时。 Agent 操控计算机用命令行,文本输入、结构化输出、可组合、确定性强。这是 Agent 的母语。

中层:协议成为 Agent 的通信标准。 MCP 连接 Agent 和工具,AG-UI 连接 Agent 和用户,A2A 连接 Agent 和 Agent。一整套协议三角正在成型。

表层:GUI 变成 AI 的输出物。 界面不再是人类设计师提前画好的,而是 AI 根据意图实时生成的。你要什么,它就给你什么。

谁还需要 GUI

:::

这里需要说清楚的是:GUI 并没有真正「死掉」。

它只是换了一个主人。

以前 GUI 是给人用的,人通过点击按钮、填写表单来操控计算机。而现在呢?人对着 AI 说自然语言就行了。

CLI 给 Agent 用,GUI 反过来变成了 AI 给人看的东西。

交互方向反转

这个反转,其实蛮耐人寻味,且有意思的。

好比我们在 Claude Code 里用的 AskUserQuestion,Agent 在执行任务的过程中如果需要人确认,它会怎么做呢?弹一个文本提问出来,让人类输入回答。

这本质上就是一个极简的 GUI,只不过发起方从人变成了 AI。

Google 的 Flash-Lite Browser 把这个逻辑推到了极致:AI 不只是弹个问题,而是直接给你生成一整个网页界面。

你说想看植物浇水指南,它就给你渲染一个完整的植物护理网站,带导航、带搜索、带分栏。

以前是人操作 GUI 来指挥计算机。现在是 AI 生成 GUI 来向人展示信息。

交互方向,反过来了。

你的终端已经是 AI 运行时了

:::

2025 年 Stack Overflow 开发者调查显示,78% 的专业开发者超过一半工作时间在终端里度过。

2023 年这个数字还是 62%。

Claude Code 2025 年 2 月发布,到 11 月达到 10 亿美元 ARR。SemiAnalysis 2026 年 2 月的报告显示,GitHub 公开 commit 中有 4% 是 Claude Code 生成的。

Faros AI 调查了 99 名专业开发者,59% 在用 Claude Code,满意度排第一。

这些数字背后的趋势表明:终端正在从「执行命令的地方」变成「你把工作委派给 AI 的地方」。

IDE 是为「建议」设计的,你写代码,它给你补全。CLI Agent 是为「委托」设计的,你说需求,它去干活。这是两个品类。

还有研究表明,发现决定开发者用 CLI 还是 GUI 的因素,不在于专业水平,而在于任务类型。CRUD 和调试用 CLI,监控用 Web 控制台。

换句话说,任务类型决定了交互形式,而不是用户的偏好。

这个发现放到 AI 时代,道理是一样的。Agent 执行任务用 CLI,因为文本协议是它的母语。向人类展示结果?那用 GUI,因为人类靠视觉理解信息的效率最高。

协议三角

:::

不过光有 CLI 和 GUI 还不够。Agent 需要跟工具对话,跟用户对话,还要跟其他 Agent 对话。这就需要一套标准协议。

现在行业里正在形成一个「协议三角」:

MCP(Model Context Protocol):Anthropic 发起,2024 年底发布,2025 年底捐给了 Linux 基金会。OpenAI 也已经正式采纳。它解决的是 Agent 怎么连接工具和 API 的问题。

AG-UI(Agent-User Interaction Protocol):CopilotKit 发起的开源协议。微软的 Agent Framework 已经兼容,Google ADK 也已集成。每周超过 200 万次 agent 与用户的交互。它解决的是 Agent 怎么跟前端 UI 沟通的问题。

A2UI(Agent-to-UI):Google 开源的声明式 UI 规范。Agent 生成 JSON 来描述界面组件,客户端用原生组件渲染。不发送可执行代码,通过可信组件目录组合界面,安全性有保障。

三个协议,三条线,搭起了 Agent 世界的基础设施。

Flash-Lite Browser 展示的实时生成 UI,本质上就是 A2UI 思路的一个极端演示:Agent 不只是描述界面,而是直接写出完整的 HTML/CSS/JavaScript。

不够可靠

:::

当然,目前还有些偏概念,还不够可靠。

The Decoder 对 Flash-Lite Browser 的评价是:

结果并不稳定,内容很快就会偏离主题变得不知所云。

毕竟,你让一个 LLM 实时生成完整网页,每次生成的结果都可能不一样。导航到同一个页面,上次显示的是三栏布局,这次可能变成了两栏。搜索同一个关键词,返回的内容也可能天差地别。

有人吐槽称「model-generated UI in production? the debugging stories alone will be legendary」(AI 生成的 UI 放到生产环境?光调试故事就够写一本书了)。

还有人指出:「what phishing pages? uncatchable?」(钓鱼页面呢?这不是抓都没法抓?)

确实,当网页内容完全由 AI 生成,传统的 URL 验证、证书检查、域名黑名单……

这些安全机制,就全都失效了。

Flash-Lite 的速度是每秒 360+ token,比 Gemini 2.5 Flash 快 2.5 倍。定价倒是不贵,输入 $0.25/百万 token,输出 $1.50/百万 token。

但「快」和「便宜」不等于「可靠」。

至少在现阶段,实时生成的 UI 更适合做原型探索和想法可视化,离生产环境还有一段不短的路。

第五次迁移

:::

我在《Karpathy:一切软件,都将为 Agent 重写》的文章里提过一个框架,叫「四次迁移」:

大型机时代,软件的用户是操作员。

PC 时代,用户变成了普通人。

移动时代,用户变成了所有人。

Agent 时代,用户变成了 AI。

软件界面的五次迁移

现在回头看,我觉得应该再加一层。

第五次迁移:界面的用户,从「人操作」变成「AI 生成」。

前四次迁移改变的是「谁在用软件」。第五次迁移改变的是「谁在做界面」。

以前,设计师画原型,前端写代码,测试验收上线。一个页面从设计到上线,快的话一周,慢的话一个月。

现在,AI 用 2,000 个 token、5 秒钟,就能生成一个完整的页面。

当然,这两种「界面」的质量天差地别。但方向是:界面正在从「人提前设计的产品」变成「AI 根据意图实时生成的服务」。

网站不再是文档,而是对话。浏览器不再是阅读器,而是渲染引擎。前端工程师不再是写界面的人,而是定义组件库和安全护栏的人。

从「预制页面」到「即时生成」的转变,是对数字状态这个概念的根本性改变。如果 UI 在交互的那一刻才被创造出来,那「静态网站」这个概念,就成了一个历史遗物。

意图驱动

:::

把所有这些线索串在一起,你会看到一个清晰的走向:

界面的终局,不再是固定的按钮和页面,而是跟着意图走的动态生成。

人对 AI 说话,用自然语言。AI 执行任务,用 CLI 和 API。AI 给人展示结果,用实时生成的 GUI。

这个循环里,CLI 和 GUI 都没有消失。只是各自找到了新的位置。

CLI 服务 Agent。GUI 服务人类。自然语言连接两者。

而 Google 这个 demo,虽然还有些粗糙,但它展示了一种可能性:如果浏览器不再是去「获取」页面,而是去「生成」页面……

那我们花了 30 年建起来的整个 Web 基础设施,从 CDN 到 SEO 到缓存策略到响应式设计……

是不是全部都要重新想一遍了?

整个 Web,可能正在从「信息的档案馆」,

变成「意图的渲染器」。

53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询

扫码登录
登录即表示您同意《53AI网站服务协议》
服务协议

欢迎您使用【53AI 官方网站】(以下简称“本网站”或“我们”)。本《会员服务协议》(以下简称“本协议”)是您(以下简称“会员”或“用户”)与【深圳市博思协创网络科技有限公司】之间关于注册、登录及使用本网站会员服务所订立的法律协议。

在您注册或登录前,请务必审慎阅读、充分理解各条款内容,特别是免除或限制责任的条款、知识产权条款、争议解决条款等。此类条款将以加粗形式提示您注意。 当您通过微信公众号授权、手机验证码验证或其他方式成功登录本网站时,即视为您已完全理解并同意接受本协议的全部内容。

一、 定义

本网站:指由【深圳市博思协创网络科技有限公司】运营的,域名为【53ai.com】的网站及相关移动端页面。

会员服务:指本网站向注册会员提供的知识库文章查阅、内容检索及其他相关增值服务。

知识库内容:指本网站发布的包括但不限于文字、图表、数据、研究报告、行业分析等数字化内容资源。

二、 账号注册与登录

登录方式:本网站支持以下登录方式,您可根据实际情况选择:

微信公众号授权登录:您同意将您的微信OpenID信息授权给本网站,用于创建或关联会员账号。

手机验证码登录:您需提供真实有效的手机号码,并通过短信验证码完成身份验证与登录/注册。

账号安全:您的账号仅限您本人使用,禁止赠与、借用、租用、转让或售卖。因您保管不善导致的账号被盗、密码泄露等损失,由您自行承担。

实名认证:根据相关法律法规要求,我们可能要求您在特定功能下完成实名认证。如您拒绝提供,可能无法使用部分或全部服务。

未成年人保护:若您未满18周岁,请在法定监护人的陪同下阅读本协议,并在征得监护人同意后使用本服务。

三、 服务内容与规范

知识库查阅权限:会员登录后,有权按照其会员等级对应的权限范围,在线浏览、检索本网站知识库中的相关文章及内容。

服务变更:我们有权根据业务发展需要,调整、变更或终止部分服务内容,并将以网站公告、公众号消息等方式提前通知。

禁止行为:您在使用服务时不得实施以下行为:

利用技术手段批量爬取、下载、转存知识库内容;

将知识库内容用于商业目的或未经授权地向第三方传播;

干扰本网站正常运行或侵犯其他用户合法权益;

发布违法违规信息或从事违反公序良俗的活动。

四、 知识产权声明

权利归属:本网站知识库中的排版设计、软件代码等内容的知识产权均归【公司全称】或原权利人所有,受《中华人民共和国著作权法》等法律保护。

有限许可:本网站授予会员一项非独占、不可转让、不可转授权的普通许可,仅限于个人学习、研究之目的在线查阅知识库内容。

侵权追责:未经书面许可,任何单位或个人不得以任何形式复制、转载、摘编、镜像、汇编或以其他方式使用上述内容。一经发现,我们保留追究其法律责任的权利。

五、 个人信息保护

我们重视对您个人信息的保护。关于我们如何收集、使用、存储和保护您的个人信息,请单独阅读 《隐私政策》。

您通过微信公众号授权或手机号验证所提供的信息,我们将严格按照《个人信息保护法》的规定处理,仅用于身份识别、服务提供及安全验证等必要用途。

您可以随时通过网站设置或联系客服行使查阅、更正、删除个人信息及撤回授权同意的权利。

六、 免责声明

内容准确性:知识库内容仅供参考,不构成专业建议。我们不对其完整性、准确性、时效性作任何明示或暗示的保证,您应自行判断并承担使用风险。

不可抗力:因自然灾害、政策法规变化、网络故障、第三方平台接口异常(如微信接口维护、运营商短信通道故障)等不可抗力导致的服务中断或延迟,我们不承担违约责任。

第三方链接:本网站可能包含指向第三方网站的链接,该等网站的内容和服务不受我们控制,请您自行甄别风险。

七、 违约责任

如您违反本协议约定,我们有权视情节采取警告、限制功能、暂停服务、注销账号等措施,并保留要求赔偿损失的权利。

如因您的违约行为导致我们遭受行政处罚、第三方索赔或商誉损失,您应承担全部赔偿责任(包括但不限于罚款、赔偿金、律师费、公证费等)。

八、 法律适用与争议解决

本协议的订立、执行和解释均适用中华人民共和国大陆地区法律。

因本协议产生的或与本协议有关的任何争议,双方应友好协商解决;协商不成的,任何一方均可向【公司所在地】有管辖权的人民法院提起诉讼。

九、 其他

本协议构成双方就本服务达成的完整协议,取代此前任何口头或书面约定。

本协议任一条款被认定为无效或不可执行的,不影响其他条款的效力。

我们对本协议享有最终解释权,并在法律允许的范围内保留随时修改的权利。修改后的协议一经公布即生效,继续使用服务即视为同意修订内容。


已查阅