我要投稿

首个Gemini桌面端曝光，系统级Agent空降PC！

发布日期：2026-05-20 07:44:19 浏览次数： 1539

作者：新智元

微信搜一搜，关注“新智元”

新智元报道

【新智元导读】首个Gemini桌面端曝光，全新Gemini 3.2/3.5闪现，不到1分钟盲写2000行代码，操作系统级Agent真的来了。

谷歌这次，是真要掀桌子了！

5月20日凌晨1点，也就是今晚，Google I/O 2026即将在加州山景城正式拉开帷幕。

但大戏，其实已提前开演了。谷歌上上下下集体「憋不住」了——

从CEO劈柴、Hassabis，到Gemini产品负责人Logan，一个接一个往社交媒体上扔重磅炸弹。

让全网炸锅的是，配的预热视频，全是AI生成的。

一边是10s经典梗图输出，另一边是8s真人预告Gemini，人们纷纷猜测皆由Gemini omini完成。

同在今天，谷歌Gemini桌面版曝光了，Mac版最先上线。

Live、Spark、Omni、「魔法指针」功能齐发，一场颠覆人机交互革命来了。

从下一代旗舰模型Gemini 3.5/3.2，到原生多模态Gemini Omni，再到全新Gemini桌面端应用……

谷歌I/O大会的密集预热，已将全网的期待推向高潮！

重磅新品呼之欲出，所有人都在屏息以待，准备迎接属于谷歌的「新王」时刻。

首个Gemini桌面端，真要来了

真正让全网沸腾的，是I/O前夜曝出的一整套Gemini桌面端核心升级。

知名爆料人TestingCatalog称，「谷歌Gemini桌面应用即将迎来四大核心功能」。

目前泄露的桌面版仅支持Mac，Windows用户还得再等等

Gemini Spark：系统级Agent操控PC

演示中可以看出，Gemini Spark是一个独立的Agent工作区，和普通Chat模式分开。

它的杀手锏在于——

可以连接本地文件夹，读取代码文件、运行脚本、整理文件，甚至直接与Google Drive同步工作流。

换句话说，这不再是一个「你问我答」的聊天机器人，而是一个真正能在你的电脑上干活的AI员工。

它能看你的文件，操作你的文件，还能把活儿同步到云端。

这是什么概念？

这正是Codex桌面版，以及Claude Code正在追逐的领地：本地文件系统级别的Agent操控权。

谷歌一步到位，直接塞进了消费级桌面产品里。有网友将其称之为，Codex的替代方案。

Stream to Cursor：「魔法指针」降临桌面

在上一周的Android Show上，谷歌「Magic Pointer」惊艳亮相。

「鼠标指针」一夜之间，成为了AI交互的核心——

不用打断工作流，光标悬停到哪里，AI立即理解上下文，并弹出操作建议。

现在，这个能力被搬到了桌面端，叫做「Stream to Cursor」。

它让Gemini以浮动窗口的形式，实时感知鼠标所在窗口的上下文——你在看什么，它就知道什么。

更重要的是，这个浮动窗口还支持即时分享屏幕、窗口或摄像头内容。

它还支持在Gemini 3 Flash和Gemini 3.1 Pro之间快速切换。

不得不说，这才是大模型真正「接管操作系统」的样子。

Gemini Omni：内部代号Veo4 Omni

爆料显示，Gemini Omni在谷歌内部被指代为「Veo4 Omni」，这直接暗示了Veo 4的深度集成。

更早之前的泄露已经显示，Gemini的视频生成页面出现了「Powered by Omni」的标签。

它和现有的Veo 3.1代号「Toucan」并列出现。

这意味着，谷歌正在把文字、图片、视频三大生成能力合并到一个统一的Gemini模型中。

这将是业界第一个真正意义上的「全能生成模型」。

Gemini Live：语音实时交互

Gemini Live将作为常驻语音悬浮窗出现在桌面端，不过目前仍处于开发阶段，尚未正式可用。

除了四大核心功能，还有一个细节值得注意：「Skills技能」全面上线Gemini桌面端。

开发者可以将自定义脚本或功能文件夹，直接挂载到Agent工作流中。

一时间，谷歌的桌面端AI布局从「聊天机器人」直接跳到了「全能操作系统级Agent」。

全新Gemini 3.2闪现

编程快到「离谱」

这几天，全网已经放出不少关于Gemini 3.2，甚至称3.5的编码实测。

一些开发者在Gemini网页端，选择「Fast模式+Canvas」，就路由到了Gemini 3.2 Flash版本。

今天，下一代旗舰Gemini，突然在Antigravity现身了。

有大佬Chetaslua实测后惊叹，Gemini 3.2 Flash编程能力简直快到「离谱」——

一句提示，2000行代码，生成一个mini版「我的世界」，不到一分钟。

另一个demo中，1700行代码，48秒，Gemini完美通过了体素立方体（voxel cube）测试。

在前端搭建上，一个Flash版本的Gemini做到这种程度，简直绝绝子。

办公「全家桶」，也换脸了

顺带一提，就在I/O前夕，谷歌还悄悄更新了整套Workspace应用图标。

就在I/O前夜，Gmail、Google Drive、Docs、Sheets、等十几款Workspace应用开始全面推送新图标。

最显眼的变化是：

谷歌彻底抛弃了「每个图标必须包含四种公司色」的铁律，转而采用「渐变色+独立配色」的设计语言。

这套新设计语言和Google Logo、Gemini图标、Android 17的视觉体系完全打通。

但不得不说，谷歌正在从图标到AI底层，对整个生态进行一次统一的视觉和智能重构。

谷歌训出最大AI

迎来「Mythos时刻」

在所有围绕I/O的讨论中，科技大佬Andrew Curran的一段预测引发全网关注。

「我认为他们训练了有史以来最大的模型」。

可能是任何人训练过的最大模型。在规模化过程中，出现了意料之外的东西。

他用了一个非常有意味的类比：

他们经历了自己的Mythos时刻，但方式和Anthropic不同。

Gemini一直是一个和Claude非常不同的模型。

今天这一波密集泄露所指向的图景，远比「又一次产品更新」宏大得多。

谷歌首个Gemini桌面端，正变成一个驻留在操作系统层面的「全能智能体」——

能听（Live语音）、能看（Stream to Cursor屏幕感知）、能做（Spark本地文件操控）、能创（Omni视频生成）、能学（Skills技能系统）。

这是一个原型级的「通用智能Agent」。

从单一的问答工具，到感知环境、操控工具、生成内容、自主执行——这条进化链，恰恰是从窄AI走向AGI、乃至ASI的必经之路。

今晚的I/O大会，谷歌已经按下了开始键。

上一届AI提了92次，今年呢？

去年谷歌I/O 2025主题演讲中，谷歌现场计数显示「AI」被提及了92次。

这一次，AI大概会出现多少次？

参考资料：

https://www.theverge.com/tech/932417/google-gmail-docs-cal-sheets-workspace-icon-redesign

https://x.com/testingcatalog/status/2056532499036045317?s=20

编辑：桃子 David

秒追ASI

⭐点赞、转发、在看一键三连⭐

点亮星标，锁定新智元极速推送！

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2026-05-20

直击 Google I/O 2026 | 轰炸式发布 Agent，狙击 Claude Code，开战！

2026-05-20

谷歌一口气发了 20 多个产品，但只想讲一件事

2026-05-20

I/O 2026：欢迎来到智能体 Gemini 时代

2026-05-20

一文看懂 Google I/O 2026：Gemini 3.5领衔谷歌打响智能体和全模态大战

2026-05-20

帮大家总结了一下凌晨的Google I/O 2026开发者大会。

2026-05-19

Harness Engineering：AI 能在真正"出事会炸"的后端系统里写代码吗？

2026-05-19

可能是一份最详细的保姆级Codex教程，看完你就知道它为什么最近这么火

2026-05-19

为什么我在团队大力推进 Harness Engineering 的同时，却不认为它就是未来

联系获取

联系获取

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

Claude Opus 4.7刚刚曝光！Claude Code一夜重构，7x24小时替你打工

2026-04-15

刚刚Qwen 3.6 Plus上线预览：1M上下文，阿里Coding/Agent翻身战打响

2026-03-31

2026年国内如何注册 Claude 账号教程

2026-03-13

OpenAI Codex CLI 完整使用指南

2026-04-07

独家| DeepSeek-V4终于要来了：梁文锋憋半年大招，多模态+长期记忆全面破局

2026-03-17

香港终于能直接用 Gemini 了，内地用户能用上吗？

2026-03-17

Claude Code 和 Codex 接入 Figma MCP 保姆级教程

2026-04-07

编程选GPT-5.4，还是GPT-5.3-Codex？

2026-03-21

GPT5.5来了，最大特点解析

2026-04-24

全球首个 AI 进化网络 EvoMap，给 Agent 装上 DNA

2026-02-20

大家都在问

Harness Engineering：AI 能在真正"出事会炸"的后端系统里写代码吗？

2026-05-19

谁来给企业端即将大规模入职的Agent盖办公室？

2026-05-09

鹅厂员工觉得好的code模型应该具备什么能力？

2026-05-09

Markdown要被抛弃了？Claude Code工程师自曝：我已彻底放弃使用Markdown！团队倾向使用HTML！网友：其他编辑工具会被淘汰吗？

2026-05-09

AI吞噬软件的叙事要分化了？

2026-05-08

为什么同一个模型，在 Claude Code/Codex CLI 里感觉像换了个脑子？

2026-05-07

「双线实测」Qwen 3.6-Plus，Agentic Coding 已经这么能「扛活儿」了？

2026-04-26

本体化语义层，会是 AI 数据平台的新地基吗？

2026-04-22

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS Skill 提示词技巧 AI+电商 AI面试数字员工 ChatBI AI知识库开源大模型智能营销智能硬件智能化改造 AI+医疗 MaxKB Palantir Glean Openclaw

应聘简历请发送至： ceo@53ai.com

联系我们

售前咨询

预约演示

微信扫码

添加专属顾问

回到顶部