微信扫码
添加专属顾问
我要投稿
Claude Cowork 架构揭秘:从"会说话"到"能干活"的AI进化之路,探索Agentic协作新时代。核心内容: 1. 范式转移:从被动问答的Oracle模式到主动协作的Agentic模式 2. 关键技术:VM隔离环境与MCP协议实现安全可控的任务执行 3. Agentic循环设计:感知-规划-行动-反思的闭环工作流
你有没有想过,为什么我们和 AI 聊了这么久,它还是只能"说",不能"做"?
刚刚,Anthropic 发布了 Claude Cowork,这个产品让我眼前一亮。它不是又一个聊天机器人,而是一个真正能帮你干活的数字同事。
今天我们来拆解一下 Cowork 背后的底层架构:它如何把“会说的模型”变成“能做的系统”。
如果你更关心“怎么用、怎么管、怎么试点”(任务模板、护栏、指标),我把落地部分单独写成了另一篇:Claude Cowork 落地指南:任务模板、安全护栏与成果物交付
在软件工程与人机交互的漫长演进史中,我们正处于一个决定性的转折点。
过去二十年,我们经历了从命令行接口(CLI)的精确控制到图形用户界面(GUI)的直观操作,再到近年来自然语言界面(LUI)的初步尝试。然而,直到 LLM 具备了工具使用(Tool Use)和长期规划能力之前,AI 在开发与办公场景中的角色主要停留在 "Oracle(神谕)"模式:
用户提出问题,AI 给出一个基于概率预测的文本答案,但最终的决策、验证与执行仍需人类手动完成。
这种模式存在一个根本性的断裂——思维与行动的分离。
Claude Cowork 的出现,以及其底层的 Claude Code 架构,标志着我们正式跨越了这一断裂,进入了 "Agentic(代理原生)"时代。在这个新时代,AI 不再仅仅是生成文本的引擎,而是被赋予了手脚(工具)、眼睛(视觉感知)和环境感知能力的数字实体。它不仅能"说",更能"做"。
在传统的软件开发生命周期(SDLC)或复杂知识工作中,最大的瓶颈往往不在于"知道怎么做",而在于繁琐的上下文切换和执行细节。
例如,重构一个遗留模块,开发者需要:理解代码 → 查找引用 → 修改文件 → 运行测试 → 修复错误 → 提交代码。这是一个典型的 OODA 循环(观察-调整-决策-行动)。
Claude Cowork 的核心价值在于它接管了这个循环的中间环节。通过深度集成到用户的桌面环境,它将 认知的外部化(Reasoning) 与 执行的闭环(Execution) 统一在同一个上下文中。
这并非简单的自动化脚本,因为脚本无法处理非确定性错误,而 Cowork 依靠 LLM 的推理能力,能够在遇到错误(如编译失败、文件未找到)时进行自我反思与修正。
虽然 Claude Code 为开发者提供了强大的终端交互能力,但它的 CLI 形态天然地将非技术用户拒之门外。
Cowork 的架构意义在于,它将这种通过代码和工具操作计算机的能力,封装进了一个用户友好的 GUI 外壳中。这不仅是界面的改变,更是底层能力的泛化。
从技术角度看,Cowork 实现了一种"人机协作"的理想形态:
这种分工极大地释放了人类的认知带宽,让我们能够专注于最具创造性的部分。
要理解 Cowork 的强大与局限,我们必须剥开其 Electron 应用的表层,深入其操作系统层面的实现。
根据公开资料与技术分析,Cowork 并非简单的 API 包装器,而是一个运行在用户本地的复杂分布式系统缩影。
在企业级环境或个人设备上运行 Agent,核心风险在于 "不可控的副作用"。
一个拥有文件读写权限和 Shell 执行能力的 AI,如果缺乏严格的约束,可能因幻觉或提示注入(Prompt Injection)导致灾难性的后果(如误删关键文件、泄露敏感数据)。
根据 Anthropic 官方文档,Cowork 在本机 VM 隔离环境中执行任务,并对文件/网络访问进行控制。据第三方观察与逆向分析(特别是 Simon Willison 的深度拆解),macOS 版本疑似采用了一种硬核的隔离方案:基于 Apple Virtualization Framework (AVF) 的轻量级虚拟机。
为了直观展示 Cowork 的安全隔离机制,我们构建了如下架构拓扑图:
传统的沙盒技术(如 macOS 的 App Sandbox 或 Docker 容器)在隔离性和性能之间往往难以两全。Docker 在 macOS 上依赖 Linux VM,开销较大且文件系统性能一直是瓶颈。
而 AVF 是 Apple Silicon 芯片原生的虚拟化框架,能够以极低的开销启动虚拟机。
据第三方观察与逆向分析(主要来自 Simon Willison 等技术人员的拆解),Cowork 在 macOS 上疑似采用以下实现方式:
计算隔离:Agent 的执行环境疑似运行在独立的 Linux 虚拟机内(配套定制 rootfs),而非直接在宿主用户空间。这样即便出现恶意指令(例如试图执行 rm -rf /),其破坏范围也被限制在临时的 Guest 环境中,无法触及宿主系统。
环境一致性:这解决了"在我的机器上能运行"的经典难题。无论用户的宿主机安装了何种版本的 Python、Node.js 或系统库,Agent 在一个标准化的、预装了必要工具链(git, grep, curl 等)的 Linux 环境中运行。这极大地提高了任务执行的成功率和可预测性。
注意:以上为基于公开观察的技术推断,官方公开口径仅确认"在本机 VM 隔离环境中执行,并对文件/网络访问进行控制",具体实现细节可能随版本更新而变化。
仅仅隔离是不够的,Cowork 的任务是处理用户的文件。这就涉及到了虚拟机与宿主机之间的高性能文件共享。
根据官方文档和第三方观察,Cowork 疑似采用以下文件共享机制:
按需挂载(On-Demand Mounting):Cowork 并不拥有对宿主机文件系统的完全访问权限。在 UI 层面,用户必须显式地选择一个文件夹(Project Folder)授权给 Cowork。在底层,通过 VM 文件共享/挂载机制(可能包括 VirtioFS 等技术)将宿主机的特定目录映射到执行环境中。
权限投影:这种架构实现了物理级别的权限控制。Agent 无法读取未被授权挂载的目录(如 ~/.ssh 或 ~/Documents),因为它所在的隔离环境中根本不存在这些路径。这比任何软件层面的权限检查(如系统提示词中的"请不要读取敏感文件")都要安全可靠得多。
注意:具体的文件共享实现(如是否使用 VirtioFS、挂载点路径等细节)未被官方公开,第三方分析中也出现了 mount/bindfs 等多种线索,具体机制可能因平台和版本而异。
下面这些点来自公开讨论与二次整理,可能随预览版迭代而变化;我们把它们放在“补充”里,避免被误读成官方承诺:
rootfs.img 一类产物)。bubblewrap/seccomp 等机制进一步收敛执行进程的权限与系统调用面。许多用户和分析师最初误以为 Cowork 是一个全新的独立产品。根据 Anthropic 官方文档,Cowork "使用与 Claude Code 相同的 agentic 架构"(uses the same agentic architecture that powers Claude Code)。这意味着两者共享同类 agentic 架构与工作流模式,GUI 更像是控制面/可视化外壳,把同类能力下沉给更广泛的人群。
| 运行环境 | |||
| 交互模式 | |||
| 上下文管理 | |||
| 主要受众 | |||
| 安全模型 |
这种同构性意味着,Anthropic 在 Claude Code 上积累的关于代码理解、文件操作、测试修复等强大的 Agent 能力,被无缝迁移到了 Cowork 中。
反过来,Cowork 在虚拟化安全方面的探索,未来也极有可能反哺给 CLI 版本的工具。
无论是 CLI 还是 GUI,驱动 Agent 运行的是一个核心控制循环。根据第三方技术拆解(如 PromptLayer 等对 Claude Code 的分析),这个循环被称为 "Master Agent Loop",采用单线程 while-loop 形式运行。
这个循环是 Agent 智能的体现:
edit_file、run_command。如果说 LLM 是大脑,虚拟化环境是躯体,那么 Model Context Protocol (MCP) 就是连接 Agent 与外部世界的神经系统。
作为解决 AI 应用互联 "N×M" 难题的通用标准,MCP 的提出具有划时代的架构意义。
在 MCP 出现之前,AI 开发者面临着巨大的集成成本:
随着模型数量 (N) 和数据源数量 (M) 的增加,集成工作的复杂度呈 N × M 指数级增长。
MCP 旨在成为 AI 时代的 USB-C 接口。它定义了一套标准化的 JSON-RPC 协议,使得数据源只需实现一次 MCP Server,就能被所有支持 MCP Client 的 AI 应用(如 Claude Desktop, Cursor, IDEs)所连接。
MCP 采用经典的客户端-服务器架构,但在 AI 上下文中赋予了新的角色定义:
MCP Host (宿主):这是用户直接交互的终端,如 Claude Desktop 应用。它负责管理整个会话的生命周期、用户界面的渲染以及与 LLM 的核心交互。Host 充当了编排者,决定何时连接哪些 Server,以及如何将 Server 的能力暴露给 LLM。
MCP Client (客户端):嵌入在 Host 内部的协议实现层。它负责与 MCP Server 建立 1:1 的连接,处理协议握手、能力协商(Capability Negotiation),并将 LLM 生成的工具调用请求序列化为 JSON-RPC 消息发送给 Server。
MCP Server (服务端):这是真正干活的组件。它可以是一个本地的 Python 脚本,也可以是一个远程的 Web 服务。它通过标准化的接口暴露三种核心原语:Resources, Tools 和 Prompts。
理解 MCP 的核心在于理解其定义的三种原语(Primitives),它们分别对应了 Agent 获取信息、执行操作和复用知识的三种模式。
定义:Resources 是数据源,类似于 REST API 的 GET 端点或文件系统的文件。它们是只读的、被动的。
交互模式:Application-Driven(应用驱动)。用户或 Host 决定何时将某个 Resource "Attach"(附加)到对话上下文中。
架构意义:Resources 的设计体现了对 LLM 上下文窗口(Context Window)的精细管理。不是将所有数据一股脑塞给模型,而是通过 URI(如 postgres://db/table/schema)引用资源,模型可以"看到"资源的存在,但只有在需要时才读取其内容。
典型案例:数据库 Schema、API 文档、日志文件的尾部、系统的实时监控指标。
定义:Tools 是可执行的函数,能够产生副作用或进行计算。
交互模式:Model-Controlled(模型控制)。LLM 根据用户的意图和当前上下文,自主决定是否调用某个工具,以及使用什么参数。
架构意义:Tools 是 Agent 改变世界的手段。MCP 协议强制要求 Server 定义清晰的 JSON Schema 来描述工具的参数结构,这使得 LLM 能够准确地生成调用指令。
典型案例:execute_sql_query(执行 SQL)、send_slack_message(发送消息)、git_commit(提交代码)、resize_image(处理图片)。
定义:Prompts 是预定义的模板,包含了特定的 System Prompt 和用户输入的占位符。
交互模式:User-Initiated(用户发起)。用户在界面上选择一个 Prompt 来启动特定的任务流程。
架构意义:Prompts 使得最佳实践(Best Practices)得以复用。一个资深的运维工程师可以编写一个名为 "Incident Analysis" 的 Prompt,固化了排查故障的标准步骤,分发给团队中的初级成员或直接供 Agent 使用。
MCP 协议在传输层提供了两种标准实现,分别对应了本地和远程两种截然不同的应用场景。
| 通信机制 | ||
| 延迟 |
极低 (<1ms) |
|
| 安全性 |
极高 |
|
| 部署复杂度 | ||
| 并发性 | ||
| 典型场景 |
重要说明:MCP 规范已将传输层更新为 stdio 与 Streamable HTTP 两种标准传输。Streamable HTTP 可选用 SSE(Server-Sent Events)实现流式能力和通知机制。旧的 "HTTP+SSE transport" 已被替代,但保持了向后兼容。
架构决策分析:
在桌面端的常见部署形态中,Stdio 模式往往是更自然的选择:本地进程、低延迟、数据不出机、攻击面更小。
例如,如果在隔离环境(VM/容器)内启动 Git 类 MCP Server 子进程,这种设计既能保证操作的原子性和速度(直接在隔离环境内操作文件),又能利用边界提供安全性。反之,若采用 Streamable HTTP 网络传输形态,会引入网络与认证等额外复杂度,也扩大攻击面(Attack Surface)。
然而,随着企业级应用的需求增加,Streamable HTTP 模式的重要性将日益凸显。想象一个场景:企业部署了一个中心化的 "Oracle ERP MCP Server",全公司的分析师通过各自的 Claude Desktop 连接到这个 Server 查询财务数据。这时,Streamable HTTP 的多租户支持和远程访问能力就变得不可或缺。
MCP 协议是一个有状态的协议,这与无状态的 REST API 有本质区别。一个典型的 MCP 会话包含以下阶段:
initialize 请求,携带协议版本和自身能力(Capabilities)。tools/call 请求notifications/resources/updated 通知,告知 Client 某个资源发生了变化(如日志文件有了新内容),Client 可能会据此重新读取资源支撑 Cowork 运转的大脑,是 Claude 系列模型。公开资料中常以 Sonnet 等型号举例说明其“Computer Use”(计算机使用)能力,但具体型号与能力开关可能会随产品阶段与平台而调整。
传统的 Agent 主要依赖文本接口(如 HTML DOM 树或 Accessibility API)来理解屏幕内容。然而,许多现代应用(如游戏、远程桌面、复杂的 Canvas 绘图应用)并不提供结构化的 DOM。
Claude 系列模型(例如 Sonnet)引入了更强的视觉感知能力。它可以直接分析屏幕截图:
在 Cowork 的工作流中,Agent 经常会遇到意料之外的阻碍:网页加载慢、弹出了广告、文件被锁定等。
Claude 系列模型(例如 Sonnet)通常展现出更强的动态规划能力:
Claude Cowork 利用了 Claude 系列模型的长上下文能力(例如 200k Token 标准上下文;部分模型/计划在特定条件下可达 1M Token,具体取决于所用模型与订阅档位)。这在 Agentic Workflow 中具有巨大的架构价值:
本文聚焦“底层怎么做成的”。但如果你真的要把它用进团队/企业流程里,下面三件事比“模型更聪明”更决定成败:
更完整的落地清单与治理框架,我放在这篇:Claude Cowork 落地指南:任务模板、安全护栏与成果物交付
如果你更关注“安全如何产品化落地”(威胁模型、纵深防御、最小权限、人类在环),建议配合阅读:Cowork 安全架构深度解析:从 Claude Code 到 Cowork,Anthropic 如何把“可控”做成产品
Claude Cowork 不仅仅是一个新功能的发布,它代表了软件架构设计的一次深刻变革。
通过 AVF 虚拟化 确立安全边界,通过 MCP 协议 标准化“工具/数据源”的接入方式,再通过 主代理循环(Master Loop) 把“计划—行动—反馈—修正”做成可运行的系统,Anthropic 向我们展示了一张通往“数字同事”时代的工程蓝图。
对于技术领导者而言,现在的任务不再是观望,而是行动。我们需要开始思考:
在这个新的时代,代码(Code)依然重要,但协作(Cowork)才是核心。
我们正在编写的,不再是给机器执行的指令,而是给数字同事阅读的剧本。
本文基于 Anthropic 官方技术文档、MCP 协议规范及公开技术分析整理。内容已根据原始资料进行重新组织,力求技术细节准确、边界表述审慎。
[1] First impressions of Claude Cowork - Simon Willison: https://simonwillison.net/2026/Jan/12/claude-cowork/[2] Claude Code: Best practices for agentic coding - Anthropic: https://www.anthropic.com/engineering/claude-code-best-practices[3] Claude Code overview - Claude Code Docs: https://code.claude.com/docs/en/overview[4] VZVirtioFileSystemDevice - Apple Developer Documentation: https://developer.apple.com/documentation/virtualization/vzvirtiofilesystemdevice[5] Claude Code: Behind-the-scenes of the master agent loop - PromptLayer Blog: https://blog.promptlayer.com/claude-code-behind-the-scenes-of-the-master-agent-loop/[6] What Is the Model Context Protocol (MCP) and How It Works - Descope: https://www.descope.com/learn/post/mcp[7] Architecture overview - Model Context Protocol: https://modelcontextprotocol.io/docs/learn/architecture[8] MCP Server Transports: STDIO, Streamable HTTP & SSE - Roo Code Documentation: https://docs.roocode.com/features/mcp/server-transports[9] Model Context Protocol (MCP): Landscape, Security Threats, and Future Research Directions - arXiv: https://arxiv.org/pdf/2503.23278[10] Understanding Anthropic Computer Use: A Comprehensive Guide - FlowHunt: https://www.flowhunt.io/blog/understanding-anthropic-computer-use-a-comprehensive-guide/[11] Introducing Claude 3.5 Sonnet - Anthropic: https://www.anthropic.com/news/claude-3-5-sonnet[12] Building Effective AI Agents - Anthropic: https://www.anthropic.com/research/building-effective-agents[13] Design Patterns for Building Agentic Workflows - Hugging Face: https://huggingface.co/blog/dcarpintero/design-patterns-for-building-agentic-workflows
如喜欢本文,请点击右上角,把文章分享到朋友圈
如有想了解学习的技术点,请留言给若飞安排分享
因公众号更改推送规则,请点“在看”并加“星标”第一时间获取精彩技术分享
·END·
相关阅读:
来源:https://claudecn.com/blog/claude-cowork-architecture/
版权申明:内容来源网络,仅供学习研究,版权归原创者所有。如有侵权烦请告知,我们会立即删除并表示歉意。谢谢!
我们都是架构师!
关注架构师(JiaGouX),添加“星标”
获取每天技术干货,一起成为牛逼架构师
技术群请加若飞:1321113940 进架构师群
投稿、合作、版权等邮箱:[email protected]
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2026-01-14
Anthropic Cowork 技术解析:当 AI Agent 从终端走向桌面
2026-01-14
其实一台VPS就是最好的 Claude Agent Container
2026-01-14
不会封号的Claude Code使用方法!已稳定测试一个月,还能共享给团队。
2026-01-13
让我很兴奋...Claude Cowork 自动化办公首测
2026-01-13
ISON:比JSON节省70% token的数据格式,专为LLM设计
2026-01-13
别再造Agent了!关于Agent Skills的详细总结来了
2026-01-13
美团龙猫LongCat技术升级!新注意力机制解码速度快10倍,还能处理1M超长文本
2026-01-13
再见了 H100!刚刚 DeepSeek 甩出王炸:显卡不够内存凑,堆 CPU 就能无限扩展“知识库”!
2025-10-26
2025-11-19
2025-10-20
2025-11-13
2025-10-18
2025-10-21
2025-11-03
2025-10-23
2025-10-22
2025-10-20
2026-01-12
2026-01-12
2026-01-11
2026-01-10
2026-01-10
2026-01-08
2026-01-02
2025-12-31