我要投稿

被 Gemini 官方推荐为下一代Agent！Eigent 如何实现企业级浏览器自动化？

发布日期：2025-12-24 21:58:37 浏览次数： 2236

作者：CAMEL AI

微信搜一搜，关注“CAMEL AI”

很高兴和大家分享 Eigent 被 Gemini 官方推荐为下一代的 AI Agents 开源项目！
在 Gemini 3 系列研发期间，我们曾参与内测，针对真实企业场景中的使用情况，对模型能力进行了评估，并向团队反馈了第一手测试评估和建议。
Google 官方博客也特别提到了 Eigent，展示了我们如何通过多智能体架构，把 Gemini 3 Pro 应用于复杂的企业级浏览器自动化任务中，实现真正的落地执行，也被Gemini官方推荐为“下一代 AI Agents”的代表之一。

同时，在最新的 Gemini 3 Flash 发布中，我们 Eigent 的 logo 也被官方认领，出现在官方发布会的合作伙伴 logo wall 上。

👉 以下是与Gemini 3 Pro 官方合作的中文版的Blog分享：

Run Enterprise Agents with Eigent & Gemini 3 Pro -- Eigent’s Real-World Enterprise Browser Automation with Gemini 3 Pro

原文请看：https://www.eigent.ai/blog/run-enterprise-agents-with-eigent-and-gemini-3-pro

摘要

在真实的企业环境中，许多内部工具、数据面板和旧系统都是完全在浏览器中运行的，这些系统是企业在日常业务的重要基础。为了自动化这些复杂系统，我们推出了 Eigent，一个开源的、多智能体协作的桌面端应用，可以本地运行，并能从源码完整搭建，核心能力聚焦在浏览器自动化。

在这篇文章中，我们将介绍 Eigent 如何运用 CAMEL 的多智能体架构以及浏览器自动化能力，处理复杂的企业级多步骤任务。同时，我们也会重点展示 Gemini 3 Pro 的表现，分析它在三个真实企业任务中的执行情况，并拆解它在长链条、智能体式浏览器自动化任务中的关键架构优势。

背景：什么是 Eigent，如何在Eigent上用 Gemini 3 Pro跑任务

Eigent 是一个在本地桌面运行的开源多智能体工作系统。它基于多智能体架构构建，具备浏览器自动化、终端自动化和 MCP 等通用能力。这套设计让 Eigent 中的智能体能像真实的人一样执行任务，直接在桌面环境运行，而不需要复杂的 API 集成或频繁调整工作流。

随着基础模型不断进步，将大模型能力与 Eigent 的开源多智能体系统结合，可以让开发者和企业用户更快把 LLM 能力应用到真实场景。所以Eigent 在 Gemini 3 Pro 发布后立即完成了集成。

如果你使用 Cloud Mode，只需在顶部下拉菜单中选择 Gemini 3 Pro。如果你想使用 自己的 API Key，进入模型设置页面找到 Gemini 区域，填入你的 Key。设置完成后即可以开始使用。如需帮助，可参考我们的配置指南：《配置 Google Gemini API Key》。

你也可以参考下方视频教程进行操作。

Github 仓库与 Eigent 的安装指南

GitHub 仓库：https://github.com/eigent-ai/eigent

你有两种方式来运行 Eigent：

方式A：“零配置”桌面应用程序

从官方网站下载客户端。
安装 .dmg（适用于 macOS）或 .exe（适用于 Windows）文件。
启动应用程序——本地后端将自动运行。

方式 B：开发者环境搭建

若你希望访问源代码并在本地进行开发，请按照以下步骤操作：

1. 安装前提依赖
确保你已安装 Node.js（版本 18 至 22）和 Python。

2. 克隆并安装

# Clone the repositorygit clone https://github.com/eigent-ai/eigent.gitcd eigent
# Install frontend dependenciesnpm install

3. 运行应用

# Return to root and run dev modenpm run dev

启动后，你就可以在设置中配置你的大模型（Gemini 3 Pro 等）。更多细节可参考官方文档：https://docs.eigent.ai/get_started/welcome

系统解析：Eigent 全栈架构与 CAMEL 多智能体系统

Eigent 系统概览

Eigent 是一个本地优先的桌面应用，内部采用多智能体编排，由 CAMEL Workforce 作为核心引擎。系统采用完整解耦的全栈架构，所有计算均在本地执行，确保数据主权，不依赖云端运行智能体。

1. 前端层

用户界面是智能体配置与任务监控的控制中心。前端基于 React + TypeScript + Electron 构建。

主要技术点包括：

状态管理： 使用 Zustand 进行高效状态更新
可视化编排： React Flow 用于展示实时的智能体执行流程图
通信方式： 与后端通过本地 HTTP 安全通信

2. 后端层

核心逻辑由本地 FastAPI + Uvicorn Python 服务承担，这也是 CAMEL 多智能体框架的运行环境。

关键组件包含：

运行环境： Python 3.10+，使用 uv 管理依赖与隔离
持久化层： PostgreSQL + SQLModel/SQLAlchemy 存储日志、工作流记录与智能体状态
多智能体框架： CAMEL 实现任务分解、智能体调度与工具调用

支持远程 LLM（Gemini）或本地 vLLM
提供浏览器工具、终端工具、文档生成工具等

CAMEL Workforce：以组织结构为灵感的多智能体系统

Eigent 的核心是 CAMEL Workforce，一个专为解决真实复杂任务而设计的多智能体系统，通过严格解耦与异步通信实现高效协作。

1. 智能体角色

协调智能体（Coordinator）： 分配任务、维护全局状态
任务智能体（Task Agent）： 负责把高层目标拆解成可执行的小任务
工作智能体（Worker Agent）： 执行具体任务，使用对应工具完成操作

2. 异步任务通道 TaskChannel

协调层与执行层之间通过 TaskChannel 实现了解耦。这个异步消息队列负责任务的分发，而不会阻塞主执行线程。

工作流启动
Worker 拉取任务
完成后推送结果

3. 动态 DAG 任务图

企业级工作流程很少是线性的。CAMEL Workforce 实现了一种动态的有向无环图（DAG）构建机制。当接收到一个高层级的指令（例如“制定旅行计划”）时，Task Agent 会将这一目标拆解为若干独立的节点。

系统会显式地映射各节点之间的依赖关系，使得调度器可以：

并行执行彼此独立的节点（例如，搜索机票 和 搜索酒店 可以同时运行）。
对有依赖关系的节点进行阻塞，直到其前序节点进入 DONE 状态后才继续执行。

4. 容错机制

鉴于大语言模型（LLM）具有非确定性的特性，Eigent 将失败视为一种可预期的状态转移，而非致命异常。其架构设计中实现了强健的恢复机制，具体包括以下策略：

RETRY（重试）： 在同一个 Worker 上重新执行子任务，用于处理瞬时错误。
REPLAN（重规划）： Task Agent 根据失败日志修改原始子任务后重新入队执行。
REASSIGN（重新分配）： 将子任务从当前 Worker 迁移至具备相应技能的其他智能体执行。
DECOMPOSE（任务拆解）： 若任务因过于复杂而失败，则递归地将其拆解为更小的子任务。

Eigent 的浏览器自动化架构

只有将多智能体工作体系与不断增强的通用能力（如浏览器自动化）结合起来，才能真正释放企业级自动化的潜力。这也是为什么我们强调构建能够直接在真实业务环境中运行的智能体，而不仅仅依赖于僵化的 API 集成。

Eigent 采用了一个双层架构，将浏览器控制与智能体编排解耦：

TypeScript 层 负责所有浏览器交互，利用原生的 Playwright API 执行 DOM 操作、捕捉结构化快照、生成 SoM 截图、检测遮挡元素，并在 JavaScript 运行时中处理复杂的浏览器逻辑。由于 Playwright 原生由 TypeScript 构建，该层能够使用如 _snapshotForAI() 等前沿功能，同时提升性能、稳定性与开发体验。
Python 层 负责 AI 编排，处理大语言模型调用、智能体决策制定和任务规划。这一解耦设计让 Python 更专注于智能体逻辑，而 Python 生态在 AI 与工作流编排方面拥有显著优势。
两层通过 WebSocket 进行异步通信，支持非阻塞式操作。Python 发送浏览器操作请求，TypeScript 执行后返回结果。整个交互过程对终端用户是透明的，并支持并发任务执行。

这种架构提升了性能与网页元素交互的精度，并实现了高级能力，例如动态 DOM 过滤、视口感知的快照、浏览器内 SoM 渲染等。它避免了 Python 单一实现方式的诸多局限，如高延迟、浏览器底层访问受限、复杂图像处理逻辑等。通过将浏览器操作交由原生执行环境处理，Eigent 为基于智能体的企业自动化提供了坚实基础。

在企业级自动化的多智能体执行场景中，基于浏览器的自动化具有天然的流程可视化优势。每一步都是透明、可检查、易于调试的，这使其在应对复杂且不断演变的工作流中更加实用。

在真实企业任务中测试 Gemini 3 Pro × Eigent 浏览器自动化

我们使用 Eigent + Gemini 3 Pro 自动化真实的 B2B 销售流程，包括线索创建、资格判断、报价、跟进与推进销售阶段、产品管理等等。

测试中，Gemini 3 Pro 展现出三大优势：

良好处理复杂页面结构，包括 iframes 和嵌套元素： 即使在复杂布局中，也能可靠地定位到正确的内容和按钮。
自我校验，确保操作准确且步骤简洁： 通过反馈机制修正错误，确保任务真正被正确完成。
高效灵活地使用工具： 避免不必要的操作，能够在需要时巧妙地组合使用多种工具。

示例任务 1：YC 公司筛选并生成 CSV

找出 YC 2025 冬夏两期中所有与 Marketing 相关的 B2B 公司，并深入查看每家公司的产品信息，最后整理成 CSV。

该任务展示了智能体在处理迭代式导航和动态数据提取方面的能力。与简单的单页爬取不同，该工作流程要求智能体首先在 Y Combinator 名录中进行特定筛选（如 Batch、行业、B2B 标签），随后执行“列表到详情”（List-to-Detail）的模式。

这一过程的核心挑战在于上下文的保持：智能体需要深入每个公司详情页提取具体的产品信息，然后返回主列表界面，并确保不丢失当前位置或重复抓取数据。Gemini 3 Pro 成功地完成了这一循环流程，能够解析不同结构的落地页，并将非结构化的信息标准化为干净的 CSV 文件，全程无需人工干预。

示例任务 2：在 Salesforce 中推进销售阶段 + 查询联系人

Salesforce.com 的 “200 Widgets” 交易进展顺利。请将其阶段从 “Needs Analysis（需求分析）” 移动到 “Proposal（提案）”，点击 “Mark as Current Stage（标记为当前阶段）”，然后进入 “Contact Roles” 页面，获取联系人姓名和电话号码。接着返回 Opportunities 页面，将 “Next Step（下一步）” 字段更新为 “book a meeting with + 联系人姓名和电话号码”。

这个浏览器自动化任务对标准模型来说具有较高难度。首先，模型需要在 Salesforce 首页中定位到对应的 Opportunity；其次，需要更新该 Opportunity 的阶段、跳转到特定页面提取联系人信息，最后返回并修改“Next Step”字段。

因此，该任务要求模型具备以下能力：

稳定的长任务执行能力：需要跨多个步骤保持上下文一致性；
对复杂任务的深度理解：正确解析用户意图及每一步指令；
清晰的逻辑任务规划能力：合理拆解并顺序执行操作；
跨页面稳定执行能力：在 Salesforce 复杂界面中实现无误导航和操作。

此外，通过量化分析（例如将每一步操作映射到页面区域、追踪失败和重试次数），我们可以将浏览器操作与快照中的页面元素一一对应。这让我们能够更深入地评估 Gemini 3 Pro 在工具调用与浏览器交互方面的准确性与执行效率。

运行次数	浏览器操作总数	使用的其他工具	操作序列特征	含义解读
第一次运行	23 次	无	紧凑序列（open → type → 多次点击 → 截图 → 点击 → 访问页面 → 再次点击……）	没有在同一控件上重复点击或输入；操作流程单向推进，冗余极少。
第二次运行	18 次	note screenshots	打开页面后多次点击和截图以定位目标区域；后期加入 append_note / create_note / browser_get_page_snapshot 用于状态记录和确认。	浏览器操作次数更少；使用辅助工具作为“外部记忆”和校验手段。
第三次运行	15 次	无	起始阶段多次 open / visit_page，接着连续点击，最终执行一次 type 输入。	无辅助工具，无重试或回滚；操作链条最为精简流畅。

根据以上三轮执行结果，我们可以看到 Gemini 3 Pro 在长流程浏览器自动化任务中表现出极高的稳定性与可审计性：

执行路径清晰： 能根据解析出的任务目标与环境状态，可靠地规划操作路径。
稳定性与鲁棒性： 当前任务所涉及的页面最多有 13 层嵌套结构，Gemini 3 Pro 在执行过程中依然保持了极低的重试率，无死循环。
高效性： 日志显示几乎没有冗余的工具调用，也未出现多次点击或重复输入。结合灵活使用的辅助工具（Note/Screenshot），最终形成了更少但更稳定的浏览器操作序列。

示例任务 3：

“我正在准备每月的销售复盘。请进入我的预测（Forecast）页面，找到 Global Media 账户下、处于 Commit 阶段 的商机（Opportunity），并将其 Close Date（结束日期） 更新为 11月26日。”

如果我们增加网页在任务中的复杂度，会发生什么？

以下任务设置在 Salesforce 的 Forecast 页面中。Forecast 页面是销售团队用于统计和概览的功能界面，其浏览器页面结构极其复杂，在一次快照中大约包含 4,763 个元素。在经过多层解析后，该快照包含 1,222 行代码，最大嵌套层级达到 18 层，平均嵌套深度约为 14.33 层。

在我们的测试中，Gemini 3 三次都完美地完成了该任务。它需要在非常密集且高度嵌套的页面中正确更新字段，并且能够成功锁定目标商机（Global Media 180 Widgets）并完成 Close Date 的更新，这证明了 Gemini 3 Pro 在浏览器使用场景中的强大解析能力、路径规划能力和稳定的执行能力。

Gemini 3 Pro 如何提升任务执行的表现？

Gemini 3 Pro 是企业级自主智能体系统中表现均衡且稳定的选择。在我们的真实任务测试中，它在处理长流程、基于浏览器的工作流时展现出高度可靠性。结合其出色的性价比，它为在企业环境中规模化部署基于智能体的自动化提供了切实可行的方案。

“状态连续性”优势（Thought Signatures）

我们观察到的一个核心技术优势是 Gemini 3 Pro 引入了 Thought Signatures（思维签名）机制。在传统的大语言模型（LLM）交互中，模型通常完全依赖对话历史文本在轮次之间重建上下文。然而在复杂、长流程的任务中，这种方式可能导致“上下文漂移”现象：智能体在多轮浏览器交互后容易偏离原始意图。

Gemini 3 Pro 通过在每个步骤后返回一个 thoughtSignature —— 即其内部推理状态的加密表示，来解决这一问题，从而实现推理状态的延续性。

对 Eigent 的影响

当我们的智能体执行连续任务（例如“查看航班状态”接着“预订出租车”）时，thoughtSignature 会被传递回模型，作为上下文的一部分。在我们的测试中，这一机制帮助智能体在多步骤函数调用过程中保持了更强的逻辑连贯性，显著减少了工作流后期出现逻辑错误的概率，优于同类模型。

长流程任务中的鲁棒性

企业自动化通常需要应对各种不确定性——例如登录界面、加载状态或突发弹窗等异常情况。

在持续超过 10 步的复杂任务中，Gemini 3 Pro 展现出高度的鲁棒性和稳定性。这一表现与它在 Vending-Bench 2 等专门评估长程规划能力的基准测试中的成绩一致。

在处理常规查询任务时，顶级模型之间的差距可能微乎其微；但在“智能体式自动化”场景中，状态保持与错误恢复能力至关重要。Gemini 3 Pro 凭借其 Thought Signatures 技术，在这些维度上为 Eigent 提供了一个可靠的技术基础，是企业中应对复杂、多步骤工作流的务实之选。

总结与后续方向

本篇博客展示了 Eigent 如何通过 CAMEL 的多智能体架构 和 浏览器级别的自动化能力，构建了一个可真正投入生产环境的企业级智能体平台。通过将工具级的自治能力与用户可干预的工作流相结合，系统保持了可控性、可观测性与可审计性，这三者是 B2B 场景部署中不可或缺的核心特性。

我们也展示了当 Gemini 3 Pro 集成进 Eigent 时，如何在推理能力、稳定性与成本效益之间取得理想平衡。其架构设计与多智能体执行流程深度契合，特别是通过 Thought Signatures 等机制，使其非常适合企业级典型的高复杂度、长周期自动化任务。

展望未来，我们将继续推进以下方向：

识别实际企业部署中的失败任务模式：找出当前基础模型在状态追踪、错误恢复、工具调用方面存在的薄弱环节。
建立标准化的企业级浏览器自动化基准测试集：涵盖包括邮箱、消息系统、文档处理、浏览器 UI、ERP/CRM 系统在内的真实任务场景。
构建浏览器自动化的强化学习环境：通过任务奖励、轨迹记录与长程行为分析，推动强化学习在企业自动化智能体中的应用。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业