2026年7月2日 周四晚上19:30,报名腾讯会议了解“如何构建自进化的动态知识库(Brain)”(限30人)
免费POC, 零成本试错
FDE知识库

FDE知识库

学习大模型的前沿技术与行业落地应用


收藏

被 Gemini 官方推荐为下一代Agent!Eigent 如何实现企业级浏览器自动化?

发布日期:2025-12-24 21:58:37 浏览次数: 3012
作者:CAMEL AI

微信搜一搜,关注“CAMEL AI”

推荐语

Eigent 被 Gemini 官方推荐为下一代 AI Agents,开创企业级浏览器自动化的新纪元!

核心内容:
1. Eigent 如何通过多智能体架构实现复杂企业任务的自动化
2. Gemini 3 Pro 在真实企业场景中的三大应用案例
3. 开源多智能体系统与大型语言模型的完美结合方案

杨芳贤
53AI创始人/腾讯云(TVP)最具价值专家

很高兴和大家分享 Eigent 被 Gemini 官方推荐为下一代的 AI Agents 开源项目!
在 Gemini 3 系列研发期间,我们曾参与内测,针对真实企业场景中的使用情况,对模型能力进行了评估,并向团队反馈了第一手测试评估和建议。
Google 官方博客也特别提到了 Eigent,展示了我们如何通过多智能体架构,把 Gemini 3 Pro 应用于复杂的企业级浏览器自动化任务中,实现真正的落地执行,也被Gemini官方推荐为“下一代 AI Agents”的代表之一。

同时,在最新的 Gemini 3 Flash 发布中,我们 Eigent 的 logo 也被官方认领,出现在官方发布会的合作伙伴 logo wall 上。


👉 以下是与Gemini 3 Pro 官方合作的中文版的Blog分享:

Run Enterprise Agents with Eigent & Gemini 3 Pro -- Eigent’s Real-World Enterprise Browser Automation with Gemini 3 Pro

原文请看:https://www.eigent.ai/blog/run-enterprise-agents-with-eigent-and-gemini-3-pro

摘要

在真实的企业环境中,许多内部工具、数据面板和旧系统都是完全在浏览器中运行的,这些系统是企业在日常业务的重要基础。为了自动化这些复杂系统,我们推出了 Eigent,一个开源的、多智能体协作的桌面端应用,可以本地运行,并能从源码完整搭建,核心能力聚焦在浏览器自动化。

在这篇文章中,我们将介绍 Eigent 如何运用 CAMEL 的多智能体架构以及浏览器自动化能力,处理复杂的企业级多步骤任务。同时,我们也会重点展示 Gemini 3 Pro 的表现,分析它在三个真实企业任务中的执行情况,并拆解它在长链条、智能体式浏览器自动化任务中的关键架构优势。

背景:什么是 Eigent,如何在Eigent上用 Gemini 3 Pro跑任务

Eigent 是一个在本地桌面运行的开源多智能体工作系统。它基于多智能体架构构建,具备浏览器自动化、终端自动化和 MCP 等通用能力。这套设计让 Eigent 中的智能体能像真实的人一样执行任务,直接在桌面环境运行,而不需要复杂的 API 集成或频繁调整工作流。

随着基础模型不断进步,将大模型能力与 Eigent 的开源多智能体系统结合,可以让开发者和企业用户更快把 LLM 能力应用到真实场景。所以Eigent 在 Gemini 3 Pro 发布后立即完成了集成。

如果你使用 Cloud Mode,只需在顶部下拉菜单中选择 Gemini 3 Pro。如果你想使用 自己的 API Key,进入模型设置页面找到 Gemini 区域,填入你的 Key。设置完成后即可以开始使用。如需帮助,可参考我们的配置指南:《配置 Google Gemini API Key》

你也可以参考下方视频教程进行操作。

Github 仓库与 Eigent 的安装指南

GitHub 仓库:https://github.com/eigent-ai/eigent

你有两种方式来运行 Eigent:

方式A:“零配置”桌面应用程序

  1. 从 官方网站 下载客户端。

  2. 安装 .dmg(适用于 macOS)或 .exe(适用于 Windows)文件。

  3. 启动应用程序——本地后端将自动运行。


方式 B:开发者环境搭建

若你希望访问源代码并在本地进行开发,请按照以下步骤操作:

1. 安装前提依赖
确保你已安装 Node.js(版本 18 至 22)和 Python。

2. 克隆并安装

    # Clone the repositorygit clone https://github.com/eigent-ai/eigent.gitcd eigent
    # Install frontend dependenciesnpm install

    3. 运行应用

      # Return to root and run dev modenpm run dev

      启动后,你就可以在设置中配置你的大模型(Gemini 3 Pro 等)。更多细节可参考官方文档:https://docs.eigent.ai/get_started/welcome


      系统解析:Eigent 全栈架构与 CAMEL 多智能体系统

      Eigent 系统概览

      Eigent 是一个本地优先的桌面应用,内部采用多智能体编排,由 CAMEL Workforce 作为核心引擎。系统采用完整解耦的全栈架构,所有计算均在本地执行,确保数据主权,不依赖云端运行智能体。

      1. 前端层

      用户界面是智能体配置与任务监控的控制中心。前端基于 React + TypeScript + Electron 构建。

      主要技术点包括:

      • 状态管理: 使用 Zustand 进行高效状态更新

      • 可视化编排: React Flow 用于展示实时的智能体执行流程图

      • 通信方式: 与后端通过本地 HTTP 安全通信


      2. 后端层

      核心逻辑由本地 FastAPI + Uvicorn Python 服务承担,这也是 CAMEL 多智能体框架的运行环境。

      关键组件包含:

      • 运行环境: Python 3.10+,使用 uv 管理依赖与隔离

      • 持久化层: PostgreSQL + SQLModel/SQLAlchemy 存储日志、工作流记录与智能体状态

      • 多智能体框架: CAMEL 实现任务分解、智能体调度与工具调用

        • 支持远程 LLM(Gemini)或本地 vLLM

        • 提供浏览器工具、终端工具、文档生成工具等


      CAMEL Workforce:以组织结构为灵感的多智能体系统

      Eigent 的核心是 CAMEL Workforce,一个专为解决真实复杂任务而设计的多智能体系统,通过严格解耦与异步通信实现高效协作。

      1. 智能体角色

      • 协调智能体(Coordinator): 分配任务、维护全局状态

      • 任务智能体(Task Agent): 负责把高层目标拆解成可执行的小任务

      • 工作智能体(Worker Agent): 执行具体任务,使用对应工具完成操作


      2. 异步任务通道 TaskChannel

      协调层与执行层之间通过 TaskChannel 实现了解耦。这个异步消息队列负责任务的分发,而不会阻塞主执行线程。

      1. 工作流启动

      2. Worker 拉取任务

      3. 完成后推送结果


      3. 动态 DAG 任务图

      企业级工作流程很少是线性的。CAMEL Workforce 实现了一种动态的有向无环图(DAG)构建机制。当接收到一个高层级的指令(例如“制定旅行计划”)时,Task Agent 会将这一目标拆解为若干独立的节点。

      系统会显式地映射各节点之间的依赖关系,使得调度器可以:

      • 并行执行彼此独立的节点(例如,搜索机票 和 搜索酒店 可以同时运行)。

      • 对有依赖关系的节点进行阻塞,直到其前序节点进入 DONE 状态后才继续执行。

      4. 容错机制

      鉴于大语言模型(LLM)具有非确定性的特性,Eigent 将失败视为一种可预期的状态转移,而非致命异常。其架构设计中实现了强健的恢复机制,具体包括以下策略:

      • RETRY(重试): 在同一个 Worker 上重新执行子任务,用于处理瞬时错误。

      • REPLAN(重规划): Task Agent 根据失败日志修改原始子任务后重新入队执行。

      • REASSIGN(重新分配): 将子任务从当前 Worker 迁移至具备相应技能的其他智能体执行。

      • DECOMPOSE(任务拆解): 若任务因过于复杂而失败,则递归地将其拆解为更小的子任务。

      Eigent 的浏览器自动化架构

      只有将多智能体工作体系与不断增强的通用能力(如浏览器自动化)结合起来,才能真正释放企业级自动化的潜力。这也是为什么我们强调构建能够直接在真实业务环境中运行的智能体,而不仅仅依赖于僵化的 API 集成。

      Eigent 采用了一个双层架构,将浏览器控制与智能体编排解耦:

      • TypeScript 层 负责所有浏览器交互,利用原生的 Playwright API 执行 DOM 操作、捕捉结构化快照、生成 SoM 截图、检测遮挡元素,并在 JavaScript 运行时中处理复杂的浏览器逻辑。由于 Playwright 原生由 TypeScript 构建,该层能够使用如 _snapshotForAI() 等前沿功能,同时提升性能、稳定性与开发体验。

      • Python 层 负责 AI 编排,处理大语言模型调用、智能体决策制定和任务规划。这一解耦设计让 Python 更专注于智能体逻辑,而 Python 生态在 AI 与工作流编排方面拥有显著优势。

      • 两层通过 WebSocket 进行异步通信,支持非阻塞式操作。Python 发送浏览器操作请求,TypeScript 执行后返回结果。整个交互过程对终端用户是透明的,并支持并发任务执行。

      这种架构提升了性能与网页元素交互的精度,并实现了高级能力,例如动态 DOM 过滤、视口感知的快照、浏览器内 SoM 渲染等。它避免了 Python 单一实现方式的诸多局限,如高延迟、浏览器底层访问受限、复杂图像处理逻辑等。通过将浏览器操作交由原生执行环境处理,Eigent 为基于智能体的企业自动化提供了坚实基础。

      在企业级自动化的多智能体执行场景中,基于浏览器的自动化具有天然的流程可视化优势。每一步都是透明、可检查、易于调试的,这使其在应对复杂且不断演变的工作流中更加实用。

      在真实企业任务中测试 Gemini 3 Pro × Eigent 浏览器自动化

      我们使用 Eigent + Gemini 3 Pro 自动化真实的 B2B 销售流程,包括线索创建、资格判断、报价、跟进与推进销售阶段、产品管理等等。

      测试中,Gemini 3 Pro 展现出三大优势:

        1. 良好处理复杂页面结构,包括 iframes 和嵌套元素: 即使在复杂布局中,也能可靠地定位到正确的内容和按钮。

        2. 自我校验,确保操作准确且步骤简洁: 通过反馈机制修正错误,确保任务真正被正确完成。

        3. 高效灵活地使用工具: 避免不必要的操作,能够在需要时巧妙地组合使用多种工具。


        示例任务 1:YC 公司筛选并生成 CSV

        找出 YC 2025 冬夏两期中所有与 Marketing 相关的 B2B 公司,并深入查看每家公司的产品信息,最后整理成 CSV。

        该任务展示了智能体在处理迭代式导航动态数据提取方面的能力。与简单的单页爬取不同,该工作流程要求智能体首先在 Y Combinator 名录中进行特定筛选(如 Batch、行业、B2B 标签),随后执行“列表到详情”(List-to-Detail)的模式。

        这一过程的核心挑战在于上下文的保持:智能体需要深入每个公司详情页提取具体的产品信息,然后返回主列表界面,并确保不丢失当前位置或重复抓取数据。Gemini 3 Pro 成功地完成了这一循环流程,能够解析不同结构的落地页,并将非结构化的信息标准化为干净的 CSV 文件,全程无需人工干预。

        示例任务 2:在 Salesforce 中推进销售阶段 + 查询联系人

        Salesforce.com 的 “200 Widgets” 交易进展顺利。请将其阶段从 “Needs Analysis(需求分析)” 移动到 “Proposal(提案)”,点击 “Mark as Current Stage(标记为当前阶段)”,然后进入 “Contact Roles” 页面,获取联系人姓名和电话号码。接着返回 Opportunities 页面,将 “Next Step(下一步)” 字段更新为 “book a meeting with + 联系人姓名和电话号码”。

        这个浏览器自动化任务对标准模型来说具有较高难度。首先,模型需要在 Salesforce 首页中定位到对应的 Opportunity;其次,需要更新该 Opportunity 的阶段、跳转到特定页面提取联系人信息,最后返回并修改“Next Step”字段。

        因此,该任务要求模型具备以下能力:

        • 稳定的长任务执行能力:需要跨多个步骤保持上下文一致性;

        • 对复杂任务的深度理解:正确解析用户意图及每一步指令;

        • 清晰的逻辑任务规划能力:合理拆解并顺序执行操作;

        • 跨页面稳定执行能力:在 Salesforce 复杂界面中实现无误导航和操作。

        此外,通过量化分析(例如将每一步操作映射到页面区域、追踪失败和重试次数),我们可以将浏览器操作与快照中的页面元素一一对应。这让我们能够更深入地评估 Gemini 3 Pro 在工具调用与浏览器交互方面的准确性与执行效率。

        运行次数
        浏览器操作总数
        使用的其他工具
        操作序列特征
        含义解读
        第一次运行
        23 次
        紧凑序列(open → type → 多次点击 → 截图 → 点击 → 访问页面 → 再次点击……)
        没有在同一控件上重复点击或输入;操作流程单向推进,冗余极少。
        第二次运行
        18 次
        note screenshots
        打开页面后多次点击和截图以定位目标区域;后期加入 append_note / create_note / browser_get_page_snapshot 用于状态记录和确认。
        浏览器操作次数更少;使用辅助工具作为“外部记忆”和校验手段。
        第三次运行
        15 次
        起始阶段多次 open / visit_page,接着连续点击,最终执行一次 type 输入。
        无辅助工具,无重试或回滚;操作链条最为精简流畅。

        根据以上三轮执行结果,我们可以看到 Gemini 3 Pro 在长流程浏览器自动化任务中表现出极高的稳定性可审计性

        • 执行路径清晰: 能根据解析出的任务目标与环境状态,可靠地规划操作路径。

        • 稳定性与鲁棒性: 当前任务所涉及的页面最多有 13 层嵌套结构,Gemini 3 Pro 在执行过程中依然保持了极低的重试率,无死循环

        • 高效性: 日志显示几乎没有冗余的工具调用,也未出现多次点击或重复输入。结合灵活使用的辅助工具(Note/Screenshot),最终形成了更少但更稳定的浏览器操作序列


        示例任务 3:

        “我正在准备每月的销售复盘。请进入我的预测(Forecast)页面,找到 Global Media 账户下、处于 Commit 阶段 的商机(Opportunity),并将其 Close Date(结束日期) 更新为 11月26日。”

        如果我们增加网页在任务中的复杂度,会发生什么?

        以下任务设置在 Salesforce 的 Forecast 页面中。Forecast 页面是销售团队用于统计和概览的功能界面,其浏览器页面结构极其复杂,在一次快照中大约包含 4,763 个元素。在经过多层解析后,该快照包含 1,222 行代码,最大嵌套层级达到 18 层,平均嵌套深度约为 14.33 层

        在我们的测试中,Gemini 3 三次都完美地完成了该任务。它需要在非常密集且高度嵌套的页面中正确更新字段,并且能够成功锁定目标商机(Global Media 180 Widgets)并完成 Close Date 的更新,这证明了 Gemini 3 Pro 在浏览器使用场景中的强大解析能力、路径规划能力和稳定的执行能力。

        Gemini 3 Pro 如何提升任务执行的表现?

        Gemini 3 Pro 是企业级自主智能体系统中表现均衡且稳定的选择。在我们的真实任务测试中,它在处理长流程、基于浏览器的工作流时展现出高度可靠性。结合其出色的性价比,它为在企业环境中规模化部署基于智能体的自动化提供了切实可行的方案。

        “状态连续性”优势(Thought Signatures)

        我们观察到的一个核心技术优势是 Gemini 3 Pro 引入了 Thought Signatures(思维签名)机制。在传统的大语言模型(LLM)交互中,模型通常完全依赖对话历史文本在轮次之间重建上下文。然而在复杂、长流程的任务中,这种方式可能导致“上下文漂移”现象:智能体在多轮浏览器交互后容易偏离原始意图。

        Gemini 3 Pro 通过在每个步骤后返回一个 thoughtSignature —— 即其内部推理状态的加密表示,来解决这一问题,从而实现推理状态的延续性。

        对 Eigent 的影响

        当我们的智能体执行连续任务(例如“查看航班状态”接着“预订出租车”)时,thoughtSignature 会被传递回模型,作为上下文的一部分。在我们的测试中,这一机制帮助智能体在多步骤函数调用过程中保持了更强的逻辑连贯性,显著减少了工作流后期出现逻辑错误的概率,优于同类模型。

        长流程任务中的鲁棒性

        企业自动化通常需要应对各种不确定性——例如登录界面、加载状态或突发弹窗等异常情况。

        在持续超过 10 步的复杂任务中,Gemini 3 Pro 展现出高度的鲁棒性和稳定性。这一表现与它在 Vending-Bench 2 等专门评估长程规划能力的基准测试中的成绩一致。

        在处理常规查询任务时,顶级模型之间的差距可能微乎其微;但在“智能体式自动化”场景中,状态保持与错误恢复能力至关重要。Gemini 3 Pro 凭借其 Thought Signatures 技术,在这些维度上为 Eigent 提供了一个可靠的技术基础,是企业中应对复杂、多步骤工作流的务实之选。


        总结与后续方向

        本篇博客展示了 Eigent 如何通过 CAMEL 的多智能体架构 和 浏览器级别的自动化能力,构建了一个可真正投入生产环境的企业级智能体平台。通过将工具级的自治能力与用户可干预的工作流相结合,系统保持了可控性、可观测性与可审计性,这三者是 B2B 场景部署中不可或缺的核心特性。

        我们也展示了当 Gemini 3 Pro 集成进 Eigent 时,如何在推理能力、稳定性与成本效益之间取得理想平衡。其架构设计与多智能体执行流程深度契合,特别是通过 Thought Signatures 等机制,使其非常适合企业级典型的高复杂度、长周期自动化任务

        展望未来,我们将继续推进以下方向:

        • 识别实际企业部署中的失败任务模式:找出当前基础模型在状态追踪、错误恢复、工具调用方面存在的薄弱环节。

        • 建立标准化的企业级浏览器自动化基准测试集:涵盖包括邮箱、消息系统、文档处理、浏览器 UI、ERP/CRM 系统在内的真实任务场景。

        • 构建浏览器自动化的强化学习环境:通过任务奖励、轨迹记录与长程行为分析,推动强化学习在企业自动化智能体中的应用。


          53AI,企业落地大模型首选服务商

          产品:场景落地咨询+大模型应用平台+行业解决方案

          承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业

          联系我们

          售前咨询
          186 6662 7370
          预约演示
          185 8882 0121

          微信扫码

          添加专属顾问

          回到顶部

          加载中...

          扫码咨询

          扫码登录
          登录即表示您同意《53AI网站服务协议》
          服务协议

          欢迎您使用【53AI 官方网站】(以下简称“本网站”或“我们”)。本《会员服务协议》(以下简称“本协议”)是您(以下简称“会员”或“用户”)与【深圳市博思协创网络科技有限公司】之间关于注册、登录及使用本网站会员服务所订立的法律协议。

          在您注册或登录前,请务必审慎阅读、充分理解各条款内容,特别是免除或限制责任的条款、知识产权条款、争议解决条款等。此类条款将以加粗形式提示您注意。 当您通过微信公众号授权、手机验证码验证或其他方式成功登录本网站时,即视为您已完全理解并同意接受本协议的全部内容。

          一、 定义

          本网站:指由【深圳市博思协创网络科技有限公司】运营的,域名为【53ai.com】的网站及相关移动端页面。

          会员服务:指本网站向注册会员提供的知识库文章查阅、内容检索及其他相关增值服务。

          知识库内容:指本网站发布的包括但不限于文字、图表、数据、研究报告、行业分析等数字化内容资源。

          二、 账号注册与登录

          登录方式:本网站支持以下登录方式,您可根据实际情况选择:

          微信公众号授权登录:您同意将您的微信OpenID信息授权给本网站,用于创建或关联会员账号。

          手机验证码登录:您需提供真实有效的手机号码,并通过短信验证码完成身份验证与登录/注册。

          账号安全:您的账号仅限您本人使用,禁止赠与、借用、租用、转让或售卖。因您保管不善导致的账号被盗、密码泄露等损失,由您自行承担。

          实名认证:根据相关法律法规要求,我们可能要求您在特定功能下完成实名认证。如您拒绝提供,可能无法使用部分或全部服务。

          未成年人保护:若您未满18周岁,请在法定监护人的陪同下阅读本协议,并在征得监护人同意后使用本服务。

          三、 服务内容与规范

          知识库查阅权限:会员登录后,有权按照其会员等级对应的权限范围,在线浏览、检索本网站知识库中的相关文章及内容。

          服务变更:我们有权根据业务发展需要,调整、变更或终止部分服务内容,并将以网站公告、公众号消息等方式提前通知。

          禁止行为:您在使用服务时不得实施以下行为:

          利用技术手段批量爬取、下载、转存知识库内容;

          将知识库内容用于商业目的或未经授权地向第三方传播;

          干扰本网站正常运行或侵犯其他用户合法权益;

          发布违法违规信息或从事违反公序良俗的活动。

          四、 知识产权声明

          权利归属:本网站知识库中的排版设计、软件代码等内容的知识产权均归【公司全称】或原权利人所有,受《中华人民共和国著作权法》等法律保护。

          有限许可:本网站授予会员一项非独占、不可转让、不可转授权的普通许可,仅限于个人学习、研究之目的在线查阅知识库内容。

          侵权追责:未经书面许可,任何单位或个人不得以任何形式复制、转载、摘编、镜像、汇编或以其他方式使用上述内容。一经发现,我们保留追究其法律责任的权利。

          五、 个人信息保护

          我们重视对您个人信息的保护。关于我们如何收集、使用、存储和保护您的个人信息,请单独阅读 《隐私政策》。

          您通过微信公众号授权或手机号验证所提供的信息,我们将严格按照《个人信息保护法》的规定处理,仅用于身份识别、服务提供及安全验证等必要用途。

          您可以随时通过网站设置或联系客服行使查阅、更正、删除个人信息及撤回授权同意的权利。

          六、 免责声明

          内容准确性:知识库内容仅供参考,不构成专业建议。我们不对其完整性、准确性、时效性作任何明示或暗示的保证,您应自行判断并承担使用风险。

          不可抗力:因自然灾害、政策法规变化、网络故障、第三方平台接口异常(如微信接口维护、运营商短信通道故障)等不可抗力导致的服务中断或延迟,我们不承担违约责任。

          第三方链接:本网站可能包含指向第三方网站的链接,该等网站的内容和服务不受我们控制,请您自行甄别风险。

          七、 违约责任

          如您违反本协议约定,我们有权视情节采取警告、限制功能、暂停服务、注销账号等措施,并保留要求赔偿损失的权利。

          如因您的违约行为导致我们遭受行政处罚、第三方索赔或商誉损失,您应承担全部赔偿责任(包括但不限于罚款、赔偿金、律师费、公证费等)。

          八、 法律适用与争议解决

          本协议的订立、执行和解释均适用中华人民共和国大陆地区法律。

          因本协议产生的或与本协议有关的任何争议,双方应友好协商解决;协商不成的,任何一方均可向【公司所在地】有管辖权的人民法院提起诉讼。

          九、 其他

          本协议构成双方就本服务达成的完整协议,取代此前任何口头或书面约定。

          本协议任一条款被认定为无效或不可执行的,不影响其他条款的效力。

          我们对本协议享有最终解释权,并在法律允许的范围内保留随时修改的权利。修改后的协议一经公布即生效,继续使用服务即视为同意修订内容。


          已查阅