微信扫码
添加专属顾问
我要投稿
Browser Use 0.12 彻底颠覆浏览器自动化,四行代码搞定复杂任务,成功率高达89.1%!核心内容: 1. 四行Python代码实现浏览器Agent的惊人效率 2. WebVoyager基准测试中89.1%的成功率突破 3. 真实案例展示从2000行代码到简单指令的降维打击
你有没有遇到过这种场景:
今天给你介绍一个杀疯了的开源项目——Browser Use,90.4k stars、10.3k forks,YC W25 出身,MIT 协议。这个项目最近搞了个大动作:直接把 Playwright 从核心里踢出去了!
先看官方给出的最小示例,简单到离谱:
from browser_use import Agent, Browser, ChatBrowserUse
agent = Agent(
task="去 GitHub 搜 browser-use 并截图首页",
llm=ChatBrowserUse(),
browser=Browser(),
)
agent.run()
就四行代码,一个能自己点网页、自己读页面、自己截图的 Agent 就跑起来了。
这个数据更离谱:在 WebVoyager 这个跑 586 个真实网页任务的基准上,Browser Use 的成功率达到了 89.1%——目前开源浏览器 Agent 公开成绩里最高的那个!
WebVoyager 不是"打开网页找标题"那种玩具基准,它包含 Amazon 下单流程、GitHub 搜索 PR、Google Flights 查机票这种带状态、带多步骤、带表单的真实任务。89.1% 意味着 100 个真实任务里能跑通 89 个,这个数字在一年前还在 60% 上下徘徊。
想象一下这个场景:某电商公司的运营团队需要每天监控 20 个竞品平台的价格变化,之前的做法是:
用 Browser Use 之后,脚本变成了这样:
from browser_use import Agent, Browser, ChatBrowserUse
agent = Agent(
task="""
1. 打开淘宝,搜索"无线蓝牙耳机"
2. 记录前 10 个商品的价格、销量、店铺名
3. 打开京东,做同样的操作
4. 打开拼多多,做同样的操作
5. 把所有数据整理成表格保存
""",
llm=ChatBrowserUse(),
browser=Browser(),
)
agent.run()
就这么简单!Agent 会自动识别搜索框、点击搜索、翻页、提取数据,完全不需要写 selector。更重要的是,即使平台 UI 更新了,只要视觉上能识别,Agent 依然能正常工作。
Agent 类里默认隐藏了三件事,这三块是任何浏览器 Agent 框架都绕不开的地基:
内置的 LLM 客户端有 ChatBrowserUse、ChatGoogle、ChatAnthropic 几种。你可以接 gemini-3-flash-preview,可以接 claude-sonnet-4-6,也可以接它们自己训的 bu-30b-a3b-preview——这是一个 30B 的 MoE 模型,专门针对浏览器任务做了 RL,作为内置的默认选项。
换 LLM 就是换一行参数,不用重写 prompt:
# 用 Claude
from browser_use import ChatAnthropic
agent = Agent(
task="...",
llm=ChatAnthropic(model="claude-sonnet-4-6"),
browser=Browser(),
)
# 用 Gemini
from browser_use import ChatGoogle
agent = Agent(
task="...",
llm=ChatGoogle(model="gemini-3-flash-preview"),
browser=Browser(),
)
# 用自己训的模型
agent = Agent(
task="...",
llm=ChatBrowserUse(model="bu-30b-a3b-preview"),
browser=Browser(),
)
中文社区到现在大多还在把 Browser Use 介绍成"Playwright + LLM 的封装",这个说法在 0.12.3 之后已经过时了。
2026-03-23 发布的 0.12.3 版本,官方 release notes 直接写明:基于 CDP 持久后台 daemon,不再走 Playwright。
这带来了什么变化?
Playwright 的设计假设是"你有一段脚本,要跑一遍",每次调用要起 context、关闭再重启,对一个常驻 Agent 来说额外开销很重。
想象一下这个场景:你有一个 Agent 要处理 100 个连续的任务,每个任务需要 10 步操作。用 Playwright 的话,每一步都要:
而且 Playwright 是一个独立的进程,和浏览器之间还有 IPC 开销。这一套流程走下来,每一步都要几百毫秒,token 用量也大得吓人。
CDP(Chrome DevTools Protocol)是浏览器原生的远程控制协议——Chrome DevTools 自己就是通过 CDP 和浏览器通信的。
你打开 Chrome DevTools 按 F12,看到的 Elements、Console、Network 面板,本质上都是通过 CDP 从浏览器获取数据、发送指令的。
Browser Use 现在直接对 Chrome 发指令,省掉了 Playwright 这层抽象。这就像你之前要通过翻译和外国人交流,现在直接会说外语了,效率肯定更高。
token 用量减少 50% 这个数字值得拆开看。
Playwright 路径下,每一步 Agent 都要把当前页面 DOM、actions API 文档、错误回执塞给 LLM。比如一个复杂的电商页面,DOM 可能有几万行,全部塞给 LLM 就是好几千 token。
daemon 模式下,浏览器状态由 CDP 直接维护,LLM 只需要看到页面摘要和动作结果——上下文可以做更激进的裁剪。
举个具体的例子:
Playwright 路径(旧方案):
[页面 DOM:15000 行 → 8000 tokens]
[actions API 文档:2000 tokens]
[上一步错误回执:500 tokens]
[当前任务:100 tokens]
总计:10600 tokens
CDP daemon 模式(新方案):
[页面摘要(accessibility tree + 视觉标注):2000 tokens]
[上一步动作结果:300 tokens]
[当前任务:100 tokens]
总计:2400 tokens
差了 4 倍多!当然这是极端情况,官方说的 50% 是平均水平,但也足够惊人了。
对长任务来说,省下来的就是钱。假设你有一个 Agent 每天跑 1000 步,每步省 1000 tokens,用 GPT-4o 的话就是每天省 10 美元,一个月就是 300 美元。
某 SaaS 公司的客服系统每天需要处理 500 个工单,之前的做法是:
升级到 Browser Use 0.12 之后:
外界讨论 Gemini 3 Computer Use 大多停留在"Google 也有 computer use 了",但 Browser Use 这次适配的真正重点在另一处。
官方 demo 是一个表单填写 Agent,它放弃了 CSS selector 这条路,改用 Gemini 3 的多模态视觉能力,直接在截图上识别"这是用户名输入框""这是上传按钮"。然后把结构化 JSON 数据映射到复杂输入控件,自主处理文件上传,并能稳定跨多步表单和 cross-origin iframe。
CSS selector 在 SaaS 表单里向来是黑洞:
button_abc123 → button_def456举个真实的例子,某电商平台的登录按钮 selector 是这样的:
#app > div:nth-child(2) > div > div > div:nth-child(1) > div > div:nth-child(3) > button:nth-child(2)
这种 selector 别说维护了,写出来都费劲。而且平台只要稍微改一下布局,第 2 个 div 变成第 3 个,整个脚本就崩了。
视觉识别绕开了这层脆弱性——只要肉眼能看见,模型就能定位。
Stripe 的支付表单、Auth0 的登录组件、Salesforce 的嵌入式 widget,过去都需要单独维护 selector 兜底逻辑,视觉路径下这部分代码可以直接删掉。
某金融公司需要自动化处理用户开户申请,流程是这样的:
之前用 Playwright 做的时候:
用 Browser Use + Gemini 3 视觉模式之后:
from browser_use import Agent, Browser, ChatGoogle
agent = Agent(
task="""
帮我完成一个开户申请:
1. 打开 https://bank.example.com
2. 登录账号:admin@example.com,密码:******
3. 进入开户系统
4. 填写用户信息:
- 姓名:张三
- 身份证号:110101199001011234
- 手机号:13800138000
- ...(其他字段)
5. 上传身份证照片:/path/to/id_card.jpg
6. 提交申请
7. 把申请编号保存到 result.txt
""",
llm=ChatGoogle(model="gemini-3-flash-preview"),
browser=Browser(),
)
agent.run()
结果:
当然,天下没有免费的午餐。视觉识别的代价是延迟和 token 成本。
每一步都要截图、上传、推理。一次完整的表单填写从 5 秒变到 15-20 秒是常态。
这就是为什么 0.12.6 里专门修了一个 heavy page DOM cap——当页面特别大的时候,自动切换回 DOM 模式,平衡速度和准确率。
所以最佳实践是:
除了技术架构的升级,Browser Use 还提供了云浏览器服务,这个功能才是真正的杀手锏。
用法 1:一键使用 Browser-Use 云浏览器
from browser_use import Agent, Browser, ChatBrowserUse
# 简单:一键开启云浏览器
browser = Browser(
use_cloud=True, # 自动分配云浏览器
)
agent = Agent(
task="去 GitHub 搜 browser-use 并截图首页",
llm=ChatBrowserUse(),
browser=browser,
)
agent.run()
用法 2:配置云浏览器参数
browser = Browser(
use_cloud=True,
cloud_profile_id='your-profile-id', # 可选:特定浏览器配置(比如已经登录好的)
cloud_proxy_country_code='us', # 可选:代理位置(us, uk, fr, it, jp, au, de, fi, ca, in)
cloud_timeout=30, # 可选:会话超时时间(分钟)
)
用法 3:用第三方云浏览器的 CDP URL
browser = Browser(
cdp_url="http://remote-server:9222" # 从任何云浏览器服务商获取 CDP URL
)
文档里直接写了:Using this settings can bypass any captcha protection on any website(用这些设置可以绕过任何网站的验证码保护)。
这意味着什么?你再也不用:
云浏览器会帮你搞定这一切。
某跨境电商公司需要监控美国、欧洲、日本等 10 个国家的竞品价格,遇到的问题是:
用 Browser Use 云浏览器之后:
from browser_use import Agent, Browser, ChatBrowserUse
# 美国站点
browser_us = Browser(
use_cloud=True,
cloud_profile_id='us-profile', # 已经登录好美国站点的配置
cloud_proxy_country_code='us',
)
# 日本站点
browser_jp = Browser(
use_cloud=True,
cloud_profile_id='jp-profile', # 已经登录好日本站点的配置
cloud_proxy_country_code='jp',
)
# 德国站点
browser_de = Browser(
use_cloud=True,
cloud_profile_id='de-profile', # 已经登录好德国站点的配置
cloud_proxy_country_code='de',
)
这样一来:
除了解决验证码,云浏览器还有这些好处:
✅ 无需本地浏览器 setup:不用装 Chrome、不用配置驱动、不用处理版本兼容
✅ 可扩展的云基础设施:想同时跑 100 个 Agent?没问题
✅ 自动 provisioning 和 teardown:用完自动销毁,不用担心资源泄漏
✅ 内置认证处理:浏览器配置可以保存登录状态
✅ 针对浏览器自动化优化:比自己搭的浏览器更稳定
✅ 全球代理支持:us, uk, fr, it, jp, au, de, fi, ca, in,覆盖主要市场
0.12 版本同时带来了 CLI 2.0,这是一个容易被忽略但非常重要的功能。
CLI 2.0 支持把自己挂成 Claude Code 或 Codex 的 skill,等于把浏览器变成了 coding agent 的一只手——你的 Claude Code 会话里直接多出"打开网页、读页面、点按钮"这几个原生能力。
或者:
这才是真正的 AI 辅助编程!
Browser Use 正在从"Playwright 上面的 LLM 封装"变成"直接坐在 CDP 上的浏览器自动化基础设施"。这个变化对工具链上下游的影响,比 LLM 适配本身大得多。
让我们回顾一下 0.12 版本的核心变化:
如果你之前觉得浏览器自动化太难、成本太高,现在是时候重新看看 Browser Use 了。
去 GitHub 搜一下"browser-use",clone 下来,跑一下那个四行代码的示例——你会惊讶于它的简单和强大。
毕竟,四行代码就能跑的 Agent,谁不想试试呢?
参考链接:
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2026-05-07
本地部署这件事,终于被国产开源AI做明白了!
2026-05-07
多模型管理太麻烦?手把手教你本地搭建这个开源 AI 网关!
2026-05-06
Ollama 换引擎,苹果 M5 封神了
2026-05-06
DeepSeek V4 Pro桌面应用来了:1.6T参数,MIT协议开源
2026-05-04
开源!OpenClaw 桌面版 v0.4.0,对话、文件、模型与工具配置全面升级
2026-04-29
海外著名投资人的内部 AI 工具,才是真干货
2026-04-28
实测了 DeepSeek V4 后,我的评价是...
2026-04-26
Linux基金会背书 Goose:全能型本地 AI Agent 杀手,一键接管你的所有工作流!
2026-03-30
2026-04-03
2026-03-23
2026-04-09
2026-03-31
2026-02-14
2026-02-18
2026-03-03
2026-02-22
2026-04-01
2026-04-22
2026-04-21
2026-04-15
2026-04-09
2026-04-01
2026-03-17
2026-03-13
2026-03-02