微信扫码
添加专属顾问
我要投稿
还在为网页抓取烦恼吗?webclaw帮你轻松搞定,让AI精准获取核心内容,效率提升20倍!核心内容:1. webclaw如何通过九步优化流水线,减少90%无效信息2. 极速响应:TLS层面模拟浏览器,性能远超传统方案3. 原生MCP支持,无缝集成AI工作流
最近在做一个 RAG 项目,需要把大量技术文档喂给大模型。
一开始用的是常规的网页抓取方案,结果抓回来的内容简直惨不忍睹——导航栏、页脚、广告、脚本代码混在一起,50000 token 的 HTML 里真正有用的内容不到 800 token。
更气人的是,有些网站还加了 Cloudflare 防护,直接返回 403 或者验证码页面。用 Playwright 跑无头浏览器吧,又慢又重,一个请求要等好几秒。
在 GitHub 上翻了无数项目,试过了 trafilatura、newspaper3k、readability 等等,效果都差强人意。
直到发现了 webclaw,简直是打开了新世界的大门!
webclaw 是一款专为 AI 工作流打造的高性能网页提取工具。
它的核心目标很简单:把网页转成干净、结构化、适合大模型使用的内容。
不同于传统的网页抓取工具,webclaw 从底层重新设计了整个提取流程。它用 Rust 编写,通过 TLS 指纹模拟浏览器行为,在不启动真正浏览器的情况下就能绕过大多数反爬机制。
提取引擎会自动识别并剔除导航栏、广告、脚本等无用信息,只保留核心正文内容。
这是 webclaw 最惊艳的特性。原始 HTML 页面通常包含大量的导航链接、CSS 样式、脚本代码、重复的页脚内容等。
这些信息对人类阅读来说是必要的,但对 AI 模型来说纯粹是浪费 token。
webclaw 的提取引擎采用九步优化流水线,通过文本密度、语义标签、链接比例、位置信息、上下文相关性等多种指标对 DOM 节点进行综合评分。
导航栏、广告、页脚、评论区等低分值节点会被自动剔除,而文章正文、标题、图片说明等高分值节点会被保留并整理。
传统的网页抓取方案(如 Playwright、Selenium)需要启动完整的浏览器实例,加载整个渲染引擎、JavaScript 引擎、CSS 解析器等,每个请求耗时 2-3 秒甚至更久。
这对于需要频繁访问网页的 AI Agent 来说是无法接受的——用户无法容忍等待几秒才能得到回答。
webclaw 采用完全不同的思路:它不启动浏览器,而是在 TLS 层面模拟浏览器行为。TCP 握手、加密套件、扩展信息、指纹特征等全部模拟 Chrome 142 的行为,让反爬系统误以为是真实用户访问。
这种方式带来了惊人的性能提升:
webclaw 内置了 MCP(Model Context Protocol)服务器,这意味着它可以直接接入 Claude Code、Cursor、Windsurf、OpenCode、Codex 等主流 AI 工具,无需编写任何适配代码。
MCP 是连接 AI 模型和外部工具的标准协议,通过统一的接口规范,AI Agent 可以调用各种工具而无需了解底层实现细节。
只需一行命令即可完成配置:
npx create-webclaw这个命令会自动检测你安装的 AI 工具,并为每个工具生成相应的配置文件。配置完成后,重启你的 AI 工具,webclaw 的所有功能就会自动可用。
安装后,你的 AI Agent 就能直接执行网页抓取、站点爬取、内容对比、品牌信息提取等操作。
现代网站普遍使用 Cloudflare、Akamai、DataDome 等反爬系统。这些系统会检查 TLS 指纹、浏览器特征等,普通的 HTTP 请求很容易被拦截。
webclaw 通过 primp 库在底层模拟 Chrome 的 TLS 指纹,使得请求看起来完全像来自真实浏览器。对于需要 JavaScript 渲染的页面,webclaw 会自动检测并切换到渲染路径,无需手动配置。
webclaw 支持多种输出格式:
markdown | |
llm | |
text | |
json | |
html |
其中 llm 格式特别值得一提,它会进一步去除重复链接、空段落等,是喂给 RAG 系统的最佳选择。
npx create-webclaw这个命令会自动检测你安装的 AI 工具(Claude Code、Cursor、Windsurf 等)并完成配置。
brew tap 0xMassi/webclaw
brew install webclaw从 GitHub Releases 页面下载 macOS 或 Linux 二进制文件:
https://github.com/0xMassi/webclaw/releases
docker run --rm ghcr.io/0xmassi/webclaw https://example.com基础提取
# 提取单页内容(默认 markdown 格式)
webclaw https://example.com
# 指定输出格式
webclaw https://example.com --format markdown
webclaw https://example.com --format llm
webclaw https://example.com --format json只保留主内容
webclaw https://example.com/blog/post --only-main-content自定义选择器
webclaw https://example.com \
--include "article, main, .content" \
--exclude "nav, footer, .sidebar, .ad"爬取文档站
webclaw https://docs.rust-lang.org --crawl --depth 2 --max-pages 50提取品牌信息
webclaw https://github.com --brand页面变化对比
# 保存快照
webclaw https://example.com/pricing --format json > pricing-old.json
# 对比变化
webclaw https://example.com/pricing --diff-with pricing-old.jsonTypeScript
import { Webclaw } from "@webclaw/sdk";
const client = new Webclaw({ apiKey: process.env.WEBCLAW_API_KEY! });
const page = await client.scrape({
url: "https://example.com",
formats: ["markdown"],
only_main_content: true,
});
console.log(page.markdown);Python
from webclaw import Webclaw
client = Webclaw(api_key="wc_your_key")
page = client.scrape(
"https://example.com",
formats=["markdown"],
only_main_content=True,
)
print(page.markdown)webclaw 是一款真正理解 AI 工作流需求的网页提取工具。它从底层重新设计了网页提取流程,通过 TLS 指纹模拟、智能内容评分、多格式输出等特性,解决了传统抓取工具存在的三大痛点:
痛点一:抓不到——反爬防护
痛点二:抓不干净——大量噪声
痛点三:抓了没用——格式不适合 AI
如果你正在构建 RAG 系统、AI Agent,或者需要定期抓取网页内容,webclaw 值得一试!
GitHub:https://github.com/0xMassi/webclaw
如果本文对您有帮助,也请帮忙点个 赞👍 + 在看 哈!❤️
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2026-06-25
聊一聊检索即推理:基于LLM-Wiki的自演化智能体原生检索
2026-06-24
企业级 Agent 最缺的不是聪明,是"不敢编"——企查查智能体数据平台的三层反幻觉工程
2026-06-24
别再怪向量检索不行!90% RAG 检索拉胯,都是关键词提取在拖后腿
2026-06-24
别再把 RAG 当搜索框了:Bayer 这套 Agentic RAG,把上下文、反思、恢复和评测全焊进生产系统
2026-06-24
上生产GraphRAG的重活,SAG请外援解决了
2026-06-23
RAG之后,知识库开始自己长大
2026-06-23
AI 知识库开始分叉:LLM Wiki 和 GBrain 真正的差别
2026-06-23
谷歌发布OKF(Open Knowledge Format)规范,它与Karpathy的LLM-wiki是什么关系?
2026-04-06
2026-04-27
2026-04-02
2026-03-31
2026-04-23
2026-04-20
2026-04-09
2026-04-12
2026-04-22
2026-04-10
2026-06-23
2026-06-23
2026-06-15
2026-06-10
2026-06-10
2026-05-20
2026-05-18
2026-05-11