我要投稿

5.2k星星爆火开源！你的知识库迎来了史诗级更新，「像素级原生搜索」来了

发布日期：2026-06-25 21:48:19 浏览次数： 1526

作者：开源AI项目落地

微信搜一搜，关注“开源AI项目落地”

做知识库都要用到RAG，之前的做法是先把网页、PDF、文档解析成文本，再切块、向量化、检索、交给大模型回答。

这个流程对纯文本内容很有效，但一旦遇到表格、图表、版式、信息图、复杂网页布局，就很容易丢失关键信息。

今天给大家推荐一个像素级原生搜索的RAG。

这项目思路很有趣，既然人类理解网页时是看页面，为什么AI检索一定要先把页面拆成文本，完全可以把网页和文档渲染成截图，再基于图像内容进行检索，让模型保留页面原本的视觉结构。

项目简介

PixelRAG是一个像素原生的开源视觉RAG项目，把网页、PDF、图片等文档渲染成截图切片，并直接对这些图像建立向量索引和检索，从而让大模型能够利用表格、图表、布局、信息图等传统文本解析容易丢失的信息来回答问题。

不仅按文本内容搜索文档，还能按文档看起来是什么样来搜索。

DEMO

为了展示像素原生检索的威力，官方做了个很牛的演示，来证明这套方案行得通。

直接截了2800多万张维基百科的图片。

比如搜元素周期表。

只要2秒就完成了。

说这个方案更好，但不一定是更便宜，因为这2800w张图片的向量化不是我去做的，我也不知道成本如何。

传统RAG的那种信息、样式丢失的感觉真的很不好。

现在直接就可以搜出来有样式的内容，就非常好。

如果要对数据进行处理，就用视觉模型来做下一步了。

功能特点

1. 以截图替代文本解析

PixelRAG的核心不是先把网页HTML或PDF解析成纯文本，而是把页面渲染成截图切片。这样可以最大程度保留页面原始的视觉信息，比如表格结构、图表位置、页面布局、字号层级和信息密度。

2. 更适合处理复杂视觉文档

传统RAG在处理复杂表格、图表、论文截图、仪表盘、网页报告时，经常会因为解析失败或结构丢失而答错。PixelRAG通过视觉检索，让模型看到更接近人眼观察到的页面内容，适合处理视觉结构强的知识材料。

3. 支持网页、PDF和图片等多种输入

项目提供pixelshot命令，可以把网页、PDF、本地文件渲染成截图tiles。用户可以对单个网页截图，也可以把本地文档批量转成可检索的视觉数据。

4. 内置完整检索流水线

PixelRAG不只是截图工具，还提供从文档渲染、切块、嵌入、构建 FAISS 索引到启动搜索API的完整流程。

5. 使用视觉嵌入模型进行检索

使用经过网页截图数据LoRA微调的Qwen3-VL-Embedding模型，把页面截图嵌入到可检索的向量空间中。相比普通文本向量，这种方式更适合检索页面里的视觉内容。

6. 可作为 Claude Code 插件使用

PixelRAG提供pixelbrowse插件，让Claude Code可以通过截图方式查看网页，不是只读取网页HTML。这样AI就可以更好地理解网页里的图表、表格和页面排版。

项目链接

https://github.com/StarTrail-org/PixelRAG

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2026-06-25

1.5K Star！网页提取神器 webclaw：让 AI 精准抓取网页核心内容！

2026-06-25

聊一聊检索即推理：基于LLM-Wiki的自演化智能体原生检索

2026-06-24

企业级 Agent 最缺的不是聪明，是"不敢编"——企查查智能体数据平台的三层反幻觉工程

2026-06-24

别再怪向量检索不行！90% RAG 检索拉胯，都是关键词提取在拖后腿

2026-06-24

别再把 RAG 当搜索框了：Bayer 这套 Agentic RAG，把上下文、反思、恢复和评测全焊进生产系统

2026-06-24

上生产GraphRAG的重活，SAG请外援解决了

2026-06-23

RAG之后，知识库开始自己长大

2026-06-23

AI 知识库开始分叉：LLM Wiki 和 GBrain 真正的差别

联系获取

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

全网爆火的大模型AI知识库，保姆级教程来了

2026-04-06

Karpathy的LLM Wiki + 3.5 万Star的Graphify：企业级 RAG 缺的真是知识图谱？

2026-04-27

RAG进化了，深扒Claude Code源码中RAG高级技巧

2026-04-02

2026 年做搜索就是做 Agent Memory

2026-04-23

OpenDataLoader：PDF文档提取的一站式方案

2026-03-31

Codeindex · 让大模型更好地理解你的代码

2026-04-20

阿里云百炼「记忆库」正式上线，让龙虾真正记住你！

2026-04-09

YC CEO 的 AI 记住了 3000 个人

2026-04-12

专题解读 | 可更新的检索增强知识库发展方向及进展

2026-04-22

AI 答疑助手优化实践：从 RAG 到 LightRAG 的全链路升级

2026-04-10

大家都在问

谷歌发布OKF（Open Knowledge Format）规范，它与Karpathy的LLM-wiki是什么关系？

2026-06-23

RAG 的尽头，是 SQL？

2026-06-23

RAG运维如何用好Loop Engineering？Milvus 3.0 对它有什么价值？

2026-06-15

如何构建一个更“好”的知识库？

2026-06-10

企业 RAG 知识库落地，应如何设计实现？

2026-06-10

AIOps探索：给不能联网的客户做一个AI运维助手到底有多难？

2026-05-20

有多少人把Agent与RAG的检索策略，简化成了 if-else？

2026-05-18

到底是谁会相信RAG已死啊？

2026-05-11

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS Skill 提示词技巧 AI+电商 AI面试数字员工 ChatBI AI知识库开源大模型智能营销智能硬件 FDE AI+医疗 MaxKB Palantir Glean Openclaw