我要投稿

Reader：5.1k星星！用大模型将网页内容转化成格式化的知识库

发布日期：2024-06-10 18:29:03 浏览次数： 4421

作者：开源AI项目落地

微信搜一搜，关注“开源AI项目落地”

项目简介

Jina AI的Reader项目是一个强大的工具，它通过简单的URL前缀转换，将任何网页内容转化为对大型语言模型（LLM）友好的输入格式。

Reader主要提供两个功能：阅读和搜索。

通过“阅读”功能，用户可以将网页内容转换成优化后的格式，以提高语言代理和可检索生成模型的输出质量。而“搜索”功能则允许用户查询并直接获取网络上的最新信息，自动格式化为LLM友好的形式。这两个功能都是免费、稳定且可扩展的，适用于生产环境。

DEMO

用Reader把github上的页面转换成了结构化的内容，信息非常完善，可以用于批量的内容抓取工作。

实际应用

Reader可以应用于多种场景，包括：

1.内容摘要和转换：将网页内容转换成对语言模型友好的格式，便于内容的进一步处理和分析。

2.信息检索：通过特定的URL前缀查询，快速获取网络上的信息，并自动将其格式化，使其更易于语言模型的处理和理解。

3.增强学习和研究：为学术研究或机器学习模型提供更准确、更结构化的数据输入。

4.内容审核和分析：自动抓取网页内容，进行内容审核或情感分析，有助于监测和评估网络上的信息。

这些功能使Reader成为处理和优化网络内容的有力工具，特别适用于需要高效信息处理的环境。

用法

1.单个URL获取：

使用r.jina.ai可以简化单个URL的处理。只需在任何URL前添加 https://r.jina.ai/。

例如，要将URL“https://en.wikipedia.org/wiki/Artificial_intelligence” 转换为LLM（大型语言模型）友好的输入，可以使用以下URL:

https://r.jina.ai/https://en.wikipedia.org/wiki/Artificial_intelligence。

这个服务会自动为缺少alt标签的页面图片添加说明，并通过视觉语言模型（VLM）进行格式化。

2.网络搜索：

使用s.jina.ai进行网络搜索时，只需在搜索查询前添加 https://s.jina.ai/。如果在代码中使用，应确保先对搜索查询进行编码。

例如，如果查询是“Who will win 2024 US presidential election?”，则URL应该是：https://s.jina.ai/Who%20will%20win%202024%20US%20presidential%20election%3F。

在幕后，Reader会搜索网络，获取前5个结果，访问每个URL，并应用r.jina.ai技术。这与许多只返回搜索引擎API提供的标题、URL和描述的代理/RAG框架中的网页搜索功能调用不同。

如果你想更深入地阅读某个结果，Reader会自动为你从顶部5个搜索结果的URL中获取内容，无需你自己处理浏览器渲染、阻塞或任何与JavaScript和CSS相关的问题。

3.交互式代码片段生成器

推荐使用代码生成器来探索Reader API的不同参数组合。

4.JSON模式

①使用 curl 获取 JSON 数据：

代码示例：

curl -H "Accept: application/json" https://r.jina.ai/https://en.m.wikipedia.org/wiki/Main_Page

此命令通过 curl，设置 HTTP 头部为 Accept: application/json，向 r.jina.ai 发送请求，并通过该服务访问维基百科主页，返回的数据格式为 JSON，包含 url、title 和 content 三个字段。

②s.jina.ai API 结构：

在 JSON 模式下，s.jina.ai 返回一个包含五个结果的列表，每个结果均以字典形式组织，包括 title、content 和 url 三个字段。这说明 s.jina.ai 更适合于处理搜索请求，返回的是多个相关搜索结果的数据结构。

安装

为了运行项目，你需要准备以下工具和步骤：

1.Node.js v18: 使用Node版本18，因为更高版本可能导致构建失败。

2.Firebase CLI:需要全局安装Firebase命令行工具，可以使用以下命令进行安装：

npm install -g firebase-tools

3.克隆项目代码库:

git clone [email protected]:jina-ai/reader.git

4.安装后端依赖:

·进入后端功能目录：

cd backend/functions

·安装所需的npm依赖：

npm install

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2026-01-13

ISON：比JSON节省70% token的数据格式，专为LLM设计

2026-01-13

别再造Agent了！关于Agent Skills的详细总结来了

2026-01-13

美团龙猫LongCat技术升级！新注意力机制解码速度快10倍，还能处理1M超长文本

2026-01-13

再见了 H100！刚刚 DeepSeek 甩出王炸：显卡不够内存凑，堆 CPU 就能无限扩展“知识库”！

2026-01-13

Anthropic 万字长文：AI Agent 评估体系全解析

2026-01-13

Claude 的新功能 Cowork：让 AI 真正帮你干活

2026-01-13

Claude Cowork 重磅发布：整理文件、做表格、写报告，全包！

2026-01-13

Google 宣布将 Opal 集成进 Gemini Gem里现在你可以在 “Gems 管理器”中直接使用Opal开发应用

联系获取

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

马斯克 Grok imagine 完整使用指南：工具、案例、提示词，看这一篇就够了！

2025-10-26

我挖到Gemini 3.0 Pro十大隐藏玩法，做网页已经落后N个版本了

2025-11-19

2025-10-20

深度体验TRAE SOLO 正式版，总结一点技巧(附完整可重现提示词和源码)

2025-11-13

从spec-kit到OpenSpec：规格驱动开发如何解决项目迭代痛点？

2025-10-18

实测｜DeepSeek-V3.2-Exp三大升级：长文本、多轮对话、开发支持

2025-10-21

我错了，Gemini 做PPT不是“一般”，是“封神”。（尤其挖到第3层功能后…）

2025-11-03

ima 2.0升级：任务模式上线，一键激活2亿知识文件

2025-10-23

OpenAI 发布了浏览器 Altas，一手实测来了

2025-10-22

几乎都在挂羊头卖狗肉，AI Agent的泡沫现在到底有多大？

2025-10-20

大家都在问

Anthropic工程实践：AI Agent如何连续工作数天完成复杂项目？

2026-01-12

如何用AI表格低门槛手搓一个业务系统？

2026-01-12

你的Excel已觉醒！AI-by-Hand-Excel如何将普通表格变成超级智能助手？

2026-01-11

独家实录｜唐杰、杨植麟、林俊旸、姚顺雨...All Star 对话上，大家聊了啥？

2026-01-10

Anthropic突然封禁第三方工具调用Claude，Cursor、OpenCode、xAI 集体“中枪”！项目做到一半突遭中断，官方解释是“误伤”？

2026-01-10

马斯克杀疯了！xAI官宣200亿美元融资，这次真能“干翻”OpenAI？

2026-01-08

2025四大AI怎么选？每月20美金，谁能当你的“全能外挂”？

2026-01-02

AGI的终极形态，是分布式集体智能？

2025-12-31

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS 提示词框架提示词技巧 AI+电商 AI面试数字员工 ChatBI AI知识库开源大模型智能营销智能硬件智能化改造 AI+医疗 MaxKB Palantir Glean