微信扫码
添加专属顾问
我要投稿
项目简介
Jina AI的Reader项目是一个强大的工具,它通过简单的URL前缀转换,将任何网页内容转化为对大型语言模型(LLM)友好的输入格式。
Reader主要提供两个功能:阅读和搜索。
通过“阅读”功能,用户可以将网页内容转换成优化后的格式,以提高语言代理和可检索生成模型的输出质量。而“搜索”功能则允许用户查询并直接获取网络上的最新信息,自动格式化为LLM友好的形式。这两个功能都是免费、稳定且可扩展的,适用于生产环境。
DEMO
用Reader把github上的页面转换成了结构化的内容,信息非常完善,可以用于批量的内容抓取工作。
实际应用
Reader可以应用于多种场景,包括:
1.内容摘要和转换:将网页内容转换成对语言模型友好的格式,便于内容的进一步处理和分析。
2.信息检索:通过特定的URL前缀查询,快速获取网络上的信息,并自动将其格式化,使其更易于语言模型的处理和理解。
3.增强学习和研究:为学术研究或机器学习模型提供更准确、更结构化的数据输入。
4.内容审核和分析:自动抓取网页内容,进行内容审核或情感分析,有助于监测和评估网络上的信息。
这些功能使Reader成为处理和优化网络内容的有力工具,特别适用于需要高效信息处理的环境。
用法
1.单个URL获取:
使用r.jina.ai可以简化单个URL的处理。只需在任何URL前添加 https://r.jina.ai/。
例如,要将URL“https://en.wikipedia.org/wiki/Artificial_intelligence” 转换为LLM(大型语言模型)友好的输入,可以使用以下URL:
https://r.jina.ai/https://en.wikipedia.org/wiki/Artificial_intelligence。
这个服务会自动为缺少alt标签的页面图片添加说明,并通过视觉语言模型(VLM)进行格式化。
2.网络搜索:
使用s.jina.ai进行网络搜索时,只需在搜索查询前添加 https://s.jina.ai/。如果在代码中使用,应确保先对搜索查询进行编码。
例如,如果查询是“Who will win 2024 US presidential election?”,则URL应该是:https://s.jina.ai/Who%20will%20win%202024%20US%20presidential%20election%3F。
在幕后,Reader会搜索网络,获取前5个结果,访问每个URL,并应用r.jina.ai技术。这与许多只返回搜索引擎API提供的标题、URL和描述的代理/RAG框架中的网页搜索功能调用不同。
如果你想更深入地阅读某个结果,Reader会自动为你从顶部5个搜索结果的URL中获取内容,无需你自己处理浏览器渲染、阻塞或任何与JavaScript和CSS相关的问题。
3.交互式代码片段生成器
推荐使用代码生成器来探索Reader API的不同参数组合。
4.JSON模式
①使用 curl 获取 JSON 数据:
代码示例:
curl -H "Accept: application/json" https://r.jina.ai/https://en.m.wikipedia.org/wiki/Main_Page
此命令通过 curl,设置 HTTP 头部为 Accept: application/json,向 r.jina.ai 发送请求,并通过该服务访问维基百科主页,返回的数据格式为 JSON,包含 url、title 和 content 三个字段。
②s.jina.ai API 结构:
在 JSON 模式下,s.jina.ai 返回一个包含五个结果的列表,每个结果均以字典形式组织,包括 title、content 和 url 三个字段。这说明 s.jina.ai 更适合于处理搜索请求,返回的是多个相关搜索结果的数据结构。
安装
为了运行项目,你需要准备以下工具和步骤:
1.Node.js v18: 使用Node版本18,因为更高版本可能导致构建失败。
2.Firebase CLI:需要全局安装Firebase命令行工具,可以使用以下命令进行安装:
npm install -g firebase-tools
3.克隆项目代码库:
git clone [email protected]:jina-ai/reader.git
4.安装后端依赖:
·进入后端功能目录:
cd backend/functions
·安装所需的npm依赖:
npm install
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2025-09-12
运维老王:创业第十年,我用Elevo找回内心翻腾的梦想
2025-09-12
大模型可观测1-5-10:发现、定位、恢复的三层能力建设
2025-09-12
Qwen3-Next:用混合注意力和高稀疏 MoE 把训练与推理成本打下来
2025-09-12
阿里推出夸克医疗大模型:医考70%高分背后,RAG为何是“压舱石”?
2025-09-12
GPT-4o-mini 调用参数终极优化手册
2025-09-12
刚刚,ChatGPT支持MCP了!一句Prompt即可全自动化
2025-09-11
阿里云,这次杀疯了,断档第一
2025-09-11
利用抽象语法树AST提升代码问答的深度与精度(下)
2025-08-21
2025-06-21
2025-08-21
2025-08-19
2025-06-19
2025-06-15
2025-07-29
2025-09-08
2025-08-19
2025-08-20
2025-09-12
2025-09-11
2025-09-11
2025-09-09
2025-09-09
2025-09-08
2025-09-08
2025-09-07