微信扫码
添加专属顾问
我要投稿
将图片和PDF文档无缝整合进Dify知识库,MinerU工作流解决方案全解析。 核心内容: 1. 面对非文本资料的解析难题,MinerU如何助力Dify知识库 2. 部署MinerU-API,创建Dify知识库的前期准备步骤 3. 搭建工作流,实现文档解析与知识库创建的自动化流程
您是否正在遭遇以下困扰?有一个重要资料是纯图片格式,有一个文档是扫描版的PDF,想上传到dify的知识库做解析,可Dify根本读取不到。为了解决这个问题,我们可以使用MinerU来完美解决,让你的Dify知识库拥有解析图片的能力。本文将详细介绍一个工作流,使你的Dify知识库也拥有OCR的能力。
(本文Dify版本为1.3.1)
参考本公众号前两篇文章《在Dify中使用MinerU提取PDF》《MinerU-API | 支持多格式解析,进一步提升Dify文档能力》,获取MinerU-API代码,再用docker部署。本文就不再多赘述。
docker run -d --gpus all --network docker_ssrf_proxy_network --name mineru-api -v minerupaddleocr:/root/.paddleocr mineru-api:v0.3
创建一个Dify知识库,设定好基础的Embedding模型和Rerank模型
打开知识库,在地址栏里找到该知识库的ID,并记住它。
在知识库->API 界面,生成一个API密钥,用于接口调用。
整个工作流有三个代码块,分别用于处理接口参数、MinerU解析文档、创建Dify知识库文档
Process Parameters:用于处理接口参数,这边主要处理/datasets/{dataset_id}/document/create-by-text接口的参数。
MinerU提取:将PDF、图片转成Markdown格式的文本。
知识库-文档创建:调用Dify/datasets/{dataset_id}/document/create-by-text,在知识库中创建文档。Python代码如下:
import requests
def main(api_key,file_name,content, api_params, dataset_id):
headers = {
'Authorization': f'Bearer {api_key}',
'Content-Type': 'application/json',
}
api_params.update({
"name": file_name,
"text": content,
})
response = requests.post(
f'http://api:5001/v1/datasets/{dataset_id}/document/create-by-text',
headers=headers,
json=api_params,
)
return {"result":response.text}
以一份网页打印出的PDF文档为例,对比直传知识库,和使用MinerU工作流的效果。
很显然,通过直传知识库,虽然文档能上传成功,可是里面的内容用Dify原生的知识库能力,完全无法解析。
通过MinerU工作流创建文档,显然工作流成功执行,并且返回了接口调用结果。在知识库里查看一下。
文档创建以后,Dify会自动对文档进行索引。待文档索引完成后,进行召回测试。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2026-04-27
一个神奇的视频生成 Skills,实测,狂喜
2026-04-26
你的一人公司品牌部,带着Image-2模型的lovart中文版来了
2026-04-22
MNN-Sana-Edit-V2:端侧运行的图像漫画风编辑大模型
2026-04-22
刚刚!Codex 居然能直接画图了,OpenAI 凌晨甩出 Image 2.0
2026-04-21
PaddleOCR 3.5 发布:Web 端直用、文档一键转 Markdown,生态交互新体验
2026-04-21
用Claude Code剪视频,自动去口癖、加字幕、调色,完全免费开源
2026-04-15
刚刚,李飞飞最新成果发布,手机也能跑亿级粒子的 3D 世界了|附体验地址
2026-04-09
豆包「打电话」升级 Seeduplex:周围再吵,只认准你的声音
2026-04-22
2026-04-01
2026-03-05
2026-02-12
2026-02-27
2026-02-12
2026-03-11
2026-04-02
2026-03-18
2026-02-10
2026-03-12
2025-12-31
2025-08-04
2025-05-26
2025-05-13
2025-04-08
2025-04-05
2025-03-30