微信扫码
添加专属顾问
我要投稿
Dify 2.0带来知识管道功能,RAG开发效率翻倍提升,文档处理从此更智能高效。 核心内容: 1. Dify 2.0预览版升级指南与注意事项 2. 知识管道功能详解与使用场景 3. 七种内置流水线模式及其适用场景
上个月就给大家同步了dify的下一个工作,rag2.0,当时我和他们的产品聊过rag2.0,核心的rag不会变动太多(dify本身rag能力够用,问题最多的在于文档格式)。主要是数据解析这块,以流水线的方式处理文档。 也叫知识管道。
上周dify发布了1.8.1以后,随后又发布了预览版dify 2.0.0 作为dify的大版本升级,更新的内容会比较多,如果是生产环境,建议先不要升级,等到正式发布以后再动,如果只是体验,可以直接升级。
注意,注意,注意,升级前一定要先备份一下。
.git/config里的地址改为dify的。# 只拉取指定的tag
git fetch origin tag 2.0.0-beta.2
# 创建一个2.0.0-beta的分支
git checkout -b 2.0.0-beta 2.0.0-beta.2
docker compose down
docker compose up -d
#执行2.0升级命令,分组名称,默认是docker-api-1 我命名为dify了
docker exec -it dify-api-1 uv run flask transform-datasource-credentials
在升级之前我们要么在后台直接上传文本处理知识库,要么在通过工作流或者代码直接调用api处理。在本次升级以后,官方直接把知识库的处理流程给开放了出来,并且提供了一些模板案例。
通过知识流水线创建知识库。知识管道创建有两种模式,一种是创建一个空白的管道自己配置,一种是利用官方内置流水线(Built-in Pipeline)。
先看下内置的流水线种类,以及作用。内置的知识流水线有以下七种:
1 | ||||
2 | ||||
3 | ||||
4 | ||||
5 | ||||
6 | ||||
7 |
需要注意的是,断网情况下这些内置流水线加载不出来。从日志上可以看到,先从官方加载,官方网络不通,直接从本地加载,我是一路升级过来的,数据库里应该没有对应的信息。
第一步配置数据源,多种形态第二步文档处理:这个示例里配置了两个处理器,一个是dify内置的文档解析器(Dify Extractor),一个是原来工作流节点的文档提取器。第三步:文本分块,这里使用的是dify 封装的通用分块器第四步:知识库配置,这里主要是配置索引方法和检索策略,这个和第三步紧密关联,第四步,分段结构没有必要,这个由第三步的分块器决定的,有这块配置反而增加了配置的复杂度。还不如直接根据第三步直接填写。从dify的示例来说,大都是父子分段的格式,从另外一个层面可以反映出来,复杂文档,父子分段的效果最好。
我再讲解两个复杂的案例。
这个是从模板4创建而来的。
第一步配置数据源,是上传的文本第二步文档处理:这里使用的是MINERU,除了MINERU还可以用其他的文档处理插件处理。第三步:文本分块,使用的是父子分块器第四步:知识库配置,这里主要是配置索引方法和检索策略,这个和第三步紧密关联,大家关闭梯子,去mineru的官网申请token就可以
https://mineru.net/apiManage/token
这个折腾了1个多小时,才显示出图片,需要注意,升级那里的配置图片显示。
第一步配置数据源,是上传的文本第二步文档处理:这里使用的是MINERU+LLM,我使用的qwen-vl.第三步:文本分块,使用的是父子分块器第四步:知识库配置,同上文档处理器是一个特殊的插件,官方示例里有下面几种:
在插件市场我们可以看到其他的插件,比如合合
目前dify官方支持三种分块器,其实就是知识库里的配置进行了抽取。
每个分块器都有不同的特点和使用场景。
分块器的设置,是在处理文档的时候进行设置,每个文档都可以自定义。
索引方式和检索设置参考原知识库设置即可。
关闭梯子
按照下面的内容配置以后,销毁并重启服务
.env配置
# 配置文件外网路径,自己本机ip或者域名
FILES_URL=http://10.1.0.65:5001
# 内网地址,不能配置,否则无法显示图片
INTERNAL_FILES_URL=docker-compose.yaml配置
# 我增加了name,不加,默认为docker
name: 'dify'
services:
# API service
api:
image: langgenius/dify-api:2.0.0-beta.2
ports:
- '${DIFY_PORTS:-5001}:5001' # 开放api的的端口,用于文件访问
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2025-10-30
Dify流程暂停与人工干预:3种实现方案+避坑指南
2025-10-16
告别升级噩梦:Dify 二次开发的无缝适配策略与实战案例(基于 v1.9.1)
2025-10-13
用Dify搭建企业知识库:5个实战技巧提升检索准确率90%
2025-10-13
Dify接口调用实战指南:从入门到精通的避坑手册,收藏了!
2025-10-12
Dify1.6.0升级1.9.1步骤及踩坑记
2025-10-10
用 Dify 零代码搭建 AI 用研助理,5分钟完成100个虚拟用户调研
2025-09-30
重大消息,刚刚Dify 1.9.1发布了!我们聊聊带来了哪些吸引人的功能特性?
2025-09-26
内网环境下Dify1.9.0版本镜像构建过程记录
2025-10-13
2025-09-03
2025-09-16
2025-09-06
2025-08-19
2025-09-23
2025-09-02
2025-08-18
2025-09-04
2025-10-12
2025-09-30
2025-09-23
2025-09-06
2025-09-05
2025-08-29
2025-08-18
2025-08-02
2025-07-30