免费POC, 零成本试错
AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


KnowFlow 无缝衔接 Dify,分块支持添加父标题、Title 切块支持自定义标题层级切割、图片理解新增支持上下文

发布日期:2025-10-29 23:03:10 浏览次数: 1529
作者:KnowFlow 企业知识库

微信搜一搜,关注“KnowFlow 企业知识库”

推荐语

KnowFlow v2.1.7重磅升级,三大功能优化让文档处理更智能高效!

核心内容:
1. 无缝对接Dify平台,提供插件和DSL模板简化接入流程
2. 分块功能全面升级,支持父标题添加和自定义标题层级切割
3. 图片理解能力增强,新增上下文关联提升识别准确率

杨芳贤
53AI创始人/腾讯云(TVP)最具价值专家

 

 

 

KnowFlow 无缝衔接 dify,分块支持添加父标题、Title 切块支持自定义标题层级切割、图片理解新增支持上下文

前言

新功能

KnowFlow v2.1.7 正式发布,本版本推出以下功能:

1. Dify 接入

为了方便 KnowFlow 更方便对接 Dify,我们提供了 Dify 插件以及 DSL 模板。这样开发者无需再去调试接口,便可以在 Dify 简单的通过配置实现 KnowFlow 和 Dify 的对接。

2. 分块优化

我们针对 MinerU/Dots 量身定制的 smart/title/parent_child 切块方法的标题做了统一优化,新增支持对分块内容添加父标题

对 title 切块支持自定义标题层级,用户可以选择 H1~H6 标题层级,切块时候严格依照标题层级切分。

3. 图片理解优化

v2.1.6 版本我们发布了以文搜图功能,但图片上下文信息并未送入到视觉模型,导致数据模型的图片识别脱离原文。 本版本我们会将图片关联的段落送给模型,实测下来图片理解功能大大增强。

缺陷修复

  1. 1. PPT 解析时候 re 报错问题
  2. 2. 修复 id:x 在极端情况下未显示引用的问题
  3. 3. 修复 datasets api 无法直接传入 smart/regex/title/parent_child 分块方法

优化

  1. 1. Mineru/Dots 图片和表格的 captiton 和图片/标题内容关联,避免被分割到不同块
  2. 2. chunk 的分块顺序由 top 更改为 mineru 解析的 block 顺序,适配论文等双栏布局场景

本版本同时将官网文档再次更新,提供了分块方法的使用案例以及 dify 对接使用相关说明,详情可移动到官网文档。

产品细节

dify 接入

为方便  Dify 对接到 KnowFlow,考虑到灵活性和扩展性,我们并不推荐 Dify 外接知识库方案,该方案存在一定的局限性。而是选择了直接调用 KnowFlow API。

1. 安装插件:为降低 API 调试成本,我们提供了 Dify API 插件,该插件已经封装好了 API。

2. 配置插件:用户只需要通过简单的插件配置,输入 API_KEY、URL、知识库 ID 信息,就可以无缝调用 API。

3. 导入 DSL:配置完插件后,在 Dify 平台需要解析 API 返回结果,并透传给大模型。为降低配置成本,我们提供了 DSL 可以一键导入,无需单独配置。

上述插件和 DSL 同样适用于 RAGFlow,极大的方便了 Dify 接入,不用代码调试,界面上简单配置即可。

分块标题优化

由于 MinerU/Dots 识别产物是 MarkDown ,其中 MarkDown 的标题对于文档结构信息的还原至关重要。我们对 MarkDown 标题进行统一优化,作用于 smart/title/parent_child 切片方法。

追加父标题: 对于任意切块,可以追加其所有的父标题,类似于 RAGFlow 新增的 Table Of Content 模式。实测上下文问题大大改善。

根据标题层级切割: 该功能也是客户使用产品过程中提出的,针对一些论文,规章制度类型的文档,往往标题下内容不多,相对规范,此时我们可以通过标题层级切割,支持用户在前端进行选择。

图片理解上下文

为了让视觉模型更好的识别到图片语义,我们将图片附近的段落提取给模型,提取的规则是:

  1. 1. 将图片所在标题范围内,与图片距离最近的 2 个段落作为备选。
  2. 2. 在上述段落里,通过正则匹配一些常见的关键字,比如图几这样的,如找到,优先返回该段落;如找不到,则返回全部段落

通过该规则,基本上可以满足大多数场景。

未来展望

本版本围绕产品体验,将产品不断打磨,使用户体验更加友好。近期在和客户交流的过程中,KnowFlow 的产品定位也瑜伽清晰:将结构化与非结构化数据治理成对大模型更可信的输入,构建面向未来的数据治理平台,重塑 AI 时代的数据根基。

基于此定位,后续我们将围绕以下产品方向进行迭代:

  • • 智能问数(含 excel 和各种数据库)
  • • 集成 RAG 的评估框架,对问答效果进行定量分析

开源

本项目社区版已更新至 v2.1.2 版本,支持 RBAC 以及 Dots 文档引擎接入。 欢迎关注公众号 KnowFlow 企业知识库 加入内部交流群,学习和分享 RAG 知识库。

 


53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询