2026年7月9日 周四晚上19:30,报名腾讯会议了解“如何构建自进化的动态知识库(Brain)”(限30人)
免费POC, 零成本试错
FDE知识库

FDE知识库

学习大模型的前沿技术与行业落地应用


收藏

COZE知识库:探索使用方法与设计原则——图片元素在各类型知识库的应用

发布日期:2024-09-29 18:58:29 浏览次数: 3024
作者:宁哥说AI

微信搜一搜,关注“宁哥说AI”

在知识库中,无论是文本知识库、表格知识库还是专门的图片知识库都可以上传图片,我们需要通过一些实验尝试他们之间有什么不同,该在什么场景下使用哪种方案。

目录

  • 一、前言
    • 目的
    • 目标
  • 二、测试过程
  • 三、实验结果
    • 特点
    • 应用场景
    • 设计原则
    • 特点
    • 应用场景
    • 设计原则
    • 特点
    • 应用场景
    • 设计原则
    • 文本知识库中的图片
    • 表格知识库中的图片
    • 图片知识库中的图片

一、前言

目的

  • 了解图片在不同的知识库中有什么不同的作用,有什么相同的作用。
  • 了解在什么场景下该使用哪种方案。

目标

测试图片在文本知识库中的效果。测试图片在表格知识库中的效果。测试图片在图片知识库中的效果。

二、实验过程

实验1:图片在文本知识库中

在文本类型知识库中插入图片。

思考:知识库chunk的分割方案有两种(按知识点分割和按token数分割),图片在每个chunk中没有特殊标识,所以插入位置和分割方案都会对其产生影响。

实验1.1:在“按知识点分割”的chunk中插入图片,且插入在文本上方

用户输入

知识库执行结果

返回结果

结论

  1. 图片会因为次chunk被使用而显示

实验1.2:在“按知识点分割”的chunk中插入图片,且插入在文本下方

用户输入

知识库执行结果

返回结果

结论

  1. 虽然看似都能返回相同的结果,实则影响甚大,图片的插入位置影响的是知识库召回时匹配度的分值,图片在知识点上面时,匹配度分值更大,而在下面时更小,因此,我们如果需要给文本知识点配图,要将图片放在文本的上面。

实验1.3:在“按知识点分割”的chunk中插入多张图片,且都插入在文本上方

在上方插入了三张图片

用户输入

知识库执行结果

返回结果

结论

  1. 可以看到图片在上面不论几张,匹配度分值依然很高,而且会将这几张图片全部显示出来。

实验1.4:在“按知识点分割”的chunk中插入多张图片,且都插入在文本下方

在下方插入了三张图片

用户输入

知识库执行结果

返回结果

结论

  1. 虽然匹配度分值是远低于图片在上面,但是却高于插入一张图片时。_(原因在以后研究)_

实验1.5:在“按知识点分割”的chunk中插入多张图片,且都插入在文本周围

上面一张,下面两张

用户输入

知识库执行结果

返回结果

结论

  1. 将一张图片移动到上方,就确实提升了匹配度的分值,因此还是建议将图片放到对应文本的上方。

实验1.6:在“tokens数分割”的chunk中插入一张图片,插入在最上方,用户输入图片下方的知识点。

用户输入

知识库执行结果

返回结果

结论

  1. 在其上方的图片没能显示,应该是大模型判断这两个元素关联度不高,或者没有明确的联系。

实验1.7:在“tokens数分割”的chunk中插入一张图片,插入在最上方,用户输入图片非下方的知识点。

用户输入

知识库执行结果

返回结果

结论

  1. 影响不大。

实验1.8:在“tokens数分割”的chunk中插入一张图片,插入在两个知识点中间,用户输入图片上方的知识点。

用户输入

知识库执行结果

返回结果

结论

  1. 没能显示图片。

实验1.9:在“tokens数分割”的chunk中插入一张图片,插入在两个知识点中间,用户输入图片下方的知识点。

用户输入

知识库执行结果

返回结果

结论

  1. 大模型没有给图片和知识点之间建立连结,没有能认识到他们的关系,所以不显示图片。

实验1.10:在“tokens数分割”的chunk中插入三张图片,插入在两个知识点中间

将使用与上面相同的方法尝试是否能够显示图片。由于测试方法类似就不在展示测试过程,直接给出测试结果。

结论

  1. 查询时同样都不会显示图片。

实验1.11:在“tokens数分割”的chunk中插入一张图片,插入在一个知识点中间

返回结果

结论

  1. 可以显示图片,因此判断,知识库判断图片是否属于某各知识点的方法,是根据这个知识点的明确的范围。之前的测试之所以无效,是因为图片在知识点的上方或下方,大模型判断知识点已经结束,无法判断图片是否与知识点有关联。如果将图片放置在知识点中间,则大模型可以明确的知道图片和文字的关系,因此会显示图片,尝试多张图片依然可以显示,原理相同

实验2:图片在表格知识库中

给表格添加一个列,类型使用image类型。上传数据,它存储的是一个URL。

实验2.1:在查询时显示图片字段

用户输入

知识库执行结果

返回结果

结论

  1. 可以作为一列被查询出来。不过图片本身并不能作为查询条件被体现,只能作为表现得手段。所以应用场景应当主要是展示用。

实验3:图片在照片(图片)知识库中

照片(图片)知识库,创建后,只需要上传图片数据即可。知识库会对图片进行处理,处理的方式就是识图,并将图片中出现的元素用文字描述出来。例如:识图生成的描述信息可以修改,并且可以重新生成。不过,识图的结果通常也就是对图片的一个简单的描述。在图片知识库下,图片和图片的描述的关系更加紧密和直接,且这个知识库的主体就是图片,而描述则是作为查询的载体出现。

结论

  1. 识图的自动标注能力适合需要识别图片实体的场景,例如识别图片是什么。
  2. 也可以对场景进行描述,例如某人在做什么事。
  3. 还可以手动的添加图片的描述。
  4. 适合根据某些情况的描述来查找图片的应用场景,比如给文章配图等。

例如:

实验3.1:通过描述查询图片

用户输入

知识库执行结果

返回结果

结论

  1. 可以通过描述直接查询到匹配的图片。

实验3.2:通过描述查询多张图片

用户输入

知识库执行结果

返回结果

结论

  1. 可以进行多张不同描述的图片的查询。
  2. 查询多张不同描述的图片时,会出现查询到的chunk匹配分值比较低,而导致无法找到想要的图片的情况,所以最好还是不要尝试一次查询过多图片,两张还可以顺利查询出来,多过两张就会出现差不多某张图片的情况了。
  3. 可以进行同一描述的多张图片的查询,这个的匹配度要高于不同描述的多张图片,多张依然可以正常输出。

实验3.3:通过图片查询图片

用户输入

返回结果

返回结果

结论

  1. 不能以图搜图
  2. 如果想要实现查询类似图片,就要先通过插件来识别图片信息,将图片转为文字,然后再进行查询。(可以通过插件和工作流来实现)

三、实验结论

文本知识库中的图片

特点

图片是知识库的一部分,作为知识点的一部分内容显示,默认情况下返回知识点的时候会显示这些图片,即使没有明确的表明要显示图片。(因为本质上是找到对应的chunk作为上下文,然后通过大模型输入,所以可以通过prompt控制显示和不显示图片)。

应用场景

一些介绍性的信息,比如查询某种动物时,里面可以插入图片,作为动物知识点的一部分,用户在查询时就能一起返回。或者作为操作手册,不只返回操作步骤,同时返回该操作步骤的操作图片。

设计原则

  1. 如果一个chunk中包含多个知识点,那么图片需要在知识点文本的内部,不能在知识点文本前面插入也不能在知识点文本后面插入。
  2. 如果一个chunk中包含多个知识点
  3. 如果一个chunk中只包含一个知识点,那么需要将图片插入在知识点文本的前面。
  4. 如果一个chunk中只包含一个知识点,那么知识点中插入了几张,就会显示几张,大模型无法识别这些图片的区别。
  5. 可以通过prompt来控制图片的数量和是否显示。(prompt的数量不能大于返回知识库中图片的数量)

表格知识库中的图片

特点

图片是列表的一个属性,在查询表格信息的时候,查询要求没有明确的要求时,通常是不会返回图片。这个图片就是对应这一行。可以有多列,可以有多种图片。图片和本行的其他信息并没有很紧抿的联系,他们的关系就是他们都属于同一行。

应用场景

作为一些辅助信息来使用,例如,商品图片,户型图等

设计原则

可以作为一列被查询出来。不过图片本身并不能作为查询条件被体现,通常只能作为表现信息的手段。

图片知识库中的图片

特点

知识的主体时图片,文字是对这个图片的描述,或者说你希望查询图片时需要用到的词语。这个知识库的类型就是用来保存和查询图片。你可以对图片进行丰富的描述,以便在实际应用场景中

应用场景

查找某些类似的图片,比如查询相似场景的图片。给文章配图,根据文章的内容生成对图片的要求,然后匹配图片。

设计原则

  1. 最好不要进行多描述对多图片的查询,如果必须要也最好控制在2个以内,并且需要根据实际情况降低最低匹配值的大小。
  2. 可以进行同一描述的多张图片的查询,不过召回数量收到最大召回值的限制。
  3. 不能以图搜图
  4. 如果只是需要查询图片中的实体或者图片中的场景,那么可以使用自动标注图片描述
  5. 如果需要对图片所代表的意义进行个性化设置和要求,那么就需要手动设置。



53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询

扫码登录
登录即表示您同意《53AI网站服务协议》
服务协议

欢迎您使用【53AI 官方网站】(以下简称“本网站”或“我们”)。本《会员服务协议》(以下简称“本协议”)是您(以下简称“会员”或“用户”)与【深圳市博思协创网络科技有限公司】之间关于注册、登录及使用本网站会员服务所订立的法律协议。

在您注册或登录前,请务必审慎阅读、充分理解各条款内容,特别是免除或限制责任的条款、知识产权条款、争议解决条款等。此类条款将以加粗形式提示您注意。 当您通过微信公众号授权、手机验证码验证或其他方式成功登录本网站时,即视为您已完全理解并同意接受本协议的全部内容。

一、 定义

本网站:指由【深圳市博思协创网络科技有限公司】运营的,域名为【53ai.com】的网站及相关移动端页面。

会员服务:指本网站向注册会员提供的知识库文章查阅、内容检索及其他相关增值服务。

知识库内容:指本网站发布的包括但不限于文字、图表、数据、研究报告、行业分析等数字化内容资源。

二、 账号注册与登录

登录方式:本网站支持以下登录方式,您可根据实际情况选择:

微信公众号授权登录:您同意将您的微信OpenID信息授权给本网站,用于创建或关联会员账号。

手机验证码登录:您需提供真实有效的手机号码,并通过短信验证码完成身份验证与登录/注册。

账号安全:您的账号仅限您本人使用,禁止赠与、借用、租用、转让或售卖。因您保管不善导致的账号被盗、密码泄露等损失,由您自行承担。

实名认证:根据相关法律法规要求,我们可能要求您在特定功能下完成实名认证。如您拒绝提供,可能无法使用部分或全部服务。

未成年人保护:若您未满18周岁,请在法定监护人的陪同下阅读本协议,并在征得监护人同意后使用本服务。

三、 服务内容与规范

知识库查阅权限:会员登录后,有权按照其会员等级对应的权限范围,在线浏览、检索本网站知识库中的相关文章及内容。

服务变更:我们有权根据业务发展需要,调整、变更或终止部分服务内容,并将以网站公告、公众号消息等方式提前通知。

禁止行为:您在使用服务时不得实施以下行为:

利用技术手段批量爬取、下载、转存知识库内容;

将知识库内容用于商业目的或未经授权地向第三方传播;

干扰本网站正常运行或侵犯其他用户合法权益;

发布违法违规信息或从事违反公序良俗的活动。

四、 知识产权声明

权利归属:本网站知识库中的排版设计、软件代码等内容的知识产权均归【公司全称】或原权利人所有,受《中华人民共和国著作权法》等法律保护。

有限许可:本网站授予会员一项非独占、不可转让、不可转授权的普通许可,仅限于个人学习、研究之目的在线查阅知识库内容。

侵权追责:未经书面许可,任何单位或个人不得以任何形式复制、转载、摘编、镜像、汇编或以其他方式使用上述内容。一经发现,我们保留追究其法律责任的权利。

五、 个人信息保护

我们重视对您个人信息的保护。关于我们如何收集、使用、存储和保护您的个人信息,请单独阅读 《隐私政策》。

您通过微信公众号授权或手机号验证所提供的信息,我们将严格按照《个人信息保护法》的规定处理,仅用于身份识别、服务提供及安全验证等必要用途。

您可以随时通过网站设置或联系客服行使查阅、更正、删除个人信息及撤回授权同意的权利。

六、 免责声明

内容准确性:知识库内容仅供参考,不构成专业建议。我们不对其完整性、准确性、时效性作任何明示或暗示的保证,您应自行判断并承担使用风险。

不可抗力:因自然灾害、政策法规变化、网络故障、第三方平台接口异常(如微信接口维护、运营商短信通道故障)等不可抗力导致的服务中断或延迟,我们不承担违约责任。

第三方链接:本网站可能包含指向第三方网站的链接,该等网站的内容和服务不受我们控制,请您自行甄别风险。

七、 违约责任

如您违反本协议约定,我们有权视情节采取警告、限制功能、暂停服务、注销账号等措施,并保留要求赔偿损失的权利。

如因您的违约行为导致我们遭受行政处罚、第三方索赔或商誉损失,您应承担全部赔偿责任(包括但不限于罚款、赔偿金、律师费、公证费等)。

八、 法律适用与争议解决

本协议的订立、执行和解释均适用中华人民共和国大陆地区法律。

因本协议产生的或与本协议有关的任何争议,双方应友好协商解决;协商不成的,任何一方均可向【公司所在地】有管辖权的人民法院提起诉讼。

九、 其他

本协议构成双方就本服务达成的完整协议,取代此前任何口头或书面约定。

本协议任一条款被认定为无效或不可执行的,不影响其他条款的效力。

我们对本协议享有最终解释权,并在法律允许的范围内保留随时修改的权利。修改后的协议一经公布即生效,继续使用服务即视为同意修订内容。


已查阅