2026年7月2日 周四晚上19:30,报名腾讯会议了解“如何构建自进化的动态知识库(Brain)”(限30人)
免费POC, 零成本试错
FDE知识库

FDE知识库

学习大模型的前沿技术与行业落地应用


收藏

大型多模态模型新范式:LMM+搜索=SEAL

发布日期:2024-03-20 21:24:32 浏览次数: 3047
作者:AI闲谈

微信搜一搜,关注“AI闲谈”

一、背景

本文中我们介绍一种新的 LMM(Large MultiModal Model,大型多模态模型),其结合了 LMM 和视觉搜索模型,能很好的处理高分辨率图像的细节,也提出了相应的搜索算法和高分辨率图像评估基准。

对应的论文为:[2312.14135] V*: Guided Visual Search as a Core Mechanism in Multimodal LLMs

对应的代码库为:https://api.ibos.cn/v4/weapparticle/accesswximg?aid=78681&url=aHR0cHM6Ly9naXRodWIuY29tL1RlbmNlbnRBUkMvUGhvdG9NYWtlci90cmVlL21haW4=

LMM 综述可以参考:

1. 最全 LMM 模型结构(13种)综述

2. 最全 LMM 模型训练(12种)综述

3. 最全 LMM 评估指标汇总:20+模型、7个维度

最近常见多模态 LMM 的解读可以参考:

1. 微软 GPT-4V 技术报告解读(1)

2. 微软 GPT-4V 技术报告解读(2)

3. CogVLM: Visual Expert for Large Language Models 论文解读

4. MiniGPT-v2 论文解读

5. LLaVA-1.5 论文解读

6. BLIP-2 论文及实现解读

7. 阿里最新 LMM:mPLUG-Owl2 论文解读

8. SPHINX:多任务、多权重、多编码器、多分辨率混合的多模态大模型

9. Monkey:大分辨率+详细描述,多项 LMM SOTA

10. Florence-2:126M 图像,5.4B 视觉标注,0.77B LMM,多项 SOTA

11. CogAgent:高效大分辨率多模态模型,多项 SOTA

常见多模态数据集的解读可以参考:

1. LMM 视觉问答(VQA)数据集解读

2. LMM 视觉描述(Captioning)和定位(Grounding)数据集

3. LVIS-Instruct4V: Data is All You Need,12 评估 11 SOTA

4. ShareGPT4V:Data is All You Need,11 评估 9 SOTA

其他多模态幻觉校正可以参考:

1. Woodpecker: LMM 幻觉校正 - 论文解读

2. LURE:减少 LMM 多模态 23% 物体幻觉

二、摘要

作为实现通用人工智能的重要一步,LMM 试图集成多模态信息来执行更复杂的任务,然而当前 LMM 依然存在一个局限性,它们都依赖于预训练的视觉编码器(通常也都是冻结的),例如常见的 CLIP,然而这些视觉编码器往往在低分辨率上训练(通常要 resize 到 224x224 或 336x336),在推理时,输入图像也往往要调整到较低分辨率,因此导致编码器很容易忽略高分辨率图像中的重要细节,此外,当前 LMM 难以识别它们处理的图像中的缺失或者不清楚的细节时,也无法主动寻找或查询这些信息,这成为了视觉信息处理的主要瓶颈。

受人类能力的启发,作者提出了 SEALShow,SEArch,and TelL),这是一种通用的架构,用于将 LLM 引导的视觉搜索机制集成到 LMM 中,以解决上述限制。SEAL 框架由 VQA(Visual Question Answering)LLM 和视觉搜索模型组成,SEAL 中的 VQA LLM 可以明确地确定缺失的视觉细节,从而创建目标对象并进一步聚焦处理。然后,利用丰富的世界知识和语言模型的常识,视觉搜索组件定位这些已识别的元素,并将它们添加到视觉工作记忆 (Visual Working Memory,VWM) 中。VWM 中的这些额外视觉数据使 VQA LLM 能够提供更准确、更明智的响应。

总而言之,本文的主要贡献可以概括为如下三点:

  • 设计了一种 LMM 框架 SEALShow,SEArch,and TelL),旨在主动推理和搜索所需的视觉信息,这是密集型视觉多模态任务的重要能力,尤其是处理高分辨率图像时。

  • 设计了一种视觉搜索算法 V*,利用 LLM 固有的常识理解对任何分辨率的图像进行有效地、广泛地搜索。

  • 创建了一种多模态评估基准 V* Bench,用来评估 LMM 在高分辨率图像中准确处理和定位详细视觉信息的能力。

三、模型和方法

3.1. VQA LLM 模型(MLLM)

如下图所示为 VQA LLM 的主要结构,其包含一个 VWM,用于存储上下文信息,主要包含 4 个方面:

  • <question>:原始的纯文本问题。

  • <global image>:初始的图像。

  • <searched targets>:从视觉搜索模块获得的目标图像,已经经过裁剪,初始阶段为空。

  • <target locations>:目标图像对应的坐标,初始阶段为空。

作者使用 LLaVA-7B-1.5 作为 VQA LLM,其同样包含三个关键组件:

  • Vision Encoder:作者采用 CLIP ViT-L/14 模型,用于提取图像 Token embedding,对应的输入图像分辨率为 224x224,生成 256 个 Token。

  • Language Model:大语言模型。

  • Resampler + Linear:两种常见的多模态投影模块,Resampler 采用 Cross-Attention,可以压缩 Token 数目,从 256 -> 32。作者设计了一个简单的机制在两者之间切换:

    • 只包含一个初始图像:使用 Linear,保留 256 个 Token。

    • 一个初始图像1-2 个目标图像:初始图像使用 Resampler,目标图像使用 Linear,目标图像 Token 更多,LLM 可以更加聚焦在目标图像。

    • 超过 2 个目标图像:全部使用 Resampler,以减小计算代价。

3.2. SEAL 工作流程

如下图所示为 SEAL 的详细工作流程:

  • 1:输入图像 I 和文本问题 T,和阈值 δ

  • 2:调用 VQA LLM 获得目标 L

  • 3:初始化 VWM

  • 4:将图像 I 和文本问题 T 添加到 VWM

  • 5:循环遍历所有目标 L:

    • 6:创建优先级队列 q

    • 7:将 (I, ∞) 添加到 q

    • 8:使用视觉搜索模型来搜索目标

    • 9,10:没有找到目标,VWM 中添加 “图像中不存在 {目标}”

    • 12,13:找到目标,从图像 I 中裁剪目标,并将 “{目标} <目标图像> 位于 [x1, y1, x2, y2]” 添加到 VWM

  • 14,15:VQA LLM 基于 VWM 最终结果并返回

3.3. VQA LLM 训练数据集

由于 VQA LLM 增加了 VWM,因此需要额外的指令微调数据来训练,作者构建了三种数据。

3.3.1 用于目标物体推理的负样本数据(100k)

VQA LLM 首先要识别目标物体,以便回答问题及判断是否缺失或者在初始图像中不够清晰。为此,作者构建了(图像,问题,答案)数据,其中包含图像中不存在的 1 或 2 个目标。

此外,作者还故意挑选了一些太小而无法被 CLIP Encoder 捕获的目标物体,具体来说是选择了边界框小于 20x20 的物体,并构建其相关细节问题,对于此类问题的恰当的回答应该是承认无法回答,并明确列出所需的其他目标物体。作者使用 COCO 2017 构建了 100k 的数据,并使用 GPT-3.5 生成相关问题。

3.3.2 VQA 数据(167k)

数据包含三个部分:

  • GQA 数据(70k)

  • 聚焦于物体属性的 VQA 数据(51k)

  • 聚焦于物体空间关系的 VQA 数据(46k)

3.3.3 LLaVA 指令微调数据(120k)

数据包含两部分:

  • LLaVA-80k 指令微调数据,图像也来自 COCO。

  • 针对上述数据还识别了与 COCO 类别匹配并标注有对象实体的数据,将匹配的对象作为搜索目标,创建了额外的 40k 数据。

3.4. V* 视觉搜索算法

3.4.1 模型结构

如下图所示,上述的 VQA LLM(MLLM)模型有三个用途:

  • 加上 LoRA:用于生成可能的目标(文本)。

  • 加上 LoRA 和 Mcl:用于生成目标可能的区域。

  • 加上 LoRA 和 Mtl:用于生成目标确切的位置。

作者设计了一个特殊的 <LOC> Token,通过 prompt “Please locate the [object] in the image.”,模型会生成对应的 <LOC> Token,然后将该 Token 对应的 embedding 用于后续的 Mcl 和 Mtl 模块,这两个模块的结构如下图 Figure 4 所示,其中 Dcl 参考了 SAM 的实现,Dtl 包含两个 MLP,这两个模块也都会把 Image Token embedding 作为输入:

3.4.2 搜索算法

其对应的视觉模型搜索算法如下所示:

  • 1:给定优先级队列 q,搜索目标 s 和阈值 δ

  • 2:从队列 q 中拿到对应图像 I

  • 3:调用视觉搜索模型,从图像 I 中定位目标 s,获得对应的坐标 coordinates置信度 confidence可能位置 heatmap

  • 4,5:如果存在目标 s 对应的坐标则直接返回坐标 coordinates

  • 6:不存在目标 s 的坐标,且 heatmap.max() 小于阈值  δ

    • 7:从当前图像 I 中找到可能关联的目标

    • 8:基于可能关联的目标进行定位

  • 9:不存在目标 s 的坐标,且 heatmap.max() 大于阈值  δ,将图像 I 分成一系列子图像,并递归调用视觉搜索模型。

  • 10,11,12,13,14:从队列 q 中返回对应的搜索结果。

图像切分逻辑如下图 Figure 5 所示,其会保证图像的比例,然后多级递归切分:

3.5. V* Bench

作者从 SA-1B 数据集(Meta 分割一切模型 SAM 一起发布的数据集)中选择了 191 个高分辨率图像平均分辨率为 2246x1582。Benchmark 中包含两个子任务:

  • 属性识别(attribute recognition):包含 115 个图像,要求模型识别特定类型的属性,比如颜色、材料等。

  • 关系推理(relationship reasoning):包含 76 个图像,要求模型识别图像中两个物体的空间关系。

如下图 Figure 8 所示为评估集中的一些实例,第一行为属性识别,第二行为关系推理:

四、实验评估

4.1. V* Bench 评估

如下图 Table 1 所示,使用 Vicuna-7B 模型作为语言模型,人类水平接近满分,而之前的 LMM 模型评分都很低,甚至接近随机水平,而本文的 SEAL 相比之前的模型大幅领先,甚至大幅超越 GPT-4V:

4.2. 消融实验

作者验证了各种组件的影响,可见 VWM 和 V* 搜索算法都很有帮助:

作者同时评估了不同搜索算法的搜索步长,提出的 LLM 引导的视觉搜索算法使用了最少的步长,相应的效率也更高:

4.3. 多模态基准评估

如下图 Table 5 所示,作者结合多种多模态基准对 LLaVA 和本文的 SEAL 进行了评估,SEAL 在 V* Bench 和 MME、PoPE 上都大幅领先,在 MMBench 和 SEED-Bench(Img)上相当,但是在 MM-Vet 和 LLaVAw 上差距较大,这可能因为它们的规模较小或者使用基于 GPT4 的评估方法,可能带来不确定性和潜在的偏差:

4.4. PS 补充

作者论文中提供的评估对比比较少,此外很多模型效果也已经超过 LLaVA,因此我们进一步结合之前的数据进行对比,可见模型在很多任务上还有进一步提升的空间(也可能和训练数据有关):

如下图为 POPE 指标,很多任务使用更大模型也获得了很大的提升,比如 SPHINX:

五、参考链接

  1. https://api.ibos.cn/v4/weapparticle/accesswximg?aid=78681&url=aHR0cHM6Ly9hcnhpdi5vcmcvYWJzLzIzMTIuMTQxMzU=

  2. https://api.ibos.cn/v4/weapparticle/accesswximg?aid=78681&url=aHR0cHM6Ly9naXRodWIuY29tL1RlbmNlbnRBUkMvUGhvdG9NYWtlci90cmVlL21haW4=

53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询

扫码登录
登录即表示您同意《53AI网站服务协议》
服务协议

欢迎您使用【53AI 官方网站】(以下简称“本网站”或“我们”)。本《会员服务协议》(以下简称“本协议”)是您(以下简称“会员”或“用户”)与【深圳市博思协创网络科技有限公司】之间关于注册、登录及使用本网站会员服务所订立的法律协议。

在您注册或登录前,请务必审慎阅读、充分理解各条款内容,特别是免除或限制责任的条款、知识产权条款、争议解决条款等。此类条款将以加粗形式提示您注意。 当您通过微信公众号授权、手机验证码验证或其他方式成功登录本网站时,即视为您已完全理解并同意接受本协议的全部内容。

一、 定义

本网站:指由【深圳市博思协创网络科技有限公司】运营的,域名为【53ai.com】的网站及相关移动端页面。

会员服务:指本网站向注册会员提供的知识库文章查阅、内容检索及其他相关增值服务。

知识库内容:指本网站发布的包括但不限于文字、图表、数据、研究报告、行业分析等数字化内容资源。

二、 账号注册与登录

登录方式:本网站支持以下登录方式,您可根据实际情况选择:

微信公众号授权登录:您同意将您的微信OpenID信息授权给本网站,用于创建或关联会员账号。

手机验证码登录:您需提供真实有效的手机号码,并通过短信验证码完成身份验证与登录/注册。

账号安全:您的账号仅限您本人使用,禁止赠与、借用、租用、转让或售卖。因您保管不善导致的账号被盗、密码泄露等损失,由您自行承担。

实名认证:根据相关法律法规要求,我们可能要求您在特定功能下完成实名认证。如您拒绝提供,可能无法使用部分或全部服务。

未成年人保护:若您未满18周岁,请在法定监护人的陪同下阅读本协议,并在征得监护人同意后使用本服务。

三、 服务内容与规范

知识库查阅权限:会员登录后,有权按照其会员等级对应的权限范围,在线浏览、检索本网站知识库中的相关文章及内容。

服务变更:我们有权根据业务发展需要,调整、变更或终止部分服务内容,并将以网站公告、公众号消息等方式提前通知。

禁止行为:您在使用服务时不得实施以下行为:

利用技术手段批量爬取、下载、转存知识库内容;

将知识库内容用于商业目的或未经授权地向第三方传播;

干扰本网站正常运行或侵犯其他用户合法权益;

发布违法违规信息或从事违反公序良俗的活动。

四、 知识产权声明

权利归属:本网站知识库中的排版设计、软件代码等内容的知识产权均归【公司全称】或原权利人所有,受《中华人民共和国著作权法》等法律保护。

有限许可:本网站授予会员一项非独占、不可转让、不可转授权的普通许可,仅限于个人学习、研究之目的在线查阅知识库内容。

侵权追责:未经书面许可,任何单位或个人不得以任何形式复制、转载、摘编、镜像、汇编或以其他方式使用上述内容。一经发现,我们保留追究其法律责任的权利。

五、 个人信息保护

我们重视对您个人信息的保护。关于我们如何收集、使用、存储和保护您的个人信息,请单独阅读 《隐私政策》。

您通过微信公众号授权或手机号验证所提供的信息,我们将严格按照《个人信息保护法》的规定处理,仅用于身份识别、服务提供及安全验证等必要用途。

您可以随时通过网站设置或联系客服行使查阅、更正、删除个人信息及撤回授权同意的权利。

六、 免责声明

内容准确性:知识库内容仅供参考,不构成专业建议。我们不对其完整性、准确性、时效性作任何明示或暗示的保证,您应自行判断并承担使用风险。

不可抗力:因自然灾害、政策法规变化、网络故障、第三方平台接口异常(如微信接口维护、运营商短信通道故障)等不可抗力导致的服务中断或延迟,我们不承担违约责任。

第三方链接:本网站可能包含指向第三方网站的链接,该等网站的内容和服务不受我们控制,请您自行甄别风险。

七、 违约责任

如您违反本协议约定,我们有权视情节采取警告、限制功能、暂停服务、注销账号等措施,并保留要求赔偿损失的权利。

如因您的违约行为导致我们遭受行政处罚、第三方索赔或商誉损失,您应承担全部赔偿责任(包括但不限于罚款、赔偿金、律师费、公证费等)。

八、 法律适用与争议解决

本协议的订立、执行和解释均适用中华人民共和国大陆地区法律。

因本协议产生的或与本协议有关的任何争议,双方应友好协商解决;协商不成的,任何一方均可向【公司所在地】有管辖权的人民法院提起诉讼。

九、 其他

本协议构成双方就本服务达成的完整协议,取代此前任何口头或书面约定。

本协议任一条款被认定为无效或不可执行的,不影响其他条款的效力。

我们对本协议享有最终解释权,并在法律允许的范围内保留随时修改的权利。修改后的协议一经公布即生效,继续使用服务即视为同意修订内容。


已查阅