免费POC, 零成本试错
AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


我要投稿

谷歌首个原生多模态向量模型发布:Agent 可以用文字搜图片、用图片搜视频了...

发布日期:2026-03-11 08:35:20 浏览次数: 1654
作者:AI寒武纪

微信搜一搜,关注“AI寒武纪”

推荐语

谷歌发布首个原生多模态向量模型Gemini Embedding 2,实现文字、图片、视频、音频和文档的统一向量空间映射,大幅提升多模态任务处理能力。

核心内容:
1. Gemini Embedding 2的核心突破与五大模态支持
2. 套娃表示学习技术带来的灵活输出维度调整
3. 模型在多模态任务中的性能表现与开发生态支持

杨芳贤
53AI创始人/腾讯云(TVP)最具价值专家



 

Gemini Embedding 2上线,统一图文音视频向量空间

谷歌正式推出基于Gemini架构构建的首个原生多模态嵌入模型Gemini Embedding 2。该模型目前已通过Gemini API和Vertex AI开启公开预览。

与以往纯文本基础模型不同,Gemini Embedding 2的核心突破在于将文本、图像、视频、音频和文档全部映射到同一个统一的向量空间中,并能跨越100多种语言捕捉语义意图。这一特性大幅简化了复杂的处理流程,直接提升了检索增强生成(RAG)、语义搜索、情感分析以及数据聚类等多模态下游任务的表现。

五大模态全面打通,支持交错输入

基于Gemini的多模态理解能力,新模型在各项输入标准上给出了明确的性能指标:

  • • 文本:支持高达8192个输入Token的超长上下文。
  • • 图像:单次请求最多可处理6张图像,支持PNG和JPEG格式。
  • • 视频:支持输入长达120秒的视频片段,兼容MP4和MOV格式。
  • • 音频:实现原生音频数据摄取与嵌入,完全不需要中间的文本转录步骤。
  • • 文档:支持直接嵌入最多6页的PDF文件。

除了单模态处理,该模型原生支持交错输入。开发者可以在单次请求中同时传入多种模态数据(例如图像加文本),模型能够精准捕捉不同媒体类型之间复杂且细微的关联,从而对真实的复杂数据实现更准确的理解。

引入套娃表示学习,灵活调整输出维度

在底层技术上,Gemini Embedding 2延续了谷歌此前嵌入模型采用的套娃表示学习(MRL)技术。该技术通过动态缩小维度来实现信息的嵌套存储。

这种设计赋予了模型灵活的输出维度能力。开发者可以从默认的3072维向下缩放,以在模型性能和存储成本之间寻找最佳平衡点。为保证最高质量的输出,官方推荐使用3072、1536或768这三个维度。

设立多模态性能新基准

在性能表现上,Gemini Embedding 2在文本、图像和视频任务中均超越了现有的领先模型。同时,该模型引入了强大的语音处理能力,为多模态深度确立了新的性能标准,为开发者处理多样化的嵌入需求提供了直接支持。

目前,嵌入技术不仅是众多谷歌产品体验的底层驱动力,在RAG上下文工程、大规模数据管理和经典搜索分析等场景中也发挥着核心作用。部分早期访问合作伙伴已开始利用Gemini Embedding 2开发高价值的多模态应用。

开发与生态支持

开发者现可通过Gemini API或Vertex AI快速接入该模型。官方提供了基于Python的SDK(google.genai)调用方案,只需少量代码即可在单次请求中同时完成文本、图片和音频的嵌入处理:


from
 google import genai
from
 google.genai import types

# For Vertex AI:

# PROJECT_ID='<add_here>'

# client = genai.Client(vertexai=True, project=PROJECT_ID, location='us-central1')


client = genai.Client()

with
 open("example.png", "rb") as f:
    image_bytes = f.read()

with
 open("sample.mp3", "rb") as f:
    audio_bytes = f.read()

# Embed text, image, and audio 

result = client.models.embed_content(
    model="gemini-embedding-2-preview",
    contents=[
        "What is the meaning of life?"
,
        types.Part.from_bytes(
            data=image_bytes,
            mime_type="image/png",
        ),
        types.Part.from_bytes(
            data=audio_bytes,
            mime_type="audio/mpeg",
        ),
    ],
)

print
(result.embeddings)

调用逻辑示例:使用客户端直接调用 gemini-embedding-2-preview 模型,在 contents 列表中依次传入文本字符串,以及转换为字节流格式的图像和音频文件,即可直接输出包含多模态信息的向量结果。

在生态兼容性方面,除了官方的交互式Colab笔记本,Gemini Embedding 2已全面支持 LangChain、LlamaIndex、Haystack、Weaviate、QDrant、ChromaDB 以及 Vector Search 等主流开发框架和向量数据库。

 

--end--

53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询