我要投稿

谷歌首个原生多模态向量模型发布：Agent 可以用文字搜图片、用图片搜视频了...

发布日期：2026-03-11 08:35:20 浏览次数： 2115

作者：AI寒武纪

微信搜一搜，关注“AI寒武纪”

Gemini Embedding 2上线，统一图文音视频向量空间

谷歌正式推出基于Gemini架构构建的首个原生多模态嵌入模型Gemini Embedding 2。该模型目前已通过Gemini API和Vertex AI开启公开预览。

与以往纯文本基础模型不同，Gemini Embedding 2的核心突破在于将文本、图像、视频、音频和文档全部映射到同一个统一的向量空间中，并能跨越100多种语言捕捉语义意图。这一特性大幅简化了复杂的处理流程，直接提升了检索增强生成（RAG）、语义搜索、情感分析以及数据聚类等多模态下游任务的表现。

五大模态全面打通，支持交错输入

基于Gemini的多模态理解能力，新模型在各项输入标准上给出了明确的性能指标：

• 文本：支持高达8192个输入Token的超长上下文。
• 图像：单次请求最多可处理6张图像，支持PNG和JPEG格式。
• 视频：支持输入长达120秒的视频片段，兼容MP4和MOV格式。
• 音频：实现原生音频数据摄取与嵌入，完全不需要中间的文本转录步骤。
• 文档：支持直接嵌入最多6页的PDF文件。

除了单模态处理，该模型原生支持交错输入。开发者可以在单次请求中同时传入多种模态数据（例如图像加文本），模型能够精准捕捉不同媒体类型之间复杂且细微的关联，从而对真实的复杂数据实现更准确的理解。

引入套娃表示学习，灵活调整输出维度

在底层技术上，Gemini Embedding 2延续了谷歌此前嵌入模型采用的套娃表示学习（MRL）技术。该技术通过动态缩小维度来实现信息的嵌套存储。

这种设计赋予了模型灵活的输出维度能力。开发者可以从默认的3072维向下缩放，以在模型性能和存储成本之间寻找最佳平衡点。为保证最高质量的输出，官方推荐使用3072、1536或768这三个维度。

设立多模态性能新基准

在性能表现上，Gemini Embedding 2在文本、图像和视频任务中均超越了现有的领先模型。同时，该模型引入了强大的语音处理能力，为多模态深度确立了新的性能标准，为开发者处理多样化的嵌入需求提供了直接支持。

目前，嵌入技术不仅是众多谷歌产品体验的底层驱动力，在RAG上下文工程、大规模数据管理和经典搜索分析等场景中也发挥着核心作用。部分早期访问合作伙伴已开始利用Gemini Embedding 2开发高价值的多模态应用。

开发与生态支持

开发者现可通过Gemini API或Vertex AI快速接入该模型。官方提供了基于Python的SDK（google.genai）调用方案，只需少量代码即可在单次请求中同时完成文本、图片和音频的嵌入处理：


from google import genai
from google.genai import types

# For Vertex AI:
# PROJECT_ID='<add_here>'
# client = genai.Client(vertexai=True, project=PROJECT_ID, location='us-central1')

client = genai.Client()

with open("example.png", "rb") as f:
    image_bytes = f.read()

with open("sample.mp3", "rb") as f:
    audio_bytes = f.read()

# Embed text, image, and audio 
result = client.models.embed_content(
    model="gemini-embedding-2-preview",
    contents=[
        "What is the meaning of life?",
        types.Part.from_bytes(
            data=image_bytes,
            mime_type="image/png",
        ),
        types.Part.from_bytes(
            data=audio_bytes,
            mime_type="audio/mpeg",
        ),
    ],
)

print(result.embeddings)