我要投稿

Google 发布首个全模态 Embedding 2 模型，文本图片音视频 PDF 统一到一个向量空间

发布日期：2026-03-11 11:13:27 浏览次数： 3228

作者：AGI Hunt

微信搜一搜，关注“AGI Hunt”

Google 发布了一个新模型：Gemini Embedding 2。

这是业界第一个原生支持五种模态的 Embedding 模型，能把文本、图片、视频、音频和 PDF 文档全部映射到同一个向量空间里。

一个向量空间，五种数据类型。

这个分量，做过 RAG 或语义搜索的，应该有所体会。

先说 Embedding

如果你不太了解 Embedding 是什么，可以这样理解：

Embedding 就是把各种信息翻译成一串数字。

一段文字、一张图片、一段音频，经过 Embedding 模型处理后，都会变成一个固定长度的数字列表（向量）。两个向量越接近，说明它们代表的内容越相似。

这是搜索引擎、推荐系统、RAG（检索增强生成）背后最核心的基础设施之一。

但以前有个大问题：文本有文本的 Embedding 模型，图片有图片的，音频有音频的。它们各自生成的向量，住在不同的空间里，互相听不懂。

想搜索「和这段会议录音相关的文档」？对不起，音频和文本的向量不在一个维度，比不了。

Gemini Embedding 2 做的事情，就是把这些「方言」统一成了「普通话」。

五种模态

Gemini Embedding 2（模型 ID：gemini-embedding-2-preview）支持的五种输入：

文本：最多 8,192 tokens，支持 100+ 种语言
图片：每次请求最多 6 张，PNG / JPEG 格式
视频：最长 128 秒，MP4 / MOV 格式
音频：最长 80 秒，MP3 / WAV 格式，不需要先转文字
PDF 文档：最多 6 页，直接读取

而且，这些模态可以混合输入。一张图配一段文字描述，模型会生成一个融合了两者语义的向量。

音频不需要转录这一点值得单独拿出来说。 过去做音频搜索，标准流程是先 Whisper 转文字，再对文字做 Embedding。现在直接把 MP3 扔进去就行，少了一整个环节。

跑分怎么样

先看硬数据。

在 MTEB（Massive Text Embedding Benchmark）多语言排行榜上，Gemini Embedding 系列的得分是 68.32，比第二名高出 5.09 分。

在英文 MTEB v2 上，得分 73.30，排名第一。

在代码 Embedding 上，得分 74.66，同样排名第一。

Gemini Embedding 2 还支持 Matryoshka Representation Learning（MRL），默认输出 3,072 维向量，但可以灵活缩小到 1,536、768，甚至 128 维。

不同维度下 MTEB 的表现：

维度MTEB 得分
3,072最高
2,04868.16
1,53668.17
76867.99
51267.55
25666.19
12863.31

维度	MTEB 得分
3,072	最高
2,048	68.16
1,536	68.17
768	67.99
512	67.55
256	66.19
128	63.31

值得注意的是，从 3,072 降到 768，得分只掉了不到 0.5。换句话说，向量体积缩小了 75%，质量几乎没变。

这对存储和计算成本的影响是巨大的。

怎么用

API 调用不再复（Goo）杂（gle）。Python 示例：

from google import genaifrom google.genai import types
client = genai.Client()
# 文本 Embeddingresult = client.models.embed_content(    model="gemini-embedding-2-preview",    contents="什么是向量数据库？")
# 图片 Embeddingwith open("diagram.png", "rb") as f:    image_bytes = f.read()
result = client.models.embed_content(    model="gemini-embedding-2-preview",    contents=[        types.Part.from_bytes(            data=image_bytes,            mime_type="image/png",        ),    ])
# 混合输入：图片 + 文字生成一个融合向量result = client.models.embed_content(    model="gemini-embedding-2-preview",    contents=[        types.Content(            parts=[                types.Part(text="一张架构图"),                types.Part.from_bytes(                    data=image_bytes,                    mime_type="image/png",                )            ]        )    ])

JavaScript 版本同样简洁：

import { GoogleGenAI } from "@google/genai";import * as fs from "node:fs";
const ai = new GoogleGenAI({});const imgBase64 = fs.readFileSync("diagram.png", {  encoding: "base64"});
const response = await ai.models.embedContent({    model: "gemini-embedding-2-preview",    contents: [{        inlineData: {            mimeType: "image/png",            data: imgBase64,        },    }],});

模型还支持 8 种任务类型优化，可以根据具体场景告诉模型你要干什么：

任务类型用途
SEMANTIC_SIMILARITY语义相似度计算
RETRIEVAL_DOCUMENT文档检索（索引端）
RETRIEVAL_QUERY查询检索（查询端）
CLASSIFICATION文本分类
CLUSTERING聚类分析
CODE_RETRIEVAL_QUERY代码搜索
QUESTION_ANSWERING问答系统
FACT_VERIFICATION事实核查

任务类型	用途
SEMANTIC_SIMILARITY	语义相似度计算
RETRIEVAL_DOCUMENT	文档检索（索引端）
RETRIEVAL_QUERY	查询检索（查询端）
CLASSIFICATION	文本分类
CLUSTERING	聚类分析
CODE_RETRIEVAL_QUERY	代码搜索
QUESTION_ANSWERING	问答系统
FACT_VERIFICATION	事实核查

result = client.models.embed_content(    model="gemini-embedding-2-preview",    contents=texts,    config=types.EmbedContentConfig(        task_type="RETRIEVAL_DOCUMENT",        output_dimensionality=768    ))

能干什么

几个最直接的使用场景：

多模态 RAG

以前做 RAG，文档里的图表、流程图基本就扔掉了，只索引文本。现在图片和文本在同一个向量空间，可以一起检索。用户问「系统架构是什么样的」，既能找到文字描述，也能直接找到那张架构图。

跨模态搜索

用一段文字描述去搜索匹配的视频片段。或者反过来，用一张产品图去搜索相关的技术文档。这在以前需要维护多套管道，现在一套搞定。

Google 还做了一个在线 Demo：FindMeMedia，可以用图片、语音或文字搜索跨模态的内容。

音频知识库

会议录音、播客、客服电话，以前要先转录成文字才能做检索。现在直接对音频做 Embedding，省掉了转录这一步，还保留了语气、语调等文字丢失的信息。

法律文档发现

Google 提到，早期合作伙伴已经在用 Gemini Embedding 做法律领域的文档发现（discovery），在数百万条记录中精准定位关键证据，包括图片和视频证据。

竞品对比

Embedding 赛道从来不缺竞争者。来看看 Gemini Embedding 2 的几个主要对手。

OpenAI text-embedding-3-large

OpenAI 的当家 Embedding 模型，3,072 维，最多 8,191 tokens，MTEB 英文得分约 64.6。但它只支持文本。 图片方面，OpenAI （对外）还在用 2021 年发布的 CLIP，512 维，和现在的多模态 Embedding 差了一个时代。

换句话说，OpenAI 在多模态 Embedding 上目前是缺席的。

Cohere Embed v4

Cohere 是 Embedding 赛道的老牌玩家。Embed v4 支持文本和图片，1,536 维，也用了 Matryoshka 技术，支持 100+ 种语言。它在处理复杂文档方面表现优秀，能理解表格、图表、手写笔记。

但和 Gemini Embedding 2 比，Cohere Embed v4 不支持视频和音频，覆盖的模态少了两种。

Voyage AI voyage-multimodal-3

Voyage AI 在文本 Embedding 上一直有口碑（Anthropic 官方推荐的 Embedding 供应商），voyage-3.5-lite 是性价比极高的选择。多模态方面，voyage-multimodal-3 支持文本和图片。

同样，不支持音频和视频。

Jina Embeddings v4

Jina AI 去年发布的 v4 是开源阵营中最能打的多模态 Embedding 模型。38 亿参数，基于 Qwen2.5-VL 构建，支持文本、图片和 PDF，2,048 维，29 种语言。

它的杀手锏有两个：一是开源可自部署，这在数据隐私敏感的场景下是刚需；二是在视觉文档检索（ViDoRe）上拿到了 90.17 的高分，处理表格、图表、截图这类「图文混排」内容非常强。

不过 MTEB 英文得分 55.97，和 Gemini 的 73.30 有明显差距。同样不支持视频和音频。

综合对比：

模型文本图片视频音频PDF最高维度开源
Gemini Embedding 2✅✅✅✅✅3,072❌
OpenAI text-embedding-3✅❌❌❌❌3,072❌
Cohere Embed v4✅✅❌❌✅1,536❌
Voyage multimodal-3✅✅❌❌❌-❌
Jina Embeddings v4✅✅❌❌✅2,048✅

模型	文本	图片	视频	音频	PDF	最高维度	开源
Gemini Embedding 2	✅	✅	✅	✅	✅	3,072	❌
OpenAI text-embedding-3	✅	❌	❌	❌	❌	3,072	❌
Cohere Embed v4	✅	✅	❌	❌	✅	1,536	❌
Voyage multimodal-3	✅	✅	❌	❌	❌	-	❌
Jina Embeddings v4	✅	✅	❌	❌	✅	2,048	✅

Gemini Embedding 2 是目前唯一一个覆盖五种模态的商用 Embedding 模型。

而 Jina v4 是唯一开源的多模态选手。

各家各有所长。OpenAI 的文本 Embedding 生态最成熟，社区最大；Cohere 在企业级文档理解上有独到之处；Jina 能自部署，数据不出内网；Voyage AI 性价比高。

选型时，不能只看模态数量，还要看具体场景和约束条件了。

价格

文本 Embedding：$0.20 / 百万 tokens。

Batch API 打五折：$0.10 / 百万 tokens。

图片、音频、视频按 Gemini API 标准的媒体 token 费率计算。

作为参考，OpenAI text-embedding-3-large 是 $0.13 / 百万 tokens，Cohere Embed v4 是 $0.12 / 百万 tokens。Gemini Embedding 2 价格略高，但它覆盖的模态也多得多。

而且 Google AI Studio 有免费额度可以试用。

生态集成

Gemini Embedding 2 已经和主流的向量数据库、RAG 框架完成了集成：

向量数据库：Weaviate、Qdrant、ChromaDB、Pinecone，以及 Google 自家的 BigQuery、AlloyDB、Cloud SQL
RAG 框架：LangChain、LlamaIndex、Haystack
云平台：Gemini API 和 Vertex AI 均可调用

Qdrant 还专门发了一篇博客介绍如何利用 MRL 做「两阶段检索」：先用 768 维做快速初筛，再用 3,072 维做精排。同一个模型，同一次生成，两种用法。

要注意的坑

Embedding 空间不兼容。 如果你之前用的是 gemini-embedding-001（纯文本模型），升级到 gemini-embedding-2-preview 需要把所有数据重新 Embedding。两个模型生成的向量不在同一个空间里，直接混用会得到乱七八糟的结果。

低维度向量需要手动归一化。 3,072 维的输出是自动归一化的，但如果你缩小到 768 或 1,536 维，需要自己做 L2 归一化。

import numpy as np
embedding = np.array(result.embeddings[0].values)normalized = embedding / np.linalg.norm(embedding)

目前还是 Preview 状态。 模型 ID 带着 preview 后缀，说明 API 可能还会有调整。生产环境接入需要做好兼容性预案。

更大的图景

Embedding 模型通常不像 GPT、Claude、Gemini 这些生成式模型那样上头条。

但它其实是 AI 基础设施中最底层、最关键的一块砖。

生成式模型是「嘴」，负责说话。Embedding 模型是「记忆」，负责理解和检索。RAG 之所以能工作，就是因为 Embedding 帮模型「想起来」了相关的上下文。

过去这块砖是按模态分开烧的，文本一块，图片一块，音频一块。

Gemini Embedding 2 做的事情，是把这些碎砖烧成了一整块。

对 Agent 系统来说，这个意义可能更大。Agent 在工作过程中会接触到各种模态的信息：看到截图、听到语音指令、读取 PDF 报告。如果这些信息存在不同的向量空间里，Agent 的「记忆」就是割裂的。统一的 Embedding 空间，意味着 Agent 终于有了完整的、跨模态的记忆。

当然，这只是第一步。Preview 阶段的模型，在各个模态上的质量是否真的够用，还需要实际场景验证。

可以说：

多模态 Embedding 的统一，是 AI 基础设施的下一个关键升级。

而 Google，自然想要抢个先手。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业