免费POC, 零成本试错
AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


我要投稿

Google 发布首个全模态 Embedding 2 模型,文本图片音视频 PDF 统一到一个向量空间

发布日期:2026-03-11 11:13:27 浏览次数: 1764
作者:AGI Hunt

微信搜一搜,关注“AGI Hunt”

推荐语

Google突破性发布Gemini Embedding 2,首次实现文本、图片、视频、音频和PDF五模态统一向量空间,彻底改变多模态数据处理方式。

核心内容:
1. 五种模态数据首次统一到一个向量空间的重大突破
2. 音频直接处理无需转录的创新工作流程
3. 在多项基准测试中全面领先的卓越性能表现

杨芳贤
53AI创始人/腾讯云(TVP)最具价值专家

Google 发布了一个新模型:Gemini Embedding 2。

Gemini Embedding 2 发布

这是业界第一个原生支持五种模态的 Embedding 模型,能把文本、图片、视频、音频和 PDF 文档全部映射到同一个向量空间里。

一个向量空间,五种数据类型。

这个分量,做过 RAG 或语义搜索的,应该有所体会。

先说 Embedding

如果你不太了解 Embedding 是什么,可以这样理解:

Embedding 就是把各种信息翻译成一串数字。

一段文字、一张图片、一段音频,经过 Embedding 模型处理后,都会变成一个固定长度的数字列表(向量)。两个向量越接近,说明它们代表的内容越相似。

这是搜索引擎、推荐系统、RAG(检索增强生成)背后最核心的基础设施之一。

但以前有个大问题:文本有文本的 Embedding 模型,图片有图片的,音频有音频的。它们各自生成的向量,住在不同的空间里,互相听不懂

过去各自为政 vs Gemini Embedding 2 统一空间

想搜索「和这段会议录音相关的文档」?对不起,音频和文本的向量不在一个维度,比不了。

Gemini Embedding 2 做的事情,就是把这些「方言」统一成了「普通话」。

五种模态

Gemini Embedding 2(模型 ID:gemini-embedding-2-preview)支持的五种输入:

  • 文本:最多 8,192 tokens,支持 100+ 种语言

  • 图片:每次请求最多 6 张,PNG / JPEG 格式

  • 视频:最长 128 秒,MP4 / MOV 格式

  • 音频:最长 80 秒,MP3 / WAV 格式,不需要先转文字

  • PDF 文档:最多 6 页,直接读取

Gemini Embedding 多模态统一向量空间

而且,这些模态可以混合输入。一张图配一段文字描述,模型会生成一个融合了两者语义的向量。

音频不需要转录这一点值得单独拿出来说。 过去做音频搜索,标准流程是先 Whisper 转文字,再对文字做 Embedding。现在直接把 MP3 扔进去就行,少了一整个环节。

跑分怎么样

先看硬数据。

在 MTEB(Massive Text Embedding Benchmark)多语言排行榜上,Gemini Embedding 系列的得分是 68.32,比第二名高出 5.09 分。

在英文 MTEB v2 上,得分 73.30,排名第一。

在代码 Embedding 上,得分 74.66,同样排名第一。

Gemini Embedding MTEB 排行榜表现

Gemini Embedding 2 还支持 Matryoshka Representation Learning(MRL),默认输出 3,072 维向量,但可以灵活缩小到 1,536、768,甚至 128 维。

不同维度下 MTEB 的表现:

维度
MTEB 得分
3,072
最高
2,048
68.16
1,536
68.17
768
67.99
512
67.55
256
66.19
128
63.31

值得注意的是,从 3,072 降到 768,得分只掉了不到 0.5。换句话说,向量体积缩小了 75%,质量几乎没变

这对存储和计算成本的影响是巨大的。

怎么用

API 调用不再复(Goo)杂(gle)。Python 示例:

from google import genaifrom google.genai import types
client = genai.Client()
# 文本 Embeddingresult = client.models.embed_content(    model="gemini-embedding-2-preview",    contents="什么是向量数据库?")
# 图片 Embeddingwith open("diagram.png""rb"as f:    image_bytes = f.read()
result = client.models.embed_content(    model="gemini-embedding-2-preview",    contents=[        types.Part.from_bytes(            data=image_bytes,            mime_type="image/png",        ),    ])
# 混合输入:图片 + 文字生成一个融合向量result = client.models.embed_content(    model="gemini-embedding-2-preview",    contents=[        types.Content(            parts=[                types.Part(text="一张架构图"),                types.Part.from_bytes(                    data=image_bytes,                    mime_type="image/png",                )            ]        )    ])

JavaScript 版本同样简洁:

import { GoogleGenAI } from "@google/genai";import * as fs from "node:fs";
const ai new GoogleGenAI({});const imgBase64 = fs.readFileSync("diagram.png", {  encoding"base64"});
const response = await ai.models.embedContent({    model"gemini-embedding-2-preview",    contents: [{        inlineData: {            mimeType"image/png",            data: imgBase64,        },    }],});

模型还支持 8 种任务类型优化,可以根据具体场景告诉模型你要干什么:

任务类型
用途
SEMANTIC_SIMILARITY
语义相似度计算
RETRIEVAL_DOCUMENT
文档检索(索引端)
RETRIEVAL_QUERY
查询检索(查询端)
CLASSIFICATION
文本分类
CLUSTERING
聚类分析
CODE_RETRIEVAL_QUERY
代码搜索
QUESTION_ANSWERING
问答系统
FACT_VERIFICATION
事实核查
result = client.models.embed_content(    model="gemini-embedding-2-preview",    contents=texts,    config=types.EmbedContentConfig(        task_type="RETRIEVAL_DOCUMENT",        output_dimensionality=768    ))

能干什么

几个最直接的使用场景:

多模态 RAG

以前做 RAG,文档里的图表、流程图基本就扔掉了,只索引文本。现在图片和文本在同一个向量空间,可以一起检索。用户问「系统架构是什么样的」,既能找到文字描述,也能直接找到那张架构图。

跨模态搜索

用一段文字描述去搜索匹配的视频片段。或者反过来,用一张产品图去搜索相关的技术文档。这在以前需要维护多套管道,现在一套搞定。

Google 还做了一个在线 Demo:FindMeMedia,可以用图片、语音或文字搜索跨模态的内容。

音频知识库

会议录音、播客、客服电话,以前要先转录成文字才能做检索。现在直接对音频做 Embedding,省掉了转录这一步,还保留了语气、语调等文字丢失的信息。

法律文档发现

Google 提到,早期合作伙伴已经在用 Gemini Embedding 做法律领域的文档发现(discovery),在数百万条记录中精准定位关键证据,包括图片和视频证据。

竞品对比

Embedding 赛道从来不缺竞争者。来看看 Gemini Embedding 2 的几个主要对手。

Gemini Embedding 性能对比

OpenAI text-embedding-3-large

OpenAI 的当家 Embedding 模型,3,072 维,最多 8,191 tokens,MTEB 英文得分约 64.6。但它只支持文本。 图片方面,OpenAI (对外)还在用 2021 年发布的 CLIP,512 维,和现在的多模态 Embedding 差了一个时代。

换句话说,OpenAI 在多模态 Embedding 上目前是缺席的

Cohere Embed v4

Cohere 是 Embedding 赛道的老牌玩家。Embed v4 支持文本和图片,1,536 维,也用了 Matryoshka 技术,支持 100+ 种语言。它在处理复杂文档方面表现优秀,能理解表格、图表、手写笔记。

但和 Gemini Embedding 2 比,Cohere Embed v4 不支持视频和音频,覆盖的模态少了两种。

Voyage AI voyage-multimodal-3

Voyage AI 在文本 Embedding 上一直有口碑(Anthropic 官方推荐的 Embedding 供应商),voyage-3.5-lite 是性价比极高的选择。多模态方面,voyage-multimodal-3 支持文本和图片。

同样,不支持音频和视频

Jina Embeddings v4

Jina AI 去年发布的 v4 是开源阵营中最能打的多模态 Embedding 模型。38 亿参数,基于 Qwen2.5-VL 构建,支持文本、图片和 PDF,2,048 维,29 种语言。

它的杀手锏有两个:一是开源可自部署,这在数据隐私敏感的场景下是刚需;二是在视觉文档检索(ViDoRe)上拿到了 90.17 的高分,处理表格、图表、截图这类「图文混排」内容非常强。

不过 MTEB 英文得分 55.97,和 Gemini 的 73.30 有明显差距。同样不支持视频和音频

Embedding 模型多模态支持对比

综合对比:

模型
文本
图片
视频
音频
PDF
最高维度
开源
Gemini Embedding 2
3,072
OpenAI text-embedding-3
3,072
Cohere Embed v4
1,536
Voyage multimodal-3
-
Jina Embeddings v4
2,048

Gemini Embedding 2 是目前唯一一个覆盖五种模态的商用 Embedding 模型。 

而 Jina v4 是唯一开源的多模态选手。

各家各有所长。OpenAI 的文本 Embedding 生态最成熟,社区最大;Cohere 在企业级文档理解上有独到之处;Jina 能自部署,数据不出内网;Voyage AI 性价比高。

选型时,不能只看模态数量,还要看具体场景和约束条件了。

价格

文本 Embedding:$0.20 / 百万 tokens

Batch API 打五折:$0.10 / 百万 tokens

图片、音频、视频按 Gemini API 标准的媒体 token 费率计算。

作为参考,OpenAI text-embedding-3-large 是 $0.13 / 百万 tokens,Cohere Embed v4 是 $0.12 / 百万 tokens。Gemini Embedding 2 价格略高,但它覆盖的模态也多得多。

而且 Google AI Studio 有免费额度可以试用。

生态集成

Gemini Embedding 2 已经和主流的向量数据库、RAG 框架完成了集成:

  • 向量数据库:Weaviate、Qdrant、ChromaDB、Pinecone,以及 Google 自家的 BigQuery、AlloyDB、Cloud SQL

  • RAG 框架:LangChain、LlamaIndex、Haystack

  • 云平台:Gemini API 和 Vertex AI 均可调用

Qdrant 还专门发了一篇博客介绍如何利用 MRL 做「两阶段检索」:先用 768 维做快速初筛,再用 3,072 维做精排。同一个模型,同一次生成,两种用法。

要注意的坑

Embedding 空间不兼容。 如果你之前用的是 gemini-embedding-001(纯文本模型),升级到 gemini-embedding-2-preview 需要把所有数据重新 Embedding。两个模型生成的向量不在同一个空间里,直接混用会得到乱七八糟的结果。

低维度向量需要手动归一化。 3,072 维的输出是自动归一化的,但如果你缩小到 768 或 1,536 维,需要自己做 L2 归一化。

import numpy as np
embedding = np.array(result.embeddings[0].values)normalized = embedding / np.linalg.norm(embedding)

目前还是 Preview 状态。 模型 ID 带着 preview 后缀,说明 API 可能还会有调整。生产环境接入需要做好兼容性预案。

更大的图景

Embedding 模型通常不像 GPT、Claude、Gemini 这些生成式模型那样上头条。

但它其实是 AI 基础设施中最底层、最关键的一块砖。

生成式模型是「嘴」,负责说话。Embedding 模型是「记忆」,负责理解和检索。RAG 之所以能工作,就是因为 Embedding 帮模型「想起来」了相关的上下文。

过去这块砖是按模态分开烧的,文本一块,图片一块,音频一块。

Gemini Embedding 2 做的事情,是把这些碎砖烧成了一整块。

对 Agent 系统来说,这个意义可能更大。Agent 在工作过程中会接触到各种模态的信息:看到截图、听到语音指令、读取 PDF 报告。如果这些信息存在不同的向量空间里,Agent 的「记忆」就是割裂的。统一的 Embedding 空间,意味着 Agent 终于有了完整的、跨模态的记忆。

当然,这只是第一步。Preview 阶段的模型,在各个模态上的质量是否真的够用,还需要实际场景验证。

可以说:

多模态 Embedding 的统一,是 AI 基础设施的下一个关键升级。

而 Google,自然想要抢个先手。

53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询