Gemini Embedding 2 深度解读：首个原生多模态嵌入模型，把搜索从"匹配关键词"重写为"理解含义"

2026 年 3 月 10 日，Google 推出 Gemini Embedding 2 公开预览版；4 月底正式向所有开发者开放。这是 Gemini API 中第一个原生多模态嵌入模型——文本、图像、视频、音频、文档共享同一个向量空间。上线第一周就有开发者用它构建了视频分析工具、视觉购物助手、跨模态法律检索系统。

听起来抽象？没关系。要理解这件事的分量，需要先回答一个更基础的问题：嵌入模型到底是什么，为什么它的"多模态"会成为新闻？

嵌入模型：AI 世界的"通用翻译器"

嵌入模型（Embedding Model）的工作方式，可以想象成一台通用翻译器。无论你输入的是文字、图片、视频还是声音，它都会输出一串很长的数字——通常是几百到几千维的向量。这串数字像数字指纹，浓缩了输入内容的"语义"。

关键在于这个向量空间的几何结构本身就携带信息：含义相近的内容，向量距离也相近。

举个例子。"海洋"和"波浪"这两个词，在向量空间里距离很近，因为它们经常出现在相似的上下文里，描述的事物高度相关。而"海洋"和"烤面包机"——它们的向量会离得非常远。

把这个机制扩展到搜索系统，就理解了过去十年的演进路径。早期的搜索是关键词匹配：你搜"苹果手机维修"，系统去找包含这三个词的文档。这种方式遇到表达差异就失效——用户搜"iPhone 屏幕碎了怎么办"和文档里写"苹果手机屏幕维修指南"，关键词重合度低，但语义几乎一致。

向量检索改写了这个逻辑。把查询和文档都转成向量，比较向量距离，就能在含义层面找到相关内容，而不再纠缠字面是否一致。

这是过去几年 RAG（检索增强生成）、语义搜索、智能推荐的底层基础设施。但有一个一直没解决的问题：每种模态都需要单独的模型，文本一个模型、图像一个模型、音频又是另一个模型。跨模态搜索得靠各种胶水代码拼接，效果难以保证。

Gemini Embedding 2 要解决的，正是这个问题。

原生多模态：让一张视频和一句话进入同一个空间

Gemini Embedding 2 最核心的技术突破，是把所有模态统一映射到 3072 维的同一个向量空间。

这意味着什么？一段足球比赛的视频，和一句话"绝杀进球"，经过 Gemini Embedding 2 处理后，得到的两个向量在空间中是邻居。模型并不需要给视频打上"足球""进球""精彩瞬间"的标签——它在训练阶段已经学会了感知不同模态之间的语义关联。

这种统一向量空间带来三个直接的能力：

第一，跨模态检索。用一张产品照片搜索"同款黄色"，用一段语音描述去检索一万小时视频里出现过的某个场景，用一段文字描述去匹配 PDF 里的某张图表——这些过去需要复杂工程才能勉强实现的功能，现在变成了一次嵌入调用。

第二，交错输入（interleaved input）。模型原生理解图文混排的请求。你可以在一次请求里传入"这个零件"+一张零件照片，模型把它们作为一个整体进行编码，而不是分别编码再拼接。这对文档检索、产品搜索特别关键。

第三，跳过中间转录环节。传统做法处理音频要先转文字再嵌入，处理视频要先抽帧再描述再嵌入——每一步都有信息损失。Gemini Embedding 2 直接吃原始音频和视频字节，避免这些链路损耗。

技术规格：每一项都关系到能不能用

把规格表展开，能看出 Google 在产品定位上做了哪些权衡。

输入侧的能力边界：

文本：最多 8192 token
图像：单次最多 6 张，支持 PNG 和 JPEG
视频：最长 120 秒，支持 MP4 和 MOV
音频：最长 180 秒
PDF：单次最多 6 页

输出侧用了一个叫 Matryoshka Representation Learning（俄罗斯套娃式表示学习）的技巧。默认输出 3072 维向量，但你可以截取前 768 维或 1536 维使用，几乎不损失检索质量。这件事的工程意义很大——向量数据库的存储成本和查询速度，都和维度直接挂钩。3072 维存一亿条数据可能要几个 TB，截到 768 维瞬间降到四分之一。

语言覆盖超过 100 种，这对跨境业务是基础设施级别的能力。一个国际电商可以用同一个模型处理英语查询、中文商品描述、日语用户评论，全部进入同一个语义空间互相比较。

真实案例：从"上线了"到"产生价值"的距离

技术规格只是入场券。真正值得关注的是早期采用者用它做出了什么——这些数据来自 Google 的官方公布：

Paramount Skydance 把它接进影视内容库，用图片或视频片段作为查询去检索未转录的素材，文本到视频的召回率达到 85.3%。这个能力对内容创作公司意味着，几十年的素材库突然变得可搜——你想找"主角站在雨中的全景镜头"，过去需要靠人工标签或片段描述，现在可以直接描述场景去搜。

Everlaw 是法律电子取证（eDiscovery）平台。法律案件里经常有几百万份混合材料：邮件、合同、聊天记录、手机相册、监控录像。用 Gemini Embedding 2 之后，他们能把图像和视频也纳入统一搜索，召回率提升了 20%。在诉讼场景里，召回率每提升一个百分点都可能影响案件走向。

Nuuly 做的是服装租赁。接入视觉搜索后，匹配准确率从 60% 跳到 87%。Sparkonomy 的延迟降了 70%，文本-图像和文本-视频的语义相似度从 0.4 提升到 0.8。Harvey（法律 AI 平台）在专业法律基准上召回精度提升了 3%。Supermemory 的召回准确率提高了 40%。

这些数字本身值得审视——大部分是采用者自己公布、面向自己的业务场景。但模式是清晰的：跨模态检索的天花板被显著抬高，原本用胶水代码拼接的方案，现在能用一个模型替代。

怎么用：一段最简单的代码

开发者层面，接入成本很低。下面这段 Python 代码同时嵌入一段文字和一张图片，得到的向量可以直接放进任何向量数据库：

from google import genai
from google.genai import types

client = genai.Client()

with open('dog.png', 'rb') as f:
    image_bytes = f.read()

result = client.models.embed_content(
    model='gemini-embedding-2',
    contents=[
        "An image of a dog",
        types.Part.from_bytes(
            data=image_bytes,
            mime_type='image/png',
        ),
    ]
)

print(result.embeddings)

注意 contents 是一个列表，文字和图片字节并列传入。模型会把它们作为一个整体编码——这就是前面说的交错输入。

如果是构建 RAG 应用，Google 推荐用任务前缀来优化嵌入：

def prepare_query(query):
    return f"task: question answering | query: {query}"

def prepare_document(content, title=None):
    if title is None:
        title = "none"
    return f"title: {title} | text: {content}"

这个小技巧解决的是非对称检索的痛点——查询通常很短（几个词），文档通常很长（几千字），两者的向量分布存在偏差。加上任务前缀相当于告诉模型"这个是问题，那个是答案"，让两侧的向量在空间里靠拢。

集成生态方面，LangChain、LlamaIndex、Haystack 这些框架已经支持，Weaviate、Qdrant、ChromaDB、Vector Search 这些向量数据库可以直接对接。如果用批量 API 处理离线索引任务，成本还能再降 50%。

这件事的深层意义：搜索范式的迁移

回到一个更宏观的问题：为什么原生多模态嵌入模型值得单独写一篇文章？

过去十年，搜索这个动作一直被绑定在文本上。哪怕你搜的是图片，背后也是图片的元数据、标签、文件名在被检索。视频搜索更是这样，靠的是字幕、标题、人工标注。多模态原生意味着搜索的对象第一次真正回到了内容本身——一帧画面、一段声音、一句话，在向量空间里平等。

这种平等会重塑很多产品。视觉购物从"输入关键词找商品"变成"上传一张街拍找同款"。客服系统从"用户描述问题"变成"用户拍下故障设备"。教育平台从"按章节检索讲解"变成"按提问场景找最匹配的视频片段"。这些场景过去都做得到，但成本高、效果差，靠的是多模型拼接和大量人工标注。现在它们的工程门槛被一次性降低。

更长远的影响在于 Agent 体系。一个能力强大的 Agent，需要从海量异构信息里快速找到相关上下文。如果文档、截图、屏幕录像、电话录音都能进入同一个向量空间被统一检索，Agent 的"记忆"和"感知"才能真正连成一片。Gemini Embedding 2 提供了这个底层能力。

结语：基础设施的更新比模型迭代更值得关注

大模型领域的注意力总是集中在最强的对话模型上——GPT 又升级了、Claude 又发新版了、Gemini 又能做更复杂的推理了。但真正决定 AI 应用能跑多快、走多远的，往往是底层基础设施的更新：嵌入模型、检索系统、向量数据库、Agent 框架。

Gemini Embedding 2 这次更新，把"多模态原生"从研究概念落到了 API。对于已经在做 RAG 或语义搜索的团队，这是一个值得严肃评估的技术选项；对于还没有动手的团队，这是一个重新思考产品边界的契机——以前因为成本或效果不可行的多模态搜索功能，现在可能只需要几行代码。

试一下，用一张图、一段视频、一句话同时去查询同一个数据集，看看会发生什么。

参考资料：

━━━ fin ━━━

If you read this far — thank you.
Come tell me what you thought on X.