all posts
AI技术 · ZH

Gemini Embedding 2 深度解读:首个原生多模态嵌入模型,把搜索从"匹配关键词"重写为"理解含义"

May 8, 2026·14 min read·by PandaTalk

Gemini Embedding 2 深度解读:首个原生多模态嵌入模型,把搜索从"匹配关键词"重写为"理解含义"

2026 年 3 月 10 日,Google 推出 Gemini Embedding 2 公开预览版;4 月底正式向所有开发者开放。这是 Gemini API 中第一个原生多模态嵌入模型——文本、图像、视频、音频、文档共享同一个向量空间。上线第一周就有开发者用它构建了视频分析工具、视觉购物助手、跨模态法律检索系统。

听起来抽象?没关系。要理解这件事的分量,需要先回答一个更基础的问题:嵌入模型到底是什么,为什么它的"多模态"会成为新闻?

嵌入模型:AI 世界的"通用翻译器"

嵌入模型(Embedding Model)的工作方式,可以想象成一台通用翻译器。无论你输入的是文字、图片、视频还是声音,它都会输出一串很长的数字——通常是几百到几千维的向量。这串数字像数字指纹,浓缩了输入内容的"语义"。

关键在于这个向量空间的几何结构本身就携带信息:含义相近的内容,向量距离也相近。

举个例子。"海洋"和"波浪"这两个词,在向量空间里距离很近,因为它们经常出现在相似的上下文里,描述的事物高度相关。而"海洋"和"烤面包机"——它们的向量会离得非常远。

把这个机制扩展到搜索系统,就理解了过去十年的演进路径。早期的搜索是关键词匹配:你搜"苹果手机维修",系统去找包含这三个词的文档。这种方式遇到表达差异就失效——用户搜"iPhone 屏幕碎了怎么办"和文档里写"苹果手机屏幕维修指南",关键词重合度低,但语义几乎一致。

向量检索改写了这个逻辑。把查询和文档都转成向量,比较向量距离,就能在含义层面找到相关内容,而不再纠缠字面是否一致。

这是过去几年 RAG(检索增强生成)、语义搜索、智能推荐的底层基础设施。但有一个一直没解决的问题:每种模态都需要单独的模型,文本一个模型、图像一个模型、音频又是另一个模型。跨模态搜索得靠各种胶水代码拼接,效果难以保证。

Gemini Embedding 2 要解决的,正是这个问题。

原生多模态:让一张视频和一句话进入同一个空间

Gemini Embedding 2 最核心的技术突破,是把所有模态统一映射到 3072 维的同一个向量空间。

这意味着什么?一段足球比赛的视频,和一句话"绝杀进球",经过 Gemini Embedding 2 处理后,得到的两个向量在空间中是邻居。模型并不需要给视频打上"足球""进球""精彩瞬间"的标签——它在训练阶段已经学会了感知不同模态之间的语义关联。

这种统一向量空间带来三个直接的能力:

第一,跨模态检索。用一张产品照片搜索"同款黄色",用一段语音描述去检索一万小时视频里出现过的某个场景,用一段文字描述去匹配 PDF 里的某张图表——这些过去需要复杂工程才能勉强实现的功能,现在变成了一次嵌入调用。

第二,交错输入(interleaved input)。模型原生理解图文混排的请求。你可以在一次请求里传入"这个零件"+一张零件照片,模型把它们作为一个整体进行编码,而不是分别编码再拼接。这对文档检索、产品搜索特别关键。

第三,跳过中间转录环节。传统做法处理音频要先转文字再嵌入,处理视频要先抽帧再描述再嵌入——每一步都有信息损失。Gemini Embedding 2 直接吃原始音频和视频字节,避免这些链路损耗。

技术规格:每一项都关系到能不能用

把规格表展开,能看出 Google 在产品定位上做了哪些权衡。

输入侧的能力边界:

  • 文本:最多 8192 token
  • 图像:单次最多 6 张,支持 PNG 和 JPEG
  • 视频:最长 120 秒,支持 MP4 和 MOV
  • 音频:最长 180 秒
  • PDF:单次最多 6 页

输出侧用了一个叫 Matryoshka Representation Learning(俄罗斯套娃式表示学习)的技巧。默认输出 3072 维向量,但你可以截取前 768 维或 1536 维使用,几乎不损失检索质量。这件事的工程意义很大——向量数据库的存储成本和查询速度,都和维度直接挂钩。3072 维存一亿条数据可能要几个 TB,截到 768 维瞬间降到四分之一。

语言覆盖超过 100 种,这对跨境业务是基础设施级别的能力。一个国际电商可以用同一个模型处理英语查询、中文商品描述、日语用户评论,全部进入同一个语义空间互相比较。

真实案例:从"上线了"到"产生价值"的距离

技术规格只是入场券。真正值得关注的是早期采用者用它做出了什么——这些数据来自 Google 的官方公布:

Paramount Skydance 把它接进影视内容库,用图片或视频片段作为查询去检索未转录的素材,文本到视频的召回率达到 85.3%。这个能力对内容创作公司意味着,几十年的素材库突然变得可搜——你想找"主角站在雨中的全景镜头",过去需要靠人工标签或片段描述,现在可以直接描述场景去搜。

Everlaw 是法律电子取证(eDiscovery)平台。法律案件里经常有几百万份混合材料:邮件、合同、聊天记录、手机相册、监控录像。用 Gemini Embedding 2 之后,他们能把图像和视频也纳入统一搜索,召回率提升了 20%。在诉讼场景里,召回率每提升一个百分点都可能影响案件走向。

Nuuly 做的是服装租赁。接入视觉搜索后,匹配准确率从 60% 跳到 87%。Sparkonomy 的延迟降了 70%,文本-图像和文本-视频的语义相似度从 0.4 提升到 0.8。Harvey(法律 AI 平台)在专业法律基准上召回精度提升了 3%。Supermemory 的召回准确率提高了 40%。

这些数字本身值得审视——大部分是采用者自己公布、面向自己的业务场景。但模式是清晰的:跨模态检索的天花板被显著抬高,原本用胶水代码拼接的方案,现在能用一个模型替代。

怎么用:一段最简单的代码

开发者层面,接入成本很低。下面这段 Python 代码同时嵌入一段文字和一张图片,得到的向量可以直接放进任何向量数据库:

from google import genai
from google.genai import types

client = genai.Client()

with open('dog.png', 'rb') as f:
    image_bytes = f.read()

result = client.models.embed_content(
    model='gemini-embedding-2',
    contents=[
        "An image of a dog",
        types.Part.from_bytes(
            data=image_bytes,
            mime_type='image/png',
        ),
    ]
)

print(result.embeddings)

注意 contents 是一个列表,文字和图片字节并列传入。模型会把它们作为一个整体编码——这就是前面说的交错输入。

如果是构建 RAG 应用,Google 推荐用任务前缀来优化嵌入:

def prepare_query(query):
    return f"task: question answering | query: {query}"

def prepare_document(content, title=None):
    if title is None:
        title = "none"
    return f"title: {title} | text: {content}"

这个小技巧解决的是非对称检索的痛点——查询通常很短(几个词),文档通常很长(几千字),两者的向量分布存在偏差。加上任务前缀相当于告诉模型"这个是问题,那个是答案",让两侧的向量在空间里靠拢。

集成生态方面,LangChain、LlamaIndex、Haystack 这些框架已经支持,Weaviate、Qdrant、ChromaDB、Vector Search 这些向量数据库可以直接对接。如果用批量 API 处理离线索引任务,成本还能再降 50%。

这件事的深层意义:搜索范式的迁移

回到一个更宏观的问题:为什么原生多模态嵌入模型值得单独写一篇文章?

过去十年,搜索这个动作一直被绑定在文本上。哪怕你搜的是图片,背后也是图片的元数据、标签、文件名在被检索。视频搜索更是这样,靠的是字幕、标题、人工标注。多模态原生意味着搜索的对象第一次真正回到了内容本身——一帧画面、一段声音、一句话,在向量空间里平等。

这种平等会重塑很多产品。视觉购物从"输入关键词找商品"变成"上传一张街拍找同款"。客服系统从"用户描述问题"变成"用户拍下故障设备"。教育平台从"按章节检索讲解"变成"按提问场景找最匹配的视频片段"。这些场景过去都做得到,但成本高、效果差,靠的是多模型拼接和大量人工标注。现在它们的工程门槛被一次性降低。

更长远的影响在于 Agent 体系。一个能力强大的 Agent,需要从海量异构信息里快速找到相关上下文。如果文档、截图、屏幕录像、电话录音都能进入同一个向量空间被统一检索,Agent 的"记忆"和"感知"才能真正连成一片。Gemini Embedding 2 提供了这个底层能力。

结语:基础设施的更新比模型迭代更值得关注

大模型领域的注意力总是集中在最强的对话模型上——GPT 又升级了、Claude 又发新版了、Gemini 又能做更复杂的推理了。但真正决定 AI 应用能跑多快、走多远的,往往是底层基础设施的更新:嵌入模型、检索系统、向量数据库、Agent 框架。

Gemini Embedding 2 这次更新,把"多模态原生"从研究概念落到了 API。对于已经在做 RAG 或语义搜索的团队,这是一个值得严肃评估的技术选项;对于还没有动手的团队,这是一个重新思考产品边界的契机——以前因为成本或效果不可行的多模态搜索功能,现在可能只需要几行代码。

试一下,用一张图、一段视频、一句话同时去查询同一个数据集,看看会发生什么。


参考资料:

━━━ fin ━━━

If you read this far — thank you.
Come tell me what you thought on X.