Gemini Embedding 2:首个原生五模态embedding模型

2026年3月12日

22

257

Gemini Embedding 2:首个原生五模态embedding模型

在人工智能领域,向量嵌入(Embedding)技术一直是连接不同数据类型与语义理解的关键桥梁。传统上,针对文本、图片、视频等不同模态的数据,研究者们往往需要构建独立的模型和索引系统,这不仅增加了工程复杂度,也使得跨模态检索变得繁琐。然而,这一局面正在被Google DeepMind最新发布的Gemini Embedding 2所改变。

核心能力与技术创新

Gemini Embedding 2是业界首个原生支持五模态统一编码的embedding模型,能够将文本、图片、视频、音频、PDF五种模态的数据首次整合到同一个向量空间中。这意味着开发者可以通过一次API调用,同时输入一段文字、几张图片和一段音频,模型将返回一个统一的向量表示,这个向量深刻理解的是不同模态内容之间的语义关联。

向量维度与性能表现

在具体能力方面,Gemini Embedding 2表现出令人印象深刻的技术参数:该模型支持超过100种语言的语义理解;文本处理最长可达8192个input tokens;图片输入每次最多6张,支持PNG和JPEG格式;视频最长128秒,支持MP4和MOV格式;音频最长80秒,支持MP3和WAV格式;PDF文档最多支持6页。更值得关注的是,这五种模态可以混合输入,实现了真正的跨模态统一理解。

五种模态可以混着传,一次API调用里同时丢一段文字、三张图、一段录音进去,模型返回一个向量,这个向量理解的是它们之间的关系。

“Google DeepMind”

定价策略与市场定位

在向量表示方面,Gemini Embedding 2默认输出3072维向量,同时支持灵活的降维能力(Matryoshka Representation Learning)。令人惊喜的是,降维后的性能几乎无损:在MTEB基准测试中,3072维得分68.17,2048维得分68.16,1536维得分68.17(甚至比2048维略高0.01),768维得分67.99。这意味着开发者可以根据存储成本需求灵活选择维度——768维的存储成本仅为3072维的四分之一,而性能仅下降0.18个点位。

使用限制与早期反馈

在定价方面,Gemini Embedding 2的文本价格为每百万tokens 0.20美元,Batch API半价每百万tokens 0.10美元,图片、音频、视频则按Gemini API标准媒体token费率计算。与前代gemini-embedding-001的每百万tokens 0.15美元相比,价格上涨约33%。不过,考虑到新增的音频、视频、PDF三种模态能力,这一溢价仍在合理范围内。相比之下,OpenAI text-embedding-3-large为每百万tokens 0.13美元,Cohere Embed v4(文本+图片)为每百万tokens 0.12美元。

如有侵权,请联系删除。

Related Articles

联系我们 预约演示
小墨 AI