Gemini Embedding 2 en disponibilité générale : premier modèle d'embeddings nativement multimodal, MTEB #1

Les modèles d'embeddings texte ont longtemps dominé les architectures RAG, forçant les développeurs à maintenir des pipelines séparés pour indexer du texte d'un côté, des images de l'autre. Gemini Embedding 2, passé en disponibilité générale début mai 2026, change cette donne en proposant un espace vectoriel unique pour cinq types de données : texte, image, vidéo, audio et PDF. Le modèle était en préversion depuis le 10 mars 2026 et arrive en production après un trimestre de tests entreprise.

Points clés

MTEB Multilingual : score de 68,16 — plus de 6 points d'avance sur le deuxième modèle au classement MTEB. C'est l'écart le plus important observé en tête de ce benchmark depuis plusieurs cycles.
Multimodalité native : un seul appel API peut ingérer jusqu'à 8 192 tokens de texte, 6 images, 120 secondes de vidéo, 180 secondes d'audio et 6 pages de PDF, en les projetant dans le même espace vectoriel de 3 072 dimensions.
Matryoshka Representation Learning (MRL) : les embeddings peuvent être tronqués à 1 536 ou 768 dimensions pour réduire les coûts de stockage, avec une dégradation de qualité progressive et prévisible.
Multilingue : 100+ langues supportées nativement, sans modèle dédié par langue.
Prix : $0,20 par million de tokens — en dessous de la plupart des alternatives comparables en qualité.
Disponibilité : Gemini API, Vertex AI et Gemini Enterprise Agent Platform.

Ce que ça change pour RAG

La clé de l'annonce n'est pas uniquement le score MTEB : c'est la projection cross-modale dans un espace unifié. Avec les embeddings texte seuls, une requête comme « montre-moi des slides avec un graphique en barres sur les ventes Q3 » exigeait une combinaison d'OCR, de description d'images et de pipelines multicouches. Avec Gemini Embedding 2, on encode directement les slides comme images et la requête comme texte — la similarité cosinus fait le travail de rapprochement cross-modal.

import google.generativeai as genai

# Requête texte → vecteur comparable aux embeddings d'images indexées
result = genai.embed_content(
    model="models/gemini-embedding-2",
    content={"text": "graphique en barres ventes Q3"},
    task_type="RETRIEVAL_QUERY",
)
# result["embedding"] → liste de 3072 floats

# Embedding d'une image pour l'indexation
result_img = genai.embed_content(
    model="models/gemini-embedding-2",
    content={"inline_data": {"mime_type": "image/png", "data": img_bytes_b64}},
    task_type="RETRIEVAL_DOCUMENT",
)

Les deux vecteurs résultants vivent dans le même espace et sont directement comparables par similarité cosinus — sans couche de traduction.

Limites à surveiller

La fenêtre vidéo est plafonnée à 120 secondes : les contenus plus longs nécessitent un découpage préalable. La limite de 6 images par appel peut contraindre les pipelines d'indexation volumétriques habitués à traiter des batches plus larges. Par ailleurs, les benchmarks MTEB mesurent principalement la qualité de la récupération textuelle — les benchmarks multimodaux restent moins standardisés, ce qui complique la comparaison rigoureuse sur la dimension vision.

Côté intégrations tierces, Qdrant a publié un guide de démarrage rapide avec des exemples de recherche vectorielle cross-modale. LangChain a ajouté le support dans sa version 0.3.12. Les développeurs migrant depuis text-embedding-004 n'ont pas de changement d'API à gérer — seul le nom du modèle change.

Annonce officielle Google · Guide d'intégration Qdrant · Classement MTEB