Gemma 4 : Google publie quatre modèles multimodaux ouverts sous Apache 2.0

Le 2 avril 2026, Google DeepMind publie la quatrième génération de ses modèles Gemma, avec quatre variantes disponibles simultanément sous licence Apache 2.0. Cette sortie envoie un signal fort pour l'open source IA : Apache 2.0 signifie zéro restriction d'usage commercial, aucune limite de déploiement mensuel, aucune clause copyleft — une posture plus nette que la Llama Community License de Meta ou que les « open weights » accompagnés de politiques d'usage d'OpenAI.

Quatre variantes, deux architectures

Google livre deux architectures en parallèle :

Dense :

Gemma 4 2B (2,3B paramètres effectifs) : optimisé pour l'inférence sur smartphone ou CPU serveur, audio natif inclus
Gemma 4 4B (4,5B paramètres effectifs) : performance robuste sur GPU grand public, Intel Arc inclus, audio natif inclus

Mixture-of-Experts (MoE) :

Gemma 4 27B MoE (26B total, ~3,8B actifs par token) : le rapport efficacité/coût le plus intéressant — inférence à coût proche d'un 4B pour des résultats proches du 31B
Gemma 4 31B Dense : modèle phare, #3 sur l'Arena AI leaderboard (LMArena 1452, texte seul)

Multimodalité native

Contrairement aux adaptations post-hoc, Gemma 4 est multimodal dès la conception : chaque variante traite texte, images à résolution variable et vidéo. Les variantes 2B et 4B ajoutent l'audio natif en entrée — un avantage rare dans leur classe de taille. La fenêtre de contexte monte à 256 000 tokens sur toutes les variantes, avec support de 140+ langues.

Benchmarks

Modèle	AIME 2026	MMLU Pro	Params actifs
Gemma 4 31B Dense	89,2 %	85,2 %	31B
Gemma 4 27B MoE	88,3 %	—	~3,8B

Le 27B IT dépasse Gemma 3 27B IT de 25 points sur AIME 2026 et triple son score sur LiveCodeBench v6. Ce gain génération-sur-génération est inhabituel dans l'espace open source.

Apache 2.0 : l'enjeu juridique

Pour les organisations soumises à des contraintes de compliance — notamment les entreprises européennes avec l'EU AI Act — Apache 2.0 simplifie considérablement le cadre légal. Pas de déclaration d'usage commercial, pas de notification d'utilisation étendue, pas de clauses spéciales à négocier. Toute équipe peut déployer, fine-tuner et redistribuer sans friction juridique additionnelle.

Les modèles sont disponibles sur HuggingFace, Vertex AI, Kaggle Models, Google AI Studio et LM Studio.

Nuances

Le 31B Dense exige un GPU A100 ou H100 pour une inférence fluide ; les options GGUF permettent un déploiement local au prix d'une dégradation mesurable. Le support audio beta sur les modèles légers n'est pas encore stable selon les premiers retours de la communauté HuggingFace. Enfin, les scores AIME mesurent des compétences mathématiques en contexte scolaire et ne préjugent pas des performances sur des tâches de production diversifiées — benchmarks et conditions réelles divergent souvent.

Source principale · Google DeepMind · HuggingFace blog