Qu'est-ce que Google Gemma 4 et quand a-t-il été publié ?

Google Gemma 4 est une famille de modèles open-weight de Google DeepMind publiée le April 2, 2026. Elle comprend 4 tailles — E2B (2.3B effective), E4B (4.5B effective), 26B MoE (3.8B active / 26B total) et 31B Dense. Tous les modèles sont publiés sous Apache 2.0, la licence la plus permissive jamais utilisée pour une version de Gemma.

Gemma 4 est-il vraiment open source ?

Oui. Gemma 4 est la première génération de Gemma publiée sous la licence Apache 2.0, qui permet l'utilisation commerciale sans restriction, la modification et la redistribution sans nécessiter l'autorisation de Google. Les modèles Gemma précédents utilisaient la licence Gemma personnalisée de Google qui imposait des restrictions d'utilisation.

Quelle context window est prise en charge par Gemma 4 ?

Les modèles plus petits (E2B et E4B) prennent en charge des 128K token context windows. Les modèles plus grands (26B MoE et 31B Dense) prennent en charge des 256K token context windows. Il s'agit d'une amélioration majeure par rapport aux limites de contexte de Gemma 3, permettant le traitement de codebases entières ou de documents longs dans un seul prompt.

Gemma 4 peut-il traiter des images, de la vidéo et de l'audio ?

Oui. Les quatre modèles Gemma 4 sont natively multimodal et prennent en charge les entrées text et image. Les modèles E2B et E4B vont plus loin avec des capacités natives de traitement video et audio. Cela fait de Gemma 4 la première famille de modèles open-weight où les plus petits modèles bénéficient du plus large modality support.

De quel matériel ai-je besoin pour exécuter Gemma 4 localement ?

Gemma 4 E2B et E4B fonctionnent sur des appareils avec seulement 5GB RAM en utilisant la 4-bit quantization, y compris les smartphones et les ordinateurs portables. Le modèle 26B MoE nécessite environ 18GB RAM et le 31B Dense nécessite environ 20GB RAM. Tous les modèles fonctionnent via Ollama avec une optimisation NVIDIA RTX GPU disponible.

Point clé

Google Gemma 4 est la famille de modèles open-weight la plus performante jamais publiée sous une licence véritablement permissive. Le modèle 31B Dense obtient un score de 85.2% sur MMLU Pro et se classe 3e parmi tous les modèles ouverts sur Arena AI — tandis que le 26B MoE atteint une qualité presque identique avec seulement 3.8B de paramètres actifs. Pour la première fois, Gemma est distribué sous Apache 2.0, supprimant toutes les frictions liées aux licences qui freinaient l'adoption commerciale des générations précédentes.

Google Gemma 4 : Tout ce que vous devez savoir

Q: Comment fonctionne le thinking mode de Gemma 4 ?

Gemma 4 inclut un configurable thinking mode qui génère plus de 4,000+ tokens de raisonnement interne avant de produire une réponse. Ce raisonnement chain-of-thought peut être activé ou désactivé par requête, permettant aux développeurs de choisir entre des réponses plus rapides pour des tâches simples et un raisonnement plus approfondi pour des problèmes complexes comme les mathématiques, la logique et le coding.

Aperçu de la sortie

Google DeepMind a publié Gemma 4 le April 2, 2026, introduisant quatre tailles de modèles basées sur la même fondation technologique que Gemini 3. Cette génération représente le plus grand bond en avant de la famille Gemma dans toutes les dimensions : qualité du modèle, capacités multimodales, longueur de contexte et conditions de licence.

Les principaux changements par rapport à Gemma 3 :

Licence Apache 2.0 — aucune restriction d'usage, pas de licence personnalisée, liberté commerciale totale
Quatre tailles de modèles au lieu de trois, incluant une nouvelle architecture MoE
Support multimodal natif sur toutes les tailles (texte, images, vidéo, audio)
Mode de réflexion (thinking mode) configurable avec des chaînes de raisonnement de plus de 4,000 tokens
Fenêtres de contexte de 256K sur les modèles plus larges (contre les limites de Gemma 3)
Plus de 35 langues supportées, pré-entraîné sur plus de 140 langues
Utilisation d'outils structurés pour des workflows agentiques

Les quatre tailles de modèles

Gemma 4 est disponible en quatre tailles distinctes, chacune ciblant des scénarios de déploiement différents :

Modèle	Paramètres	Params actifs	Architecture	Contexte	Modalités
E2B	2.3B effectifs	2.3B	Dense	128K	Texte, Image, Vidéo, Audio
E4B	4.5B effectifs	4.5B	Dense	128K	Texte, Image, Vidéo, Audio
26B MoE	26B au total	3.8B	Mixture of Experts	256K	Texte, Image
31B Dense	31B	31B	Dense	256K	Texte, Image

Source : Google AI Blog

E2B et E4B : Les modèles Edge

Les plus petits modèles Gemma 4 sont conçus pour un déploiement sur l'appareil. Avec respectivement 2.3B et 4.5B de paramètres effectifs, ils fonctionnent sur smartphones, tablettes et ordinateurs portables avec seulement 5GB de RAM en utilisant une quantification 4-bit.

Ce qui rend ces modèles remarquables est leur étendue de modalités. Bien qu'ils soient les plus petits de la famille, E2B et E4B sont les seuls modèles Gemma 4 à supporter les quatre modalités d'entrée : texte, images, vidéo et audio. C'est un choix de conception délibéré — les appareils en bordure de réseau (edge) dotés de caméras et de microphones bénéficient le plus des capacités multimodales.

Les deux modèles supportent des fenêtres de contexte de 128K tokens, ce qui est généreux pour leur nombre de paramètres et suffisant pour la plupart des cas d'utilisation sur l'appareil.

26B MoE : Efficacité maximale

Le modèle 26B Mixture of Experts est sans doute le modèle le plus intéressant de la gamme Gemma 4. Il contient 26B de paramètres au total mais n'active que 3.8B de paramètres pour toute entrée donnée — soit environ le même coût de calcul que le modèle E4B, mais avec un accès à considérablement plus de connaissances et de capacités.

Sur Arena AI, le 26B MoE se classe 6e parmi tous les modèles ouverts avec un score de 1441, bien qu'il n'utilise que 3.8B de paramètres actifs. Ce ratio d'efficacité est sans précédent — aucun autre modèle n'atteint une qualité comparable à ce coût de calcul.

L'architecture MoE route chaque token à travers des sous-réseaux d'experts spécialisés, permettant au modèle de maintenir une grande capacité de connaissances tout en gardant un coût d'inférence bas. Pour les scénarios de déploiement où vous avez besoin d'un raisonnement solide mais disposez d'une mémoire GPU limitée, le 26B MoE est le choix optimal.

31B Dense : Qualité maximale

Le modèle 31B Dense est le fleuron de Gemma 4. Chaque paramètre est actif pour chaque token, ce qui lui donne les résultats les plus cohérents et de la plus haute qualité pour tous les types de tâches.

Sur Arena AI, le 31B Dense se classe 3e parmi tous les modèles ouverts avec un score de 1452. Sur MMLU Pro, il atteint 85.2% — compétitif avec des modèles plusieurs fois plus grands. Le score de 89.2% sur AIME 2026 démontre un solide raisonnement mathématique, tandis que les 74% sur BigBench Extra Hard (contre 19% dans les générations précédentes) montrent une amélioration massive dans les tâches de raisonnement complexe.

Benchmarks : Les données complètes

Raisonnement et connaissances

Benchmark	31B Dense	26B MoE	Notes
MMLU Pro	85.2%	—	Connaissances de niveau universitaire
AIME 2026	89.2%	—	Mathématiques de compétition
BigBench Extra Hard	74%	—	Contre 19% dans la gén. précédente
Score Arena AI	1452 (3e)	1441 (6e)	Classements des modèles ouverts

Source : Rapport technique Google DeepMind

BigBench Extra Hard : Le résultat marquant

Le passage de 19% à 74% sur BigBench Extra Hard mérite une attention particulière. Ce benchmark teste le raisonnement complexe en plusieurs étapes, la déduction logique et les tâches qui nécessitent une compréhension réelle plutôt qu'une simple reconnaissance de formes. Une amélioration de 55 points de pourcentage en une seule génération suggère des avancées fondamentales dans l'architecture de raisonnement de Gemma 4, et pas seulement un changement d'échelle.

Cette amélioration est probablement liée au mode de réflexion configurable et à la technologie Gemini 3 sous-jacente sur laquelle Gemma 4 est construit. Le mode de réflexion génère des chaînes de raisonnement étendues qui aident le modèle à résoudre des problèmes complexes étape par étape.

Contexte des classements Arena AI

Arena AI classe les modèles en fonction de comparaisons de préférences humaines directes. Le score de 1452 du 31B Dense et son 3e rang parmi les modèles ouverts le placent au-dessus de nombreux modèles ayant nettement plus de paramètres. Pour situer le contexte :

Les modèles classés au-dessus sont typiquement des modèles de plus de 70B paramètres.
Le 26B MoE atteignant 1441 avec seulement 3.8B de paramètres actifs est une percée en matière d'efficacité.
Les deux modèles surpassent l'ancien Gemma 3 27B par une marge significative.

Capacités multimodales

Compréhension d'images

Les quatre modèles Gemma 4 traitent les images de manière native. Les capacités incluent :

Description et analyse d'images — compréhension détaillée du contenu visuel
OCR et analyse de documents — extraction de texte à partir d'images, de reçus, de captures d'écran
Interprétation de graphiques et diagrammes — compréhension des visualisations de données
Raisonnement visuel — réponse à des questions nécessitant la compréhension des relations spatiales

Vidéo et Audio (E2B/E4B uniquement)

Les plus petits modèles E2B et E4B ajoutent le traitement natif de la vidéo et de l'audio :

Compréhension vidéo — analyse du contenu vidéo sans extraction image par image
Transcription et compréhension audio — traitement de la parole et de l'audio environnemental
Raisonnement cross-modal — réponse à des questions englobant des entrées texte, image, vidéo et audio

Ce choix de conception reflète l'accent mis par Google sur le déploiement edge. Les appareils mobiles capturent nativement de la vidéo et de l'audio, les modèles conçus pour ces appareils supportent donc ces modalités.

Mode de réflexion configurable

Gemma 4 introduit un mode de réflexion (thinking mode) configurable qui génère plus de 4,000 tokens de raisonnement interne avant de produire une réponse. Ceci est similaire aux capacités de réflexion étendue vues dans les modèles de Claude et la série o d'OpenAI, mais implémenté dans un modèle open-weight.

Comment ça marche

Lorsque le mode de réflexion est activé, le modèle :

Reçoit le prompt d'entrée
Génère une chaîne de raisonnement interne (visible ou cachée, selon la configuration)
Utilise cette chaîne de raisonnement pour produire une réponse finale de meilleure qualité

Le mode de réflexion peut être activé ou désactivé par requête, permettant aux développeurs de :

Activer la réflexion pour les tâches complexes de mathématiques, de logique, de codage et d'analyse
Désactiver la réflexion pour les requêtes simples, le chat et les applications sensibles à la latence
Ajuster la profondeur de réflexion en fonction de la complexité attendue de la tâche

Impact sur la qualité

Le mode de réflexion est l'un des principaux moteurs de la forte performance de Gemma 4 dans les benchmarks. Le score de 89.2% sur AIME 2026 et de 74% sur BigBench Extra Hard sont tous deux obtenus avec le mode de réflexion activé. Sans ce mode, ces scores seraient notablement plus bas — suivant le même schéma observé chez d'autres modèles dotés de capacités de raisonnement étendu.

Apache 2.0 : Pourquoi le changement de licence est important

Les générations précédentes de Gemma étaient distribuées sous la licence personnalisée de Google, qui incluait des restrictions sur :

L'usage dans certaines applications
Les conditions de redistribution
Les limitations de déploiement commercial pour un usage à grande échelle

Gemma 4 passe à Apache 2.0, la même licence utilisée par des projets comme Kubernetes, TensorFlow et Apache HTTP Server. Cela signifie :

Aucune restriction d'usage — utilisez-le pour n'importe quoi, y compris des produits commerciaux
Aucune limitation de redistribution — partagez librement les poids modifiés
Aucune exigence d'attribution au-delà de la licence — avis standard Apache 2.0
Aucune approbation de Google requise — déployez à n'importe quelle échelle sans permission
Compatible avec d'autres licences open-source — facile à intégrer dans des projets existants

Pour les entreprises et les startups qui construisent des produits sur des modèles ouverts, cela supprime la surcharge de révision juridique qu'imposait la licence personnalisée de Gemma. Cela rend également Gemma 4 directement comparable aux modèles Llama de Meta (qui utilisent leur propre licence personnalisée avec certaines restrictions) et le positionne comme la famille de modèles ouverts de haute qualité sous la licence la plus permissive disponible.

Support linguistique

Gemma 4 supporte plus de 35 langues pour l'inférence et a été pré-entraîné sur plus de 140 langues. Cela en fait l'un des modèles ouverts les plus multilingues disponibles, aux côtés des modèles de Qwen qui mettent également l'accent sur une large couverture linguistique.

Les langues supportées incluent les principales langues mondiales (anglais, chinois, espagnol, français, allemand, japonais, coréen, arabe, hindi, portugais, russe) ainsi que de nombreuses langues ayant une empreinte numérique plus faible. Le pré-entraînement sur plus de 140 langues signifie que le modèle possède certaines capacités dans des langues au-delà des 35 officiellement supportées, bien que la qualité puisse varier.

Pour les applications ciblant des publics mondiaux ou des marchés non anglophones, ce large support linguistique réduit le besoin d'un fine-tuning spécialisé ou de modèles séparés par langue.

Utilisation d'outils structurés et workflows agentiques

Gemma 4 inclut un support natif pour l'utilisation d'outils structurés, permettant des workflows agentiques où le modèle peut :

Appeler des API externes avec des requêtes correctement formatées
Analyser des réponses structurées provenant d'outils et de services
Enchaîner plusieurs appels d'outils pour accomplir des tâches complexes
Gérer les erreurs et les tentatives lors de l'exécution des outils

Cette capacité est particulièrement pertinente pour l'intégration d'Android Studio, où Gemma 4 alimente des workflows de codage agentiques locaux. Le modèle peut comprendre le contexte du code, suggérer des modifications, exécuter des outils et itérer — le tout s'exécutant localement sur la machine du développeur sans envoyer de code à des serveurs externes.

Pour les développeurs construisant des agents IA, l'utilisation d'outils structurés de Gemma 4 fournit une base entièrement locale et privée. Combiné à la licence Apache 2.0, cela permet de construire et de déployer des applications agentiques sans aucune dépendance envers des fournisseurs de modèles externes.

Configuration matérielle requise

Déploiement local via Ollama

Modèle	RAM requise (4-bit)	RAM requise (FP16)	Recommandation GPU
E2B	~5 GB	~5 GB	Tout GPU moderne / CPU uniquement
E4B	~5 GB	~9 GB	Tout GPU moderne / CPU uniquement
26B MoE	~18 GB	~52 GB	RTX 4090 / RTX 5090
31B Dense	~20 GB	~62 GB	RTX 4090 / RTX 5090

Source : Bibliothèque de modèles Ollama

Les modèles E2B et E4B sont spécifiquement conçus pour le déploiement edge. Ils fonctionnent confortablement sur des ordinateurs portables, des processeurs de bureau et même certains smartphones. Les modèles 26B MoE et 31B Dense nécessitent un matériel GPU dédié mais restent accessibles aux développeurs individuels disposant de GPU grand public.

Optimisation NVIDIA

NVIDIA a publié des versions optimisées de Gemma 4 pour les GPU RTX, offrant :

Une inférence plus rapide grâce à des optimisations de kernel spécifiques au GPU
Une meilleure utilisation de la mémoire sur les cartes des séries RTX 4000 et 5000
L'intégration TensorRT pour le déploiement en production
Le support CUDA graph pour réduire la surcharge lors d'inférences répétées

Source : Blog NVIDIA AI

Ce qui a changé par rapport à Gemma 3

Fonctionnalité	Gemma 3	Gemma 4
Licence	Licence Gemma (restreinte)	Apache 2.0 (non restreinte)
Tailles de modèles	3 tailles	4 tailles (MoE ajouté)
Fenêtre de contexte	Jusqu'à 128K	Jusqu'à 256K
Modalités	Texte, Image	Texte, Image, Vidéo, Audio
Mode de réflexion	Non	Oui (configurable)
Utilisation d'outils	Limitée	Outils structurés
Langues	30+	35+ (pré-entraîné sur 140+)
BigBench Extra Hard	19%	74%

Chaque dimension a été améliorée. Les changements les plus impactants pour les développeurs sont la licence Apache 2.0 (supprime les frictions juridiques), le mode de réflexion (améliore la qualité sur les tâches difficiles) et l'architecture MoE (offre une qualité de fleuron pour une fraction du coût de calcul).

Cas d'utilisation pratiques

Codage et développement

L'utilisation d'outils structurés et le mode de réflexion de Gemma 4 le rendent efficace pour :

La complétion et la génération de code local
La revue de code et la détection de bugs
La génération automatique de tests
La rédaction de documentation
Les workflows de codage agentiques dans Android Studio

Traitement de documents

Avec des fenêtres de contexte de 256K et un support multimodal :

Traiter des bases de code entières ou de longs documents en un seul prompt
Extraire des informations d'images de documents, de reçus et de formulaires
Analyser des graphiques et des visualisations de données
Résumer de longs articles de recherche ou des documents juridiques

Construire des applications propulsées par l'IA

Pour les développeurs créant des produits qui intègrent des capacités d'IA, Gemma 4 fournit une couche d'inférence solide, qu'elle soit sur l'appareil ou auto-hébergée. Le modèle gère l'intelligence — compréhension des requêtes, génération de réponses, traitement d'images — tandis que votre framework d'application gère le reste. Des outils comme ZBuild peuvent accélérer la construction de l'enveloppe applicative (frontend, backend, base de données, déploiement), vous permettant de concentrer vos efforts de développement sur la couche d'intégration de l'IA où les capacités de Gemma 4 comptent le plus.

Déploiement Edge et mobile

Les modèles E2B et E4B ouvrent des cas d'utilisation qui étaient auparavant impossibles avec des modèles ouverts :

Assistants sur l'appareil fonctionnant hors ligne
Fonctionnalités d'IA respectueuses de la vie privée qui n'envoient jamais de données à des serveurs externes
Traitement vidéo et audio en temps réel sur les appareils mobiles
IA embarquée dans les applications IoT et la robotique

Comment commencer

Ollama (Le chemin le plus rapide)

# Install Ollama
curl -fsSL https://ollama.com/install.sh | sh

# Pull and run Gemma 4
ollama run gemma4:e2b      # Smallest, runs anywhere
ollama run gemma4:e4b      # Small, broader capability
ollama run gemma4:26b-moe  # MoE, best efficiency
ollama run gemma4:31b      # Dense, highest quality

Hugging Face

Tous les modèles Gemma 4 sont disponibles sur Hugging Face avec une intégration complète de transformers :

from transformers import AutoModelForCausalLM, AutoTokenizer

model = AutoModelForCausalLM.from_pretrained("google/gemma-4-31b")
tokenizer = AutoTokenizer.from_pretrained("google/gemma-4-31b")

Google AI Studio

Google propose un accès gratuit à l'API de Gemma 4 via AI Studio pour l'expérimentation et le prototypage, avec Vertex AI disponible pour le déploiement en production.

Gemma 4 dans le paysage concurrentiel

Pour comprendre où se situe Gemma 4 dans l'écosystème global :

Modèle	Paramètres	Licence	MMLU Pro	Arena AI	Contexte
Gemma 4 31B	31B	Apache 2.0	85.2%	1452	256K
Gemma 4 26B MoE	26B (3.8B actifs)	Apache 2.0	—	1441	256K
Llama 4 Maverick	400B (~17B actifs)	Meta License	79.6%	1417	1M
Llama 4 Scout	109B (~17B actifs)	Meta License	—	~1400	10M
Qwen 3.5 72B	72B	Apache 2.0	81.4%	1438	128K
Qwen 3.5 MoE	397B (~22B actifs)	Apache 2.0	83.1%	1449	128K

Gemma 4 31B atteint le score MMLU Pro et le classement Arena AI les plus élevés parmi les modèles ouverts — avec le moins de paramètres totaux. Cette efficacité paramétrique est le résultat direct de la fondation technologique Gemini 3 et du mode de réflexion configurable.

L'histoire de l'efficacité du modèle 26B MoE est encore plus convaincante. Il se classe 6e sur Arena AI tout en n'activant que 3.8B de paramètres par token. Aucun autre modèle n'atteint un ratio qualité-calcul comparable. Pour les déploiements en production où le coût d'inférence augmente avec l'usage, cette efficacité se traduit directement par des économies de coûts.

Comparé aux modèles propriétaires, les benchmarks de Gemma 4 31B sont compétitifs par rapport aux offres de milieu de gamme d'Anthropic et d'OpenAI. Bien que les meilleurs modèles propriétaires mènent toujours sur les tâches les plus difficiles, l'écart s'est considérablement réduit — et Gemma 4 arrive avec un coût nul par token et la liberté totale d'Apache 2.0.

Verdict

Gemma 4 établit une nouvelle norme pour les modèles open-weight en 2026. La combinaison de la licence Apache 2.0, de quatre tailles de modèles bien différenciées, du support multimodal natif, du mode de réflexion configurable et de scores de benchmarks compétitifs avec des modèles beaucoup plus grands en fait la famille de modèles ouverts la plus pratique disponible.

Le 31B Dense est le bon choix lorsque vous avez besoin d'une qualité maximale. Le 26B MoE est le bon choix lorsque vous avez besoin d'une qualité solide à un coût de calcul minimal. L'E2B et l'E4B sont les bons choix pour le déploiement edge et l'IA sur l'appareil. Pour la première fois dans la famille Gemma, la licence ne limite aucun de ces cas d'utilisation.

Google Gemma 4 : Guide complet des spécifications, benchmarks et nouveautés (2026)