Point clé
Google Gemma 4 est la famille de modèles open-weight la plus performante jamais publiée sous une licence véritablement permissive. Le modèle 31B Dense obtient un score de 85.2% sur MMLU Pro et se classe 3e parmi tous les modèles ouverts sur Arena AI — tandis que le 26B MoE atteint une qualité presque identique avec seulement 3.8B de paramètres actifs. Pour la première fois, Gemma est distribué sous Apache 2.0, supprimant toutes les frictions liées aux licences qui freinaient l'adoption commerciale des générations précédentes.
Google Gemma 4 : Tout ce que vous devez savoir
Aperçu de la sortie
Google DeepMind a publié Gemma 4 le April 2, 2026, introduisant quatre tailles de modèles basées sur la même fondation technologique que Gemini 3. Cette génération représente le plus grand bond en avant de la famille Gemma dans toutes les dimensions : qualité du modèle, capacités multimodales, longueur de contexte et conditions de licence.
Les principaux changements par rapport à Gemma 3 :
- Licence Apache 2.0 — aucune restriction d'usage, pas de licence personnalisée, liberté commerciale totale
- Quatre tailles de modèles au lieu de trois, incluant une nouvelle architecture MoE
- Support multimodal natif sur toutes les tailles (texte, images, vidéo, audio)
- Mode de réflexion (thinking mode) configurable avec des chaînes de raisonnement de plus de 4,000 tokens
- Fenêtres de contexte de 256K sur les modèles plus larges (contre les limites de Gemma 3)
- Plus de 35 langues supportées, pré-entraîné sur plus de 140 langues
- Utilisation d'outils structurés pour des workflows agentiques
Les quatre tailles de modèles
Gemma 4 est disponible en quatre tailles distinctes, chacune ciblant des scénarios de déploiement différents :
| Modèle | Paramètres | Params actifs | Architecture | Contexte | Modalités |
|---|---|---|---|---|---|
| E2B | 2.3B effectifs | 2.3B | Dense | 128K | Texte, Image, Vidéo, Audio |
| E4B | 4.5B effectifs | 4.5B | Dense | 128K | Texte, Image, Vidéo, Audio |
| 26B MoE | 26B au total | 3.8B | Mixture of Experts | 256K | Texte, Image |
| 31B Dense | 31B | 31B | Dense | 256K | Texte, Image |
E2B et E4B : Les modèles Edge
Les plus petits modèles Gemma 4 sont conçus pour un déploiement sur l'appareil. Avec respectivement 2.3B et 4.5B de paramètres effectifs, ils fonctionnent sur smartphones, tablettes et ordinateurs portables avec seulement 5GB de RAM en utilisant une quantification 4-bit.
Ce qui rend ces modèles remarquables est leur étendue de modalités. Bien qu'ils soient les plus petits de la famille, E2B et E4B sont les seuls modèles Gemma 4 à supporter les quatre modalités d'entrée : texte, images, vidéo et audio. C'est un choix de conception délibéré — les appareils en bordure de réseau (edge) dotés de caméras et de microphones bénéficient le plus des capacités multimodales.
Les deux modèles supportent des fenêtres de contexte de 128K tokens, ce qui est généreux pour leur nombre de paramètres et suffisant pour la plupart des cas d'utilisation sur l'appareil.
26B MoE : Efficacité maximale
Le modèle 26B Mixture of Experts est sans doute le modèle le plus intéressant de la gamme Gemma 4. Il contient 26B de paramètres au total mais n'active que 3.8B de paramètres pour toute entrée donnée — soit environ le même coût de calcul que le modèle E4B, mais avec un accès à considérablement plus de connaissances et de capacités.
Sur Arena AI, le 26B MoE se classe 6e parmi tous les modèles ouverts avec un score de 1441, bien qu'il n'utilise que 3.8B de paramètres actifs. Ce ratio d'efficacité est sans précédent — aucun autre modèle n'atteint une qualité comparable à ce coût de calcul.
L'architecture MoE route chaque token à travers des sous-réseaux d'experts spécialisés, permettant au modèle de maintenir une grande capacité de connaissances tout en gardant un coût d'inférence bas. Pour les scénarios de déploiement où vous avez besoin d'un raisonnement solide mais disposez d'une mémoire GPU limitée, le 26B MoE est le choix optimal.
31B Dense : Qualité maximale
Le modèle 31B Dense est le fleuron de Gemma 4. Chaque paramètre est actif pour chaque token, ce qui lui donne les résultats les plus cohérents et de la plus haute qualité pour tous les types de tâches.
Sur Arena AI, le 31B Dense se classe 3e parmi tous les modèles ouverts avec un score de 1452. Sur MMLU Pro, il atteint 85.2% — compétitif avec des modèles plusieurs fois plus grands. Le score de 89.2% sur AIME 2026 démontre un solide raisonnement mathématique, tandis que les 74% sur BigBench Extra Hard (contre 19% dans les générations précédentes) montrent une amélioration massive dans les tâches de raisonnement complexe.
Benchmarks : Les données complètes
Raisonnement et connaissances
| Benchmark | 31B Dense | 26B MoE | Notes |
|---|---|---|---|
| MMLU Pro | 85.2% | — | Connaissances de niveau universitaire |
| AIME 2026 | 89.2% | — | Mathématiques de compétition |
| BigBench Extra Hard | 74% | — | Contre 19% dans la gén. précédente |
| Score Arena AI | 1452 (3e) | 1441 (6e) | Classements des modèles ouverts |
Source : Rapport technique Google DeepMind
BigBench Extra Hard : Le résultat marquant
Le passage de 19% à 74% sur BigBench Extra Hard mérite une attention particulière. Ce benchmark teste le raisonnement complexe en plusieurs étapes, la déduction logique et les tâches qui nécessitent une compréhension réelle plutôt qu'une simple reconnaissance de formes. Une amélioration de 55 points de pourcentage en une seule génération suggère des avancées fondamentales dans l'architecture de raisonnement de Gemma 4, et pas seulement un changement d'échelle.
Cette amélioration est probablement liée au mode de réflexion configurable et à la technologie Gemini 3 sous-jacente sur laquelle Gemma 4 est construit. Le mode de réflexion génère des chaînes de raisonnement étendues qui aident le modèle à résoudre des problèmes complexes étape par étape.
Contexte des classements Arena AI
Arena AI classe les modèles en fonction de comparaisons de préférences humaines directes. Le score de 1452 du 31B Dense et son 3e rang parmi les modèles ouverts le placent au-dessus de nombreux modèles ayant nettement plus de paramètres. Pour situer le contexte :
- Les modèles classés au-dessus sont typiquement des modèles de plus de 70B paramètres.
- Le 26B MoE atteignant 1441 avec seulement 3.8B de paramètres actifs est une percée en matière d'efficacité.
- Les deux modèles surpassent l'ancien Gemma 3 27B par une marge significative.
Capacités multimodales
Compréhension d'images
Les quatre modèles Gemma 4 traitent les images de manière native. Les capacités incluent :
- Description et analyse d'images — compréhension détaillée du contenu visuel
- OCR et analyse de documents — extraction de texte à partir d'images, de reçus, de captures d'écran
- Interprétation de graphiques et diagrammes — compréhension des visualisations de données
- Raisonnement visuel — réponse à des questions nécessitant la compréhension des relations spatiales
Vidéo et Audio (E2B/E4B uniquement)
Les plus petits modèles E2B et E4B ajoutent le traitement natif de la vidéo et de l'audio :
- Compréhension vidéo — analyse du contenu vidéo sans extraction image par image
- Transcription et compréhension audio — traitement de la parole et de l'audio environnemental
- Raisonnement cross-modal — réponse à des questions englobant des entrées texte, image, vidéo et audio
Ce choix de conception reflète l'accent mis par Google sur le déploiement edge. Les appareils mobiles capturent nativement de la vidéo et de l'audio, les modèles conçus pour ces appareils supportent donc ces modalités.
Mode de réflexion configurable
Gemma 4 introduit un mode de réflexion (thinking mode) configurable qui génère plus de 4,000 tokens de raisonnement interne avant de produire une réponse. Ceci est similaire aux capacités de réflexion étendue vues dans les modèles de Claude et la série o d'OpenAI, mais implémenté dans un modèle open-weight.
Comment ça marche
Lorsque le mode de réflexion est activé, le modèle :
- Reçoit le prompt d'entrée
- Génère une chaîne de raisonnement interne (visible ou cachée, selon la configuration)
- Utilise cette chaîne de raisonnement pour produire une réponse finale de meilleure qualité
Le mode de réflexion peut être activé ou désactivé par requête, permettant aux développeurs de :
- Activer la réflexion pour les tâches complexes de mathématiques, de logique, de codage et d'analyse
- Désactiver la réflexion pour les requêtes simples, le chat et les applications sensibles à la latence
- Ajuster la profondeur de réflexion en fonction de la complexité attendue de la tâche
Impact sur la qualité
Le mode de réflexion est l'un des principaux moteurs de la forte performance de Gemma 4 dans les benchmarks. Le score de 89.2% sur AIME 2026 et de 74% sur BigBench Extra Hard sont tous deux obtenus avec le mode de réflexion activé. Sans ce mode, ces scores seraient notablement plus bas — suivant le même schéma observé chez d'autres modèles dotés de capacités de raisonnement étendu.
Apache 2.0 : Pourquoi le changement de licence est important
Les générations précédentes de Gemma étaient distribuées sous la licence personnalisée de Google, qui incluait des restrictions sur :
- L'usage dans certaines applications
- Les conditions de redistribution
- Les limitations de déploiement commercial pour un usage à grande échelle
Gemma 4 passe à Apache 2.0, la même licence utilisée par des projets comme Kubernetes, TensorFlow et Apache HTTP Server. Cela signifie :
- Aucune restriction d'usage — utilisez-le pour n'importe quoi, y compris des produits commerciaux
- Aucune limitation de redistribution — partagez librement les poids modifiés
- Aucune exigence d'attribution au-delà de la licence — avis standard Apache 2.0
- Aucune approbation de Google requise — déployez à n'importe quelle échelle sans permission
- Compatible avec d'autres licences open-source — facile à intégrer dans des projets existants
Pour les entreprises et les startups qui construisent des produits sur des modèles ouverts, cela supprime la surcharge de révision juridique qu'imposait la licence personnalisée de Gemma. Cela rend également Gemma 4 directement comparable aux modèles Llama de Meta (qui utilisent leur propre licence personnalisée avec certaines restrictions) et le positionne comme la famille de modèles ouverts de haute qualité sous la licence la plus permissive disponible.
Support linguistique
Gemma 4 supporte plus de 35 langues pour l'inférence et a été pré-entraîné sur plus de 140 langues. Cela en fait l'un des modèles ouverts les plus multilingues disponibles, aux côtés des modèles de Qwen qui mettent également l'accent sur une large couverture linguistique.
Les langues supportées incluent les principales langues mondiales (anglais, chinois, espagnol, français, allemand, japonais, coréen, arabe, hindi, portugais, russe) ainsi que de nombreuses langues ayant une empreinte numérique plus faible. Le pré-entraînement sur plus de 140 langues signifie que le modèle possède certaines capacités dans des langues au-delà des 35 officiellement supportées, bien que la qualité puisse varier.
Pour les applications ciblant des publics mondiaux ou des marchés non anglophones, ce large support linguistique réduit le besoin d'un fine-tuning spécialisé ou de modèles séparés par langue.
Utilisation d'outils structurés et workflows agentiques
Gemma 4 inclut un support natif pour l'utilisation d'outils structurés, permettant des workflows agentiques où le modèle peut :
- Appeler des API externes avec des requêtes correctement formatées
- Analyser des réponses structurées provenant d'outils et de services
- Enchaîner plusieurs appels d'outils pour accomplir des tâches complexes
- Gérer les erreurs et les tentatives lors de l'exécution des outils
Cette capacité est particulièrement pertinente pour l'intégration d'Android Studio, où Gemma 4 alimente des workflows de codage agentiques locaux. Le modèle peut comprendre le contexte du code, suggérer des modifications, exécuter des outils et itérer — le tout s'exécutant localement sur la machine du développeur sans envoyer de code à des serveurs externes.
Pour les développeurs construisant des agents IA, l'utilisation d'outils structurés de Gemma 4 fournit une base entièrement locale et privée. Combiné à la licence Apache 2.0, cela permet de construire et de déployer des applications agentiques sans aucune dépendance envers des fournisseurs de modèles externes.
Configuration matérielle requise
Déploiement local via Ollama
| Modèle | RAM requise (4-bit) | RAM requise (FP16) | Recommandation GPU |
|---|---|---|---|
| E2B | ~5 GB | ~5 GB | Tout GPU moderne / CPU uniquement |
| E4B | ~5 GB | ~9 GB | Tout GPU moderne / CPU uniquement |
| 26B MoE | ~18 GB | ~52 GB | RTX 4090 / RTX 5090 |
| 31B Dense | ~20 GB | ~62 GB | RTX 4090 / RTX 5090 |
Source : Bibliothèque de modèles Ollama
Les modèles E2B et E4B sont spécifiquement conçus pour le déploiement edge. Ils fonctionnent confortablement sur des ordinateurs portables, des processeurs de bureau et même certains smartphones. Les modèles 26B MoE et 31B Dense nécessitent un matériel GPU dédié mais restent accessibles aux développeurs individuels disposant de GPU grand public.
Optimisation NVIDIA
NVIDIA a publié des versions optimisées de Gemma 4 pour les GPU RTX, offrant :
- Une inférence plus rapide grâce à des optimisations de kernel spécifiques au GPU
- Une meilleure utilisation de la mémoire sur les cartes des séries RTX 4000 et 5000
- L'intégration TensorRT pour le déploiement en production
- Le support CUDA graph pour réduire la surcharge lors d'inférences répétées
Ce qui a changé par rapport à Gemma 3
| Fonctionnalité | Gemma 3 | Gemma 4 |
|---|---|---|
| Licence | Licence Gemma (restreinte) | Apache 2.0 (non restreinte) |
| Tailles de modèles | 3 tailles | 4 tailles (MoE ajouté) |
| Fenêtre de contexte | Jusqu'à 128K | Jusqu'à 256K |
| Modalités | Texte, Image | Texte, Image, Vidéo, Audio |
| Mode de réflexion | Non | Oui (configurable) |
| Utilisation d'outils | Limitée | Outils structurés |
| Langues | 30+ | 35+ (pré-entraîné sur 140+) |
| BigBench Extra Hard | 19% | 74% |
Chaque dimension a été améliorée. Les changements les plus impactants pour les développeurs sont la licence Apache 2.0 (supprime les frictions juridiques), le mode de réflexion (améliore la qualité sur les tâches difficiles) et l'architecture MoE (offre une qualité de fleuron pour une fraction du coût de calcul).
Cas d'utilisation pratiques
Codage et développement
L'utilisation d'outils structurés et le mode de réflexion de Gemma 4 le rendent efficace pour :
- La complétion et la génération de code local
- La revue de code et la détection de bugs
- La génération automatique de tests
- La rédaction de documentation
- Les workflows de codage agentiques dans Android Studio
Traitement de documents
Avec des fenêtres de contexte de 256K et un support multimodal :
- Traiter des bases de code entières ou de longs documents en un seul prompt
- Extraire des informations d'images de documents, de reçus et de formulaires
- Analyser des graphiques et des visualisations de données
- Résumer de longs articles de recherche ou des documents juridiques
Construire des applications propulsées par l'IA
Pour les développeurs créant des produits qui intègrent des capacités d'IA, Gemma 4 fournit une couche d'inférence solide, qu'elle soit sur l'appareil ou auto-hébergée. Le modèle gère l'intelligence — compréhension des requêtes, génération de réponses, traitement d'images — tandis que votre framework d'application gère le reste. Des outils comme ZBuild peuvent accélérer la construction de l'enveloppe applicative (frontend, backend, base de données, déploiement), vous permettant de concentrer vos efforts de développement sur la couche d'intégration de l'IA où les capacités de Gemma 4 comptent le plus.
Déploiement Edge et mobile
Les modèles E2B et E4B ouvrent des cas d'utilisation qui étaient auparavant impossibles avec des modèles ouverts :
- Assistants sur l'appareil fonctionnant hors ligne
- Fonctionnalités d'IA respectueuses de la vie privée qui n'envoient jamais de données à des serveurs externes
- Traitement vidéo et audio en temps réel sur les appareils mobiles
- IA embarquée dans les applications IoT et la robotique
Comment commencer
Ollama (Le chemin le plus rapide)
# Install Ollama
curl -fsSL https://ollama.com/install.sh | sh
# Pull and run Gemma 4
ollama run gemma4:e2b # Smallest, runs anywhere
ollama run gemma4:e4b # Small, broader capability
ollama run gemma4:26b-moe # MoE, best efficiency
ollama run gemma4:31b # Dense, highest quality
Hugging Face
Tous les modèles Gemma 4 sont disponibles sur Hugging Face avec une intégration complète de transformers :
from transformers import AutoModelForCausalLM, AutoTokenizer
model = AutoModelForCausalLM.from_pretrained("google/gemma-4-31b")
tokenizer = AutoTokenizer.from_pretrained("google/gemma-4-31b")
Google AI Studio
Google propose un accès gratuit à l'API de Gemma 4 via AI Studio pour l'expérimentation et le prototypage, avec Vertex AI disponible pour le déploiement en production.
Gemma 4 dans le paysage concurrentiel
Pour comprendre où se situe Gemma 4 dans l'écosystème global :
| Modèle | Paramètres | Licence | MMLU Pro | Arena AI | Contexte |
|---|---|---|---|---|---|
| Gemma 4 31B | 31B | Apache 2.0 | 85.2% | 1452 | 256K |
| Gemma 4 26B MoE | 26B (3.8B actifs) | Apache 2.0 | — | 1441 | 256K |
| Llama 4 Maverick | 400B (~17B actifs) | Meta License | 79.6% | 1417 | 1M |
| Llama 4 Scout | 109B (~17B actifs) | Meta License | — | ~1400 | 10M |
| Qwen 3.5 72B | 72B | Apache 2.0 | 81.4% | 1438 | 128K |
| Qwen 3.5 MoE | 397B (~22B actifs) | Apache 2.0 | 83.1% | 1449 | 128K |
Gemma 4 31B atteint le score MMLU Pro et le classement Arena AI les plus élevés parmi les modèles ouverts — avec le moins de paramètres totaux. Cette efficacité paramétrique est le résultat direct de la fondation technologique Gemini 3 et du mode de réflexion configurable.
L'histoire de l'efficacité du modèle 26B MoE est encore plus convaincante. Il se classe 6e sur Arena AI tout en n'activant que 3.8B de paramètres par token. Aucun autre modèle n'atteint un ratio qualité-calcul comparable. Pour les déploiements en production où le coût d'inférence augmente avec l'usage, cette efficacité se traduit directement par des économies de coûts.
Comparé aux modèles propriétaires, les benchmarks de Gemma 4 31B sont compétitifs par rapport aux offres de milieu de gamme d'Anthropic et d'OpenAI. Bien que les meilleurs modèles propriétaires mènent toujours sur les tâches les plus difficiles, l'écart s'est considérablement réduit — et Gemma 4 arrive avec un coût nul par token et la liberté totale d'Apache 2.0.
Verdict
Gemma 4 établit une nouvelle norme pour les modèles open-weight en 2026. La combinaison de la licence Apache 2.0, de quatre tailles de modèles bien différenciées, du support multimodal natif, du mode de réflexion configurable et de scores de benchmarks compétitifs avec des modèles beaucoup plus grands en fait la famille de modèles ouverts la plus pratique disponible.
Le 31B Dense est le bon choix lorsque vous avez besoin d'une qualité maximale. Le 26B MoE est le bon choix lorsque vous avez besoin d'une qualité solide à un coût de calcul minimal. L'E2B et l'E4B sont les bons choix pour le déploiement edge et l'IA sur l'appareil. Pour la première fois dans la famille Gemma, la licence ne limite aucun de ces cas d'utilisation.
Sources
- Introducing Gemma 4 - Google Blog
- Gemma 4 Technical Report - Google DeepMind
- Gemma 4 on Hugging Face
- Gemma 4 Ollama Models
- NVIDIA Gemma 4 RTX Optimization
- Gemma 4 Arena AI Rankings
- Gemma 4 Android Studio Integration
- Apache 2.0 License
- Gemma 4 Benchmark Analysis - Artificial Analysis
- Gemma 4 Overview - Google AI for Developers