Belangrijkste kernpunten
Google Gemma 4 is de krachtigste open-weight modelfamilie die ooit is uitgebracht onder een echt permissieve licentie. Het 31B Dense model scoort 85.2% op MMLU Pro en staat op de 3e plaats van alle open modellen op Arena AI — terwijl de 26B MoE bijna identieke kwaliteit behaalt met slechts 3.8B actieve parameters. Voor het eerst wordt Gemma geleverd onder Apache 2.0, waarmee elke licentie-frictie die commerciële adoptie van eerdere generaties in de weg stond, is weggenomen.
Google Gemma 4: Alles wat je moet weten
Overzicht van de release
Google DeepMind heeft Gemma 4 uitgebracht op April 2, 2026, waarbij vier modelgroottes werden geïntroduceerd die zijn gebouwd op dezelfde technologische basis als Gemini 3. Deze generatie vertegenwoordigt de grootste sprong in de Gemma-familie op elk vlak: modelkwaliteit, multimodale mogelijkheden, contextlengte en licentievoorwaarden.
De belangrijkste wijzigingen ten opzichte van Gemma 3:
- Apache 2.0 licentiëring — geen gebruiksbeperkingen, geen aangepaste licentie, volledige commerciële vrijheid
- Vier modelgroottes in plaats van drie, inclusief een nieuwe MoE architectuur
- Native multimodale ondersteuning over alle groottes (tekst, afbeeldingen, video, audio)
- Configureerbare thinking mode met reasoning chains van meer dan 4,000+ tokens
- 256K context windows op grotere modellen (een stijging ten opzichte van de limieten van Gemma 3)
- 35+ ondersteunde talen, vooraf getraind op 140+ talen
- Gestructureerd tool use voor agentic workflows
De vier modelgroottes
Gemma 4 wordt geleverd in vier verschillende groottes, elk gericht op verschillende implementatiescenario's:
| Model | Parameters | Actieve Params | Architectuur | Context | Modaliteiten |
|---|---|---|---|---|---|
| E2B | 2.3B effectief | 2.3B | Dense | 128K | Tekst, Image, Video, Audio |
| E4B | 4.5B effectief | 4.5B | Dense | 128K | Tekst, Image, Video, Audio |
| 26B MoE | 26B totaal | 3.8B | Mixture of Experts | 256K | Tekst, Image |
| 31B Dense | 31B | 31B | Dense | 256K | Tekst, Image |
E2B en E4B: De Edge-modellen
De kleinste Gemma 4 modellen zijn ontworpen voor implementatie op het apparaat. Met respectievelijk 2.3B en 4.5B effectieve parameters draaien ze op smartphones, tablets en laptops met slechts 5GB RAM met gebruik van 4-bit quantization.
Wat deze modellen opmerkelijk maakt, is de breedte van hun modaliteiten. Ondanks dat ze de kleinste in de familie zijn, zijn E2B en E4B de enige Gemma 4 modellen die alle vier de invoermodaliteiten ondersteunen: tekst, afbeeldingen, video en audio. Dit is een bewuste ontwerpkeuze — edge-apparaten met camera's en microfoons profiteren het meest van multimodale mogelijkheden.
Beide modellen ondersteunen 128K token context windows, wat royaal is voor hun parameteraantal en voldoende voor de meeste on-device use cases.
26B MoE: Maximale efficiëntie
Het 26B Mixture of Experts model is waarschijnlijk het meest interessante model in de Gemma 4 reeks. Het bevat in totaal 26B parameters, maar activeert slechts 3.8B parameters voor elke gegeven invoer — ongeveer dezelfde compute-kosten als het E4B model, maar met toegang tot drastisch meer kennis en mogelijkheden.
Op Arena AI staat de 26B MoE op de 6e plaats van alle open modellen met een score van 1441, ondanks het gebruik van slechts 3.8B actieve parameters. Deze efficiëntieratio is ongekend — geen enkel ander model behaalt vergelijkbare kwaliteit tegen deze compute-kosten.
De MoE architectuur stuurt elk token via gespecialiseerde expert-subnetwerken, waardoor het model een grote kenniscapaciteit kan behouden terwijl de inferentiekosten laag blijven. Voor implementatiescenario's waarbij sterke redenering nodig is maar het GPU-geheugen beperkt is, is de 26B MoE de optimale keuze.
31B Dense: Maximale kwaliteit
Het 31B Dense model is het vlaggenschip van Gemma 4. Elke parameter is actief voor elk token, wat zorgt voor de meest consistente en hoogste kwaliteit outputs over alle taaktypen.
Op Arena AI staat de 31B Dense op de 3e plaats van alle open modellen met een score van 1452. Op MMLU Pro behaalt het 85.2% — concurrerend met modellen die vele malen groter zijn. De score van 89.2% op AIME 2026 toont een sterk wiskundig redeneervermogen aan, terwijl 74% op BigBench Extra Hard (een stijging van 19% in eerdere generaties) een enorme verbetering laat zien in complexe redeneertaken.
Benchmarks: De volledige data
Redeneren en kennis
| Benchmark | 31B Dense | 26B MoE | Notities |
|---|---|---|---|
| MMLU Pro | 85.2% | — | Kennis op universitair niveau |
| AIME 2026 | 89.2% | — | Wedstrijdwiskunde |
| BigBench Extra Hard | 74% | — | Stijging van 19% in vorige gen |
| Arena AI Score | 1452 (3e) | 1441 (6e) | Ranglijst open modellen |
Bron: Google DeepMind technisch rapport
BigBench Extra Hard: Het opvallende resultaat
De sprong van 19% naar 74% op BigBench Extra Hard verdient speciale aandacht. Deze benchmark test complexe meerstaps-redeneringen, logische deductie en taken die echt begrip vereisen in plaats van patroonherkenning. Een verbetering van 55 procentpunten in een enkele generatie suggereert fundamentele vooruitgang in de redeneerarchitectuur van Gemma 4, en niet alleen schaling.
Deze verbetering houdt waarschijnlijk verband met de configureerbare thinking mode en de onderliggende Gemini 3 technologie waarop Gemma 4 is gebouwd. De thinking mode genereert uitgebreide reasoning chains die het model helpen om stap voor stap door complexe problemen heen te werken.
Context van de Arena AI-ranglijst
Arena AI rangschikt modellen op basis van head-to-head menselijke voorkeursvergelijkingen. Met een score van 1452 en een 3e plaats onder open modellen staat de 31B Dense boven veel modellen met aanzienlijk meer parameters. Ter context:
- Modellen die erboven staan zijn doorgaans modellen met 70B+ parameters
- De 26B MoE die 1441 behaalt met slechts 3.8B actieve parameters is een doorbraak in efficiëntie
- Beide modellen presteren aanzienlijk beter dan de voorgaande Gemma 3 27B
Multimodale mogelijkheden
Afbeeldingsbegrip
Alle vier de Gemma 4 modellen verwerken afbeeldingen native. De mogelijkheden omvatten:
- Beschrijving en analyse van afbeeldingen — gedetailleerd begrip van visuele inhoud
- OCR en documentparsing — tekst extraheren uit afbeeldingen, bonnen, screenshots
- Interpretatie van grafieken en diagrammen — begrijpen van datavisualisaties
- Visueel redeneren — vragen beantwoorden die begrip van ruimtelijke relaties vereisen
Video en audio (alleen E2B/E4B)
De kleinere E2B en E4B modellen voegen native video- en audioverwerking toe:
- Begrip van video — analyseren van video-inhoud zonder frame-voor-frame extractie
- Transcriptie en begrip van audio — verwerken van spraak en omgevingsgeluid
- Cross-modaal redeneren — vragen beantwoorden die tekst-, beeld-, video- en audio-inputs overspannen
Deze ontwerpkeuze weerspiegelt de focus van Google op edge-implementatie. Mobiele apparaten leggen video en audio native vast, dus de modellen die voor die apparaten zijn ontworpen, ondersteunen die modaliteiten.
Configureerbare thinking mode
Gemma 4 introduceert een configureerbare thinking mode die meer dan 4,000+ tokens aan interne redenering genereert voordat een antwoord wordt geproduceerd. Dit is vergelijkbaar met de uitgebreide denkcapaciteiten die te zien zijn in de modellen van Claude en de o-serie van OpenAI, maar dan geïmplementeerd in een open-weight model.
Hoe het werkt
Wanneer de thinking mode is ingeschakeld, doet het model het volgende:
- Ontvangt de input prompt
- Genereert een interne reasoning chain (zichtbaar of verborgen, afhankelijk van de configuratie)
- Gebruikt de reasoning chain om een eindrepons van hogere kwaliteit te produceren
De thinking mode kan per verzoek worden in- of uitgeschakeld, waardoor ontwikkelaars het volgende kunnen doen:
- Thinking inschakelen voor complexe wiskunde, logica, codering en analysetaken
- Thinking uitschakelen voor eenvoudige zoekopdrachten, chat en latentiegevoelige toepassingen
- Denkdiepte aanpassen op basis van de verwachte complexiteit van de taak
Impact op kwaliteit
De thinking mode is een belangrijke drijfveer achter de sterke benchmarkprestaties van Gemma 4. De AIME 2026-score van 89.2% en de BigBench Extra Hard-score van 74% zijn beide behaald met ingeschakelde thinking mode. Zonder thinking mode zouden deze scores aanzienlijk lager zijn — vergelijkbaar met het patroon dat te zien is bij andere modellen met uitgebreide redeneercapaciteiten.
Apache 2.0: Waarom de licentiewijziging belangrijk is
Vorige Gemma-generaties werden geleverd onder de aangepaste Gemma-licentie van Google, die beperkingen bevatte voor:
- Gebruik in bepaalde toepassingen
- Voorwaarden voor herdistributie
- Beperkingen op commerciële inzet voor grootschalig gebruik
Gemma 4 stapt over op Apache 2.0, dezelfde licentie die wordt gebruikt door projecten als Kubernetes, TensorFlow en Apache HTTP Server. Dit betekent:
- Geen gebruiksbeperkingen — gebruik het voor alles, inclusief commerciële producten
- Geen beperkingen op herdistributie — deel gewijzigde weights vrijelijk
- Geen vereisten voor bronvermelding buiten de licentie — standaard Apache 2.0 kennisgeving
- Geen goedkeuring van Google nodig — implementeer op elke schaal zonder toestemming
- Compatibel met andere open-source licenties — eenvoudig te integreren in bestaande projecten
Voor ondernemingen en startups die producten bouwen bovenop open modellen, neemt dit de juridische overhead weg die de aangepaste licentie van Gemma vereiste. Het maakt Gemma 4 ook direct vergelijkbaar met de Llama-modellen van Meta (die hun eigen aangepaste licentie met enkele beperkingen gebruiken) en positioneert het als de meest permissief gelicentieerde open modelfamilie van hoge kwaliteit die beschikbaar is.
Taalondersteuning
Gemma 4 ondersteunt 35+ talen voor inferentie en is vooraf getraind op 140+ talen. Dit maakt het een van de meest meertalige open modellen die beschikbaar zijn, naast de modellen van Qwen die ook de nadruk leggen op brede taaldekking.
De ondersteunde talen omvatten de belangrijkste wereldtalen (Engels, Chinees, Spaans, Frans, Duits, Japans, Koreaans, Arabisch, Hindi, Portugees, Russisch) evenals vele talen met een kleinere digitale voetafdruk. De voortraining op 140+ talen betekent dat het model over enige capaciteit beschikt in meer talen dan de officieel ondersteunde 35, hoewel de kwaliteit kan variëren.
Voor applicaties die gericht zijn op een wereldwijd publiek of niet-Engelstalige markten, vermindert deze brede taalondersteuning de noodzaak voor gespecialiseerde fine-tuning of afzonderlijke modellen per taal.
Gestructureerd tool use en agentic workflows
Gemma 4 bevat native ondersteuning voor gestructureerd tool use, wat agentic workflows mogelijk maakt waarbij het model het volgende kan doen:
- Externe API's aanroepen met correct geformatteerde verzoeken
- Gestructureerde antwoorden parsen van tools en diensten
- Meerdere tool-aanroepen koppelen om complexe taken te voltooien
- Fouten en nieuwe pogingen afhandelen bij de uitvoering van tools
deze mogelijkheid is bijzonder relevant voor integratie met Android Studio, waar Gemma 4 lokale agentic coding workflows aanstuurt. Het model kan code-context begrijpen, wijzigingen voorstellen, tools uitvoeren en itereren — en dit alles lokaal op de machine van de ontwikkelaar zonder code naar externe servers te sturen.
Voor ontwikkelaars die AI-agents bouwen, biedt het gestructureerde toolgebruik van Gemma 4 een volledig lokale, volledig private basis. Gecombineerd met de Apache 2.0-licentie maakt dit het bouwen en implementeren van agentic applicaties mogelijk zonder enige afhankelijkheid van externe modelleveranciers.
Hardwarevereisten
Lokale implementatie via Ollama
| Model | Benodigd RAM (4-bit) | Benodigd RAM (FP16) | GPU Aanbeveling |
|---|---|---|---|
| E2B | ~5 GB | ~5 GB | Elke moderne GPU / alleen CPU |
| E4B | ~5 GB | ~9 GB | Elke moderne GPU / alleen CPU |
| 26B MoE | ~18 GB | ~52 GB | RTX 4090 / RTX 5090 |
| 31B Dense | ~20 GB | ~62 GB | RTX 4090 / RTX 5090 |
De E2B en E4B modellen zijn specifiek ontworpen voor edge-implementatie. Ze draaien moeiteloos op laptops, desktop CPU's en zelfs sommige smartphones. De 26B MoE en 31B Dense modellen vereisen dedicated GPU-hardware, maar blijven toegankelijk voor individuele ontwikkelaars met consumenten-GPU's.
NVIDIA Optimalisatie
NVIDIA heeft geoptimaliseerde versies van Gemma 4 uitgebracht voor RTX-GPU's, wat zorgt voor:
- Snellere inferentie door GPU-specifieke kernel-optimalisaties
- Beter geheugengebruik op kaarten uit de RTX 4000- en 5000-serie
- TensorRT integratie voor productie-implementatie
- CUDA graph ondersteuning voor minder overhead bij herhaalde inferentie
Wat er is veranderd ten opzichte van Gemma 3
| Functie | Gemma 3 | Gemma 4 |
|---|---|---|
| Licentie | Gemma Licentie (beperkt) | Apache 2.0 (onbeperkt) |
| Modelgroottes | 3 groottes | 4 groottes (MoE toegevoegd) |
| Contextvenster | Tot 128K | Tot 256K |
| Modaliteiten | Tekst, Image | Tekst, Image, Video, Audio |
| Thinking Mode | Nee | Ja (configureerbaar) |
| Tool Use | Beperkt | Gestructureerd tool use |
| Talen | 30+ | 35+ (vooraf getraind op 140+) |
| BigBench Extra Hard | 19% | 74% |
Elke dimensie is verbeterd. De meest impactvolle veranderingen voor ontwikkelaars zijn de Apache 2.0-licentie (verwijdert juridische frictie), de thinking mode (verbetert kwaliteit bij lastige taken) en de MoE architectuur (biedt vlaggenschip-kwaliteit tegen een fractie van de compute-kosten).
Praktische use cases
Codering en ontwikkeling
Het gestructureerde toolgebruik en de thinking mode van Gemma 4 maken het effectief voor:
- Lokale code-aanvulling en generatie
- Code review en detectie van bugs
- Geautomatiseerde testgeneratie
- Schrijven van documentatie
- Agentic coding workflows in Android Studio
Documentverwerking
Met 256K context windows en multimodale ondersteuning:
- Verwerk volledige codebases of lange documenten in een enkele prompt
- Extraheer informatie uit afbeeldingen van documenten, bonnen en formulieren
- Analyseer grafieken en datavisualisaties
- Vat langdurige onderzoeksartikelen of juridische documenten samen
Bouwen van AI-gestuurde applicaties
Voor ontwikkelaars die producten bouwen met AI-mogelijkheden, biedt Gemma 4 een sterke inferentielaag op het apparaat of via zelf-hosting. Het model zorgt voor de intelligentie — het begrijpen van vragen, het genereren van antwoorden, het verwerken van afbeeldingen — terwijl uw applicatieframework de rest afhandelt. Tools zoals ZBuild kunnen het bouwen van de applicatieschil (frontend, backend, database, implementatie) versnellen, zodat u de ontwikkelingsinspanning kunt richten op de AI-integratielaag waar de capaciteiten van Gemma 4 het meest van belang zijn.
Edge en mobiele implementatie
De E2B en E4B modellen openen use cases die voorheen onmogelijk waren met open modellen:
- On-device assistenten die offline werken
- Privacybeschermende AI-functies die nooit gegevens naar externe servers sturen
- Real-time video- en audioverwerking op mobiele apparaten
- Ingebedde AI in IoT- en robotica-toepassingen
Hoe aan de slag te gaan
Ollama (Snelste methode)
# Installeer Ollama
curl -fsSL https://ollama.com/install.sh | sh
# Pull en draai Gemma 4
ollama run gemma4:e2b # Kleinste, draait overal
ollama run gemma4:e4b # Klein, bredere mogelijkheden
ollama run gemma4:26b-moe # MoE, beste efficiëntie
ollama run gemma4:31b # Dense, hoogste kwaliteit
Hugging Face
Alle Gemma 4 modellen zijn beschikbaar op Hugging Face met volledige transformers integratie:
from transformers import AutoModelForCausalLM, AutoTokenizer
model = AutoModelForCausalLM.from_pretrained("google/gemma-4-31b")
tokenizer = AutoTokenizer.from_pretrained("google/gemma-4-31b")
Google AI Studio
Google biedt gratis API-toegang tot Gemma 4 via AI Studio voor experimenten en prototyping, waarbij Vertex AI beschikbaar is voor productie-implementatie.
Gemma 4 in het competitieve landschap
Om te begrijpen waar Gemma 4 zich bevindt in het bredere ecosysteem:
| Model | Params | Licentie | MMLU Pro | Arena AI | Context |
|---|---|---|---|---|---|
| Gemma 4 31B | 31B | Apache 2.0 | 85.2% | 1452 | 256K |
| Gemma 4 26B MoE | 26B (3.8B actief) | Apache 2.0 | — | 1441 | 256K |
| Llama 4 Maverick | 400B (~17B actief) | Meta License | 79.6% | 1417 | 1M |
| Llama 4 Scout | 109B (~17B actief) | Meta License | — | ~1400 | 10M |
| Qwen 3.5 72B | 72B | Apache 2.0 | 81.4% | 1438 | 128K |
| Qwen 3.5 MoE | 397B (~22B actief) | Apache 2.0 | 83.1% | 1449 | 128K |
Gemma 4 31B behaalt de hoogste MMLU Pro-score en Arena AI-rangschikking onder open modellen — met de minste totale parameters. Deze parameterefficiëntie is een direct resultaat van de Gemini 3 technologiebasis en de configureerbare thinking mode.
Het efficiëntieverhaal van het 26B MoE model is nog overtuigender. Het staat op de 6e plaats op Arena AI terwijl het slechts 3.8B parameters per token activeert. Geen enkel ander model behaalt een vergelijkbare kwaliteit-tot-compute ratio. Voor productie-implementaties waarbij de inferentiekosten schalen met het gebruik, vertaalt deze efficiëntie zich direct in kostenbesparingen.
Vergeleken met propriëtaire modellen zijn de benchmarks van Gemma 4 31B concurrerend met het middensegment van Anthropic en OpenAI. Hoewel de beste propriëtaire modellen nog steeds leiden bij de moeilijkste taken, is het gat drastisch verkleind — en Gemma 4 komt met nul kosten per token en volledige Apache 2.0 vrijheid.
Oordeel
Gemma 4 zet in 2026 een nieuwe standaard voor open-weight modellen. De combinatie van Apache 2.0-licentiëring, vier goed gedifferentieerde modelgroottes, native multimodale ondersteuning, configureerbare thinking mode en benchmarkscores die kunnen concurreren met veel grotere modellen, maakt het de meest praktische open modelfamilie die beschikbaar is.
De 31B Dense is de juiste keuze wanneer u maximale kwaliteit nodig heeft. De 26B MoE is de juiste keuze wanneer u sterke kwaliteit nodig heeft tegen minimale compute-kosten. De E2B en E4B zijn de juiste keuzes voor edge-implementatie en on-device AI. Voor het eerst in de Gemma-familie vormt de licentie geen beperking voor elk van deze use cases.
Bronnen
- Introducing Gemma 4 - Google Blog
- Gemma 4 Technical Report - Google DeepMind
- Gemma 4 on Hugging Face
- Gemma 4 Ollama Models
- NVIDIA Gemma 4 RTX Optimization
- Gemma 4 Arena AI Rankings
- Gemma 4 Android Studio Integration
- Apache 2.0 License
- Gemma 4 Benchmark Analysis - Artificial Analysis
- Gemma 4 Overview - Google AI for Developers