Wat is Google Gemma 4 en wanneer is het uitgebracht?

Google Gemma 4 is de open-weight modelfamilie van Google DeepMind, uitgebracht op 2 april 2026. Het bevat 4 groottes — E2B (2.3B effective), E4B (4.5B effective), 26B MoE (3.8B active / 26B total) en 31B Dense. Alle modellen zijn uitgebracht onder Apache 2.0, de meest permissieve licentie die ooit voor een Gemma-release is gebruikt.

Is Gemma 4 echt open source?

Ja. Gemma 4 is de eerste Gemma-generatie die is uitgebracht onder de Apache 2.0-licentie, wat onbeperkt commercieel gebruik, aanpassing en herdistributie mogelijk maakt zonder toestemming van Google. Vorige Gemma-modellen maakten gebruik van de aangepaste Gemma-licentie van Google, die gebruiksbeperkingen oplegde.

Welk context window ondersteunt Gemma 4?

De kleinere modellen (E2B en E4B) ondersteunen 128K token context windows. De grotere modellen (26B MoE en 31B Dense) ondersteunen 256K token context windows. Dit is een grote verbetering ten opzichte van de contextlimieten van Gemma 3 en maakt het verwerken van volledige codebases of lange documenten in een enkele prompt mogelijk.

Kan Gemma 4 afbeeldingen, video en audio verwerken?

Ja. Alle vier Gemma 4-modellen zijn native multimodaal en ondersteunen tekst- en afbeeldingsinvoer. De E2B- en E4B-modellen gaan verder met native video- en audioverwerkingsmogelijkheden. Dit maakt Gemma 4 de eerste open-weight modelfamilie waarbij de kleinste modellen de breedste modaliteitsondersteuning hebben.

Hoe werkt de thinking mode van Gemma 4?

Gemma 4 bevat een configureerbare thinking mode die meer dan 4.000 tokens aan interne redenering genereert voordat een antwoord wordt geproduceerd. Deze chain-of-thought redenering kan per verzoek worden in- of uitgeschakeld, zodat ontwikkelaars kunnen kiezen tussen snellere antwoorden voor eenvoudige taken en diepere redeneringen voor complexe problemen zoals wiskunde, logica en coderen.

Welke hardware heb ik nodig om Gemma 4 lokaal te draaien?

Gemma 4 E2B en E4B draaien op apparaten met slechts 5GB RAM met behulp van 4-bit quantization, inclusief smartphones en laptops. Het 26B MoE-model vereist ongeveer 18GB RAM en de 31B Dense vereist ongeveer 20GB RAM. Alle modellen draaien via Ollama met beschikbare NVIDIA RTX GPU-optimalisatie.

Belangrijkste kernpunten

Google Gemma 4 is de krachtigste open-weight modelfamilie die ooit is uitgebracht onder een echt permissieve licentie. Het 31B Dense model scoort 85.2% op MMLU Pro en staat op de 3e plaats van alle open modellen op Arena AI — terwijl de 26B MoE bijna identieke kwaliteit behaalt met slechts 3.8B actieve parameters. Voor het eerst wordt Gemma geleverd onder Apache 2.0, waarmee elke licentie-frictie die commerciële adoptie van eerdere generaties in de weg stond, is weggenomen.

Google Gemma 4: Alles wat je moet weten

Overzicht van de release

Google DeepMind heeft Gemma 4 uitgebracht op April 2, 2026, waarbij vier modelgroottes werden geïntroduceerd die zijn gebouwd op dezelfde technologische basis als Gemini 3. Deze generatie vertegenwoordigt de grootste sprong in de Gemma-familie op elk vlak: modelkwaliteit, multimodale mogelijkheden, contextlengte en licentievoorwaarden.

De belangrijkste wijzigingen ten opzichte van Gemma 3:

Apache 2.0 licentiëring — geen gebruiksbeperkingen, geen aangepaste licentie, volledige commerciële vrijheid
Vier modelgroottes in plaats van drie, inclusief een nieuwe MoE architectuur
Native multimodale ondersteuning over alle groottes (tekst, afbeeldingen, video, audio)
Configureerbare thinking mode met reasoning chains van meer dan 4,000+ tokens
256K context windows op grotere modellen (een stijging ten opzichte van de limieten van Gemma 3)
35+ ondersteunde talen, vooraf getraind op 140+ talen
Gestructureerd tool use voor agentic workflows

De vier modelgroottes

Gemma 4 wordt geleverd in vier verschillende groottes, elk gericht op verschillende implementatiescenario's:

Model	Parameters	Actieve Params	Architectuur	Context	Modaliteiten
E2B	2.3B effectief	2.3B	Dense	128K	Tekst, Image, Video, Audio
E4B	4.5B effectief	4.5B	Dense	128K	Tekst, Image, Video, Audio
26B MoE	26B totaal	3.8B	Mixture of Experts	256K	Tekst, Image
31B Dense	31B	31B	Dense	256K	Tekst, Image

Bron: Google AI Blog

E2B en E4B: De Edge-modellen

De kleinste Gemma 4 modellen zijn ontworpen voor implementatie op het apparaat. Met respectievelijk 2.3B en 4.5B effectieve parameters draaien ze op smartphones, tablets en laptops met slechts 5GB RAM met gebruik van 4-bit quantization.

Wat deze modellen opmerkelijk maakt, is de breedte van hun modaliteiten. Ondanks dat ze de kleinste in de familie zijn, zijn E2B en E4B de enige Gemma 4 modellen die alle vier de invoermodaliteiten ondersteunen: tekst, afbeeldingen, video en audio. Dit is een bewuste ontwerpkeuze — edge-apparaten met camera's en microfoons profiteren het meest van multimodale mogelijkheden.

Beide modellen ondersteunen 128K token context windows, wat royaal is voor hun parameteraantal en voldoende voor de meeste on-device use cases.

26B MoE: Maximale efficiëntie

Het 26B Mixture of Experts model is waarschijnlijk het meest interessante model in de Gemma 4 reeks. Het bevat in totaal 26B parameters, maar activeert slechts 3.8B parameters voor elke gegeven invoer — ongeveer dezelfde compute-kosten als het E4B model, maar met toegang tot drastisch meer kennis en mogelijkheden.

Op Arena AI staat de 26B MoE op de 6e plaats van alle open modellen met een score van 1441, ondanks het gebruik van slechts 3.8B actieve parameters. Deze efficiëntieratio is ongekend — geen enkel ander model behaalt vergelijkbare kwaliteit tegen deze compute-kosten.

De MoE architectuur stuurt elk token via gespecialiseerde expert-subnetwerken, waardoor het model een grote kenniscapaciteit kan behouden terwijl de inferentiekosten laag blijven. Voor implementatiescenario's waarbij sterke redenering nodig is maar het GPU-geheugen beperkt is, is de 26B MoE de optimale keuze.

31B Dense: Maximale kwaliteit

Het 31B Dense model is het vlaggenschip van Gemma 4. Elke parameter is actief voor elk token, wat zorgt voor de meest consistente en hoogste kwaliteit outputs over alle taaktypen.

Op Arena AI staat de 31B Dense op de 3e plaats van alle open modellen met een score van 1452. Op MMLU Pro behaalt het 85.2% — concurrerend met modellen die vele malen groter zijn. De score van 89.2% op AIME 2026 toont een sterk wiskundig redeneervermogen aan, terwijl 74% op BigBench Extra Hard (een stijging van 19% in eerdere generaties) een enorme verbetering laat zien in complexe redeneertaken.

Benchmarks: De volledige data

Redeneren en kennis

Benchmark	31B Dense	26B MoE	Notities
MMLU Pro	85.2%	—	Kennis op universitair niveau
AIME 2026	89.2%	—	Wedstrijdwiskunde
BigBench Extra Hard	74%	—	Stijging van 19% in vorige gen
Arena AI Score	1452 (3e)	1441 (6e)	Ranglijst open modellen

Bron: Google DeepMind technisch rapport

BigBench Extra Hard: Het opvallende resultaat

De sprong van 19% naar 74% op BigBench Extra Hard verdient speciale aandacht. Deze benchmark test complexe meerstaps-redeneringen, logische deductie en taken die echt begrip vereisen in plaats van patroonherkenning. Een verbetering van 55 procentpunten in een enkele generatie suggereert fundamentele vooruitgang in de redeneerarchitectuur van Gemma 4, en niet alleen schaling.

Deze verbetering houdt waarschijnlijk verband met de configureerbare thinking mode en de onderliggende Gemini 3 technologie waarop Gemma 4 is gebouwd. De thinking mode genereert uitgebreide reasoning chains die het model helpen om stap voor stap door complexe problemen heen te werken.

Context van de Arena AI-ranglijst

Arena AI rangschikt modellen op basis van head-to-head menselijke voorkeursvergelijkingen. Met een score van 1452 en een 3e plaats onder open modellen staat de 31B Dense boven veel modellen met aanzienlijk meer parameters. Ter context:

Modellen die erboven staan zijn doorgaans modellen met 70B+ parameters
De 26B MoE die 1441 behaalt met slechts 3.8B actieve parameters is een doorbraak in efficiëntie
Beide modellen presteren aanzienlijk beter dan de voorgaande Gemma 3 27B

Multimodale mogelijkheden

Afbeeldingsbegrip

Alle vier de Gemma 4 modellen verwerken afbeeldingen native. De mogelijkheden omvatten:

Beschrijving en analyse van afbeeldingen — gedetailleerd begrip van visuele inhoud
OCR en documentparsing — tekst extraheren uit afbeeldingen, bonnen, screenshots
Interpretatie van grafieken en diagrammen — begrijpen van datavisualisaties
Visueel redeneren — vragen beantwoorden die begrip van ruimtelijke relaties vereisen

Video en audio (alleen E2B/E4B)

De kleinere E2B en E4B modellen voegen native video- en audioverwerking toe:

Begrip van video — analyseren van video-inhoud zonder frame-voor-frame extractie
Transcriptie en begrip van audio — verwerken van spraak en omgevingsgeluid
Cross-modaal redeneren — vragen beantwoorden die tekst-, beeld-, video- en audio-inputs overspannen

Deze ontwerpkeuze weerspiegelt de focus van Google op edge-implementatie. Mobiele apparaten leggen video en audio native vast, dus de modellen die voor die apparaten zijn ontworpen, ondersteunen die modaliteiten.

Configureerbare thinking mode

Gemma 4 introduceert een configureerbare thinking mode die meer dan 4,000+ tokens aan interne redenering genereert voordat een antwoord wordt geproduceerd. Dit is vergelijkbaar met de uitgebreide denkcapaciteiten die te zien zijn in de modellen van Claude en de o-serie van OpenAI, maar dan geïmplementeerd in een open-weight model.

Hoe het werkt

Wanneer de thinking mode is ingeschakeld, doet het model het volgende:

Ontvangt de input prompt
Genereert een interne reasoning chain (zichtbaar of verborgen, afhankelijk van de configuratie)
Gebruikt de reasoning chain om een eindrepons van hogere kwaliteit te produceren

De thinking mode kan per verzoek worden in- of uitgeschakeld, waardoor ontwikkelaars het volgende kunnen doen:

Thinking inschakelen voor complexe wiskunde, logica, codering en analysetaken
Thinking uitschakelen voor eenvoudige zoekopdrachten, chat en latentiegevoelige toepassingen
Denkdiepte aanpassen op basis van de verwachte complexiteit van de taak

Impact op kwaliteit

De thinking mode is een belangrijke drijfveer achter de sterke benchmarkprestaties van Gemma 4. De AIME 2026-score van 89.2% en de BigBench Extra Hard-score van 74% zijn beide behaald met ingeschakelde thinking mode. Zonder thinking mode zouden deze scores aanzienlijk lager zijn — vergelijkbaar met het patroon dat te zien is bij andere modellen met uitgebreide redeneercapaciteiten.

Apache 2.0: Waarom de licentiewijziging belangrijk is

Vorige Gemma-generaties werden geleverd onder de aangepaste Gemma-licentie van Google, die beperkingen bevatte voor:

Gebruik in bepaalde toepassingen
Voorwaarden voor herdistributie
Beperkingen op commerciële inzet voor grootschalig gebruik

Gemma 4 stapt over op Apache 2.0, dezelfde licentie die wordt gebruikt door projecten als Kubernetes, TensorFlow en Apache HTTP Server. Dit betekent:

Geen gebruiksbeperkingen — gebruik het voor alles, inclusief commerciële producten
Geen beperkingen op herdistributie — deel gewijzigde weights vrijelijk
Geen vereisten voor bronvermelding buiten de licentie — standaard Apache 2.0 kennisgeving
Geen goedkeuring van Google nodig — implementeer op elke schaal zonder toestemming
Compatibel met andere open-source licenties — eenvoudig te integreren in bestaande projecten

Voor ondernemingen en startups die producten bouwen bovenop open modellen, neemt dit de juridische overhead weg die de aangepaste licentie van Gemma vereiste. Het maakt Gemma 4 ook direct vergelijkbaar met de Llama-modellen van Meta (die hun eigen aangepaste licentie met enkele beperkingen gebruiken) en positioneert het als de meest permissief gelicentieerde open modelfamilie van hoge kwaliteit die beschikbaar is.

Taalondersteuning

Gemma 4 ondersteunt 35+ talen voor inferentie en is vooraf getraind op 140+ talen. Dit maakt het een van de meest meertalige open modellen die beschikbaar zijn, naast de modellen van Qwen die ook de nadruk leggen op brede taaldekking.

De ondersteunde talen omvatten de belangrijkste wereldtalen (Engels, Chinees, Spaans, Frans, Duits, Japans, Koreaans, Arabisch, Hindi, Portugees, Russisch) evenals vele talen met een kleinere digitale voetafdruk. De voortraining op 140+ talen betekent dat het model over enige capaciteit beschikt in meer talen dan de officieel ondersteunde 35, hoewel de kwaliteit kan variëren.

Voor applicaties die gericht zijn op een wereldwijd publiek of niet-Engelstalige markten, vermindert deze brede taalondersteuning de noodzaak voor gespecialiseerde fine-tuning of afzonderlijke modellen per taal.

Gestructureerd tool use en agentic workflows

Gemma 4 bevat native ondersteuning voor gestructureerd tool use, wat agentic workflows mogelijk maakt waarbij het model het volgende kan doen:

Externe API's aanroepen met correct geformatteerde verzoeken
Gestructureerde antwoorden parsen van tools en diensten
Meerdere tool-aanroepen koppelen om complexe taken te voltooien
Fouten en nieuwe pogingen afhandelen bij de uitvoering van tools

deze mogelijkheid is bijzonder relevant voor integratie met Android Studio, waar Gemma 4 lokale agentic coding workflows aanstuurt. Het model kan code-context begrijpen, wijzigingen voorstellen, tools uitvoeren en itereren — en dit alles lokaal op de machine van de ontwikkelaar zonder code naar externe servers te sturen.

Voor ontwikkelaars die AI-agents bouwen, biedt het gestructureerde toolgebruik van Gemma 4 een volledig lokale, volledig private basis. Gecombineerd met de Apache 2.0-licentie maakt dit het bouwen en implementeren van agentic applicaties mogelijk zonder enige afhankelijkheid van externe modelleveranciers.

Hardwarevereisten

Lokale implementatie via Ollama

Model	Benodigd RAM (4-bit)	Benodigd RAM (FP16)	GPU Aanbeveling
E2B	~5 GB	~5 GB	Elke moderne GPU / alleen CPU
E4B	~5 GB	~9 GB	Elke moderne GPU / alleen CPU
26B MoE	~18 GB	~52 GB	RTX 4090 / RTX 5090
31B Dense	~20 GB	~62 GB	RTX 4090 / RTX 5090

Bron: Ollama modelbibliotheek

De E2B en E4B modellen zijn specifiek ontworpen voor edge-implementatie. Ze draaien moeiteloos op laptops, desktop CPU's en zelfs sommige smartphones. De 26B MoE en 31B Dense modellen vereisen dedicated GPU-hardware, maar blijven toegankelijk voor individuele ontwikkelaars met consumenten-GPU's.

NVIDIA Optimalisatie

NVIDIA heeft geoptimaliseerde versies van Gemma 4 uitgebracht voor RTX-GPU's, wat zorgt voor:

Snellere inferentie door GPU-specifieke kernel-optimalisaties
Beter geheugengebruik op kaarten uit de RTX 4000- en 5000-serie
TensorRT integratie voor productie-implementatie
CUDA graph ondersteuning voor minder overhead bij herhaalde inferentie

Bron: NVIDIA AI Blog

Wat er is veranderd ten opzichte van Gemma 3

Functie	Gemma 3	Gemma 4
Licentie	Gemma Licentie (beperkt)	Apache 2.0 (onbeperkt)
Modelgroottes	3 groottes	4 groottes (MoE toegevoegd)
Contextvenster	Tot 128K	Tot 256K
Modaliteiten	Tekst, Image	Tekst, Image, Video, Audio
Thinking Mode	Nee	Ja (configureerbaar)
Tool Use	Beperkt	Gestructureerd tool use
Talen	30+	35+ (vooraf getraind op 140+)
BigBench Extra Hard	19%	74%

Elke dimensie is verbeterd. De meest impactvolle veranderingen voor ontwikkelaars zijn de Apache 2.0-licentie (verwijdert juridische frictie), de thinking mode (verbetert kwaliteit bij lastige taken) en de MoE architectuur (biedt vlaggenschip-kwaliteit tegen een fractie van de compute-kosten).

Praktische use cases

Codering en ontwikkeling

Het gestructureerde toolgebruik en de thinking mode van Gemma 4 maken het effectief voor:

Lokale code-aanvulling en generatie
Code review en detectie van bugs
Geautomatiseerde testgeneratie
Schrijven van documentatie
Agentic coding workflows in Android Studio

Documentverwerking

Met 256K context windows en multimodale ondersteuning:

Verwerk volledige codebases of lange documenten in een enkele prompt
Extraheer informatie uit afbeeldingen van documenten, bonnen en formulieren
Analyseer grafieken en datavisualisaties
Vat langdurige onderzoeksartikelen of juridische documenten samen

Bouwen van AI-gestuurde applicaties

Voor ontwikkelaars die producten bouwen met AI-mogelijkheden, biedt Gemma 4 een sterke inferentielaag op het apparaat of via zelf-hosting. Het model zorgt voor de intelligentie — het begrijpen van vragen, het genereren van antwoorden, het verwerken van afbeeldingen — terwijl uw applicatieframework de rest afhandelt. Tools zoals ZBuild kunnen het bouwen van de applicatieschil (frontend, backend, database, implementatie) versnellen, zodat u de ontwikkelingsinspanning kunt richten op de AI-integratielaag waar de capaciteiten van Gemma 4 het meest van belang zijn.

Edge en mobiele implementatie

De E2B en E4B modellen openen use cases die voorheen onmogelijk waren met open modellen:

On-device assistenten die offline werken
Privacybeschermende AI-functies die nooit gegevens naar externe servers sturen
Real-time video- en audioverwerking op mobiele apparaten
Ingebedde AI in IoT- en robotica-toepassingen

Hoe aan de slag te gaan

Ollama (Snelste methode)

# Installeer Ollama
curl -fsSL https://ollama.com/install.sh | sh

# Pull en draai Gemma 4
ollama run gemma4:e2b      # Kleinste, draait overal
ollama run gemma4:e4b      # Klein, bredere mogelijkheden
ollama run gemma4:26b-moe  # MoE, beste efficiëntie
ollama run gemma4:31b      # Dense, hoogste kwaliteit

Hugging Face

Alle Gemma 4 modellen zijn beschikbaar op Hugging Face met volledige transformers integratie:

from transformers import AutoModelForCausalLM, AutoTokenizer

model = AutoModelForCausalLM.from_pretrained("google/gemma-4-31b")
tokenizer = AutoTokenizer.from_pretrained("google/gemma-4-31b")

Google AI Studio

Google biedt gratis API-toegang tot Gemma 4 via AI Studio voor experimenten en prototyping, waarbij Vertex AI beschikbaar is voor productie-implementatie.

Gemma 4 in het competitieve landschap

Om te begrijpen waar Gemma 4 zich bevindt in het bredere ecosysteem:

Model	Params	Licentie	MMLU Pro	Arena AI	Context
Gemma 4 31B	31B	Apache 2.0	85.2%	1452	256K
Gemma 4 26B MoE	26B (3.8B actief)	Apache 2.0	—	1441	256K
Llama 4 Maverick	400B (~17B actief)	Meta License	79.6%	1417	1M
Llama 4 Scout	109B (~17B actief)	Meta License	—	~1400	10M
Qwen 3.5 72B	72B	Apache 2.0	81.4%	1438	128K
Qwen 3.5 MoE	397B (~22B actief)	Apache 2.0	83.1%	1449	128K

Gemma 4 31B behaalt de hoogste MMLU Pro-score en Arena AI-rangschikking onder open modellen — met de minste totale parameters. Deze parameterefficiëntie is een direct resultaat van de Gemini 3 technologiebasis en de configureerbare thinking mode.

Het efficiëntieverhaal van het 26B MoE model is nog overtuigender. Het staat op de 6e plaats op Arena AI terwijl het slechts 3.8B parameters per token activeert. Geen enkel ander model behaalt een vergelijkbare kwaliteit-tot-compute ratio. Voor productie-implementaties waarbij de inferentiekosten schalen met het gebruik, vertaalt deze efficiëntie zich direct in kostenbesparingen.

Vergeleken met propriëtaire modellen zijn de benchmarks van Gemma 4 31B concurrerend met het middensegment van Anthropic en OpenAI. Hoewel de beste propriëtaire modellen nog steeds leiden bij de moeilijkste taken, is het gat drastisch verkleind — en Gemma 4 komt met nul kosten per token en volledige Apache 2.0 vrijheid.

Oordeel

Gemma 4 zet in 2026 een nieuwe standaard voor open-weight modellen. De combinatie van Apache 2.0-licentiëring, vier goed gedifferentieerde modelgroottes, native multimodale ondersteuning, configureerbare thinking mode en benchmarkscores die kunnen concurreren met veel grotere modellen, maakt het de meest praktische open modelfamilie die beschikbaar is.

De 31B Dense is de juiste keuze wanneer u maximale kwaliteit nodig heeft. De 26B MoE is de juiste keuze wanneer u sterke kwaliteit nodig heeft tegen minimale compute-kosten. De E2B en E4B zijn de juiste keuzes voor edge-implementatie en on-device AI. Voor het eerst in de Gemma-familie vormt de licentie geen beperking voor elk van deze use cases.

Google Gemma 4: Volledige gids voor specificaties, benchmarks en wat er nieuw is (2026)