Belangrijkste inzichten
Het open-source AI-modellandschap in 2026 is een driestrijd tussen Google's Gemma 4, Meta's Llama 4 en Alibaba's Qwen 3.5. Elke familie domineert op verschillende dimensies: Gemma 4 wint op het gebied van efficiëntie en licenties, Llama 4 wint op het gebied van ruwe schaal en context length, en Qwen 3.5 wint op het gebied van meertalige breedte en modelvariëteit. Het "beste" model hangt volledig af van je deployment constraints, doelmarkten en hardwarebudget.
Gemma 4 vs Llama 4 vs Qwen 3.5: De volledige vergelijking
De kanshebbers in één oogopslag
Voordat we in de details duiken, volgt hier het landschap:
| Gemma 4 | Llama 4 | Qwen 3.5 | |
|---|---|---|---|
| Ontwikkelaar | Google DeepMind | Meta | Alibaba Cloud |
| Uitgebracht | April 2, 2026 | April 2025 (Scout/Maverick) | Q1 2026 |
| Licentie | Apache 2.0 | Meta Custom License | Apache 2.0 (meeste modellen) |
| Modelgroottes | E2B, E4B, 26B MoE, 31B Dense | Scout 109B, Maverick 400B | Meerdere (0.6B tot 397B) |
| Max Context | 256K | 10M (Scout) | 128K |
| Multimodaal | Tekst, Afbeelding, Video, Audio | Tekst, Afbeelding | Tekst, Afbeelding |
| Thinking Mode | Ja (configureerbaar) | Nee | Ja (hybride) |
Bron: Respectievelijke aankondigingen van modellen van Google, Meta en Alibaba
Modelgroottes en architectuur
Gemma 4: Vier groottes, twee architecturen
Gemma 4 biedt de meest gedifferentieerde line-up:
| Model | Total Params | Active Params | Architectuur |
|---|---|---|---|
| E2B | 2.3B | 2.3B | Dense |
| E4B | 4.5B | 4.5B | Dense |
| 26B MoE | 26B | 3.8B | Mixture of Experts |
| 31B Dense | 31B | 31B | Dense |
De 26B MoE is de uitblinker — het levert bijna flagship kwaliteit terwijl het slechts 3.8B active parameters per token activeert. Dit betekent dat het op ongeveer dezelfde snelheid en geheugenkosten draait als het E4B model, terwijl het toegang heeft tot 26B parameters aan kennis. Op Arena AI scoort het 1441 en staat het op de 6e plaats onder de open modellen, ondanks deze minimale compute footprint.
Llama 4: Twee enorme modellen
Meta's Llama 4 kiest voor de tegenovergestelde aanpak — minder modellen, maar veel groter:
| Model | Total Params | Active Params | Architectuur |
|---|---|---|---|
| Scout | 109B | ~17B | Mixture of Experts (16 experts) |
| Maverick | 400B | ~17B | Mixture of Experts (128 experts) |
Beide Llama 4 modellen maken gebruik van de MoE architectuur. Scout activeert ongeveer 17B parameters per token uit een pool van 109B. Maverick activeert een vergelijkbare hoeveelheid uit 400B totale parameters, waarbij 128 experts worden gebruikt voor een grotere kenniscapaciteit. De belangrijkste afweging: zelfs met MoE efficiëntie vereisen deze modellen aanzienlijk meer geheugen om de volledige parameter-set te bevatten.
Het kenmerkende aspect van Llama 4 Scout is zijn 10 miljoen token context window — de langste van elk groot open model. Dit maakt het verwerken van volledige codebases, lange video-transcripts of enorme documentverzamelingen in een enkele prompt mogelijk.
Qwen 3.5: Het breedste assortiment
De Qwen 3.5 familie van Alibaba biedt de meeste modelgroottes:
| Model | Parameters | Architectuur |
|---|---|---|
| Qwen 3.5 0.6B | 0.6B | Dense |
| Qwen 3.5 1.7B | 1.7B | Dense |
| Qwen 3.5 4B | 4B | Dense |
| Qwen 3.5 8B | 8B | Dense |
| Qwen 3.5 14B | 14B | Dense |
| Qwen 3.5 32B | 32B | Dense |
| Qwen 3.5 72B | 72B | Dense |
| Qwen 3.5 MoE (A22B) | 397B | Mixture of Experts |
Qwen 3.5 vult elke parameter-niche. Het 0.6B model draait op vrijwel elk apparaat. De 397B MoE evenaart Llama 4 Maverick in totaal aantal parameters. Deze breedte betekent dat er altijd een Qwen model is dat precies binnen je hardware-beperkingen past.
Qwen 3.5 biedt ook een hybride Thinking Mode, waardoor gebruikers kunnen schakelen tussen snelle antwoorden en dieper redeneren binnen hetzelfde model — vergelijkbaar met de configureerbare Thinking Mode van Gemma 4.
Vergelijking van Benchmarks
Redeneren en Kennis
| Benchmark | Gemma 4 31B | Llama 4 Maverick | Qwen 3.5 72B | Qwen 3.5 MoE |
|---|---|---|---|---|
| MMLU Pro | 85.2% | 79.6% | 81.4% | 83.1% |
| AIME 2026 | 89.2% | — | 79.8% | 85.6% |
| BigBench Extra Hard | 74% | — | 62% | 68% |
| Arena AI Score | 1452 (3e) | 1417 | 1438 | 1449 |
Bronnen: Arena AI, respectievelijke technische rapporten
Gemma 4 31B loopt voorop in de redeneer-benchmarks, wat opmerkelijk is aangezien het de kleinste flagship is in deze vergelijking (31B vs 400B vs 72B/397B). De Thinking Mode speelt hier een grote rol — Gemma 4 met Thinking Mode ingeschakeld blinkt uit in taken die baat hebben bij stapsgewijs redeneren.
Op efficiëntie gecorrigeerde prestaties
Ruwe benchmarks vertellen niet het hele verhaal. Wanneer je rekening houdt met active parameters — de compute cost per token — verandert het beeld:
| Model | Arena AI Score | Active Params | Score per B Active |
|---|---|---|---|
| Gemma 4 26B MoE | 1441 | 3.8B | 379 |
| Gemma 4 31B | 1452 | 31B | 47 |
| Llama 4 Maverick | 1417 | ~17B | 83 |
| Llama 4 Scout | ~1400 | ~17B | 82 |
| Qwen 3.5 72B | 1438 | 72B | 20 |
| Qwen 3.5 MoE | 1449 | ~22B | 66 |
Gemma 4's 26B MoE domineert op het gebied van efficiëntie. Het behaalt een Arena AI Score van 1441 terwijl het slechts 3.8B parameters activeert — een ratio van score-per-active-parameter die 4-5x beter is dan de concurrentie. Voor deployment scenario's waar inference kosten van belang zijn (wat de meeste productie-scenario's zijn), vertaalt dit efficiëntievoordeel zich direct in kostenbesparingen.
Programmeerprestaties
| Benchmark | Gemma 4 31B | Llama 4 Maverick | Qwen 3.5 72B |
|---|---|---|---|
| HumanEval+ | 82.3% | 85.1% | 83.7% |
| LiveCodeBench | 46.8% | 51.2% | 49.5% |
| MultiPL-E (Python) | 79.4% | 83.6% | 81.2% |
Llama 4 Maverick loopt in absolute termen net voor op de programmeer-benchmarks, wat te verwachten is gezien het voordeel van 400B parameters. Echter, Gemma 4's structured tool use capaciteit en Thinking Mode maken het praktischer voor agentic programmeer-workflows waarbij het model moet plannen, uitvoeren en itereren in plaats van alleen code in één keer te genereren.
Licenties: De verborgen doorslaggevende factor
Voor commerciële deployment kunnen licenties belangrijker zijn dan benchmarks:
Gemma 4: Apache 2.0
- Geen gebruiksbeperkingen — te gebruiken voor elk doel
- Geen gebruikersdrempels — geen limieten op basis van bedrijfsgrootte
- Volledige wijzigingsrechten — vrij aanpassen en herdistribueren
- Standaard juridische beoordeling — Apache 2.0 wordt wereldwijd goed begrepen door juridische teams
Llama 4: Meta Custom License
- Gratis voor het meeste commerciële gebruik — maar onder voorwaarden
- 700M MAU beperking — bedrijven die de 700 miljoen monthly active users overschrijden, moeten een aparte licentie aanvragen bij Meta
- Beleid voor acceptabel gebruik — bepaalde use cases zijn verboden
- Aangepaste licentie — vereist juridische beoordeling om specifieke nalevingsvereisten te beoordelen
Qwen 3.5: Apache 2.0 (Meeste modellen)
- Apache 2.0 voor de meeste modelgroottes — dezelfde vrijheid als Gemma 4
- Sommige grotere modellen kunnen andere voorwaarden hebben — verifieer dit per model
- Standaard juridische beoordeling — Apache 2.0 wordt goed begrepen
Voor startups en ondernemingen is het licentieverschil reëel. Apache 2.0 (Gemma 4 en de meeste Qwen 3.5 modellen) vereist geen speciale juridische beoordeling buiten de standaard naleving van open-source regels. De aangepaste licentie van Meta vereist een specifieke beoordeling voor de 700M MAU drempel en het beleid voor acceptabel gebruik. In de praktijk treft de 700M MAU drempel slechts een handvol bedrijven wereldwijd, maar de aangepaste licentie zorgt voor wrijving, ongeacht de bedrijfsgrootte.
Multimodale mogelijkheden
| Mogelijkheid | Gemma 4 | Llama 4 | Qwen 3.5 |
|---|---|---|---|
| Tekst | Alle modellen | Alle modellen | Alle modellen |
| Afbeeldingen | Alle modellen | Alle modellen | Meeste modellen |
| Video | Alleen E2B, E4B | Nee | Nee |
| Audio | Alleen E2B, E4B | Nee | Nee |
| Thinking Mode | Ja (configureerbaar) | Nee | Ja (hybride) |
Gemma 4 heeft de breedste multimodale ondersteuning. Het feit dat video- en audio-mogelijkheden beschikbaar zijn in de kleinste modellen (E2B en E4B) in plaats van de grootste, is een opvallende ontwerpkeuze die on-device multimodale AI mogelijk maakt.
Llama 4 ondersteunt tekst- en beeldverwerking in beide modellen, maar mist native ondersteuning voor video en audio. Qwen 3.5 biedt vergelijkbare tekst- en beeldmogelijkheden zonder native video- of audioverwerking.
Context Windows
| Model | Context Window |
|---|---|
| Llama 4 Scout | 10.000.000 tokens |
| Gemma 4 31B/26B MoE | 256.000 tokens |
| Gemma 4 E2B/E4B | 128.000 tokens |
| Qwen 3.5 (meeste modellen) | 128.000 tokens |
| Llama 4 Maverick | 1.000.000 tokens |
Het context window van 10M tokens van Llama 4 Scout bevindt zich in een klasse apart. Dit is ongeveer 40x groter dan het maximum van Gemma 4 en maakt use cases mogelijk die geen enkel ander open model kan evenaren:
- Verwerken van volledige grote codebases (miljoenen regels) in een enkele prompt
- Analyseren van jaren aan conversatiegeschiedenis voor klantenservicetoepassingen
- Inlezen van volledige boeken of verzamelingen wetenschappelijke papers
Het gebruik van een context window van 10M vereist echter evenredige hardware. Het geheugen dat nodig is om de KV cache voor 10M tokens vast te houden is aanzienlijk, waardoor deze mogelijkheid alleen praktisch is op server-grade hardware.
Voor de meeste toepassingen zijn de context windows van 256K van Gemma 4 en 128K van Qwen 3.5 meer dan voldoende. Een context window van 256K kan ongeveer 750-1000 pagina's tekst of 50.000+ regels code bevatten.
Hardwarevereisten
Lokaal draaien
| Model | RAM (4-bit) | RAM (FP16) | Geschikt voor consumenten? |
|---|---|---|---|
| Gemma 4 E2B | ~5 GB | ~5 GB | Ja (laptop/telefoon) |
| Gemma 4 E4B | ~5 GB | ~9 GB | Ja (laptop) |
| Gemma 4 26B MoE | ~18 GB | ~52 GB | Ja (RTX 4090) |
| Gemma 4 31B | ~20 GB | ~62 GB | Ja (RTX 4090) |
| Qwen 3.5 8B | ~6 GB | ~16 GB | Ja (laptop) |
| Qwen 3.5 32B | ~20 GB | ~64 GB | Ja (RTX 4090) |
| Qwen 3.5 72B | ~42 GB | ~144 GB | Nee (server GPU) |
| Llama 4 Scout | ~70 GB | ~218 GB | Nee (multi-GPU server) |
| Llama 4 Maverick | ~250 GB | ~800 GB | Nee (GPU cluster) |
Voor ontwikkelaars die modellen lokaal willen draaien — op een laptop voor privacy, of op een enkele GPU voor de kosten — zijn Gemma 4 en de kleine Qwen 3.5 modellen de enige praktische opties. Gemma 4 E2B en E4B draaien op vrijwel elke moderne computer. De 26B MoE en 31B Dense passen op een enkele RTX 4090 of RTX 5090.
Llama 4 modellen zijn fundamenteel server-grade. Zelfs met agressieve quantization vereist Scout multi-GPU opstellingen en vereist Maverick een GPU cluster. Dit beperkt Llama 4 tot organisaties met budgetten voor cloud compute of een toegewijde GPU-infrastructuur.
Meertalige ondersteuning
| Gemma 4 | Llama 4 | Qwen 3.5 | |
|---|---|---|---|
| Ondersteunde talen | 35+ | 12 | 29+ |
| Pre-training talen | 140+ | — | 100+ |
| CJK Kwaliteit | Goed | Voldoende | Uitstekend |
| Arabisch/Hebreeuws | Goed | Voldoende | Goed |
| Talen met weinig middelen | Matig | Beperkt | Matig |
Qwen 3.5 is de sterkste keuze voor toepassingen die gericht zijn op Aziatische markten, met name Chinees, Japans en Koreaans. De trainingsdata van Alibaba bevat uitgebreide CJK-tekst van hoge kwaliteit, waardoor Qwen modellen een meetbaar voordeel hebben in deze talen.
Gemma 4 biedt de breedste officiële taalondersteuning met 35+ talen met pre-training in 140+. Dit biedt een redelijke kwaliteit in een breed scala aan talen, waardoor het de meest veelzijdige keuze is voor wereldwijde toepassingen.
De ondersteuning voor 12 talen van Llama 4 is de meest beperkte. Hoewel het de wereldtalen met het meeste verkeer dekt, laat het aanzienlijke gaten vallen voor toepassingen die gericht zijn op kleinere taalmarkten.
Aanbevelingen voor use cases
Kies Gemma 4 wanneer:
- Je maximale efficiëntie nodig hebt — De 26B MoE levert flagship kwaliteit bij 3.8B active parameters
- Licenties belangrijk zijn — Apache 2.0 zonder beperkingen is de eenvoudigste weg naar commerciële deployment
- Je multimodale edge AI nodig hebt — E2B/E4B met video en audio draaien op consumentenapparaten
- Je configureerbaar redeneren wilt — Schakel per verzoek tussen snel en diep redeneren
- Je agentic workflows bouwt — Structured tool use is ingebouwd
Kies Llama 4 wanneer:
- Je maximale context nodig hebt — 10M tokens in Scout is ongeëvenaard
- Ruwe benchmarkscores het zwaarst wegen — Maverick's 400B parameters geven het een voorsprong op sommige benchmarks
- Je beschikt over server-grade hardware — Cloud deployments waar GPU-kosten beheersbaar zijn
- Je je in het ecosysteem van Meta bevindt — Integratie met Meta's AI-infrastructuur
- Je de drempel van 700M MAU niet haalt — Wat geldt voor 99,99% van de bedrijven
Kies Qwen 3.5 wanneer:
- Je je richt op Aziatische markten — Beste CJK-taalkwaliteit onder open modellen
- Je een specifieke modelgrootte nodig hebt — 8 groottes van 0.6B tot 397B vullen elke niche
- Je hybride redeneren wilt — Vergelijkbaar met de configureerbare Thinking Mode van Gemma 4
- Je code-specifieke modellen nodig hebt — Qwen Code varianten zijn geoptimaliseerd voor programmeren
- Je Apache 2.0 nodig hebt met meer grootte-opties — De meeste modellen gebruiken Apache 2.0
Applicaties bouwen met open modellen
Ongeacht welk model je kiest, vereist het in productie nemen van een open model het bouwen van de applicatielaag eromheen — API-endpoints, gebruikersinterfaces, authenticatie, database-opslag voor conversaties en deployment-infrastructuur.
Voor teams die AI-gestuurde producten bouwen, is het model slechts één onderdeel. Platformen zoals ZBuild regelen de applicatie-scaffolding — de frontend, backend, database en deployment — zodat jij je engineering-inspanningen kunt richten op de modelintegratie, prompt engineering en de gebruikerservaring die je product onderscheidt.
De modelvergelijking is het belangrijkst op de integratielaag. Een goed gebouwde applicatie kan wisselen tussen Gemma 4, Llama 4 of Qwen 3.5, afhankelijk van de specifieke taak — gebruikmakend van Gemma 4 MoE voor efficiëntiegevoelige verzoeken, Llama 4 Scout voor taken met een lange context en Qwen 3.5 voor CJK-zware inhoud.
Fine-Tuning en aanpassingen
Alle drie de modelfamilies ondersteunen fine-tuning, maar de praktijkervaring verschilt:
Gemma 4
- LoRA en QLoRA ondersteund voor alle groottes
- Apache 2.0 betekent geen beperkingen op het distribueren van fine-tuned weights
- Google Colab notebooks beschikbaar om aan de slag te gaan met fine-tuning op gratis GPU's
- Keras integratie via KerasNLP voor hoogwaardige fine-tuning workflows
- E2B en E4B kunnen binnen enkele uren worden gefinetuned op een enkele consumenten-GPU
Llama 4
- LoRA en QLoRA ondersteund via Hugging Face transformers
- Meta's aangepaste licentie is van toepassing op gefinetunede afgeleiden — de 700M MAU beperking blijft van kracht
- Grote modelgroottes betekenen dat het finetunen van Scout (109B) of Maverick (400B) multi-GPU opstellingen vereist
- Torchtune van Meta biedt officiële fine-tuning recepten
Qwen 3.5
- LoRA, QLoRA en volledige fine-tuning ondersteund met uitgebreide documentatie
- Apache 2.0 voor de meeste modellen betekent onbeperkte distributie van fine-tuned weights
- Het brede scala aan groottes betekent dat je een 4B model op een laptop kunt finetunen of een 72B model op een server
- Sterke Chinese/CJK fine-tuning data beschikbaar via het ecosysteem van Alibaba
Voor de meeste fine-tuning scenario's bieden Gemma 4 E4B of 26B MoE het beste startpunt. De modellen zijn klein genoeg om te finetunen op consumentenhardware, krachtig genoeg om resultaten van hoge kwaliteit te leveren en hebben een licentie die soepel genoeg is om het gefinetunede model overal te implementeren.
De convergentie-trend
Als we de data holistisch bekijken, is de meest opvallende observatie hoe snel open-source modellen in capaciteit convergeren met propriëtaire modellen. De MMLU Pro van 85.2% van Gemma 4 31B ligt op schootsafstand van de propriëtaire scores van Claude Sonnet 4.6 en GPT-5.4 — tegen nul inference kosten buiten de hardware.
De differentiatie tussen open modelfamilies verschuift van "welke is slimmer" naar "welke past bij je deployment constraints." Hardwarevereisten, licentievoorwaarden, multimodale mogelijkheden en taalondersteuning doen er nu net zoveel toe als ruwe benchmarkscores.
Voor de meeste ontwikkelaars en bedrijven in 2026 is de vraag niet langer "moet ik een open model gebruiken?", maar "welk open model past bij mijn specifieke behoeften?" — en dat is een teken van hoe volwassen dit ecosysteem is geworden.
Eindoordeel
Er is geen enkel "beste" open-source model in 2026. De juiste keuze hangt af van je specifieke eisen:
- Beste algehele efficiëntie: Gemma 4 26B MoE — 3.8B active parameters, Arena AI rang 6e, Apache 2.0
- Beste ruwe kwaliteit (open model): Gemma 4 31B Dense — 85.2% MMLU Pro, Arena AI rang 3e
- Beste voor lange documenten: Llama 4 Scout — 10M token context window
- Beste voor Aziatische talen: Qwen 3.5 — superieure CJK-prestaties
- Beste voor consumentenhardware: Gemma 4 E2B — 5GB RAM, draait op telefoons
- Meest soepele licentie: Gemma 4 en Qwen 3.5 (Apache 2.0)
- Meeste modelgrootte-opties: Qwen 3.5 — 8 groottes van 0.6B tot 397B
Als je slechts één familie zou moeten kiezen en je geeft prioriteit aan efficiëntie, licenties en multimodale mogelijkheden, dan is Gemma 4 de sterkste allround keuze in april 2026.
Bronnen
- Introducing Gemma 4 - Google Blog
- Gemma 4 Technical Report - Google DeepMind
- Llama 4 Announcement - Meta AI
- Llama 4 License
- Qwen 3.5 - Alibaba Cloud / Qwen Team
- Qwen 3.5 Technical Report
- Arena AI Open Model Rankings
- Gemma 4 on Ollama
- Open Source LLM Comparison 2026 - Artificial Analysis
- Gemma 4 vs Llama 4 Analysis - The Decoder
- Open Model Benchmark Aggregator - Hugging Face