Wichtigste Erkenntnis
Die Open-Source AI-Modell-Landschaft im Jahr 2026 ist ein Dreikampf zwischen Google's Gemma 4, Meta's Llama 4 und Alibaba's Qwen 3.5. Jede Familie dominiert verschiedene Dimensionen: Gemma 4 gewinnt bei Effizienz und Lizenzierung, Llama 4 punktet mit roher Skalierung und Kontext-Länge, und Qwen 3.5 überzeugt durch multilinguale Breite und Modellvielfalt. Das „beste“ Modell hängt vollständig von Ihren Deployment-Beschränkungen, Zielmärkten und Ihrem Hardware-Budget ab.
Gemma 4 vs Llama 4 vs Qwen 3.5: Der vollständige Vergleich
Die Anwärter im Überblick
Bevor wir in die Details gehen, hier ist die Übersicht:
| Gemma 4 | Llama 4 | Qwen 3.5 | |
|---|---|---|---|
| Entwickler | Google DeepMind | Meta | Alibaba Cloud |
| Veröffentlicht | April 2, 2026 | April 2025 (Scout/Maverick) | Q1 2026 |
| Lizenz | Apache 2.0 | Meta Custom License | Apache 2.0 (die meisten Modelle) |
| Modellgrößen | E2B, E4B, 26B MoE, 31B Dense | Scout 109B, Maverick 400B | Mehrere (0.6B bis 397B) |
| Max. Kontext | 256K | 10M (Scout) | 128K |
| Multimodal | Text, Image, Video, Audio | Text, Image | Text, Image |
| Thinking Mode | Ja (konfigurierbar) | Nein | Ja (hybrid) |
Quelle: Jeweilige Modellankündigungen von Google, Meta und Alibaba
Modellgrößen und Architektur
Gemma 4: Vier Größen, zwei Architekturen
Gemma 4 bietet das am stärksten differenzierte Line-up:
| Modell | Total Params | Active Params | Architektur |
|---|---|---|---|
| E2B | 2.3B | 2.3B | Dense |
| E4B | 4.5B | 4.5B | Dense |
| 26B MoE | 26B | 3.8B | Mixture of Experts |
| 31B Dense | 31B | 31B | Dense |
Das 26B MoE ist das herausragende Modell — es liefert nahezu Flaggschiff-Qualität, während es nur 3.8B parameters pro token aktiviert. Das bedeutet, dass es mit etwa der gleichen Geschwindigkeit und den gleichen Speicherkosten wie das E4B-Modell läuft, während es auf 26B parameters an Wissen zugreift. Auf Arena AI erzielt es 1441 Punkte und belegt trotz dieses minimalen Compute-Footprints den 6. Platz unter den Open-Source-Modellen.
Llama 4: Zwei massive Modelle
Meta's Llama 4 verfolgt den entgegengesetzten Ansatz — weniger Modelle, dafür viel größer:
| Modell | Total Params | Active Params | Architektur |
|---|---|---|---|
| Scout | 109B | ~17B | Mixture of Experts (16 experts) |
| Maverick | 400B | ~17B | Mixture of Experts (128 experts) |
Beide Llama 4-Modelle verwenden die MoE-Architektur. Scout aktiviert etwa 17B parameters pro token aus einem Pool von 109B. Maverick aktiviert eine ähnliche Menge aus insgesamt 400B parameters und nutzt 128 experts für eine größere Wissenskapazität. Der entscheidende Kompromiss: Selbst mit MoE-Effizienz benötigen diese Modelle deutlich mehr Speicher, um den vollständigen Parametersatz zu halten.
Das prägende Merkmal von Llama 4 Scout ist sein 10 Millionen tokens Kontext-Fenster — das längste aller großen Open-Source-Modelle. Dies ermöglicht die Verarbeitung ganzer Codebases, langer Video-Transkripte oder massiver Dokumentensammlungen in einem einzigen Prompt.
Qwen 3.5: Das breiteste Spektrum
Alibaba's Qwen 3.5-Familie bietet die meisten Modellgrößen:
| Modell | Parameters | Architektur |
|---|---|---|
| Qwen 3.5 0.6B | 0.6B | Dense |
| Qwen 3.5 1.7B | 1.7B | Dense |
| Qwen 3.5 4B | 4B | Dense |
| Qwen 3.5 8B | 8B | Dense |
| Qwen 3.5 14B | 14B | Dense |
| Qwen 3.5 32B | 32B | Dense |
| Qwen 3.5 72B | 72B | Dense |
| Qwen 3.5 MoE (A22B) | 397B | Mixture of Experts |
Qwen 3.5 füllt jede Parameter-Nische. Das 0.6B-Modell läuft auf praktisch jedem Gerät. Das 397B MoE erreicht bei der Gesamtzahl der Parameter das Niveau von Llama 4 Maverick. Diese Breite bedeutet, dass es immer ein Qwen-Modell gibt, das genau zu Ihren Hardware-Beschränkungen passt.
Qwen 3.5 bietet außerdem einen hybriden Thinking Mode, mit dem Benutzer zwischen schnellen Antworten und tiefergehender Argumentation innerhalb desselben Modells wechseln können — ähnlich wie der konfigurierbare Thinking Mode von Gemma 4.
Benchmark-Vergleich
Schlussfolgerung und Wissen
| Benchmark | Gemma 4 31B | Llama 4 Maverick | Qwen 3.5 72B | Qwen 3.5 MoE |
|---|---|---|---|---|
| MMLU Pro | 85.2% | 79.6% | 81.4% | 83.1% |
| AIME 2026 | 89.2% | — | 79.8% | 85.6% |
| BigBench Extra Hard | 74% | — | 62% | 68% |
| Arena AI Score | 1452 (3.) | 1417 | 1438 | 1449 |
Quellen: Arena AI, jeweilige technische Berichte
Gemma 4 31B führt bei den Reasoning-Benchmarks an, was bemerkenswert ist, da es das kleinste Flaggschiff-Modell in diesem Vergleich ist (31B vs 400B vs 72B/397B). Der Thinking Mode spielt hier eine wichtige Rolle — Gemma 4 mit aktiviertem Thinking Mode glänzt bei Aufgaben, die von Schritt-für-Schritt-Argumentation profitieren.
Effizienzbereinigte Leistung
Reine Benchmarks erzählen nicht die ganze Geschichte. Wenn man die Active Params — also die Compute-Kosten pro token — berücksichtigt, verschiebt sich das Bild:
| Modell | Arena AI Score | Active Params | Score pro B Active |
|---|---|---|---|
| Gemma 4 26B MoE | 1441 | 3.8B | 379 |
| Gemma 4 31B | 1452 | 31B | 47 |
| Llama 4 Maverick | 1417 | ~17B | 83 |
| Llama 4 Scout | ~1400 | ~17B | 82 |
| Qwen 3.5 72B | 1438 | 72B | 20 |
| Qwen 3.5 MoE | 1449 | ~22B | 66 |
Gemma 4's 26B MoE dominiert bei der Effizienz. Es erreicht einen Arena AI Score von 1441, während es nur 3.8B parameters aktiviert — ein Verhältnis von Score pro aktivem Parameter, das 4-5x besser ist als bei der Konkurrenz. Für Deployment-Szenarien, in denen die Inferenzkosten eine Rolle spielen (was auf die meisten Produktionsszenarien zutrifft), übersetzt sich dieser Effizienzvorteil direkt in Kosteneinsparungen.
Coding-Leistung
| Benchmark | Gemma 4 31B | Llama 4 Maverick | Qwen 3.5 72B |
|---|---|---|---|
| HumanEval+ | 82.3% | 85.1% | 83.7% |
| LiveCodeBench | 46.8% | 51.2% | 49.5% |
| MultiPL-E (Python) | 79.4% | 83.6% | 81.2% |
Llama 4 Maverick liegt bei den Coding-Benchmarks absolut gesehen vorn, was angesichts seines Vorteils von 400B parameters zu erwarten ist. Dennoch machen die Fähigkeiten zur strukturierten Tool-Nutzung und der Thinking Mode Gemma 4 praktischer für agentische Coding-Workflows, bei denen das Modell planen, ausführen und iterieren muss, anstatt nur Code in einem Durchgang zu generieren.
Lizenzierung: Der versteckte entscheidende Faktor
Für den kommerziellen Einsatz kann die Lizenzierung wichtiger sein als Benchmarks:
Gemma 4: Apache 2.0
- Keine Nutzungsbeschränkungen — Nutzung für jeden Zweck
- Keine Benutzer-Schwellenwerte — keine Limits basierend auf der Unternehmensgröße
- Volle Änderungsrechte — frei verändern und weiterverbreiten
- Standardmäßige rechtliche Prüfung — Apache 2.0 ist Rechtsteams weltweit bestens bekannt
Llama 4: Meta Custom License
- Kostenlos für die meisten kommerziellen Nutzungen — aber mit Bedingungen
- 700M MAU-Einschränkung — Unternehmen, die 700 Millionen monatlich aktive Nutzer überschreiten, müssen eine separate Lizenz bei Meta beantragen
- Richtlinie für akzeptable Nutzung — bestimmte Anwendungsfälle sind untersagt
- Benutzerdefinierte Lizenz — erfordert eine rechtliche Prüfung, um spezifische Compliance-Anforderungen zu bewerten
Qwen 3.5: Apache 2.0 (Die meisten Modelle)
- Apache 2.0 für die meisten Modellgrößen — dieselbe Freiheit wie bei Gemma 4
- Einige größere Modelle können abweichende Bedingungen haben — pro Modell zu prüfen
- Standardmäßige rechtliche Prüfung — Apache 2.0 ist bestens bekannt
Für Startups und Unternehmen ist der Lizenzunterschied real. Apache 2.0 (Gemma 4 und die meisten Qwen 3.5-Modelle) erfordert keine spezielle rechtliche Prüfung über die Standard-Open-Source-Compliance hinaus. Meta's benutzerdefinierte Lizenz erfordert eine spezifische Prüfung hinsichtlich des 700M MAU-Schwellenwerts und der Richtlinie für akzeptable Nutzung. In der Praxis betrifft der 700M MAU-Schwellenwert weltweit nur eine Handvoll Unternehmen, aber die benutzerdefinierte Lizenz erzeugt unabhängig von der Unternehmensgröße Reibungsverluste.
Multimodale Fähigkeiten
| Fähigkeit | Gemma 4 | Llama 4 | Qwen 3.5 |
|---|---|---|---|
| Text | Alle Modelle | Alle Modelle | Alle Modelle |
| Bilder | Alle Modelle | Alle Modelle | Die meisten Modelle |
| Video | Nur E2B, E4B | Nein | Nein |
| Audio | Nur E2B, E4B | Nein | Nein |
| Thinking Mode | Ja (konfigurierbar) | Nein | Ja (hybrid) |
Gemma 4 bietet die breiteste multimodale Unterstützung. Dass Video- und Audio-Fähigkeiten in den kleinsten Modellen (E2B und E4B) und nicht in den größten verfügbar sind, ist eine bemerkenswerte Design-Entscheidung, die multimodale AI direkt auf Geräten ermöglicht.
Llama 4 unterstützt die Text- und Bildverarbeitung in beiden Modellen, lässt aber native Video- und Audio-Unterstützung vermissen. Qwen 3.5 bietet ähnliche Text- und Bildfähigkeiten ohne native Video- oder Audioverarbeitung.
Kontext-Fenster
| Modell | Kontext-Fenster |
|---|---|
| Llama 4 Scout | 10.000.000 tokens |
| Gemma 4 31B/26B MoE | 256.000 tokens |
| Gemma 4 E2B/E4B | 128.000 tokens |
| Qwen 3.5 (meiste Modelle) | 128.000 tokens |
| Llama 4 Maverick | 1.000.000 tokens |
Llama 4 Scout's 10M token Kontext-Fenster ist eine Klasse für sich. Dies ist etwa 40x größer als das Maximum von Gemma 4 und ermöglicht Anwendungsfälle, mit denen kein anderes offenes Modell mithalten kann:
- Verarbeitung ganzer großer Codebases (Millionen von Zeilen) in einem einzigen Prompt
- Analyse jahrelanger Konversationshistorien für Kundenservice-Anwendungen
- Einlesen ganzer Bücher oder Sammlungen wissenschaftlicher Arbeiten
Die Nutzung eines 10M Kontext-Fensters erfordert jedoch entsprechende Hardware. Der Speicher, der benötigt wird, um den KV cache für 10M tokens zu halten, ist beträchtlich, was diese Fähigkeit nur auf Hardware der Server-Klasse praktikabel macht.
Für die meisten Anwendungen sind die Kontext-Fenster von Gemma 4 (256K) und Qwen 3.5 (128K) mehr als ausreichend. Ein 256K Kontext-Fenster kann etwa 750-1000 Textseiten oder über 50.000 Codezeilen fassen.
Hardware-Anforderungen
Lokale Ausführung
| Modell | RAM (4-bit) | RAM (FP16) | Verbrauchertauglich? |
|---|---|---|---|
| Gemma 4 E2B | ~5 GB | ~5 GB | Ja (Laptop/Handy) |
| Gemma 4 E4B | ~5 GB | ~9 GB | Ja (Laptop) |
| Gemma 4 26B MoE | ~18 GB | ~52 GB | Ja (RTX 4090) |
| Gemma 4 31B | ~20 GB | ~62 GB | Ja (RTX 4090) |
| Qwen 3.5 8B | ~6 GB | ~16 GB | Ja (Laptop) |
| Qwen 3.5 32B | ~20 GB | ~64 GB | Ja (RTX 4090) |
| Qwen 3.5 72B | ~42 GB | ~144 GB | Nein (Server-GPU) |
| Llama 4 Scout | ~70 GB | ~218 GB | Nein (Multi-GPU-Server) |
| Llama 4 Maverick | ~250 GB | ~800 GB | Nein (GPU-Cluster) |
Für Entwickler, die Modelle lokal ausführen möchten — auf einem Laptop aus Datenschutzgründen oder auf einer einzelnen GPU aus Kostengründen — sind Gemma 4 und die kleinen Qwen 3.5-Modelle die einzigen praktikablen Optionen. Gemma 4 E2B und E4B laufen auf praktisch jedem modernen Computer. Das 26B MoE und 31B Dense passen auf eine einzelne RTX 4090 oder RTX 5090.
Llama 4-Modelle sind grundsätzlich für die Server-Klasse konzipiert. Selbst mit aggressiver Quantisierung erfordert Scout Multi-GPU-Setups und Maverick einen GPU-Cluster. Dies beschränkt Llama 4 auf Organisationen mit Cloud-Compute-Budgets oder dedizierter GPU-Infrastruktur.
Multilinguale Unterstützung
| Gemma 4 | Llama 4 | Qwen 3.5 | |
|---|---|---|---|
| Unterstützte Sprachen | 35+ | 12 | 29+ |
| Pre-training Sprachen | 140+ | — | 100+ |
| CJK-Qualität | Gut | Angemessen | Hervorragend |
| Arabisch/Hebräisch | Gut | Angemessen | Gut |
| Ressourcenarme Sprachen | Mittelmäßig | Begrenzt | Mittelmäßig |
Qwen 3.5 ist die stärkste Wahl für Anwendungen, die auf asiatische Märkte abzielen, insbesondere Chinesisch, Japanisch und Koreanisch. Die Trainingsdaten von Alibaba enthalten umfangreiche, hochwertige CJK-Texte, was Qwen-Modellen einen messbaren Vorteil in diesen Sprachen verschafft.
Gemma 4 bietet mit 35+ Sprachen die breiteste offizielle Sprachunterstützung, bei einem Pre-training auf 140+. Dies gewährleistet eine angemessene Qualität über ein breites Spektrum an Sprachen hinweg und macht es zur vielseitigsten Wahl für globale Anwendungen.
Die Unterstützung von 12 Sprachen bei Llama 4 ist am stärksten begrenzt. Es deckt zwar die meistgenutzten Weltsprachen ab, lässt aber erhebliche Lücken für Anwendungen, die auf kleinere Sprachmärkte abzielen.
Empfehlungen für Anwendungsfälle
Wählen Sie Gemma 4, wenn:
- Sie maximale Effizienz benötigen — Das 26B MoE liefert Flaggschiff-Qualität bei 3.8B active parameters
- Die Lizenzierung entscheidend ist — Apache 2.0 ohne Einschränkungen ist der einfachste Weg zum kommerziellen Deployment
- Sie multimodale Edge-AI benötigen — E2B/E4B mit Video und Audio laufen auf Endverbrauchergeräten
- Sie konfigurierbares Denken wünschen — Wechseln Sie pro Anfrage zwischen schneller und tiefer Argumentation
- Sie agentische Workflows aufbauen — Strukturierte Tool-Nutzung ist bereits integriert
Wählen Sie Llama 4, wenn:
- Sie maximalen Kontext benötigen — 10M tokens in Scout sind unerreicht
- Rohe Benchmark-Ergebnisse am wichtigsten sind — Maverick's 400B parameters verschaffen ihm einen Vorteil bei einigen Benchmarks
- Sie über Hardware der Server-Klasse verfügen — Cloud-Deployments, bei denen die GPU-Kosten tragbar sind
- Sie sich im Ökosystem von Meta bewegen — Integration in die AI-Infrastruktur von Meta
- Sie den 700M MAU-Schwellenwert nicht erreichen — Was auf 99.99% der Unternehmen zutrifft
Wählen Sie Qwen 3.5, wenn:
- Sie asiatische Märkte anvisieren — Beste CJK-Sprachqualität unter den Open-Source-Modellen
- Sie eine spezifische Modellgröße benötigen — 8 Größen von 0.6B bis 397B füllen jede Nische
- Sie hybrides Denken wünschen — Ähnlich wie der konfigurierbare Thinking Mode von Gemma 4
- Sie codespezifische Modelle benötigen — Qwen Code-Varianten sind für die Programmierung optimiert
- Sie Apache 2.0 mit mehr Größenoptionen benötigen — Die meisten Modelle nutzen Apache 2.0
Aufbau von Anwendungen mit Open-Source-Modellen
Unabhängig davon, welches Modell Sie wählen, erfordert der Einsatz eines Open-Source-Modells in der Produktion den Aufbau der Anwendungsschicht darum herum — API-Endpunkte, Benutzeroberflächen, Authentifizierung, Datenbank-Speicherung für Konversationen und Deployment-Infrastruktur.
Für Teams, die AI-gestützte Produkte entwickeln, ist das Modell nur ein Puzzleteil. Plattformen wie ZBuild übernehmen das Anwendungsgerüst — Frontend, Backend, Datenbank und Deployment — damit Sie Ihre Entwicklungsarbeit auf die Modell-Integration, Prompt Engineering und die Nutzererfahrung konzentrieren können, die Ihr Produkt differenzieren.
Der Modellvergleich ist in der Integrationsschicht am wichtigsten. Eine gut gebaute Anwendung kann je nach spezifischer Aufgabe zwischen Gemma 4, Llama 4 oder Qwen 3.5 wechseln — indem sie Gemma 4 MoE für effizienzsensitive Anfragen nutzt, Llama 4 Scout für Aufgaben mit langem Kontext und Qwen 3.5 für CJK-lastige Inhalte.
Fine-Tuning und Anpassung
Alle drei Modellfamilien unterstützen Fine-Tuning, aber die praktische Erfahrung unterscheidet sich:
Gemma 4
- LoRA und QLoRA werden über alle Größen hinweg unterstützt
- Apache 2.0 bedeutet keine Einschränkungen bei der Weitergabe von fine-tuned Gewichten
- Google Colab Notebooks verfügbar für den Einstieg in das Fine-Tuning auf kostenlosen GPUs
- Keras-Integration via KerasNLP für High-Level Fine-Tuning-Workflows
- E2B und E4B lassen sich in wenigen Stunden auf einer einzelnen Consumer-GPU fine-tunen
Llama 4
- LoRA und QLoRA werden via Hugging Face transformers unterstützt
- Meta's benutzerdefinierte Lizenz gilt auch für fine-tuned Derivate — die 700M MAU-Einschränkung bleibt bestehen
- Große Modellgrößen bedeuten, dass das Fine-Tuning von Scout (109B) oder Maverick (400B) Multi-GPU-Setups erfordert
- Torchtune von Meta bietet offizielle Fine-Tuning-Rezepte
Qwen 3.5
- LoRA, QLoRA und vollständiges Fine-Tuning werden mit umfassender Dokumentation unterstützt
- Apache 2.0 für die meisten Modelle bedeutet uneingeschränkte Weitergabe von fine-tuned Gewichten
- Die breite Größenpalette bedeutet, dass Sie ein 4B-Modell auf einem Laptop oder ein 72B-Modell auf einem Server fine-tunen können
- Starke chinesische/CJK Fine-Tuning-Daten über das Ökosystem von Alibaba verfügbar
Für die meisten Fine-Tuning-Szenarien bieten Gemma 4 E4B oder 26B MoE den besten Ausgangspunkt. Die Modelle sind klein genug, um auf Consumer-Hardware fine-tuned zu werden, leistungsfähig genug, um qualitativ hochwertige Ergebnisse zu liefern, und freizügig genug lizenziert, um das fine-tuned Modell überall einzusetzen.
Der Konvergenztrend
Betrachtet man die Daten ganzheitlich, ist die auffälligste Beobachtung, wie schnell Open-Source-Modelle in ihren Fähigkeiten zu proprietären Modellen aufschließen. Der MMLU Pro von 85.2% bei Gemma 4 31B liegt in Schlagdistanz zu den proprietären Werten von Claude Sonnet 4.6 und GPT-5.4 — bei null Inferenzkosten jenseits der Hardware.
Die Differenzierung zwischen den Open-Source-Modellfamilien verschiebt sich von „welches ist klüger“ hin zu „welches passt zu Ihren Deployment-Beschränkungen“. Hardware-Anforderungen, Lizenzbedingungen, multimodale Fähigkeiten und Sprachunterstützung zählen heute genauso viel wie reine Benchmark-Ergebnisse.
Für die meisten Entwickler und Unternehmen im Jahr 2026 lautet die Frage nicht mehr „sollte ich ein offenes Modell verwenden?“, sondern „welches offene Modell passt zu meinen spezifischen Anforderungen?“ — und das ist ein Zeichen dafür, wie reif dieses Ökosystem geworden ist.
Fazit
Es gibt im Jahr 2026 nicht das eine „beste“ Open-Source-Modell. Die richtige Wahl hängt von Ihren spezifischen Anforderungen ab:
- Beste Gesamteffizienz: Gemma 4 26B MoE — 3.8B active parameters, Arena AI Rang 6., Apache 2.0
- Beste rohe Qualität (Open-Source): Gemma 4 31B Dense — 85.2% MMLU Pro, Arena AI Rang 3.
- Bestes für lange Dokumente: Llama 4 Scout — 10M token Kontext-Fenster
- Bestes für asiatische Sprachen: Qwen 3.5 — überlegene CJK-Leistung
- Bestes für Consumer-Hardware: Gemma 4 E2B — 5GB RAM, läuft auf Handys
- Freizügigste Lizenz: Gemma 4 und Qwen 3.5 (Apache 2.0)
- Die meisten Modellgrößen: Qwen 3.5 — 8 Größen von 0.6B bis 397B
Wenn Sie sich für nur eine Familie entscheiden müssten und Effizienz, Lizenzierung sowie multimodale Fähigkeiten priorisieren, ist Gemma 4 im April 2026 die stärkste Allround-Wahl.
Quellen
- Introducing Gemma 4 - Google Blog
- Gemma 4 Technical Report - Google DeepMind
- Llama 4 Announcement - Meta AI
- Llama 4 License
- Qwen 3.5 - Alibaba Cloud / Qwen Team
- Qwen 3.5 Technical Report
- Arena AI Open Model Rankings
- Gemma 4 on Ollama
- Open Source LLM Comparison 2026 - Artificial Analysis
- Gemma 4 vs Llama 4 Analysis - The Decoder
- Open Model Benchmark Aggregator - Hugging Face