Wichtigste Erkenntnis
Google Gemma 4 ist die leistungsfähigste Open-Weight-Modellfamilie, die jemals unter einer wirklich permissiven Lizenz veröffentlicht wurde. Das 31B Dense Modell erzielt 85.2% bei MMLU Pro und belegt Platz 3 unter allen offenen Modellen auf Arena AI — während das 26B MoE eine nahezu identische Qualität mit nur 3.8B aktiven Parametern erreicht. Zum ersten Mal wird Gemma unter Apache 2.0 bereitgestellt, wodurch alle Lizenzierungshürden beseitigt werden, die die kommerzielle Nutzung früherer Generationen gebremst haben.
Google Gemma 4: Alles, was Sie wissen müssen
Überblick über die Veröffentlichung
Google DeepMind hat Gemma 4 am April 2, 2026 veröffentlicht und damit vier Modellgrößen eingeführt, die auf derselben Technologiegrundlage wie Gemini 3 basieren. Diese Generation stellt den größten Sprung in der Gemma Familie in jeder Dimension dar: Modellqualität, multimodale Fähigkeiten, Kontextlänge und Lizenzbedingungen.
Die wichtigsten Änderungen gegenüber Gemma 3:
- Apache 2.0 Lizenzierung — keine Nutzungsbeschränkungen, keine benutzerdefinierte Lizenz, volle kommerzielle Freiheit
- Vier Modellgrößen statt drei, einschließlich einer neuen MoE Architektur
- Native multimodale Unterstützung über alle Größen hinweg (Text, Bilder, Video, Audio)
- Konfigurierbarer Thinking-Modus mit über 4,000+ Token Reasoning-Ketten
- 256K Kontextfenster bei größeren Modellen (statt der Limits von Gemma 3)
- 35+ unterstützte Sprachen, vortrainiert auf 140+ Sprachen
- Strukturierte Tool-Nutzung für agentische Workflows
Die vier Modellgrößen
Gemma 4 wird in vier verschiedenen Größen ausgeliefert, die jeweils auf unterschiedliche Einsatzszenarien abzielen:
| Modell | Parameter | Aktive Parameter | Architektur | Kontext | Modalitäten |
|---|---|---|---|---|---|
| E2B | 2.3B effektiv | 2.3B | Dense | 128K | Text, Bild, Video, Audio |
| E4B | 4.5B effektiv | 4.5B | Dense | 128K | Text, Bild, Video, Audio |
| 26B MoE | 26B gesamt | 3.8B | Mixture of Experts | 256K | Text, Bild |
| 31B Dense | 31B | 31B | Dense | 256K | Text, Bild |
E2B und E4B: Die Edge-Modelle
Die kleinsten Gemma 4 Modelle sind für den On-Device-Einsatz konzipiert. Mit 2.3B bzw. 4.5B effektiven Parametern laufen sie auf Smartphones, Tablets und Laptops mit nur 5GB RAM unter Verwendung von 4-bit Quantisierung.
Was diese Modelle bemerkenswert macht, ist ihre modale Breite. Obwohl sie die kleinsten in der Familie sind, sind E2B und E4B die einzigen Gemma 4 Modelle, die alle vier Eingangsmodalitäten unterstützen: Text, Bilder, Video und Audio. Dies ist eine bewusste Designentscheidung — Edge-Geräte mit Kameras und Mikrofonen profitieren am meisten von multimodalen Fähigkeiten.
Beide Modelle unterstützen 128K Token Kontextfenster, was für ihre Parameteranzahl großzügig ist und für die meisten On-Device-Anwendungsfälle ausreicht.
26B MoE: Maximale Effizienz
Das 26B Mixture of Experts Modell ist wohl das interessanteste Modell im Gemma 4 Line-up. Es enthält insgesamt 26B Parameter, aktiviert aber für jede gegebene Eingabe nur 3.8B Parameter — was in etwa die gleichen Rechenkosten wie beim E4B Modell verursacht, jedoch Zugriff auf drastisch mehr Wissen und Fähigkeiten bietet.
Auf Arena AI belegt das 26B MoE mit einem Score von 1441 den 6. Platz unter allen offenen Modellen, obwohl es nur 3.8B aktive Parameter nutzt. Dieses Effizienzverhältnis ist beispiellos — kein anderes Modell erreicht eine vergleichbare Qualität bei diesen Rechenkosten.
Die MoE Architektur leitet jeden Token durch spezialisierte Experten-Subnetzwerke, was es dem Modell ermöglicht, eine große Wissenskapazität aufrechtzuerhalten, während die Inferenzkosten niedrig bleiben. Für Einsatzszenarien, in denen starkes logisches Denken erforderlich ist, aber nur begrenzt GPU-Speicher zur Verfügung steht, ist das 26B MoE die optimale Wahl.
31B Dense: Maximale Qualität
Das 31B Dense Modell ist das Flaggschiff von Gemma 4. Jeder Parameter ist für jeden Token aktiv, was zu den konsistentesten und qualitativ hochwertigsten Ergebnissen über alle Aufgabentypen hinweg führt.
Auf Arena AI belegt das 31B Dense den 3. Platz unter allen offenen Modellen mit einem Score von 1452. Bei MMLU Pro erreicht es 85.2% — was mit Modellen konkurriert, die um ein Vielfaches größer sind. Der Score von 89.2% bei AIME 2026 beweist ein starkes mathematisches Reasoning, während 74% bei BigBench Extra Hard (gegenüber 19% in früheren Generationen) eine massive Verbesserung bei komplexen Reasoning-Aufgaben zeigen.
Benchmarks: Die vollständigen Daten
Logisches Denken und Wissen
| Benchmark | 31B Dense | 26B MoE | Notizen |
|---|---|---|---|
| MMLU Pro | 85.2% | — | Wissen auf Graduiertenniveau |
| AIME 2026 | 89.2% | — | Wettbewerbsmathematik |
| BigBench Extra Hard | 74% | — | Vorher 19% in der letzten Gen |
| Arena AI Score | 1452 (3.) | 1441 (6.) | Rankings offener Modelle |
Quelle: Google DeepMind technischer Bericht
BigBench Extra Hard: Das herausragende Ergebnis
Der Sprung von 19% auf 74% bei BigBench Extra Hard verdient besondere Aufmerksamkeit. Dieser Benchmark testet komplexes, mehrstufiges Reasoning, logische Deduktion und Aufgaben, die echtes Verständnis anstelle von Mustererkennung erfordern. Eine Verbesserung um 55 Prozentpunkte in einer einzigen Generation deutet auf fundamentale Fortschritte in der Reasoning-Architektur von Gemma 4 hin, nicht nur auf Skalierung.
Diese Verbesserung steht wahrscheinlich im Zusammenhang mit dem konfigurierbaren Thinking-Modus und der zugrunde liegenden Gemini 3 Technologie, auf der Gemma 4 aufbaut. Der Thinking-Modus erzeugt erweiterte Reasoning-Ketten, die dem Modell helfen, komplexe Probleme Schritt für Schritt zu lösen.
Kontext der Arena AI Rankings
Arena AI bewertet Modelle basierend auf direkten Vergleichen der menschlichen Präferenz. Dass das 31B Dense Modell 1452 erzielt und den 3. Platz unter den offenen Modellen belegt, platziert es über vielen Modellen mit deutlich mehr Parametern. Zum Kontext:
- Modelle, die darüber gerankt sind, sind in der Regel 70B+ Parametermodelle
- Dass das 26B MoE 1441 mit nur 3.8B aktiven Parametern erreicht, ist ein Effizienzdurchbruch
- Beide Modelle übertreffen das vorherige Gemma 3 27B um einen signifikanten Vorsprung
Multimodale Fähigkeiten
Bildverständnis
Alle vier Gemma 4 Modelle verarbeiten Bilder nativ. Zu den Fähigkeiten gehören:
- Bildbeschreibung und -analyse — detailliertes Verständnis visueller Inhalte
- OCR und Dokumenten-Parsing — Extrahieren von Text aus Bildern, Quittungen, Screenshots
- Interpretation von Diagrammen und Schemata — Verständnis von Datenvisualisierungen
- Visuelles Reasoning — Beantwortung von Fragen, die das Verständnis räumlicher Beziehungen erfordern
Video und Audio (nur E2B/E4B)
Die kleineren Modelle E2B und E4B bieten zusätzlich native Video- und Audioverarbeitung:
- Videoverständnis — Analyse von Videoinhalten ohne Frame-für-Frame Extraktion
- Audio-Transkription und -Verständnis — Verarbeitung von Sprache und Umgebungsgeräuschen
- Cross-modales Reasoning — Beantwortung von Fragen, die Text-, Bild-, Video- und Audio-Inputs umspannen
Diese Designentscheidung spiegelt den Fokus von Google auf Edge-Einsätze wider. Mobile Geräte erfassen Video und Audio nativ, daher unterstützen die für diese Geräte entwickelten Modelle diese Modalitäten.
Konfigurierbarer Thinking-Modus
Gemma 4 führt einen konfigurierbaren Thinking-Modus ein, der über 4,000+ Token internes Reasoning generiert, bevor eine Antwort erstellt wird. Dies ähnelt den erweiterten Thinking-Fähigkeiten, die man von Claude-Modellen und der o-Serie von OpenAI kennt, ist jedoch in einem Open-Weight-Modell implementiert.
Wie es funktioniert
Wenn der Thinking-Modus aktiviert ist, geht das Modell wie folgt vor:
- Empfängt den Input-Prompt
- Generiert eine interne Reasoning-Kette (je nach Konfiguration sichtbar oder verborgen)
- Nutzt die Reasoning-Kette, um eine qualitativ hochwertigere finale Antwort zu erstellen
Der Thinking-Modus kann pro Anfrage umgeschaltet werden, was Entwicklern folgendes ermöglicht:
- Thinking aktivieren für komplexe Mathematik, Logik, Coding und Analyseaufgaben
- Thinking deaktivieren für einfache Abfragen, Chat und latenzkritische Anwendungen
- Thinking-Tiefe anpassen basierend auf der erwarteten Komplexität der Aufgabe
Auswirkungen auf die Qualität
Der Thinking-Modus ist ein Haupttreiber für die starken Benchmark-Ergebnisse von Gemma 4. Der AIME 2026 Score von 89.2% und der BigBench Extra Hard Score von 74% werden beide mit aktiviertem Thinking-Modus erreicht. Ohne Thinking-Modus wären diese Werte deutlich niedriger — ähnlich dem Muster, das bei anderen Modellen mit erweiterten Reasoning-Fähigkeiten beobachtet wird.
Apache 2.0: Warum der Lizenzwechsel wichtig ist
Frühere Gemma Generationen wurden unter der benutzerdefinierten Gemma Lizenz von Google veröffentlicht, die Einschränkungen enthielt für:
- Die Nutzung in bestimmten Anwendungen
- Weitergabebedingungen
- Beschränkungen beim kommerziellen Einsatz für großflächige Nutzung
Gemma 4 wechselt zu Apache 2.0, derselben Lizenz, die auch von Projekten wie Kubernetes, TensorFlow und Apache HTTP Server verwendet wird. Das bedeutet:
- Keine Nutzungsbeschränkungen — Nutzung für alles, einschließlich kommerzieller Produkte
- Keine Einschränkungen bei der Weitergabe — modifizierte Gewichte frei teilen
- Keine Attributierungsanforderungen über die Lizenz hinaus — Standard Apache 2.0 Hinweis
- Keine Genehmigung von Google erforderlich — Einsatz in beliebigem Umfang ohne Erlaubnis
- Kompatibel mit anderen Open-Source-Lizenzen — einfache Integration in bestehende Projekte
Für Unternehmen und Startups, die Produkte auf Basis offener Modelle entwickeln, entfällt damit der rechtliche Prüfungsaufwand, den die benutzerdefinierte Lizenz von Gemma erforderte. Zudem macht es Gemma 4 direkt vergleichbar mit den Llama Modellen von Meta (die ihre eigene benutzerdefinierte Lizenz mit einigen Einschränkungen nutzen) und positioniert es als die am permissivsten lizenzierte, hochwertige Open-Modellfamilie auf dem Markt.
Sprachunterstützung
Gemma 4 unterstützt 35+ Sprachen für die Inferenz und wurde auf 140+ Sprachen vortrainiert. Dies macht es zu einem der am stärksten multilingualen offenen Modelle, neben den Qwen Modellen, die ebenfalls eine breite Sprachabdeckung betonen.
Zu den unterstützten Sprachen gehören die wichtigsten Weltsprachen (Englisch, Chinesisch, Spanisch, Französisch, Deutsch, Japanisch, Koreanisch, Arabisch, Hindi, Portugiesisch, Russisch) sowie viele Sprachen mit kleinerem digitalen Fußabdruck. Das Vortraining auf 140+ Sprachen bedeutet, dass das Modell über gewisse Fähigkeiten in Sprachen verfügt, die über die offiziell unterstützten 35 hinausgehen, wobei die Qualität variieren kann.
Für Anwendungen, die auf ein globales Publikum oder nicht-englische Märkte abzielen, reduziert diese breite Sprachunterstützung die Notwendigkeit für spezialisiertes Fine-Tuning oder separate Modelle pro Sprache.
Strukturierte Tool-Nutzung und agentische Workflows
Gemma 4 enthält native Unterstützung für die strukturierte Tool-Nutzung, was agentische Workflows ermöglicht, bei denen das Modell:
- Externe APIs aufrufen kann mit korrekt formatierten Anfragen
- Strukturierte Antworten von Tools und Services parsen kann
- Mehrere Tool-Aufrufe verketten kann, um komplexe Aufgaben zu lösen
- Fehler und Retries bei der Tool-Ausführung handhaben kann
Diese Fähigkeit ist besonders relevant für die Android Studio Integration, wo Gemma 4 lokale agentische Coding-Workflows antreibt. Das Modell kann Code-Kontexte verstehen, Änderungen vorschlagen, Tools ausführen und iterieren — alles lokal auf dem Rechner des Entwicklers, ohne Code an externe Server zu senden.
Für Entwickler, die KI-Agenten bauen, bietet die strukturierte Tool-Nutzung von Gemma 4 ein vollständig lokales, privates Fundament. In Kombination mit der Apache 2.0 Lizenz ermöglicht dies den Aufbau und Einsatz agentischer Anwendungen ohne Abhängigkeit von externen Modellanbietern.
Hardware-Anforderungen
Lokaler Einsatz via Ollama
| Modell | Benötigter RAM (4-bit) | Benötigter RAM (FP16) | GPU-Empfehlung |
|---|---|---|---|
| E2B | ~5 GB | ~5 GB | Jede moderne GPU / nur CPU |
| E4B | ~5 GB | ~9 GB | Jede moderne GPU / nur CPU |
| 26B MoE | ~18 GB | ~52 GB | RTX 4090 / RTX 5090 |
| 31B Dense | ~20 GB | ~62 GB | RTX 4090 / RTX 5090 |
Quelle: Ollama Modell-Bibliothek
Die E2B und E4B Modelle sind speziell für den Edge-Einsatz konzipiert. Sie laufen problemlos auf Laptops, Desktop-CPUs und sogar auf einigen Smartphones. Die 26B MoE und 31B Dense Modelle erfordern dedizierte GPU-Hardware, bleiben aber für einzelne Entwickler mit Consumer-GPUs zugänglich.
NVIDIA Optimierung
NVIDIA hat optimierte Versionen von Gemma 4 für RTX GPUs veröffentlicht, die Folgendes bieten:
- Schnellere Inferenz durch GPU-spezifische Kernel-Optimierungen
- Bessere Speicherauslastung auf Karten der RTX 4000 und 5000 Serie
- TensorRT Integration für den Produktionseinsatz
- CUDA Graph Support für reduzierten Overhead bei wiederholter Inferenz
Was sich gegenüber Gemma 3 geändert hat
| Feature | Gemma 3 | Gemma 4 |
|---|---|---|
| Lizenz | Gemma Lizenz (eingeschränkt) | Apache 2.0 (uneingeschränkt) |
| Modellgrößen | 3 Größen | 4 Größen (MoE hinzugefügt) |
| Kontextfenster | Bis zu 128K | Bis zu 256K |
| Modalitäten | Text, Bild | Text, Bild, Video, Audio |
| Thinking-Modus | Nein | Ja (konfigurierbar) |
| Tool-Nutzung | Begrenzt | Strukturierte Tool-Nutzung |
| Sprachen | 30+ | 35+ (vortrainiert auf 140+) |
| BigBench Extra Hard | 19% | 74% |
Jede Dimension wurde verbessert. Die einflussreichsten Änderungen für Entwickler sind die Apache 2.0 Lizenz (beseitigt rechtliche Hürden), der Thinking-Modus (verbessert die Qualität bei schwierigen Aufgaben) und die MoE Architektur (bietet Flaggschiff-Qualität bei einem Bruchteil der Rechenkosten).
Praktische Anwendungsfälle
Programmierung und Entwicklung
Die strukturierte Tool-Nutzung und der Thinking-Modus von Gemma 4 machen es effektiv für:
- Lokale Code-Vervollständigung und -Generierung
- Code-Review und Fehlererkennung
- Automatisierte Testgenerierung
- Schreiben von Dokumentationen
- Agentische Coding-Workflows in Android Studio
Dokumentenverarbeitung
Mit 256K Kontextfenstern und multimodaler Unterstützung:
- Ganze Codebasen oder lange Dokumente in einem einzigen Prompt verarbeiten
- Informationen aus Bildern von Dokumenten, Quittungen und Formularen extrahieren
- Diagramme und Datenvisualisierungen analysieren
- Umfangreiche Forschungspapiere oder juristische Dokumente zusammenfassen
Entwicklung von KI-gestützten Anwendungen
Für Entwickler, die Produkte mit KI-Fähigkeiten bauen, bietet Gemma 4 eine starke On-Device- oder selbstgehostete Inferenzschicht. Das Modell übernimmt die Intelligenz — Verständnis von Abfragen, Generierung von Antworten, Verarbeitung von Bildern — während Ihr App-Framework den Rest erledigt. Tools wie ZBuild können den Aufbau des App-Gerüsts (Frontend, Backend, Datenbank, Deployment) beschleunigen, sodass Sie sich auf die KI-Integrationsschicht konzentrieren können, in der die Fähigkeiten von Gemma 4 am wichtigsten sind.
Edge- und Mobile-Einsatz
Die E2B und E4B Modelle eröffnen Anwendungsfälle, die zuvor mit offenen Modellen unmöglich waren:
- On-Device-Assistenten, die offline funktionieren
- Datenschutzfreundliche KI-Funktionen, die niemals Daten an externe Server senden
- Echtzeit-Video- und Audioverarbeitung auf mobilen Geräten
- Eingebettete KI in IoT- und Robotik-Anwendungen
Erste Schritte
Ollama (Schnellster Weg)
# Ollama installieren
curl -fsSL https://ollama.com/install.sh | sh
# Gemma 4 laden und ausführen
ollama run gemma4:e2b # Kleinste Version, läuft überall
ollama run gemma4:e4b # Klein, breitere Fähigkeiten
ollama run gemma4:26b-moe # MoE, beste Effizienz
ollama run gemma4:31b # Dense, höchste Qualität
Hugging Face
Alle Gemma 4 Modelle sind auf Hugging Face mit vollständiger Transformers-Integration verfügbar:
from transformers import AutoModelForCausalLM, AutoTokenizer
model = AutoModelForCausalLM.from_pretrained("google/gemma-4-31b")
tokenizer = AutoTokenizer.from_pretrained("google/gemma-4-31b")
Google AI Studio
Google bietet kostenlosen API-Zugriff auf Gemma 4 über AI Studio für Experimente und Prototyping an, wobei Vertex AI für den Produktionseinsatz zur Verfügung steht.
Gemma 4 im Wettbewerbsumfeld
Um zu verstehen, wo Gemma 4 im breiteren Ökosystem steht:
| Modell | Parameter | Lizenz | MMLU Pro | Arena AI | Kontext |
|---|---|---|---|---|---|
| Gemma 4 31B | 31B | Apache 2.0 | 85.2% | 1452 | 256K |
| Gemma 4 26B MoE | 26B (3.8B aktiv) | Apache 2.0 | — | 1441 | 256K |
| Llama 4 Maverick | 400B (~17B aktiv) | Meta Lizenz | 79.6% | 1417 | 1M |
| Llama 4 Scout | 109B (~17B aktiv) | Meta Lizenz | — | ~1400 | 10M |
| Qwen 3.5 72B | 72B | Apache 2.0 | 81.4% | 1438 | 128K |
| Qwen 3.5 MoE | 397B (~22B aktiv) | Apache 2.0 | 83.1% | 1449 | 128K |
Gemma 4 31B erreicht den höchsten MMLU Pro Score und das beste Arena AI Ranking unter den offenen Modellen — mit den wenigsten Gesamtparametern. Diese Parameter-Effizienz ist ein direktes Ergebnis der Gemini 3 Technologiegrundlage und des konfigurierbaren Thinking-Modus.
Die Effizienz-Story des 26B MoE Modells ist noch beeindruckender. Es belegt den 6. Platz auf Arena AI, während es nur 3.8B Parameter pro Token aktiviert. Kein anderes Modell erreicht ein vergleichbares Verhältnis von Qualität zu Rechenaufwand. Für Produktionseinsätze, bei denen die Inferenzkosten mit der Nutzung skalieren, übersetzt sich diese Effizienz direkt in Kosteneinsparungen.
Im Vergleich zu proprietären Modellen sind die Benchmarks von Gemma 4 31B wettbewerbsfähig mit Mid-Tier-Angeboten von Anthropic und OpenAI. Während die Top-Proprietär-Modelle bei den schwierigsten Aufgaben immer noch führen, hat sich die Lücke dramatisch verringert — und Gemma 4 kommt mit null Kosten pro Token und der vollen Apache 2.0 Freiheit.
Fazit
Gemma 4 setzt im Jahr 2026 einen neuen Standard für Open-Weight-Modelle. Die Kombination aus Apache 2.0 Lizenzierung, vier gut differenzierten Modellgrößen, nativer multimodaler Unterstützung, konfigurierbarem Thinking-Modus und Benchmark-Werten, die mit viel größeren Modellen konkurrieren, macht es zur praktischsten offenen Modellfamilie auf dem Markt.
Das 31B Dense Modell ist die richtige Wahl, wenn maximale Qualität benötigt wird. Das 26B MoE ist die richtige Wahl, wenn starke Qualität bei minimalen Rechenkosten gefragt ist. E2B und E4B sind die richtige Wahl für Edge-Deployment und On-Device-KI. Zum ersten Mal in der Gemma Familie schränkt die Lizenz keinen dieser Anwendungsfälle ein.
Quellen
- Introducing Gemma 4 - Google Blog
- Gemma 4 Technical Report - Google DeepMind
- Gemma 4 on Hugging Face
- Gemma 4 Ollama Models
- NVIDIA Gemma 4 RTX Optimization
- Gemma 4 Arena AI Rankings
- Gemma 4 Android Studio Integration
- Apache 2.0 License
- Gemma 4 Benchmark Analysis - Artificial Analysis
- Gemma 4 Overview - Google AI for Developers