Was ist Google Gemma 4 und wann wurde es veröffentlicht?

Google Gemma 4 ist eine am 2. April 2026 veröffentlichte Open-Weight-Modellfamilie von Google DeepMind. Sie umfasst 4 Größen — E2B (2.3B effektiv), E4B (4.5B effektiv), 26B MoE (3.8B aktiv / 26B gesamt) und 31B Dense. Alle Modelle werden unter Apache 2.0 veröffentlicht, der freizügigsten Lizenz, die jemals für ein Gemma-Release verwendet wurde.

Ist Gemma 4 wirklich Open Source?

Ja. Gemma 4 ist die erste Gemma-Generation, die unter der Apache 2.0-Lizenz veröffentlicht wurde, was eine uneingeschränkte kommerzielle Nutzung, Modifikation und Weiterverteilung ermöglicht, ohne dass eine Erlaubnis von Google erforderlich ist. Frühere Gemma-Modelle verwendeten die benutzerdefinierte Gemma-Lizenz von Google, die Nutzungsbeschränkungen auferlegte.

Welches Kontextfenster unterstützt Gemma 4?

Die kleineren Modelle (E2B und E4B) unterstützen 128K Token Kontextfenster. Die größeren Modelle (26B MoE und 31B Dense) unterstützen 256K Token Kontextfenster. Dies ist eine wesentliche Verbesserung gegenüber den Kontextbeschränkungen von Gemma 3 und ermöglicht die Verarbeitung ganzer Codebasen oder langer Dokumente in einem einzigen Prompt.

Kann Gemma 4 Bilder, Videos und Audio verarbeiten?

Ja. Alle vier Gemma 4-Modelle sind nativ multimodal und unterstützen Text- und Bildeingaben. Die E2B- und E4B-Modelle gehen mit nativen Video- und Audioverarbeitungsfunktionen noch weiter. Dies macht Gemma 4 zur ersten Open-Weight-Modellfamilie, bei der die kleinsten Modelle die breiteste Unterstützung für Modalitäten bieten.

Wie funktioniert der Thinking-Modus von Gemma 4?

Gemma 4 enthält einen konfigurierbaren Thinking-Modus, der mehr als 4.000 Token an internem Reasoning generiert, bevor eine Antwort erstellt wird. Dieses Chain-of-Thought-Reasoning kann pro Anfrage ein- oder ausgeschaltet werden, sodass Entwickler zwischen schnelleren Antworten für einfache Aufgaben und tieferem Reasoning für komplexe Probleme wie Mathematik, Logik und Programmierung wählen können.

Welche Hardware benötige ich, um Gemma 4 lokal auszuführen?

Gemma 4 E2B und E4B laufen auf Geräten mit nur 5GB RAM unter Verwendung von 4-Bit-Quantisierung, einschließlich Smartphones und Laptops. Das 26B MoE-Modell benötigt etwa 18GB RAM und das 31B Dense etwa 20GB RAM. Alle Modelle laufen über Ollama mit verfügbarer NVIDIA RTX GPU-Optimierung.

Wichtigste Erkenntnis

Google Gemma 4 ist die leistungsfähigste Open-Weight-Modellfamilie, die jemals unter einer wirklich permissiven Lizenz veröffentlicht wurde. Das 31B Dense Modell erzielt 85.2% bei MMLU Pro und belegt Platz 3 unter allen offenen Modellen auf Arena AI — während das 26B MoE eine nahezu identische Qualität mit nur 3.8B aktiven Parametern erreicht. Zum ersten Mal wird Gemma unter Apache 2.0 bereitgestellt, wodurch alle Lizenzierungshürden beseitigt werden, die die kommerzielle Nutzung früherer Generationen gebremst haben.

Google Gemma 4: Alles, was Sie wissen müssen

Überblick über die Veröffentlichung

Google DeepMind hat Gemma 4 am April 2, 2026 veröffentlicht und damit vier Modellgrößen eingeführt, die auf derselben Technologiegrundlage wie Gemini 3 basieren. Diese Generation stellt den größten Sprung in der Gemma Familie in jeder Dimension dar: Modellqualität, multimodale Fähigkeiten, Kontextlänge und Lizenzbedingungen.

Die wichtigsten Änderungen gegenüber Gemma 3:

Apache 2.0 Lizenzierung — keine Nutzungsbeschränkungen, keine benutzerdefinierte Lizenz, volle kommerzielle Freiheit
Vier Modellgrößen statt drei, einschließlich einer neuen MoE Architektur
Native multimodale Unterstützung über alle Größen hinweg (Text, Bilder, Video, Audio)
Konfigurierbarer Thinking-Modus mit über 4,000+ Token Reasoning-Ketten
256K Kontextfenster bei größeren Modellen (statt der Limits von Gemma 3)
35+ unterstützte Sprachen, vortrainiert auf 140+ Sprachen
Strukturierte Tool-Nutzung für agentische Workflows

Die vier Modellgrößen

Gemma 4 wird in vier verschiedenen Größen ausgeliefert, die jeweils auf unterschiedliche Einsatzszenarien abzielen:

Modell	Parameter	Aktive Parameter	Architektur	Kontext	Modalitäten
E2B	2.3B effektiv	2.3B	Dense	128K	Text, Bild, Video, Audio
E4B	4.5B effektiv	4.5B	Dense	128K	Text, Bild, Video, Audio
26B MoE	26B gesamt	3.8B	Mixture of Experts	256K	Text, Bild
31B Dense	31B	31B	Dense	256K	Text, Bild

Quelle: Google AI Blog

E2B und E4B: Die Edge-Modelle

Die kleinsten Gemma 4 Modelle sind für den On-Device-Einsatz konzipiert. Mit 2.3B bzw. 4.5B effektiven Parametern laufen sie auf Smartphones, Tablets und Laptops mit nur 5GB RAM unter Verwendung von 4-bit Quantisierung.

Was diese Modelle bemerkenswert macht, ist ihre modale Breite. Obwohl sie die kleinsten in der Familie sind, sind E2B und E4B die einzigen Gemma 4 Modelle, die alle vier Eingangsmodalitäten unterstützen: Text, Bilder, Video und Audio. Dies ist eine bewusste Designentscheidung — Edge-Geräte mit Kameras und Mikrofonen profitieren am meisten von multimodalen Fähigkeiten.

Beide Modelle unterstützen 128K Token Kontextfenster, was für ihre Parameteranzahl großzügig ist und für die meisten On-Device-Anwendungsfälle ausreicht.

26B MoE: Maximale Effizienz

Das 26B Mixture of Experts Modell ist wohl das interessanteste Modell im Gemma 4 Line-up. Es enthält insgesamt 26B Parameter, aktiviert aber für jede gegebene Eingabe nur 3.8B Parameter — was in etwa die gleichen Rechenkosten wie beim E4B Modell verursacht, jedoch Zugriff auf drastisch mehr Wissen und Fähigkeiten bietet.

Auf Arena AI belegt das 26B MoE mit einem Score von 1441 den 6. Platz unter allen offenen Modellen, obwohl es nur 3.8B aktive Parameter nutzt. Dieses Effizienzverhältnis ist beispiellos — kein anderes Modell erreicht eine vergleichbare Qualität bei diesen Rechenkosten.

Die MoE Architektur leitet jeden Token durch spezialisierte Experten-Subnetzwerke, was es dem Modell ermöglicht, eine große Wissenskapazität aufrechtzuerhalten, während die Inferenzkosten niedrig bleiben. Für Einsatzszenarien, in denen starkes logisches Denken erforderlich ist, aber nur begrenzt GPU-Speicher zur Verfügung steht, ist das 26B MoE die optimale Wahl.

31B Dense: Maximale Qualität

Das 31B Dense Modell ist das Flaggschiff von Gemma 4. Jeder Parameter ist für jeden Token aktiv, was zu den konsistentesten und qualitativ hochwertigsten Ergebnissen über alle Aufgabentypen hinweg führt.

Auf Arena AI belegt das 31B Dense den 3. Platz unter allen offenen Modellen mit einem Score von 1452. Bei MMLU Pro erreicht es 85.2% — was mit Modellen konkurriert, die um ein Vielfaches größer sind. Der Score von 89.2% bei AIME 2026 beweist ein starkes mathematisches Reasoning, während 74% bei BigBench Extra Hard (gegenüber 19% in früheren Generationen) eine massive Verbesserung bei komplexen Reasoning-Aufgaben zeigen.

Benchmarks: Die vollständigen Daten

Logisches Denken und Wissen

Benchmark	31B Dense	26B MoE	Notizen
MMLU Pro	85.2%	—	Wissen auf Graduiertenniveau
AIME 2026	89.2%	—	Wettbewerbsmathematik
BigBench Extra Hard	74%	—	Vorher 19% in der letzten Gen
Arena AI Score	1452 (3.)	1441 (6.)	Rankings offener Modelle

Quelle: Google DeepMind technischer Bericht

BigBench Extra Hard: Das herausragende Ergebnis

Der Sprung von 19% auf 74% bei BigBench Extra Hard verdient besondere Aufmerksamkeit. Dieser Benchmark testet komplexes, mehrstufiges Reasoning, logische Deduktion und Aufgaben, die echtes Verständnis anstelle von Mustererkennung erfordern. Eine Verbesserung um 55 Prozentpunkte in einer einzigen Generation deutet auf fundamentale Fortschritte in der Reasoning-Architektur von Gemma 4 hin, nicht nur auf Skalierung.

Diese Verbesserung steht wahrscheinlich im Zusammenhang mit dem konfigurierbaren Thinking-Modus und der zugrunde liegenden Gemini 3 Technologie, auf der Gemma 4 aufbaut. Der Thinking-Modus erzeugt erweiterte Reasoning-Ketten, die dem Modell helfen, komplexe Probleme Schritt für Schritt zu lösen.

Kontext der Arena AI Rankings

Arena AI bewertet Modelle basierend auf direkten Vergleichen der menschlichen Präferenz. Dass das 31B Dense Modell 1452 erzielt und den 3. Platz unter den offenen Modellen belegt, platziert es über vielen Modellen mit deutlich mehr Parametern. Zum Kontext:

Modelle, die darüber gerankt sind, sind in der Regel 70B+ Parametermodelle
Dass das 26B MoE 1441 mit nur 3.8B aktiven Parametern erreicht, ist ein Effizienzdurchbruch
Beide Modelle übertreffen das vorherige Gemma 3 27B um einen signifikanten Vorsprung

Multimodale Fähigkeiten

Bildverständnis

Alle vier Gemma 4 Modelle verarbeiten Bilder nativ. Zu den Fähigkeiten gehören:

Bildbeschreibung und -analyse — detailliertes Verständnis visueller Inhalte
OCR und Dokumenten-Parsing — Extrahieren von Text aus Bildern, Quittungen, Screenshots
Interpretation von Diagrammen und Schemata — Verständnis von Datenvisualisierungen
Visuelles Reasoning — Beantwortung von Fragen, die das Verständnis räumlicher Beziehungen erfordern

Video und Audio (nur E2B/E4B)

Die kleineren Modelle E2B und E4B bieten zusätzlich native Video- und Audioverarbeitung:

Videoverständnis — Analyse von Videoinhalten ohne Frame-für-Frame Extraktion
Audio-Transkription und -Verständnis — Verarbeitung von Sprache und Umgebungsgeräuschen
Cross-modales Reasoning — Beantwortung von Fragen, die Text-, Bild-, Video- und Audio-Inputs umspannen

Diese Designentscheidung spiegelt den Fokus von Google auf Edge-Einsätze wider. Mobile Geräte erfassen Video und Audio nativ, daher unterstützen die für diese Geräte entwickelten Modelle diese Modalitäten.

Konfigurierbarer Thinking-Modus

Gemma 4 führt einen konfigurierbaren Thinking-Modus ein, der über 4,000+ Token internes Reasoning generiert, bevor eine Antwort erstellt wird. Dies ähnelt den erweiterten Thinking-Fähigkeiten, die man von Claude-Modellen und der o-Serie von OpenAI kennt, ist jedoch in einem Open-Weight-Modell implementiert.

Wie es funktioniert

Wenn der Thinking-Modus aktiviert ist, geht das Modell wie folgt vor:

Empfängt den Input-Prompt
Generiert eine interne Reasoning-Kette (je nach Konfiguration sichtbar oder verborgen)
Nutzt die Reasoning-Kette, um eine qualitativ hochwertigere finale Antwort zu erstellen

Der Thinking-Modus kann pro Anfrage umgeschaltet werden, was Entwicklern folgendes ermöglicht:

Thinking aktivieren für komplexe Mathematik, Logik, Coding und Analyseaufgaben
Thinking deaktivieren für einfache Abfragen, Chat und latenzkritische Anwendungen
Thinking-Tiefe anpassen basierend auf der erwarteten Komplexität der Aufgabe

Auswirkungen auf die Qualität

Der Thinking-Modus ist ein Haupttreiber für die starken Benchmark-Ergebnisse von Gemma 4. Der AIME 2026 Score von 89.2% und der BigBench Extra Hard Score von 74% werden beide mit aktiviertem Thinking-Modus erreicht. Ohne Thinking-Modus wären diese Werte deutlich niedriger — ähnlich dem Muster, das bei anderen Modellen mit erweiterten Reasoning-Fähigkeiten beobachtet wird.

Apache 2.0: Warum der Lizenzwechsel wichtig ist

Frühere Gemma Generationen wurden unter der benutzerdefinierten Gemma Lizenz von Google veröffentlicht, die Einschränkungen enthielt für:

Die Nutzung in bestimmten Anwendungen
Weitergabebedingungen
Beschränkungen beim kommerziellen Einsatz für großflächige Nutzung

Gemma 4 wechselt zu Apache 2.0, derselben Lizenz, die auch von Projekten wie Kubernetes, TensorFlow und Apache HTTP Server verwendet wird. Das bedeutet:

Keine Nutzungsbeschränkungen — Nutzung für alles, einschließlich kommerzieller Produkte
Keine Einschränkungen bei der Weitergabe — modifizierte Gewichte frei teilen
Keine Attributierungsanforderungen über die Lizenz hinaus — Standard Apache 2.0 Hinweis
Keine Genehmigung von Google erforderlich — Einsatz in beliebigem Umfang ohne Erlaubnis
Kompatibel mit anderen Open-Source-Lizenzen — einfache Integration in bestehende Projekte

Für Unternehmen und Startups, die Produkte auf Basis offener Modelle entwickeln, entfällt damit der rechtliche Prüfungsaufwand, den die benutzerdefinierte Lizenz von Gemma erforderte. Zudem macht es Gemma 4 direkt vergleichbar mit den Llama Modellen von Meta (die ihre eigene benutzerdefinierte Lizenz mit einigen Einschränkungen nutzen) und positioniert es als die am permissivsten lizenzierte, hochwertige Open-Modellfamilie auf dem Markt.

Sprachunterstützung

Gemma 4 unterstützt 35+ Sprachen für die Inferenz und wurde auf 140+ Sprachen vortrainiert. Dies macht es zu einem der am stärksten multilingualen offenen Modelle, neben den Qwen Modellen, die ebenfalls eine breite Sprachabdeckung betonen.

Zu den unterstützten Sprachen gehören die wichtigsten Weltsprachen (Englisch, Chinesisch, Spanisch, Französisch, Deutsch, Japanisch, Koreanisch, Arabisch, Hindi, Portugiesisch, Russisch) sowie viele Sprachen mit kleinerem digitalen Fußabdruck. Das Vortraining auf 140+ Sprachen bedeutet, dass das Modell über gewisse Fähigkeiten in Sprachen verfügt, die über die offiziell unterstützten 35 hinausgehen, wobei die Qualität variieren kann.

Für Anwendungen, die auf ein globales Publikum oder nicht-englische Märkte abzielen, reduziert diese breite Sprachunterstützung die Notwendigkeit für spezialisiertes Fine-Tuning oder separate Modelle pro Sprache.

Strukturierte Tool-Nutzung und agentische Workflows

Gemma 4 enthält native Unterstützung für die strukturierte Tool-Nutzung, was agentische Workflows ermöglicht, bei denen das Modell:

Externe APIs aufrufen kann mit korrekt formatierten Anfragen
Strukturierte Antworten von Tools und Services parsen kann
Mehrere Tool-Aufrufe verketten kann, um komplexe Aufgaben zu lösen
Fehler und Retries bei der Tool-Ausführung handhaben kann

Diese Fähigkeit ist besonders relevant für die Android Studio Integration, wo Gemma 4 lokale agentische Coding-Workflows antreibt. Das Modell kann Code-Kontexte verstehen, Änderungen vorschlagen, Tools ausführen und iterieren — alles lokal auf dem Rechner des Entwicklers, ohne Code an externe Server zu senden.

Für Entwickler, die KI-Agenten bauen, bietet die strukturierte Tool-Nutzung von Gemma 4 ein vollständig lokales, privates Fundament. In Kombination mit der Apache 2.0 Lizenz ermöglicht dies den Aufbau und Einsatz agentischer Anwendungen ohne Abhängigkeit von externen Modellanbietern.

Hardware-Anforderungen

Lokaler Einsatz via Ollama

Modell	Benötigter RAM (4-bit)	Benötigter RAM (FP16)	GPU-Empfehlung
E2B	~5 GB	~5 GB	Jede moderne GPU / nur CPU
E4B	~5 GB	~9 GB	Jede moderne GPU / nur CPU
26B MoE	~18 GB	~52 GB	RTX 4090 / RTX 5090
31B Dense	~20 GB	~62 GB	RTX 4090 / RTX 5090

Quelle: Ollama Modell-Bibliothek

Die E2B und E4B Modelle sind speziell für den Edge-Einsatz konzipiert. Sie laufen problemlos auf Laptops, Desktop-CPUs und sogar auf einigen Smartphones. Die 26B MoE und 31B Dense Modelle erfordern dedizierte GPU-Hardware, bleiben aber für einzelne Entwickler mit Consumer-GPUs zugänglich.

NVIDIA Optimierung

NVIDIA hat optimierte Versionen von Gemma 4 für RTX GPUs veröffentlicht, die Folgendes bieten:

Schnellere Inferenz durch GPU-spezifische Kernel-Optimierungen
Bessere Speicherauslastung auf Karten der RTX 4000 und 5000 Serie
TensorRT Integration für den Produktionseinsatz
CUDA Graph Support für reduzierten Overhead bei wiederholter Inferenz

Quelle: NVIDIA AI Blog

Was sich gegenüber Gemma 3 geändert hat

Feature	Gemma 3	Gemma 4
Lizenz	Gemma Lizenz (eingeschränkt)	Apache 2.0 (uneingeschränkt)
Modellgrößen	3 Größen	4 Größen (MoE hinzugefügt)
Kontextfenster	Bis zu 128K	Bis zu 256K
Modalitäten	Text, Bild	Text, Bild, Video, Audio
Thinking-Modus	Nein	Ja (konfigurierbar)
Tool-Nutzung	Begrenzt	Strukturierte Tool-Nutzung
Sprachen	30+	35+ (vortrainiert auf 140+)
BigBench Extra Hard	19%	74%

Jede Dimension wurde verbessert. Die einflussreichsten Änderungen für Entwickler sind die Apache 2.0 Lizenz (beseitigt rechtliche Hürden), der Thinking-Modus (verbessert die Qualität bei schwierigen Aufgaben) und die MoE Architektur (bietet Flaggschiff-Qualität bei einem Bruchteil der Rechenkosten).

Praktische Anwendungsfälle

Programmierung und Entwicklung

Die strukturierte Tool-Nutzung und der Thinking-Modus von Gemma 4 machen es effektiv für:

Lokale Code-Vervollständigung und -Generierung
Code-Review und Fehlererkennung
Automatisierte Testgenerierung
Schreiben von Dokumentationen
Agentische Coding-Workflows in Android Studio

Dokumentenverarbeitung

Mit 256K Kontextfenstern und multimodaler Unterstützung:

Ganze Codebasen oder lange Dokumente in einem einzigen Prompt verarbeiten
Informationen aus Bildern von Dokumenten, Quittungen und Formularen extrahieren
Diagramme und Datenvisualisierungen analysieren
Umfangreiche Forschungspapiere oder juristische Dokumente zusammenfassen

Entwicklung von KI-gestützten Anwendungen

Für Entwickler, die Produkte mit KI-Fähigkeiten bauen, bietet Gemma 4 eine starke On-Device- oder selbstgehostete Inferenzschicht. Das Modell übernimmt die Intelligenz — Verständnis von Abfragen, Generierung von Antworten, Verarbeitung von Bildern — während Ihr App-Framework den Rest erledigt. Tools wie ZBuild können den Aufbau des App-Gerüsts (Frontend, Backend, Datenbank, Deployment) beschleunigen, sodass Sie sich auf die KI-Integrationsschicht konzentrieren können, in der die Fähigkeiten von Gemma 4 am wichtigsten sind.

Edge- und Mobile-Einsatz

Die E2B und E4B Modelle eröffnen Anwendungsfälle, die zuvor mit offenen Modellen unmöglich waren:

On-Device-Assistenten, die offline funktionieren
Datenschutzfreundliche KI-Funktionen, die niemals Daten an externe Server senden
Echtzeit-Video- und Audioverarbeitung auf mobilen Geräten
Eingebettete KI in IoT- und Robotik-Anwendungen

Erste Schritte

Ollama (Schnellster Weg)

# Ollama installieren
curl -fsSL https://ollama.com/install.sh | sh

# Gemma 4 laden und ausführen
ollama run gemma4:e2b      # Kleinste Version, läuft überall
ollama run gemma4:e4b      # Klein, breitere Fähigkeiten
ollama run gemma4:26b-moe  # MoE, beste Effizienz
ollama run gemma4:31b      # Dense, höchste Qualität

Hugging Face

Alle Gemma 4 Modelle sind auf Hugging Face mit vollständiger Transformers-Integration verfügbar:

from transformers import AutoModelForCausalLM, AutoTokenizer

model = AutoModelForCausalLM.from_pretrained("google/gemma-4-31b")
tokenizer = AutoTokenizer.from_pretrained("google/gemma-4-31b")

Google AI Studio

Google bietet kostenlosen API-Zugriff auf Gemma 4 über AI Studio für Experimente und Prototyping an, wobei Vertex AI für den Produktionseinsatz zur Verfügung steht.

Gemma 4 im Wettbewerbsumfeld

Um zu verstehen, wo Gemma 4 im breiteren Ökosystem steht:

Modell	Parameter	Lizenz	MMLU Pro	Arena AI	Kontext
Gemma 4 31B	31B	Apache 2.0	85.2%	1452	256K
Gemma 4 26B MoE	26B (3.8B aktiv)	Apache 2.0	—	1441	256K
Llama 4 Maverick	400B (~17B aktiv)	Meta Lizenz	79.6%	1417	1M
Llama 4 Scout	109B (~17B aktiv)	Meta Lizenz	—	~1400	10M
Qwen 3.5 72B	72B	Apache 2.0	81.4%	1438	128K
Qwen 3.5 MoE	397B (~22B aktiv)	Apache 2.0	83.1%	1449	128K

Gemma 4 31B erreicht den höchsten MMLU Pro Score und das beste Arena AI Ranking unter den offenen Modellen — mit den wenigsten Gesamtparametern. Diese Parameter-Effizienz ist ein direktes Ergebnis der Gemini 3 Technologiegrundlage und des konfigurierbaren Thinking-Modus.

Die Effizienz-Story des 26B MoE Modells ist noch beeindruckender. Es belegt den 6. Platz auf Arena AI, während es nur 3.8B Parameter pro Token aktiviert. Kein anderes Modell erreicht ein vergleichbares Verhältnis von Qualität zu Rechenaufwand. Für Produktionseinsätze, bei denen die Inferenzkosten mit der Nutzung skalieren, übersetzt sich diese Effizienz direkt in Kosteneinsparungen.

Im Vergleich zu proprietären Modellen sind die Benchmarks von Gemma 4 31B wettbewerbsfähig mit Mid-Tier-Angeboten von Anthropic und OpenAI. Während die Top-Proprietär-Modelle bei den schwierigsten Aufgaben immer noch führen, hat sich die Lücke dramatisch verringert — und Gemma 4 kommt mit null Kosten pro Token und der vollen Apache 2.0 Freiheit.

Fazit

Gemma 4 setzt im Jahr 2026 einen neuen Standard für Open-Weight-Modelle. Die Kombination aus Apache 2.0 Lizenzierung, vier gut differenzierten Modellgrößen, nativer multimodaler Unterstützung, konfigurierbarem Thinking-Modus und Benchmark-Werten, die mit viel größeren Modellen konkurrieren, macht es zur praktischsten offenen Modellfamilie auf dem Markt.

Das 31B Dense Modell ist die richtige Wahl, wenn maximale Qualität benötigt wird. Das 26B MoE ist die richtige Wahl, wenn starke Qualität bei minimalen Rechenkosten gefragt ist. E2B und E4B sind die richtige Wahl für Edge-Deployment und On-Device-KI. Zum ersten Mal in der Gemma Familie schränkt die Lizenz keinen dieser Anwendungsfälle ein.

Google Gemma 4: Vollständiger Leitfaden zu Spezifikationen, Benchmarks und was es Neues gibt (2026)